V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
pinews
V2EX  ›  Google

气人的 Google,蜘蛛乱抓页面

  •  1
     
  •   pinews · 2020-04-04 12:41:51 +08:00 · 7849 次点击
    这是一个创建于 1696 天前的主题,其中的信息可能已经有所发展或是发生改变。
    因为是个人网站,很多地方比较马虎,因为用这 chrome,google 就把我的测试页面抓取了,这些测试页面只在 chrome 上打开过,从来没在网上公开过。
    22 条回复    2020-04-07 12:53:07 +08:00
    anUglyDog
        1
    anUglyDog  
       2020-04-04 12:48:05 +08:00
    还算合理吧,毕竟是一家的.
    Tianao
        2
    Tianao  
       2020-04-04 12:49:02 +08:00   ❤️ 2
    请正确配置 robots.txt 。
    mrchi
        3
    mrchi  
       2020-04-04 12:49:53 +08:00
    测试页面公网能访问吗?你写 robots.txt 了没?
    Tianao
        4
    Tianao  
       2020-04-04 12:51:51 +08:00
    另请参考 developers.谷歌.康姆 /search/reference/robots_meta_tag 。
    mnssbe
        5
    mnssbe  
       2020-04-04 12:52:21 +08:00 via iPhone
    chrome 里有个设置会把 url 发送给 google,你可以反选
    wolfan
        6
    wolfan  
       2020-04-04 13:00:28 +08:00 via Android
    roobts 对国产作用不大,但对国外的多少比国内的强。
    dot2017
        7
    dot2017  
       2020-04-04 13:32:36 +08:00
    你这个测试页面上有外链出去到别的被索引过的页面吗,google bot 抓取展现是双向的
    deplives
        8
    deplives  
       2020-04-04 14:23:46 +08:00
    是否正确配置 robots ? 如果有,再来吐槽。如果没有,请找自己的原因
    dobelee
        9
    dobelee  
       2020-04-04 15:13:57 +08:00 via iPhone
    能公网访问就别抱怨。。
    pinews
        10
    pinews  
    OP
       2020-04-04 20:07:16 +08:00
    @mnssbe 隐私和安全性里的东西我都没有开启。
    @anUglyDog 开发人员有时会测试一些敏感信息,这也能被抓取?

    @dot2017 这。。。,好吧,有的。
    pinews
        11
    pinews  
    OP
       2020-04-04 20:08:55 +08:00
    @dot2017 但是 google 怎么可能知道,除非还是通过 chrome 记录的,我没开启啊
    iasuna
        12
    iasuna  
       2020-04-04 20:12:52 +08:00 via iPhone
    @pinews 看来是没设置 robots.txt 那既然在公网上了 也没啥不能抓取的啊
    daozhihun
        13
    daozhihun  
       2020-04-04 20:17:37 +08:00 via Android
    你没设 robots,google spider 咋知道哪些是敏感的
    alan0liang
        14
    alan0liang  
       2020-04-04 20:18:47 +08:00 via Android
    Google 把我们 gitea 一大堆 repo 的所有语言版本都索引了😂
    aureole999
        15
    aureole999  
       2020-04-04 23:07:26 +08:00
    @pinews 比如你链接的页面是属于 Google 的或者有 Google ads,analytics 之类的,那 Google 肯定能拿到 referer 啊,referer 就是你自己的页面了。
    binux
        16
    binux  
       2020-04-04 23:30:03 +08:00 via Android   ❤️ 5
    把 Google 换成 360 浏览器再来看看评论
    miaomiao888
        17
    miaomiao888  
       2020-04-05 00:10:33 +08:00
    @binux 你这种叫啥来着? 算了还是给你拉红一下
    mxalbert1996
        18
    mxalbert1996  
       2020-04-05 01:21:22 +08:00 via Android   ❤️ 1
    你有敏感信息就不要放公网上,放公网上就设个访问限制,你放公网上又不设访问限制又不写 robots 被抓了还怪人家?
    binux
        19
    binux  
       2020-04-05 02:26:38 +08:00 via Android
    ksdd521lr
        20
    ksdd521lr  
       2020-04-05 02:32:54 +08:00 via Android
    google 的骚操作哈哈
    laqow
        21
    laqow  
       2020-04-05 09:09:23 +08:00 via Android
    我理解这个事实上都不用从 chrome 抓,在注册域名的时候就抓了,甚至可能你拿 8888 做 dns 时候就抓了。
    pinews
        22
    pinews  
    OP
       2020-04-07 12:53:07 +08:00
    我把我的意思明确一下,本质上不是蜘蛛抓取未公开的页面,
    而是 google chrome 将我的访问记录下来,并公布在网络上了,恰好是我的自己的网站,所以正好发现了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5409 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 05:50 · PVG 13:50 · LAX 21:50 · JFK 00:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.