V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
dsg001
V2EX  ›  Python

放出去的爬虫被泛解析站群困住了,如何才能爬出去?

  •  
  •   dsg001 · 2016-09-07 19:40:47 +08:00 · 4504 次点击
    这是一个创建于 2786 天前的主题,其中的信息可能已经有所发展或是发生改变。
    第 1 条附言  ·  2016-09-08 08:51:09 +08:00
    现在用链接文本 /所有文本做简单的过滤,先不考虑误伤,爬虫逃出去再说
    14 条回复    2016-09-09 15:07:54 +08:00
    hack
        1
    hack  
       2016-09-07 19:45:00 +08:00
    我的站群一天就能让百度谷歌神马爬掉几个 G ,人也淡定了
    wjm2038
        2
    wjm2038  
       2016-09-07 19:55:35 +08:00 via Android
    @hack 来个域名看看
    hack
        3
    hack  
       2016-09-07 19:58:08 +08:00
    @wjm2038 不来,淡定啊,爬虫能识别出来站群的话,就能跳出,实际上现有搜索引擎识别站群的能力都很有限
    wjm2038
        4
    wjm2038  
       2016-09-07 20:05:49 +08:00 via Android
    @hack 楼主给的网站我看了。。爬虫是会自己停止么。。这种感觉不是自主学习的爬虫都得困里面
    hack
        5
    hack  
       2016-09-07 20:12:21 +08:00
    @wjm2038 爬虫会记录下自己的任务,下次继续爬,基本上一个月爬虫爬掉几百 G 很正常的,反正站群就是引流的,无所谓了,只要不爬死 server 就行
    zhjits
        6
    zhjits  
       2016-09-07 21:58:36 +08:00
    要么域名里面有四位以上纯数字就扔掉,要么给子域名随机动一个 bit 再抓一次,如果页面相同部分超过 90% 就判断成辣鸡站
    dsg001
        7
    dsg001  
    OP
       2016-09-08 07:08:27 +08:00
    @zhjits 相似度没用,全部都是随机调用, js 写入框架
    wyntergreg
        8
    wyntergreg  
       2016-09-08 09:10:47 +08:00
    爬过的站你不记录吗,别走回头路总是行的吧
    dsg001
        9
    dsg001  
    OP
       2016-09-08 09:43:16 +08:00
    @wyntergreg 泛解析的站群,无限二级域名,记录也没用
    bombless
        10
    bombless  
       2016-09-08 14:40:10 +08:00
    记录二级域名的访问数量,然后限制每个二级域名的访问数吧
    至于说大量使用三级、 4 级域名的站,不爬也罢, 233
    xderam
        11
    xderam  
       2016-09-08 17:14:44 +08:00
    一般的域名不太会超过百个吧,先判断下域名个数,然后再爬啊。
    dsg001
        12
    dsg001  
    OP
       2016-09-08 19:57:43 +08:00
    @xderam
    @bombless
    限制二级域名数量误伤太大, github.ioblogspot.com 等都是大量二级域名
    exch4nge
        13
    exch4nge  
       2016-09-09 08:26:02 +08:00 via iPhone
    @dsg001 可以获取下主域名的排名
    haitang
        14
    haitang  
       2016-09-09 15:07:54 +08:00   ❤️ 1
    如果是泛解析,可以在某主域二级域名过多时,尝试进行无意义的多个二级域名解析,如随机几位英文+数字组合,进行多次验证,可以解析且打开不是 404 等,基本都是垃圾站了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3733 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 04:20 · PVG 12:20 · LAX 21:20 · JFK 00:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.