V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
wyy
V2EX  ›  Python

Python 多线程爬虫停止条件

  •  
  •   wyy · 2018-03-16 17:14:29 +08:00 · 2801 次点击
    这是一个创建于 2204 天前的主题,其中的信息可能已经有所发展或是发生改变。
    多线程爬虫,如何在特定的深度让线程停止呢?
    每个线程目前爬取页面后,还会从页面中抓取新的 url 入队
    8 条回复    2018-03-17 13:14:05 +08:00
    scriptB0y
        1
    scriptB0y  
       2018-03-16 17:24:30 +08:00
    可以每次开新的线程的时候传入一个变量并+1,记录当前的深度,达到一个阈值就不要再开新的线程。
    wyy
        2
    wyy  
    OP
       2018-03-16 17:34:13 +08:00
    @scriptB0y 如果我抓 2 层,那就是抓主页里的所有 url,然后这些 url 页面里的 url 再取出来抓下来,这个过程中 url 不断入队,我如何判断在什么地方停止呢?
    sunchen
        3
    sunchen  
       2018-03-16 17:40:27 +08:00
    downloder 接受 url 参数时顺便传入这个 url 的深度啊,downloader 吐 response 的时候把这个参数吐出来再
    wyy
        4
    wyy  
    OP
       2018-03-16 17:51:06 +08:00
    @sunchen 谢谢~刚想到了您的这种解决方案。python 里如果想效率高一些,url 去重用 url 做 md5 hash 放到 set 里; url 存储用什么方式呢?
    sunchen
        5
    sunchen  
       2018-03-16 17:55:17 +08:00
    @wyy 数量少 md5 之类的都行,数量很多可以用 bloomfilter
    wyy
        6
    wyy  
    OP
       2018-03-16 18:01:14 +08:00
    @sunchen 谢谢
    lynskylate
        7
    lynskylate  
       2018-03-16 22:56:32 +08:00
    维护一个 tasks 队列,tasks 队列存 task 类,深度,url,解析规则存在 task 里,
    再维护一个线程池,线程池只从 tasks 中取 task,执行 task。
    wyy
        8
    wyy  
    OP
       2018-03-17 13:14:05 +08:00
    @lynskylate task 是一个线程池,深度和 url 存在 task 里是什么意思
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1020 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 19:34 · PVG 03:34 · LAX 12:34 · JFK 15:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.