V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
bestehen
V2EX  ›  Python

爬虫效率问题

  •  
  •   bestehen · 2018-06-17 18:11:49 +08:00 · 3290 次点击
    这是一个创建于 2346 天前的主题,其中的信息可能已经有所发展或是发生改变。
    行业领域
    不限
    人工智能 区块链 大数据 医疗健康 教育培训 文娱传媒 消费升级 金融 电子商务 企业服务 VR/AR 旅游户外 餐饮业 房产家居 汽车交通 体育健身 生活服务 食品饮料 物联网 硬件 游戏 生产制造 物流运输 农业 批发零售 先进制造 社交社区 工具软件 服装纺织 建筑 开采 环保 能源电力 政务及公共服务 科研及技术服务

    下面是 时间 一年的循环

    这样 365 天*35 行业。在 selenium 点击 如何提高效率? aiohttp ? 如果是多台机器是是不是 dokcer+spalsh ?
    16 条回复    2018-06-26 07:20:16 +08:00
    golmic
        1
    golmic  
       2018-06-17 19:11:10 +08:00 via Android
    如果考虑 selenium 或者 splash 的话就不要追求效率了
    bestehen
        2
    bestehen  
    OP
       2018-06-17 19:16:29 +08:00
    @golmic 现在就是点击的,因为如果每天都点击 就是 365 天 再加上 35 个行业,数字很大,那么 chrome 吃不消的
    golmic
        3
    golmic  
       2018-06-17 19:18:49 +08:00 via Android
    建议分析一下请求...直接请求的方式做
    lhx2008
        4
    lhx2008  
       2018-06-17 19:23:53 +08:00 via Android
    35 个栏目又不多,开 35 个 chrome 就 ok
    bestehen
        5
    bestehen  
    OP
       2018-06-17 19:37:03 +08:00
    @golmic 分析请求加密很麻烦的,企名片 短信登录什么的,很累
    bestehen
        6
    bestehen  
    OP
       2018-06-17 19:37:38 +08:00
    @lhx2008 你的意思是可以用 aiohttp 做了!
    lhx2008
        7
    lhx2008  
       2018-06-17 20:01:43 +08:00 via Android
    @bestehen 你对 aio 有什么执念,我说的是多线程 /进程 selenium 直接干
    bestehen
        8
    bestehen  
    OP
       2018-06-18 02:01:32 +08:00
    @lhx2008 你试过嘛
    xpresslink
        9
    xpresslink  
       2018-06-18 15:17:02 +08:00
    你都用 selenium 了就不要问效率的问题了。
    你应该会 xpath 语法吧,要效率直接上 scrapy 之类,解析每个类别的 url,直接异步发送请求,要担心的不是效率问题了,而是别把人家 web 服务器给爆了。
    JCZ2MkKb5S8ZX9pq
        10
    JCZ2MkKb5S8ZX9pq  
       2018-06-18 18:13:11 +08:00
    一直用的 requests,昨天试了下 selenium,结果被淘宝的滑块拦下了,唉。
    搭车问问,有啥老版本的 ff 可以绕过 robot 模式嘛,主力用 chrome 不想降。
    bestehen
        11
    bestehen  
    OP
       2018-06-18 19:53:52 +08:00
    @xpresslink 我是说 再 selenium 基础上提高效率啊。365*35 这个数字很庞大啊。还有就是 2 个 365*35
    bestehen
        12
    bestehen  
    OP
       2018-06-18 19:54:23 +08:00
    @JCZ2MkKb5S8ZX9pq 滑块也可以 selenium 滑动的
    bestehen
        13
    bestehen  
    OP
       2018-06-18 19:54:51 +08:00
    @lhx2008 那你的意思是标签分开点击啊
    beforeuwait
        14
    beforeuwait  
       2018-06-19 13:50:58 +08:00
    能自己撸代码模拟的,为啥非要去 selenium 呢
    bestehen
        15
    bestehen  
    OP
       2018-06-19 15:55:05 +08:00
    @beforeuwait 企名片 你去看看,纯接口难
    lt921002191
        16
    lt921002191  
       2018-06-26 07:20:16 +08:00 via Android
    能获取到请求就尽量获取请求,直接发请求效率最快
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1392 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 23:48 · PVG 07:48 · LAX 15:48 · JFK 18:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.