V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
xanthu
V2EX  ›  问与答

如果爬取的网站源有几百多个,如何用 Python 建立爬虫?

  •  
  •   xanthu · 2018-07-10 15:22:44 +08:00 · 1660 次点击
    这是一个创建于 2326 天前的主题,其中的信息可能已经有所发展或是发生改变。
    需求有几百多个站点要爬,不可能每个站点都用 Scrapy 写一个爬虫吧?

    有没有什么有效的解决方案?
    gitopen
        1
    gitopen  
       2018-07-10 17:02:43 +08:00 via Android
    scrapy 可以写多个爬虫,自定义命令后可启动多个爬虫进行爬取。。。。
    xanthu
        2
    xanthu  
    OP
       2018-07-10 17:42:18 +08:00
    @gitopen ....有 700 多个站,每个站都不同
    yrj
        3
    yrj  
       2018-07-10 18:14:45 +08:00 via iPad
    我想楼主是需要一个可以泛解析出内容页文章主体内容的库,我记得 python 有几个这样的库,但貌似准确率都不太高,我也一直在纠结这个问题。
    cyspy
        4
    cyspy  
       2018-07-10 23:15:23 +08:00 via Android
    pocket 或者 instapaper 能不能做中转?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1347 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 23:49 · PVG 07:49 · LAX 15:49 · JFK 18:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.