V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
jason52
V2EX  ›  分享创造

手把手教你写爬虫第七弹--pyspider 之 AJAX 和 HTTP 简单讲解

  •  
  •   jason52 · 2015-06-17 16:48:34 +08:00 · 5123 次点击
    这是一个创建于 3450 天前的主题,其中的信息可能已经有所发展或是发生改变。
    先给链接 :

    http://haoqicat.com/jason52/shou-ba-shou-jiao-ni-xie-python-pa-chong/8

    相当于是第三弹和第四弹的pyspider改写,建议先了解一下第三弹和第四弹

    大家也可以直接跑到虫叔自己的服务器上去做demo测试 http://demo.pyspider.org/

    不过感觉人多了会被封吧,虫叔不要打我~



    ==

    之前爬虫系列 介绍 http://v2ex.com/t/177020

    视频都在 http://haoqicat.com/jason52/shou-ba-shou-jiao-ni-xie-python-pa-chong
    10 条回复    2016-06-26 22:28:36 +08:00
    shuimugan
        1
    shuimugan  
       2015-06-17 20:44:15 +08:00
    感谢楼主分享,最近也在用pyspider,有几个问题想快速了解一下,看到楼主走得比较前,不知道楼主能不能答疑...
    1.怎么样直接从命令行启动自己的脚本,不需要通过默认的web ui启动 ( 想方便调试)
    2.在web ui 保存的脚本 保存在什么路径下
    3.pyspider 有没有现成的分布式爬虫方案...

    之前也有了解过scrapy ,无奈是2.x版本的,不想去碰烦人编码...想找个方便点的轮子
    jason52
        2
    jason52  
    OP
       2015-06-17 20:55:55 +08:00 via Android   ❤️ 1
    有webdav方案,不过我还没研究过
    binux
        3
    binux  
       2015-06-17 21:31:39 +08:00   ❤️ 2
    @shuimugan
    1、你确定没有 webui,看不到抓回来的页面会方便调试?如果你非得要,有 webdav 和 one 模式
    2、保存在数据库中
    3、pyspider 本来就是分布式爬虫方案,看文档
    shuimugan
        4
    shuimugan  
       2015-06-17 22:14:40 +08:00
    @binux 竟然是作者亲自回复,有点受宠若惊的感觉
    至于调试,php用得多了,习惯打印+die的方式中断来看了,对于web ui的方式的确有点不适应
    pyspider到现在也用了2天,文档还没刷透,现在再去拜读下~
    Moker
        5
    Moker  
       2015-06-19 22:52:02 +08:00
    发现这网站视频 经常会播放不了.....
    imlonghao
        6
    imlonghao  
       2015-06-20 08:16:46 +08:00 via Android
    我觉得,如果对于一个页面有多个结果的话,我习惯用
    self.send_message()
    来分开结果
    Moker
        7
    Moker  
       2015-06-20 10:55:50 +08:00
    对了,请教个问题....如果我想没半个小时重新对现有结果重新抓取
    @every(minutes=30 * 1)
    def on_start(self):

    @config(age=30)
    def index_page(self, response):

    @config(priority=2)

    发现这样的确是半小时会重新抓取,但不会重新存储结果
    LWXYFER
        8
    LWXYFER  
       2015-06-20 14:18:08 +08:00
    吼吼
    hdbean
        9
    hdbean  
       2015-06-23 09:22:56 +08:00
    谢谢分享
    gutianyun
        10
    gutianyun  
       2016-06-26 22:28:36 +08:00
    找不到资源了,请再次分享
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5643 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 01:30 · PVG 09:30 · LAX 17:30 · JFK 20:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.