V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
supersu
V2EX  ›  Python

写了俩微小的爬虫,一个爬垠神 blog 一个爬看雪论坛(同事的需求),欢迎来玩哦~

  •  
  •   supersu ·
    supersu097 · 2016-12-02 16:47:08 +08:00 · 2589 次点击
    这是一个创建于 2708 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Gayhub repo:
    https://github.com/supersu097/mycrawler

    上面的图片来自 gayhub 不知道 v2 支不支持,图不显示的话直接上 gayhub 看哦(是个看雪的最终效果图),最后欢迎各种 pr 啊

    7 条回复    2016-12-03 12:12:22 +08:00
    supersu
        1
    supersu  
    OP
       2016-12-02 16:48:10 +08:00
    噗...图果然挂了,本来以为预览不显示,实际会 ok , but...
    supersu
        2
    supersu  
    OP
       2016-12-02 16:50:03 +08:00
    加载图片用的语法是![](url),编辑的时候选的 markdown
    haitang
        3
    haitang  
       2016-12-02 17:10:13 +08:00
    supersu
        4
    supersu  
    OP
       2016-12-02 17:15:31 +08:00 via Android
    @haitang 不知道哦, chrome 右键直接复制图片地址的
    supersu
        5
    supersu  
    OP
       2016-12-03 02:23:38 +08:00 via Android
    那啥系统提示有好几个人收藏了,泥萌也表忘记去 gayhub 上 star 哦(^_^)
    rockzhou8
        6
    rockzhou8  
       2016-12-03 10:13:32 +08:00
    厉害!已 star,请问楼主能否帮忙解答一下,用 Python 爬虫的方法能监控 discuz 论坛某个帖子回帖的数目实时刷新不?
    supersu
        7
    supersu  
    OP
       2016-12-03 12:12:22 +08:00 via Android
    @rockzhou8 哦这个呀,实时的木有试过,我理解的话,就是不去调用 time.sleep()了,回帖数目的刷新数应该是有个 html 元素在页面上的,把 get 请问放在 while 循环里面,一直去读取你想监控的帖子,然后去解析那个数字做判断应该就可以了,不过感觉这样容易被封什么的😆
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2334 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 12:47 · PVG 20:47 · LAX 05:47 · JFK 08:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.