V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
liuxu
V2EX  ›  Python

昨天晚上写了个 Python 程序,下载了一个福利网站 5000 来张妹子图片

  •  3
     
  •   liuxu ·
    liuquanhao · 2015-08-24 09:48:39 +08:00 · 16929 次点击
    这是一个创建于 3176 天前的主题,其中的信息可能已经有所发展或是发生改变。
    github:
    https://github.com/liuxu0315/download_nvshen_so

    执行:$ python nvshen_so.py

    用了多线程, 8 条线程,在 /tmp 下生成 nvshen_so/01 等文件夹并下载到相应的目录。
    里面有 2 行代码被注释掉了,它们是配套的,用来下载 2014/12/下的图片,有几百张。

    现在有个问题,我的程序无法一次全部下载完,总是漏一点,要么是执行一段时间后就卡死不动了不知道是什么原因。。
    当然下载图片前有判断是否有该文件,可以重复执行下载程序,不过这个治标没治本。。
    1  2  
    aalska
        101
    aalska  
       2015-08-25 20:29:33 +08:00
    @liuxu 没 难道是下载的问题? wget 下的


    下载 @Dongdong36 分享的两个也都是这样的报错
    liuxu
        102
    liuxu  
    OP
       2015-08-25 20:34:06 +08:00 via Android
    @aalska 你下载的啥,我给的连接用 git clone 下载下来
    Dongdong36
        103
    Dongdong36  
       2015-08-25 20:42:59 +08:00
    aalska
        104
    aalska  
       2015-08-25 23:31:58 +08:00
    @Dongdong36 我是下代码的 非网页

    不过搞明白了 原因是系统问题
    aalska
        105
    aalska  
       2015-08-26 19:27:33 +08:00
    @Dongdong36 我发现爬豆瓣妹子那个是没用的 豆瓣现在用的 dbmeinv 域名.....页面样式也不一样..
    jiangbingo
        106
    jiangbingo  
       2016-07-04 14:53:40 +08:00
    再挖一下。
    5ipapa
        107
    5ipapa  
       2022-12-22 15:08:56 +08:00
    cloudscraper 爬虫神器
    5ipapa
        108
    5ipapa  
       2023-02-16 16:10:07 +08:00
    5ipapa 点 com 建议收藏
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1051 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 18:11 · PVG 02:11 · LAX 11:11 · JFK 14:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.