V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
a234712524
V2EX  ›  Python

简单的爬虫外包

  •  
  •   a234712524 · 2017-09-06 16:24:04 +08:00 · 5180 次点击
    这是一个创建于 2416 天前的主题,其中的信息可能已经有所发展或是发生改变。

    嗯,其实已经不能算爬虫了。因为相当于需要爬取数据的信息是手动输入的。

    是这样的,我的工作中每天需要查询一些公司的信息,主要来源是大约十个政府网站的相应数据(大概就是企业信用信息系统、裁判文书网、组织机构代码中心这些网站)。然后粘帖到公司系统里面。我知道这估计是程序员最痛恨的一种工作,重复又简单。我也一样。所以我想找人帮我用程序处理这件事。

    流程就是帮忙编写一个程序,当公司系统向它提交一个 get 请求的时候,请求里包含了公司全称或者执业许可证号,然后程序自动向那十个政府网站查询公司信息,然后将特定的字段返回给公司系统,并且保存一份到数据库。 我知道难题在于

    1.验证码。可以接入打码平台。有个别网站用滑块的需要你们帮忙想想办法:)

    2.维护。网站肯定时不时就会更新的,因此我会将维护一并外包,当然,价格分开算。

    3.单 IP 频率限制。这个不用担心,查询频率一般不够 1 分钟一次。

    交付的时候需要提供源码。之所以发在这个节点是因为我希望是 python 写的(纯粹出于个人喜好,没有别的意思) 各位觉得多少钱愿意做呢?

    20 条回复    2017-09-07 09:12:50 +08:00
    raphael008
        1
    raphael008  
       2017-09-06 16:30:54 +08:00   ❤️ 1
    良心&吉利价,8888😂
    guanren222
        2
    guanren222  
       2017-09-06 16:31:54 +08:00   ❤️ 1
    没问题,找我吧
    ahahah
    laoyur
        3
    laoyur  
       2017-09-06 16:38:08 +08:00   ❤️ 1
    有这样一份工作真好
    想到前一阵国外的那个新闻了,自己写个自动化程序代替每天的手工劳作,然后大把时间陪老婆孩子,哈哈哈
    skyleft
        4
    skyleft  
       2017-09-06 16:39:09 +08:00   ❤️ 1
    10000 不算维护 找我
    a234712524
        5
    a234712524  
    OP
       2017-09-06 16:39:53 +08:00
    @raphael008 呃……不是开玩笑的啦
    @guanren222 可以联系我么,q 号看用户名
    a234712524
        6
    a234712524  
    OP
       2017-09-06 16:46:40 +08:00
    @skyleft 请问你联系方式多少
    qq583708076
        7
    qq583708076  
       2017-09-06 17:58:27 +08:00   ❤️ 1
    qq 加了
    mahone3297
        8
    mahone3297  
       2017-09-06 18:12:10 +08:00   ❤️ 1
    滑块 大家是如何解决的?
    wolffn
        9
    wolffn  
       2017-09-06 18:17:59 +08:00   ❤️ 1
    如果 lz 能接受 nodejs 的话,可以联系我。微信同 id

    PS:前百度前端,现在在 Amazon
    regicide
        10
    regicide  
       2017-09-06 18:30:00 +08:00 via iPhone   ❤️ 1
    已发
    carlonelong
        11
    carlonelong  
       2017-09-06 18:43:39 +08:00   ❤️ 1
    难点在第一条吧
    regicide
        12
    regicide  
       2017-09-06 19:13:15 +08:00 via iPhone
    @carlonelong 程序员有一种疾病 老是喜欢肛正面 其实还是有规避方案的 我至少能说出 2 种不用验证码的
    zuolan
        13
    zuolan  
       2017-09-06 19:16:17 +08:00   ❤️ 1
    @regicide 怎么解决,说一下大概,萌新表示不懂。主要是滑块这种验证码。
    regicide
        14
    regicide  
       2017-09-06 19:25:43 +08:00
    @zuolan geetest 的破解满天飞,但是一更新你得跟着改,所以说这样一个需求如果在包了维护费的情况下突然有个版本他验证码的轨迹不好搞了 就会巨亏,入不敷出。例如全国企业公示系统里不同的地区验证码的版本也不同,例如江苏的你手划的快一点都可能被吃掉,成功率低。但向 lz 这种 1 分钟 1 次的需求,可以理解为对抓取速度没有要求,你把轨迹设置成巨慢的好了。但这些还是肛正面的,绕的话就和滑块无关了。
    a234712524
        15
    a234712524  
    OP
       2017-09-06 19:41:03 +08:00
    非常感谢大家的回复,已经有几位联系我啦。太多人我顾不过来,各位请收下我的感谢~
    ctsed
        16
    ctsed  
       2017-09-06 19:59:01 +08:00 via Android
    天眼查那种网站?
    shiny
        17
    shiny  
       2017-09-06 20:03:22 +08:00
    记得商标查询网站就是滑块验证的
    winglight2016
        18
    winglight2016  
       2017-09-06 21:29:23 +08:00
    我给 LZ 提供另外一种思路:chrome 插件,选中关键字,右键菜单批量打开查询网站的页面( URL 带关键字),滑块手动,其他自动:复制、黏贴、保存成一个文件等等
    hu0097
        19
    hu0097  
       2017-09-07 08:49:08 +08:00
    9999 可以来找我,有一套差不多的系统
    7DLNU56W
        20
    7DLNU56W  
       2017-09-07 09:12:50 +08:00
    验证码就是为了防爬虫的嘛,这要是这种爬虫多了的话会不会升级验证码呢,比 12306 那种更复杂的。。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5683 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 06:16 · PVG 14:16 · LAX 23:16 · JFK 02:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.