首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Ewig
V2EX  ›  Python

最近想爬天眼查 网站

  •  
  •   Ewig · 2019-01-20 21:41:31 +08:00 · 12482 次点击
    这是一个创建于 373 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这个网站一个账号查询的次数是不是有限制啊? 限制多少次?

    是不是需要买 vip 账号爬?

    41 回复  |  直到 2019-01-21 20:59:20 +08:00
    d5
        1
    d5   2019-01-20 21:56:36 +08:00 via iPhone
    做爬虫出生的公司,你要爬,阻力太多了
    zwl2012
        2
    zwl2012   2019-01-20 21:57:40 +08:00 via iPhone
    接口加密了 密钥有效期 1 分钟
    faustina2018
        3
    faustina2018   2019-01-20 21:58:06 +08:00 via iPhone
    想多了。老老实实买接口吧,卖数据接口的网站会让你爬?
    tomxin7
        4
    tomxin7   2019-01-20 22:00:28 +08:00
    去年爬过,但是没有批量,cookie 过期好像时间还挺久的,可能我爬的比较少吧
    519718366
        5
    519718366   2019-01-20 22:57:12 +08:00 via iPhone
    我这是找他们商务合作的
    guog
        6
    guog   2019-01-20 23:03:52 +08:00 via Android
    他们的数据也是从郭嘉企业信息网爬的吧,不如直接从源头入手
    locoz
        7
    locoz   2019-01-20 23:15:24 +08:00 via Android
    只需要简单的信息就行可以直接爬工商局
    ShareDuck
        8
    ShareDuck   2019-01-20 23:28:04 +08:00 via Android   ♥ 1
    @guog 是直接从工商那边获取数据,不是通过爬的。
    lhx2008
        9
    lhx2008   2019-01-20 23:30:23 +08:00
    反爬虫很厉害的,无所不用其极,验证码也很难,爬几百个没问题,多了代理池都爬不下来。

    天眼查最开始应该是自己爬的,后面为了数据合法找了个背景做靠山。
    OctopusGO
        10
    OctopusGO   2019-01-21 00:15:42 +08:00 via Android
    是需要买 vip,我公司现在是用 Java 爬的
    scriptB0y
        11
    scriptB0y   2019-01-21 00:50:04 +08:00
    ... 你去爬一个爬虫网站
    xiaotuzi
        12
    xiaotuzi   2019-01-21 01:33:27 +08:00 via iPhone
    小心给你一个律师函
    izoabr
        13
    izoabr   2019-01-21 01:38:11 +08:00
    要不考虑一下行政渠道的爬虫?
    jssyxzy
        14
    jssyxzy   2019-01-21 06:13:01 +08:00
    以前爬过,应该可爬,可能需要上 phatomjs
    myhot21
        15
    myhot21   2019-01-21 08:44:41 +08:00 via Android
    自从要登录注册后,就基本不能爬了,给钱买数据吧。
    supervipcard
        16
    supervipcard   2019-01-21 08:50:40 +08:00
    如果已经有一个大的公司名列表,逐个搜索爬不难,把代理、cookie 池、验证码识别都弄上。
    fenghuang
        17
    fenghuang   2019-01-21 09:02:57 +08:00
    极验证就不好弄
    Ewig
        18
    Ewig   2019-01-21 09:20:44 +08:00
    @OctopusGO 买 vip 的原因是限制次数吗?
    Ewig
        19
    Ewig   2019-01-21 09:21:16 +08:00
    @fenghuang 极验很简单啊
    Ewig
        20
    Ewig   2019-01-21 09:21:28 +08:00
    @supervipcard 主要怕限制账号次数啊
    Ewig
        21
    Ewig   2019-01-21 09:23:43 +08:00
    @tomxin7 主要看 cookie 爬有没有账号爬取次数
    passerbytiny
        22
    passerbytiny   2019-01-21 09:27:38 +08:00
    总感觉爬数据这事,大公司做是废物利用地商业行为,个人爬就是抢数据地流氓行为:我脑袋到底哪里出问题了。
    Ewig
        23
    Ewig   2019-01-21 09:33:15 +08:00
    @supervipcard 关键很多说买 vip 爬不知道为啥
    supervipcard
        24
    supervipcard   2019-01-21 10:08:18 +08:00
    @Ewig 可能是因为单次搜索的页数限制吧
    wisej
        25
    wisej   2019-01-21 11:11:11 +08:00 via Android
    @Ewig 有的信息不是没 vip 不显示么
    guanhui07
        26
    guanhui07   2019-01-21 11:19:49 +08:00
    他爬别人,你爬他,别人爬你
    kevinle
        27
    kevinle   2019-01-21 11:21:53 +08:00 via Android
    脱裤更省事
    blueskea
        28
    blueskea   2019-01-21 12:10:11 +08:00 via Android
    爬过企查查,字体被替换过了,验证码搞不定,半自动爬的。
    dezhou9
        29
    dezhou9   2019-01-21 13:50:16 +08:00 via Android
    1.8 亿条你爬他干嘛
    Ewig
        30
    Ewig   2019-01-21 15:36:12 +08:00
    @wisej 我只爬工商数据,vip 能看到那些不显示的数据?能说一下嘛?
    Ewig
        31
    Ewig   2019-01-21 15:36:48 +08:00
    @supervipcard 比如我每次搜百度 腾讯 这种公司能搜多少次,普通的账号
    wisej
        32
    wisej   2019-01-21 16:36:17 +08:00 via Android
    @Ewig sry 天眼查 vip 与非 vip 在信息展示完整度没有差别 只是展示量级有差别

    我之前用的另一个非 vip 信息展示才是不完整的
    uuair
        33
    uuair   2019-01-21 17:03:30 +08:00
    有这功夫,你不如应聘进去,内网直接往外倒腾。
    loser
        34
    loser   2019-01-21 17:18:03 +08:00
    牛逼,支持爬他!!!
    IllllI
        35
    IllllI   2019-01-21 17:24:10 +08:00
    @blueskea 谁能搞定验证码
    love9918
        36
    love9918   2019-01-21 19:10:33 +08:00
    有想法就干
    hgjhgjgjhgjg
        37
    hgjhgjgjhgjg   2019-01-21 19:28:12 +08:00
    https://www.lagou.com/jobs/1570819.html

    反爬虫工程师

    职位描述

    参与公司网站数据反爬虫策略的制定和优化。

    负责反爬虫功能模块的代码实现及测试工作。

    监控网站异常访问并及时调整相关策略。
    andylsr
        38
    andylsr   2019-01-21 19:49:03 +08:00 via Android
    天眼查数据随便抓。。。
    zhangsen1992
        39
    zhangsen1992   2019-01-21 20:14:42 +08:00
    vip ip 白名单 随便调用接口
    shadiao
        40
    shadiao   2019-01-21 20:47:35 +08:00 via iPhone
    @uuair 优秀啊
    kzfile
        41
    kzfile   2019-01-21 20:59:20 +08:00
    爬一会整个网页开始部分字乱序,后面乱序的会越来越多
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2262 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 28ms · UTC 04:56 · PVG 12:56 · LAX 20:56 · JFK 23:56
    ♥ Do have faith in what you're doing.