V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
qfdk
V2EX  ›  程序员

爬虫如何快速爬取某搜索 api 中所有数据?

  •  
  •   qfdk ·
    qfdk · 2019-05-22 19:07:38 +08:00 via iPhone · 3151 次点击
    这是一个创建于 2014 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有个小小的需求, 有一个搜索引擎专门搜索到公司信息的列表 比如 baidu 会出现相关 百度公司的信息. 那么问题来了 如何快速爬(复)取(制) 这里面的所有数据呢? 那搜索 api 全文匹配 。。

    思考的方法以 a-z 为关键字 模糊匹配 然后去重复入库?

    不知道老哥们有没有更风骚的方法

    15 条回复    2019-05-23 13:44:58 +08:00
    tikazyq
        1
    tikazyq  
       2019-05-22 19:28:12 +08:00
    听说过 xpath 和 css selector 么,爬虫没有这些基本干不了活,除非是用正则匹配。想了解更多爬虫么,关注一下开源爬虫平台 Crawlab 吧,github: http: // github. com/tikazyq/crawlab
    qfdk
        2
    qfdk  
    OP
       2019-05-22 19:53:30 +08:00
    @tikazyq #1 你没有明白这个问题,相当于一个搜索框要把里面存在的关键词都搞出来 关键词都是公司的名字
    tomczhen
        3
    tomczhen  
       2019-05-22 19:57:57 +08:00
    技术我不懂,但是怎么判断爬取到的数据就是所有数据呢?
    newtype0092
        4
    newtype0092  
       2019-05-22 20:00:47 +08:00
    你这相当于盲猜啊,都不知道有哪些公司怎么搜?
    可以从其他渠道获取一个公司列表,然后作为 key 用这个 api 去查。
    qfdk
        5
    qfdk  
    OP
       2019-05-22 20:03:28 +08:00
    @newtype0092 #4 对的 就是盲猜 所以想 用 a-z 的方法 因为都是 外国公司
    hakono
        6
    hakono  
       2019-05-22 20:18:04 +08:00 via iPhone
    搂住你自己都给出了解决办法了。
    qfdk
        7
    qfdk  
    OP
       2019-05-22 20:24:11 +08:00
    @hakono #6 我是想问问有没有更高端的办法
    lbfeng
        8
    lbfeng  
       2019-05-23 03:24:12 +08:00
    @tikazyq 爬 API 不是页面
    lbfeng
        9
    lbfeng  
       2019-05-23 03:27:06 +08:00
    @qfdk 这样对服务器算攻击吧。
    LukeChien
        10
    LukeChien  
       2019-05-23 03:34:32 +08:00 via Android
    ES Query 注入
    qfdk
        11
    qfdk  
    OP
       2019-05-23 04:32:41 +08:00
    @LukeChien #10 java 写的 后端是 wildfly 服务器

    @lbfeng #9 应该不算吧,但是这个爬的好奇葩 https://www.infogreffe.fr/recherche-siret-entreprise/resultats-recherche-siret-entreprise.html 这个搜索页面 拿数据好困难 找到 api 但是各种奇葩
    dengtongcai
        12
    dengtongcai  
       2019-05-23 08:48:13 +08:00 via iPhone
    f12 右键,copy selector …
    zdnyp
        13
    zdnyp  
       2019-05-23 09:47:33 +08:00
    首先你要有企业名称的数据,然后调搜索的接口,采集入库
    qfdk
        14
    qfdk  
    OP
       2019-05-23 13:44:28 +08:00 via iPhone
    @dengtongcai 我知道 但是这里不好用
    qfdk
        15
    qfdk  
    OP
       2019-05-23 13:44:58 +08:00 via iPhone
    @zdnyp 目的是盲猜 不过目的已经达到了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1044 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 19:38 · PVG 03:38 · LAX 11:38 · JFK 14:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.