V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zzfwusa
V2EX  ›  程序员

请教一下,如何批量获取公开的企业信息?(企业黄页信息)

  •  
  •   zzfwusa · 2013-12-29 06:21:21 +08:00 · 4469 次点击
    这是一个创建于 3984 天前的主题,其中的信息可能已经有所发展或是发生改变。
    大家好,目前公司在做一个企业黄页系统,信息源目前是人工录入,
    请问如果从网络上快速获取公开的企业信息?
    本人目前的想法是基于nutch搭建一个小型的搜索引擎来搜索,不知道是否可行?
    请各位高手不吝赐教~~
    6 条回复    2014-01-01 22:23:38 +08:00
    zzfwusa
        1
    zzfwusa  
    OP
       2013-12-29 06:30:36 +08:00
    大家好,目前公司在做一个企业黄页系统,信息源目前是人工录入,进度较慢,
    所以想利用网络快速获取大量相关企业信息 (公开且合法的信息,如所在行业,电话,地址等等)
    请问基于何种架构及工具可以快速实现?
    本人目前的想法是基于nutch搭建一个小型的搜索引擎来搜索,不知道是否可行?
    请各位高手不吝赐教~~
    richiefans
        2
    richiefans  
       2013-12-29 06:44:38 +08:00
    应该是找到目标站点 定向抓取吧

    python有个爬虫框架 Scrapy
    dong3580
        3
    dong3580  
       2013-12-29 09:29:18 +08:00 via Android
    请求工商部门的网站抓取。不过你要是批量恶意这种行为算不算违法,小心请你喝茶。
    xxwar
        4
    xxwar  
       2013-12-29 10:50:35 +08:00
    你可以抓阿里巴巴或者慧聪网或者。。。。。。。很多很多类似的企业黄页网站

    或者花钱买数据,别人抓好现成的。

    这种黄页网站基本是滥大街了,不知道你们公司要再做一个干吗。
    yylzcom
        5
    yylzcom  
       2013-12-30 11:36:38 +08:00 via Android
    用火车采集器,很容易上手
    dbas
        6
    dbas  
       2014-01-01 22:23:38 +08:00
    我也正在收集中,我手上才200W....
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4109 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 05:20 · PVG 13:20 · LAX 21:20 · JFK 00:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.