现在互联网上有这么多的采集器,我们为什么要开发爬山虎呢?
原因很简单,大部分已有的软件用起来不爽,于是我们就自己开发了一个。
爬山虎采集器是一款全新的网页数据采集工具。作为一款工具软件,我们:
爬山虎采集器在保持了用户体验、用户低学习成本的同时,兼顾了软件的数据抓取效率。
爬山虎采集器能够采集互联网上的绝大部分网页,比如动态网页、静态网页、单页程序、表格数据、列表数据、文章数据、搜索引擎结果、下载图片等等。
在采集到数据后,还可以发布到 CSV、Excel、MySQL、SQLite、Access、MSSQL、以及网站 API 接口上。
当然爬山虎采集器作为一个新上场的选手,跟前辈们相比,可能会有些缺点、问题。
欢迎您下载试用,并且给我们提供宝贵的意见。(如果你懒得下载,可以看下网站首页的演示视频:)
编辑器
补充下
可自动分析网页结构,自动提取数据。还有可以自动识别分页。支持下载图片、文件。对于复杂的页面,可以深入采集多级页面,灵活配置。
目前免费版能够导出txt 1千条/每天,我觉得应该足够一般用户使用。
除此,还有一些高级功能限制,比如: 增量更新、下载文件、计划任务、自定义屏蔽请求
1
ResidualSoils 2017-12-02 17:40:18 +08:00
不开源的话不会是打算用来挣钱吧?
|
2
hundan 2017-12-02 17:46:13 +08:00 via Android
一楼这话听着怎么这么别扭
|
3
oh 2017-12-02 17:57:30 +08:00 via iPhone 9
来发个软件用来挣钱有啥问题吗……
|
4
i730 2017-12-02 19:22:20 +08:00 via Android
一楼。。。。。。
|
5
1931 2017-12-02 19:26:06 +08:00 via iPhone
P2p 种子搜索神器宇宙超级无敌加强版
|
6
est 2017-12-02 19:29:58 +08:00
bandicam 亮点。
|
7
ctsed 2017-12-02 19:31:40 +08:00 via Android
@ResidualSoils 碍着你了?
|
8
dzxx36gyy 2017-12-02 20:09:22 +08:00 1
客户端软件为啥要用导出数据条数区分不同套餐... 感觉这个一般是在线服务才这么搞吧,为啥不以导出的数据源类型以及其他售后服务来区分套餐_(:з」∠)_
|
10
f2f2f 2017-12-02 20:35:32 +08:00 2
现在一在 v2 看到爬虫我就想到了煎蛋……
|
11
gouchaoer 2017-12-02 20:56:31 +08:00 via Android
面向开发者不太讨好的说
|
12
cxd44 2017-12-02 21:33:11 +08:00 via Android
迫切想体验
|
13
cxd44 2017-12-02 21:34:32 +08:00 via Android
价格 499 元没有优惠了吗
|
14
cxd44 2017-12-02 21:35:41 +08:00 via Android
支持采集论坛帖子的附件吗?
|
15
lhx2008 2017-12-02 21:48:58 +08:00 via Android
和同类软件比,比如火车头比,没什么竞争力吧。
和自己写程序比,反爬虫,复杂的 ajax 数据,登录,验证码识别这些基本做不了 |
21
yeshang 2017-12-02 22:32:06 +08:00
用户后台登入信息一直是这个: 小 bug
登陆统计 本次登录 IP:36.*.*.2 上次登录 IP:36.*.*.2 注册时间:2017/3/22 20:04:56 上次登录时间:2017/3/22 20:04:56 |
25
yakun4566 2017-12-02 23:52:29 +08:00
yakun4566 老铁 给个权限,先谢谢咯
|
27
BlueFly 2017-12-03 14:34:22 +08:00
如果可以,也申请一个测试账号,ID 同名,谢谢
|
30
gelilaohuang 2017-12-03 16:12:30 +08:00
求个号体验 id 同名
|
33
bb2018 2017-12-03 20:48:35 +08:00
同求个号体验 id 同名 bb2018
|
34
oness OP |
36
jisibencom 2017-12-04 08:29:37 +08:00
收费为什么我不用成熟的火车头呢
|
37
oness OP @jisibencom 也有免费版,大部分的数据采集免费版就够了。
相比火车头,也容易上手一点。 |
38
mikii 2017-12-04 14:23:39 +08:00
开发给个权限体验下,账号:mikii
|
39
glchaos 2017-12-05 00:11:32 +08:00
如果可以,还请开个权限体验下,账号 glchaos,谢谢
|
40
frankyxu 2017-12-05 09:31:49 +08:00
如果可以,还请开个权限体验下,账号 franky,谢谢
|
41
zhangfeiwudi 2017-12-06 15:49:10 +08:00
可以爬指定人的淘宝订单吗
|
42
q99103248 2017-12-08 12:02:35 +08:00
不知道能不能通过 api 来动态修改爬取列表呢,在用八爪鱼,发现没有这个 api,只能手动提交链接,很是不爽
|
43
oness OP |
44
zhangfeiwudi 2017-12-09 19:59:01 +08:00
@oness 验证码也能过? 淘宝的滑动验证码
|
45
oness OP @zhangfeiwudi 目前登陆是手动登陆,所以是可以的。
但是只针对单个人的,批量账号就木办法了。 |
46
1ku 2017-12-11 15:06:29 +08:00
怎么去知乎提示浏览器版本过低,我最新版 Chrome
|
49
oness OP @1ku 额,先随便建个字段,到第三部设置,然后回到第二步清空字段,重新加载下网页。
目前浏览器设置放在第三步,可能有点不合理。 |
50
1ku 2017-12-12 09:49:33 +08:00
@oness 放在第三部超级不合理是其一;其二添加字段和修改字段名称的交互可以再吻合协调一下的,一左一右会逼死强迫症,对了,浏览器问题解决了,但是爬知乎的图片,没成功过一次,好尴尬;其三,官方的交流群没人吗?加了好几次了
|
52
hardman 2017-12-13 22:42:12 +08:00
这是用啥写的
|
54
taurenshaman 2017-12-19 14:00:38 +08:00
|
55
oness OP 测试了下,这个网站要手动选择下列表。
或者直接设置列表 XPath://*[@id="content"]/div[1]/table[2]/tbody[1]/tr//td[1]/p[1] |
56
oness OP |
57
taurenshaman 2017-12-20 10:01:26 +08:00
@oness
默认分类的第一页可以抓到了。 还有 2 个问题 -_-||| 1、它的 URL 是固定的,如果我想从左侧选择 [特殊食品] - [保健食品] ,怎么做?这种切换,URL 是固定、不变的,都是通过 POST 请求数据。载入网页后,左侧的导航无效,只能选择字段。 2、关于分页。目前,政府的网站正在大量使用 MmEwMD 特性(动态混淆 Javascript ),我试了手动设置分页然后点击 [下一页] ,运行的时候,只能抓到第一页的数据,第二页就没效果了。 |
58
dengyunxuan 2017-12-20 14:22:14 +08:00
如果可以,还请开个权限体验下,账号 yimosecai,谢谢
|
59
oness OP @taurenshaman
1. 这个需求已经搞定,采集前执行脚本命令,这几天发布 2. 看了下,这个页面第一页和第二页的列表结构不同,可设置列表 Xpath://table/tbody[1]/tr//td[1]/p[1] |
60
oness OP @dengyunxuan 免费版可以使用大部分功能的。直接下载
|
61
iambin 2017-12-22 18:28:20 +08:00
爬山虎用过,挺好上手的,先不说功能如何,不过这免费版也太水了吧 只能导出一千条 txt 这也叫免费版可以使用大部分功能 ??? 付费没问题 ,限制条数也算了 ,起码要让用户知道你这除了导出 txt 之外的其他导出是否实用吧
|
62
bravecarrot 2017-12-23 01:08:26 +08:00 via iPhone
可以把广告打得详细一点,包括功能和收费情况;
需要数据的时候自己爬确实麻烦 |
63
oness OP @iambin 免费版本每天导出 1K txt,相比同类软件导出按照积分,我觉得要实在点。
其他导出是否实用这个问题,后面考虑增加试用版。 |
64
oness OP @bravecarrot 谢谢建议。尤其是对不会程序代码的人来说,好的工具就是生产力
|
65
sxw11 2017-12-24 01:31:45 +08:00
为什么火绒和 360 都报木马呢?能不能解释一哈。。
|
68
zenze 2017-12-28 10:29:27 +08:00
反馈个问题 为何官网下载安装包 速度如此之慢,迅雷一直只有 6kb/s.....
|
69
xuebi1109 2017-12-28 11:10:59 +08:00
@zhangfeiwudi http://order.hereserver.com/ 爬订单这个可以
|
74
graetdk 2017-12-29 09:37:06 +08:00
如果是客户端的话,不能换 IP 很容易被封啊
|
77
vus520 2017-12-29 18:48:54 +08:00
我记得火车头也支持这几个功能,可视化,xpath,自动分页什么的
|
79
geekyoung 2018-01-03 10:53:35 +08:00
看起来不错 帮顶
|
80
datocp 2018-08-18 19:37:45 +08:00
支持一下,最近爬公司系统的图片转换成对应的产品图号在网上搜了一下找到爬山虎马上可以上手,不像别的什么八爪鱼说是免费还要积分,还要注册登录之类。
确实挺不错的非常容易上手,也达到了最终的目的,感谢楼主的作品,谢谢! |
81
ys746663912 2018-10-01 13:13:16 +08:00
@oness 考虑开发 mac 版吗?
|