楼主用的是 python,自己写太蛋疼了,数据量太大了,还需要购置 IP 写代理池,穷学生没有资金。想问问有没有什么简约点的方法可以爬取或者有现成的数据。
看到了 https://github.com/Binaryify/NeteaseCloudMusicApi 这个项目,想使用这个大兄弟的接口,但是怕调用量太大了,被网易端掉,不想害人...
之前没有想过做这么大的爬虫,主要目的想做成数据库,让用户可以查询自己名字有没有被告白过~~可能很无聊~~
等实现了,想用这些做很酷的事情...
1
Va1n3R OP V2 对 markdown 的支持好迷啊...
|
2
lhx2008 2017-12-29 00:05:21 +08:00 via Android
没爬过,如果封 ip 的话,去买那种可以快速失效的 ip,大概一个 1 毛这样子,不过这个数据量太大了,就算开多进程 0.1s 一个一天也爬不了多少。
|
4
yu099 2017-12-29 00:09:24 +08:00 via Android
搜索引擎索引不到吗?得自己抓?
|
6
Va1n3R OP 想到了一个方法
爬取数据,然后如果有包括人名的评论,就把这条评论的定位信息(歌曲,多少条)记录下来,数据应该会小几个几何倍 现在机器学习这么火热的情况下,不知道有没有大牛训练了识别人名的模型,集成好了库.. 爬虫我也想尝试一下写一个分布式爬虫出来,但就是怕封 IP... |
7
haozibi 2017-12-29 00:22:17 +08:00 via Android
网易云都是段子,有什么好看的
|
8
oonnnoo 2017-12-29 01:13:22 +08:00 via Android 2
上次有个兄弟爬,收到过律师函哟
|
11
AlwaysBehave 2017-12-29 02:44:41 +08:00
|
12
tadtung 2017-12-29 07:56:57 +08:00 via Android
@Va1n3R 爬虫本身不违法,但是使用爬去的数据就有法律风险了。
当年大众点评赢过评论爬取官司,baidu 也告赢过 360。 目前来说网易云的评论,著作权和使用权属于网易,如果你爬去后用作商业,网易轻松告你的。 |
14
uolcano 2017-12-29 08:16:09 +08:00 via Android
@Va1n3R 前几天逛微博时看到个人名分词库。看看这条微博? http://overseas.weico.cc/share/12850316.html
|
15
Flobit 2017-12-29 08:49:19 +08:00 via Android
我尝试过,只是爬了很少很少的一部分,至于你说的 ip 我用的是免费的那种高匿 ip。
|
17
MrXiong 2017-12-29 08:57:17 +08:00
我试过,爬了 1kw 左右,就爬不动了,ip 消耗太大,10 个线程爬的,慢点的话估计消耗慢些,但是很浪费时间
|
18
shmon 2017-12-29 08:58:49 +08:00
我有,1.6 亿条,17.5G
|
19
shmon 2017-12-29 09:09:03 +08:00
看错了。。。是另一个平台的。。。。。忽略忽略
|
20
holajamc 2017-12-29 09:48:48 +08:00 2
|
21
hluo7054 2017-12-29 09:59:30 +08:00
爬过。不过那是两年前的了,也是直接访问 API,不用全部链接都爬。可以省很多事情,还有 ip 复用也很重要,当时还是慢慢爬的基本没事,所以不想花钱那找免费的代理然后慢点来,
|
22
omghonor 2017-12-29 11:31:26 +08:00 1
我只爬了曲库,歌手库以及热评(没有爬全部的,就是上面的热门评价,包括点赞数等),还没触发网易云的底线~~
https://github.com/Charley-Hsu/spider_music |
23
F1024 2017-12-29 16:50:08 +08:00
|
24
PythoneerDev6 2017-12-29 16:56:07 +08:00
给你个传送门 :github.com/xiyouMc/ncmbot
|
26
vtwoextb 2017-12-29 17:52:25 +08:00
更换 IP 策略
|
27
vtwoextb 2017-12-29 17:54:27 +08:00
用这个就行 github.com/hizdm/dynamic_ip 采用重启或重新拨号路由器就可以
|