首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
华为云
V2EX  ›  Python

万能的 V2er,有没有大牛爬取了过网易云的所有评论..

  •  
  •   Va1n3R · 291 天前 · 4321 次点击
    这是一个创建于 291 天前的主题,其中的信息可能已经有所发展或是发生改变。

    楼主用的是 python,自己写太蛋疼了,数据量太大了,还需要购置 IP 写代理池,穷学生没有资金。想问问有没有什么简约点的方法可以爬取或者有现成的数据。
    看到了 https://github.com/Binaryify/NeteaseCloudMusicApi 这个项目,想使用这个大兄弟的接口,但是怕调用量太大了,被网易端掉,不想害人...
    之前没有想过做这么大的爬虫,主要目的想做成数据库,让用户可以查询自己名字有没有被告白过~~可能很无聊~~

    等实现了,想用这些做很酷的事情...

    30 回复  |  直到 2017-12-29 18:55:04 +08:00
        1
    Va1n3R   291 天前
    V2 对 markdown 的支持好迷啊...
        2
    lhx2008   291 天前 via Android
    没爬过,如果封 ip 的话,去买那种可以快速失效的 ip,大概一个 1 毛这样子,不过这个数据量太大了,就算开多进程 0.1s 一个一天也爬不了多少。
        3
    Va1n3R   291 天前
    @lhx2008 是的,量实在太大了。
        4
    yu099   291 天前 via Android
    搜索引擎索引不到吗?得自己抓?
        5
    scriptB0y   291 天前
    @yu099 不太好搜,网易对搜索引擎没做很好

        6
    Va1n3R   291 天前
    想到了一个方法
    爬取数据,然后如果有包括人名的评论,就把这条评论的定位信息(歌曲,多少条)记录下来,数据应该会小几个几何倍
    现在机器学习这么火热的情况下,不知道有没有大牛训练了识别人名的模型,集成好了库..
    爬虫我也想尝试一下写一个分布式爬虫出来,但就是怕封 IP...
        7
    haozibi   291 天前 via Android
    网易云都是段子,有什么好看的
        8
    oonnnoo   291 天前 via Android   ♥ 2
    上次有个兄弟爬,收到过律师函哟
        9
    Va1n3R   291 天前
    @haozibi 查看有没有在评论中提到过你....
        10
    Va1n3R   291 天前
    @oonnnoo 爬虫并不犯法...那个新闻好久之前了吧,搞得好多人觉得爬虫是违法的...
        11
    AlwaysBehave   291 天前
    @Va1n3R 准备好 1kw 了吗
    https://music.163.com/html/web2/service.html
    不过网易应该要不起 1kw
        12
    tadtung   291 天前 via Android
    @Va1n3R 爬虫本身不违法,但是使用爬去的数据就有法律风险了。
    当年大众点评赢过评论爬取官司,baidu 也告赢过 360。

    目前来说网易云的评论,著作权和使用权属于网易,如果你爬去后用作商业,网易轻松告你的。
        13
    qu3290052   290 天前 via Android
    @tadtung 那就是数据二次利用的问题,跟爬虫无关,爬虫不背锅
        14
    uolcano   290 天前 via Android
    @Va1n3R 前几天逛微博时看到个人名分词库。看看这条微博? http://overseas.weico.cc/share/12850316.html
        15
    Flobit   290 天前 via Android
    我尝试过,只是爬了很少很少的一部分,至于你说的 ip 我用的是免费的那种高匿 ip。
        16
    tadtung   290 天前 via Android
    @qu3290052 我不是第一句就说了爬虫不违法。。。。你这没看清
        17
    MrXiong   290 天前
    我试过,爬了 1kw 左右,就爬不动了,ip 消耗太大,10 个线程爬的,慢点的话估计消耗慢些,但是很浪费时间
        18
    shmon   290 天前
    我有,1.6 亿条,17.5G
        19
    shmon   290 天前
    看错了。。。是另一个平台的。。。。。忽略忽略
        20
    holajamc   290 天前   ♥ 2
        21
    luohaihao   290 天前
    爬过。不过那是两年前的了,也是直接访问 API,不用全部链接都爬。可以省很多事情,还有 ip 复用也很重要,当时还是慢慢爬的基本没事,所以不想花钱那找免费的代理然后慢点来,
        22
    omghonor   290 天前   ♥ 1
    我只爬了曲库,歌手库以及热评(没有爬全部的,就是上面的热门评价,包括点赞数等),还没触发网易云的底线~~
    https://github.com/Charley-Hsu/spider_music
        23
    F1024   290 天前
        24
    PythoneerDev6   290 天前
    给你个传送门 :github.com/xiyouMc/ncmbot
        25
    Va1n3R   290 天前
    @F1024 爬虫我会写啊...这个简单的很。热评都没有经过加密
        26
    vtwoextb   290 天前
    更换 IP 策略
        27
    vtwoextb   290 天前
    用这个就行 github.com/hizdm/dynamic_ip 采用重启或重新拨号路由器就可以
        28
    Va1n3R   290 天前
    @vtwoextb 我校园网,正好是 DHCP,可行!
        29
    Va1n3R   290 天前
    @luohaihao 感觉就是构建代理池太麻烦了
        30
    vtwoextb   290 天前
    @Va1n3R 你看看 重启一下 宿舍的路由器 ip 变不变 要是变就行 要是不变 那就只能用代理了
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1310 人在线   最高记录 3762   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 21ms · UTC 00:00 · PVG 08:00 · LAX 17:00 · JFK 20:00
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1