V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
golmic
V2EX  ›  程序员

免费帮大家开发爬虫或者做数据分析,简单的数据挖掘

  •  
  •   golmic · 2017-11-09 15:59:03 +08:00 · 6492 次点击
    这是一个创建于 2598 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看到 https://www.v2ex.com/t/404899 这个帖子作者在家无事,想想自己平时晚上和周末也很闲,自己擅长数据方面的工作,有需要的朋友我可以帮忙开发,当然是免费的!

    顺便推荐一下做的网站,http://pyanalysis.org/ 大家都是些喜欢数据开发的朋友,现在有 200+注册用户,100+活跃用户。喜欢的朋友可以加我微信拉你进群,大家一起交流。

    放邀请码数枚

    7fa9def7-ff8f-4906-bafd-06fce099911f

    8bbec81c-af1c-4d54-b1fb-0620820e10d9

    5cf18335-653c-4bea-b52a-c4c7f85cb5cf

    c7f8608c-811d-4467-83f5-2d7329d40ab6

    ac5fbf4e-fc9c-4a3c-80ba-1235b3e50b04

    b4da4773-de16-48e1-8f08-e4100a5b1713

    ec20ed7d-735d-4336-a44d-6bc3adfe67df

    b1241d69-68e9-4259-8a1f-61e6b51cb83f

    a1e10035-b698-4e61-8b4b-11f26b6c5500

    没抢到邀请码的小伙伴可以加我微信我给你。微信号在网站上有哦。

    第 1 条附言  ·  2017-11-09 16:34:21 +08:00
    大家当然可以去网站看教程,也可以提需求我来实现啊。~~实现后代码开源,大家一起学习。
    第 2 条附言  ·  2017-11-10 15:30:17 +08:00
    第 3 条附言  ·  2017-11-10 15:31:28 +08:00
    上图是 11 月 10 号下午 3 点半新放出的邀请码,可以加我微信获取或者让我拉你到群里一起交流,网站上的教程只是一小部分,本周末会有直播讲解网络请求分析。
    67 条回复    2017-12-12 18:17:48 +08:00
    golmic
        1
    golmic  
    OP
       2017-11-09 16:16:29 +08:00
    大家用了邀请码说一声方便后来的小伙伴~
    haoji
        2
    haoji  
       2017-11-09 16:24:01 +08:00
    准备用邀请码注册,发现原来自己有账号……
    jiezhi
        3
    jiezhi  
       2017-11-09 16:24:04 +08:00
    c7f8608c-811d-4467-83f5-2d7329d40ab6 用了 好像下面的都被用了吧。。
    Light3
        4
    Light3  
       2017-11-09 16:25:29 +08:00
    根据我的实验..没有一个没被用过的 /
    aksoft
        5
    aksoft  
       2017-11-09 16:26:05 +08:00
    邀请码怎么用。。
    golmic
        6
    golmic  
    OP
       2017-11-09 16:29:17 +08:00   ❤️ 1
    06f924cb-c9f7-4608-b5b8-98a0ed5e80f2

    dc20ea3b-2e38-4a83-b960-6d1450aca94a

    57e567ec-affa-438d-9734-9a2d57abc4ec

    9e675b41-8a02-43b9-a107-e145204f6817

    eb86eb4a-4e32-41e4-970c-e6527b2a51c1

    6e9458fe-7062-4495-9fa7-2be9a212a62a

    b6764b57-a4b1-489a-8229-c7cae95e8532

    419607ed-0fda-4482-ab8b-c5e5b1283738

    7cdb5cd0-8bfe-4ab0-b70e-d11902f0ebfb

    90a3ffd9-9265-4aca-b3d3-e902b75a6843

    9057d4b5-63da-4a63-bf33-f6acd0033ac6


    @aksoft #5
    @Light3 #4
    bianchensz
        7
    bianchensz  
       2017-11-09 16:31:11 +08:00
    90a3ffd9-9265-4aca-b3d3-e902b75a6843 已用
    server
        8
    server  
       2017-11-09 16:31:15 +08:00
    7cdb5cd0-8bfe-4ab0-b70e-d11902f0ebfb 已用,感谢楼主
    zchlwj
        9
    zchlwj  
       2017-11-09 16:33:16 +08:00
    @golmic 419607ed-0fda-4482-ab8b-c5e5b1283738 已用
    ssrtree
        10
    ssrtree  
       2017-11-09 16:35:25 +08:00 via Android
    感谢楼主
    Nobitasean
        11
    Nobitasean  
       2017-11-09 16:39:55 +08:00 via iPhone
    有没有微信文章爬虫
    hnbcinfo
        12
    hnbcinfo  
       2017-11-09 16:40:02 +08:00
    5cf18335-653c-4bea-b52a-c4c7f85cb5cf 已用
    xmbaozi
        13
    xmbaozi  
       2017-11-09 16:41:41 +08:00
    9e675b41-8a02-43b9-a107-e145204f6817 用了
    synergies
        14
    synergies  
       2017-11-09 16:42:50 +08:00
    1fbc3fdf-f277-446b-a645-17c285cf6a38 已用
    tjxjj
        15
    tjxjj  
       2017-11-09 16:46:36 +08:00
    06f924cb-c9f7-4608-b5b8-98a0ed5e80f2 用了
    goodboy
        16
    goodboy  
       2017-11-09 16:52:48 +08:00
    邀请码不能用了吧,都显示邀请码错误
    ba476
        17
    ba476  
       2017-11-09 16:56:25 +08:00
    邀请码错误,没有了
    kchum
        18
    kchum  
       2017-11-09 16:57:29 +08:00
    都已经用完了
    redbsd
        19
    redbsd  
       2017-11-09 17:01:10 +08:00
    什么开发的
    golmic
        20
    golmic  
    OP
       2017-11-09 17:43:57 +08:00
    @Nobitasean #11 可以做。

    @goodboy #16
    @ba476 #17
    @kchum #18 加我私聊给你吧


    @redbsd #19 我是用 Python 写爬虫,网站的话是用 Node 写的,详细的架构加我聊吧
    schoolers
        21
    schoolers  
       2017-11-09 17:51:43 +08:00
    我需要爬取去哪儿的数据,可以么?
    golmic
        22
    golmic  
    OP
       2017-11-09 17:55:48 +08:00
    @schoolers #21 加微信把详细需求给我吧,我爬过携程蚂蜂窝穷游
    forgot
        23
    forgot  
       2017-11-09 19:55:52 +08:00
    可以每天自动运行一次爬虫下载数据吗
    golmic
        24
    golmic  
    OP
       2017-11-09 21:55:42 +08:00 via Android
    @forgot 可以
    hugee
        25
    hugee  
       2017-11-09 22:40:20 +08:00 via Android
    半年都打不开。。。
    golmic
        26
    golmic  
    OP
       2017-11-09 22:52:42 +08:00 via Android
    @hugee 今天的访问量有点大,服务器撑不住了。。
    luzihang
        27
    luzihang  
       2017-11-09 23:58:02 +08:00
    网站首页就是登陆注册,没啥内容,我为什么要注册?😁
    golmic
        28
    golmic  
    OP
       2017-11-10 07:04:39 +08:00 via Android
    @luzihang 有几篇教程,后续后完善
    anson2416
        29
    anson2416  
       2017-11-10 08:25:13 +08:00 via iPhone
    我有一些数据,日期,文件名,文件创建人,创建时间,文件发现。

    每个星期都有新的报告生成。请问怎样用大数据分析这些数据。例如,谁创建的东西最多,最大等
    zjlin1984
        30
    zjlin1984  
       2017-11-10 08:45:57 +08:00
    就看到免费就进来了。谢谢楼主。
    golmic
        31
    golmic  
    OP
       2017-11-10 08:47:18 +08:00 via Android
    @anson2416 最多这个需求很简单,最大的话,有文件大小的属性提供吗?如果没有的话还需要读取文件大小,应该都是可以处理的。你可以加我微信聊聊
    anson2416
        32
    anson2416  
       2017-11-10 09:02:35 +08:00 via iPhone
    @golmic 请问微信号是多少?
    数据都汇总出来了 现在需要筛选处理分析
    jjianwen68
        33
    jjianwen68  
       2017-11-10 09:41:09 +08:00
    爬一下历任 tg 中高层的个人信息及相互关系,做成图数据库吧
    shendaowu
        34
    shendaowu  
       2017-11-10 09:41:52 +08:00
    知乎和 Quora 话题。最好能包含话题的介绍,还有话题链接。
    yinxingren
        35
    yinxingren  
       2017-11-10 10:48:15 +08:00
    没有邀请码可以用了
    golmic
        36
    golmic  
    OP
       2017-11-10 11:01:19 +08:00
    @yinxingren #35 加我好友给你发
    golmic
        37
    golmic  
    OP
       2017-11-10 11:01:36 +08:00
    @anson2416 #32 微信号网站上有
    golmic
        38
    golmic  
    OP
       2017-11-10 11:02:04 +08:00
    @shendaowu #34 加我微信吧,可以做
    ziokai
        39
    ziokai  
       2017-11-10 11:49:03 +08:00
    爬取某条微博下某位用户的评论,这个难不难
    fishcat
        40
    fishcat  
       2017-11-10 12:19:21 +08:00
    @ziokai 为啥我也突然有类似的需求
    golmic
        41
    golmic  
    OP
       2017-11-10 13:10:51 +08:00
    @ziokai #39 这个不难,我做过爬某个用户的最新微博的爬虫,其实差不多。
    sacuba
        42
    sacuba  
       2017-11-10 15:54:10 +08:00
    求教那种动态跳转的页面如何爬取? 某个页面请求后先返回 202,然后再页内跳转一次才能显示正确内容,url 不变。 第一次返回的页面大部分为混淆加密后的数据。 之前一直用 scrapy 爬取,后来就不行了
    golmic
        43
    golmic  
    OP
       2017-11-10 15:56:15 +08:00
    scrapy 默认会自动跟进 302 的,你说的先混淆数据的这种一般不是 302,可能是 js 跳转,你可以发给我网址,不一样的地方不一样分析,我周末可以讲讲。
    golmic
        44
    golmic  
    OP
       2017-11-10 15:56:30 +08:00
    @sacuba #42 看上一层楼,忘记点回复了。
    sacuba
        45
    sacuba  
       2017-11-10 16:04:44 +08:00
    @golmic #44 确切说是 202 网址发你吧,能提供个思路就很感激了,很久之前的项目了,aHR0cDovL3d3dy5tc2EuZ292LmNuL3BhZ2Uvb3BlbkluZm8vYXJ0aWNsZUxpc3QuZG8/cGFnZVNpemU9MjAmcGFnZU5vPTEmY2hhbm5lbElkPTk0REYxNENFLTExMTAtNDE1RC1BNDRFLTY3NTkzRTc2NjE5Rg==
    alen
        47
    alen  
       2017-11-10 16:20:25 +08:00
    这页面写的一点也不走心......
    golmic
        48
    golmic  
    OP
       2017-11-10 17:15:23 +08:00
    @sacuba #45 我这边打开一直 403...
    YICHUJIFA
        49
    YICHUJIFA  
       2017-11-10 18:24:11 +08:00
    想问下,可以爬 各个信用卡的活动吗 ?
    golmic
        50
    golmic  
    OP
       2017-11-10 18:44:06 +08:00 via Android
    @YICHUJIFA 爬虫这东西呢,你首先人能获取到,人也看不到的数据那爬虫也没办法,要不然就是黑客了。所以如果你人能获取到的话那爬还是没问题的
    IamRobot
        51
    IamRobot  
       2017-11-10 18:55:39 +08:00 via Android
    比较好奇爬虫技术

    求问有没有技术 QQ 群或者微信群呢?
    golmic
        52
    golmic  
    OP
       2017-11-10 19:26:13 +08:00 via Android
    @IamRobot 有微信群,要加我微信才能拉你进去,扫码人满了
    hallomou
        53
    hallomou  
       2017-11-10 21:02:35 +08:00
    想请问一下楼主看看能否爬取 Phyllis2 ( https://www.ecn.nl/phyllis2/Browse/Standard/ECN-Phyllis#)的数据呢?
    这个数据库包含了各种燃料的属性数据,我想用这个数据来分析燃料的热值,谢谢。
    golmic
        54
    golmic  
    OP
       2017-11-10 21:03:38 +08:00 via Android
    @hallomou 你加我微信详细说一下需求好吧?我看了下应该不难
    tuzhis
        55
    tuzhis  
       2017-11-11 07:39:55 +08:00 via iPhone
    // TODO 爬取京东评论和图片再带点分析?
    一直没时间实现😂
    golmic
        56
    golmic  
    OP
       2017-11-11 12:29:10 +08:00 via Android
    @tuzhis 可以做,我最近就想做电商的抓取
    inmyfree
        57
    inmyfree  
       2017-11-11 12:58:56 +08:00
    问下楼主 1024 的数据怎么爬。。。。[:dogge]
    shendaowu
        58
    shendaowu  
       2017-11-11 20:09:04 +08:00
    爬取知乎的收藏夹是否很难?我好像没见过知乎有收藏夹列表之类的东西,都是回答和收藏夹旁边推荐一些收藏夹。不加微信不给爬吗?加 QQ 行不行?还有能不能将结果可视化一下?或者尽量保持话题之间的结构,重复的表示一下。还有 wiki 的分类能不能可视化一下?我刚才好像找到能直接下载分类信息的地方了。这个: https://dumps.wikimedia.org/enwiki/20171020/enwiki-20171020-category.sql.gz
    mingyun
        59
    mingyun  
       2017-11-11 23:47:03 +08:00
    @golmic 网站打不开呢 js 都加载不了,北京联通
    smileghost
        60
    smileghost  
       2017-11-12 01:32:02 +08:00
    楼主加油,今晚的分享超极棒!
    djyzzc
        61
    djyzzc  
       2017-11-12 01:34:28 +08:00
    深夜听完讲座,来顶一发。
    cherrypi
        62
    cherrypi  
       2017-11-12 01:44:53 +08:00 via iPhone
    非常感谢分享,加油!
    moon9420
        63
    moon9420  
       2017-12-07 16:20:08 +08:00
    请问下爬取 Quora 和知乎区别大么?之前爬知乎的数据,按话题的精华回答爬取,在 Quora 里没看到类似的结构,请问该怎么做呢?或者有可以参考的爬虫么?
    golmic
        64
    golmic  
    OP
       2017-12-07 16:50:10 +08:00 via Android
    @moon9420 你是想抓取全站数据么?可以尝试启发式抓取。我没实践做过 Quora 的爬虫,不过启发式的思路可以试试。
    moon9420
        65
    moon9420  
       2017-12-09 19:31:06 +08:00
    @golmic 好的,感谢建议,我试试
    golmic
        66
    golmic  
    OP
       2017-12-11 20:27:13 +08:00 via Android
    @xiaoran666 看了一下你的回复看来是推广。说实话我真的不会用这种平台
    xiaoran666
        67
    xiaoran666  
       2017-12-12 18:17:48 +08:00
    仁者见仁智者见智!个人开发者自己写爬虫肯定有自己的乐趣,而用平台开发可以省去很多不必要的麻烦,让用户把精力聚焦于更重要的事情上。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1793 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 16:24 · PVG 00:24 · LAX 08:24 · JFK 11:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.