V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
The Go Programming Language
http://golang.org/
Go Playground
Go Projects
Revel Web Framework
zinfinb
V2EX  ›  Go 编程语言

继续付费找爬虫牛人啊

  •  
  •   zinfinb · 2019-05-28 09:38:06 +08:00 · 4693 次点击
    这是一个创建于 1998 天前的主题,其中的信息可能已经有所发展或是发生改变。

    把需求里 最核心的两个技术性的难点问题再说明一下

    对性能(实时性)有非常高的要求, 抓取到的新闻 最多 1s 内的延迟

    再就是部分抓取网站有 websocket 的接口推送新闻的,这个需要搞定

    能够解决上面两个问题的联系我,最好是有实际相关项目经验的

    开发费用 1w,维护费用 5k/年,服务器硬件还有代理部分预算支出在 2w/年 ,

    爬取网站 10 个左右,爬取时间一天 6 小时

    联系方式 球球:196063

    airyland
        1
    airyland  
       2019-05-28 09:54:17 +08:00
    1s 延迟,先说能不能达到这个延迟,你考虑过人家网站的感受么。
    tikazyq
        2
    tikazyq  
       2019-05-28 09:56:53 +08:00
    这种实时性要求高的爬虫需要对网页进行秒级监控,这个有些难度,可以用 polling 来搞。websocket 爬虫我认识一个大牛,可以 wx 我 tikazyq1

    顺便打个广告,Crawlab 是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业

    // github.com /tikazyq/crawlab
    zinfinb
        3
    zinfinb  
    OP
       2019-05-28 09:57:30 +08:00
    @airyland 都是比较大型的网站 1s 访问个 2 到 3 次就打挂了 ?
    explorerEX
        4
    explorerEX  
       2019-05-28 10:01:05 +08:00
    应该是金融类的产品吧,响应可以在这范围内,稳定性不一定能达到
    Moker
        5
    Moker  
       2019-05-28 10:01:24 +08:00
    什么类型的网站?
    lekai63
        6
    lekai63  
       2019-05-28 10:02:27 +08:00 via iPhone
    1 天 6 小时
    估计是爬 gov 网站 基于舆情作交易吗
    Taeye9n
        7
    Taeye9n  
       2019-05-28 10:03:41 +08:00   ❤️ 1
    2w/a 买代理都不够的吧
    airyland
        8
    airyland  
       2019-05-28 10:07:41 +08:00   ❤️ 1
    @zinfinb 不会挂不意味着这样频率的请求是合理的,大部分在爬的人估计都是这么想的。你考虑的是反正人家不会挂,而站方必须增加更多额外人力资源成本来应对爬虫。
    zinfinb
        9
    zinfinb  
    OP
       2019-05-28 10:14:28 +08:00
    @airyland 多谢提醒 嗯
    dryadent
        10
    dryadent  
       2019-05-28 10:16:08 +08:00   ❤️ 1
    我觉得这个的主要难点在于 1s 之内响应,对应的就是反爬策略的更新和代理的稳定性,我觉得 2w 付代理确实有难度
    davie
        11
    davie  
       2019-05-28 10:16:19 +08:00   ❤️ 1
    这个要求有点疯狂啊
    fate
        12
    fate  
       2019-05-28 10:16:27 +08:00
    自己做新闻源?
    native
        13
    native  
       2019-05-28 10:17:11 +08:00
    爬取时间一天 6 小时 ,如何做到实时?只有 6 个小时实时。
    zinfinb
        14
    zinfinb  
    OP
       2019-05-28 10:18:05 +08:00
    @dryadent 这部分 可以 再增加支出
    dryadent
        15
    dryadent  
       2019-05-28 10:20:55 +08:00
    @zinfinb 对,我觉得代理这部分可以看着来,一般的网站即使把 ip 封了也不会一直封禁,有一个静默期,用代理池一直更新就好了,主要是测试到准确的静默期边界存在困难
    lesterchen
        16
    lesterchen  
       2019-05-28 10:22:50 +08:00
    不会被计算机犯罪么~
    jpacg
        17
    jpacg  
       2019-05-28 10:29:51 +08:00   ❤️ 1
    这个确实很危险,算计算机犯罪了,赚白菜的钱,操白粉的心。
    Constellation39
        18
    Constellation39  
       2019-05-28 10:32:31 +08:00
    监狱里面找 /狗头 /
    murmur
        19
    murmur  
       2019-05-28 10:35:56 +08:00
    1s 延迟你要把别人网站爬炸
    dongya
        20
    dongya  
       2019-05-28 10:36:36 +08:00   ❤️ 1
    洗洗睡吧
    zuoakang
        21
    zuoakang  
       2019-05-28 10:36:46 +08:00 via Android
    白菜价
    liwl
        22
    liwl  
       2019-05-28 10:41:48 +08:00
    话说,多加几台机器,轮流跑 可以么 比如 5 台 5s 一次 每台之间间隔 1s 加钱可达?
    locoz
        23
    locoz  
       2019-05-28 10:51:47 +08:00   ❤️ 1
    这需求没法做的,“最多 1s 内的延迟”这一点,技术层面都不一定所有网站可行,道德层面问题就更大了。。
    1s 内的延迟意味着你需要至少 0.5 秒刷新一次,对于一些比较菜的网站来说就是 DDOS 了,虽然可能不会当场爆炸但也会压力山大;如果人家挂了付费 CDN 的话即使全部打在缓存上、对服务器本身没有压力,也还是会有流量费的问题。
    onepunch
        24
    onepunch  
       2019-05-28 11:44:40 +08:00
    这个需求很简单,怎么实现我不管 ,dog
    zzcworld
        25
    zzcworld  
       2019-05-28 11:50:34 +08:00   ❤️ 1
    你可以跟这些网站合作拿信息,不过费用就不只两万了。
    我以前写过一个 proxy,可以把这个软件接受的所有信息转发,延迟在 0.1s 以内。
    频繁刷新不可取,websocksets 还可以
    chol
        26
    chol  
       2019-05-28 12:34:34 +08:00 via iPhone
    可以做啊,预算加个 0
    ensonmj
        27
    ensonmj  
       2019-05-28 13:13:38 +08:00   ❤️ 1
    1s 延迟,这个需求估计是拍脑袋拍出来的
    rocketman13
        28
    rocketman13  
       2019-05-28 13:15:10 +08:00
    费用感人。。
    zinfinb
        29
    zinfinb  
    OP
       2019-05-28 13:54:56 +08:00
    @zzcworld 多谢你的建议, 有一些细节我想请教一下,是否方便发我你的联系方式? 我现在考虑把重要的按你说的 proxy 的方式来做, 有 websocket 替代的尽量用这个。其他不重要的 刷取间隔时间调长一些
    lasuar
        30
    lasuar  
       2019-05-28 14:16:58 +08:00
    既然是找别人做,就不要想着投机套方案,之前 V 站也有这种人,最后在这里不敢发言了。
    luozic
        31
    luozic  
       2019-05-28 14:20:03 +08:00 via iPhone
    😄,ip 代理费
    demoxu
        33
    demoxu  
       2019-05-28 17:13:51 +08:00
    首先不说开发费用,5k/年的维护费用平均 400/月?
    lifeintools
        34
    lifeintools  
       2019-05-28 17:18:06 +08:00
    这个价格 招实习生 差不多
    Navee
        35
    Navee  
       2019-05-28 17:43:45 +08:00
    1s 延迟,单页面日最少请求=3600*24=86400,平均一个代理请求 1000 次,得至少 86 个代理轮换
    mzdblsw8
        36
    mzdblsw8  
       2019-05-29 02:43:06 +08:00 via iPhone
    有没有想过。一年维护费才 5000。

    网站改一下策略。又要改代码。一个月才 400。那个大牛这么便宜?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5851 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 02:42 · PVG 10:42 · LAX 18:42 · JFK 21:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.