V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
cpf
V2EX  ›  问与答

每隔 10~20 分钟爬一次网站会被封吗?做热点聚合页面用

  •  
  •   cpf · 2022-05-14 23:12:44 +08:00 · 1883 次点击
    这是一个创建于 908 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如题所述

    我想搞个热点聚合页面,每天给自己看看新闻,吃吃瓜啥的

    爬取热点信息的频率为 10~20 分钟一次,不知道会不会被封 ip

    这方面我不是很懂,没啥经验

    之前爬过豆瓣的电影排行榜,结果爬的频率过高就给我封了一晚上

    有自己的服务器,后端打算用 nodejs 写

    v 友们有啥好的建议吗?
    7 条回复    2022-05-16 14:29:03 +08:00
    ClericPy
        1
    ClericPy  
       2022-05-14 23:18:32 +08:00
    目前多数网站我这边 5 分钟一次没发现反爬

    有些网站走了机器学习等思路反反爬, 抓取频率如果太均衡或者非人类作息什么的会反爬, 但是大多数对网站不造成伤害的频率都是安全的. 以上是反爬角度, 至于法务角度就不赘述了
    Ultraman
        2
    Ultraman  
       2022-05-14 23:22:28 +08:00 via Android
    看看 rsshub 有没有相关路由先?
    cpf
        3
    cpf  
    OP
       2022-05-15 12:21:53 +08:00
    @ClericPy #1 好的,谢谢

    @Ultraman #2 大多数都是没有 rss 吧,比如知乎日报、热榜,微博热搜啥的
    Ultraman
        4
    Ultraman  
       2022-05-15 12:39:56 +08:00 via Android   ❤️ 1
    cpf
        5
    cpf  
    OP
       2022-05-15 13:09:07 +08:00
    @Ultraman #4 是我孤陋寡闻了,谢谢😅
    brave256
        6
    brave256  
       2022-05-16 09:15:24 +08:00   ❤️ 1
    可以参考下 https://tophub.today/
    cpf
        7
    cpf  
    OP
       2022-05-16 14:29:03 +08:00
    @brave256 #6 哈哈,感谢,正需要这样的网站
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3431 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 04:42 · PVG 12:42 · LAX 20:42 · JFK 23:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.