V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
consensus
V2EX  ›  问与答

问下, Python 爬取指定网站,怎么样才算是违法的 ?

  •  
  •   consensus · 308 天前 · 811 次点击
    这是一个创建于 308 天前的主题,其中的信息可能已经有所发展或是发生改变。

    自学 python ,爬取了一下这个网站 https://www.boohee.com/food , 然后几分钟过去了,看还没结束,就点暂停了,这算不算违法了 ?有点懵 频率:在获取食物详情的时候,一秒一下请求

    LeegoYih
        1
    LeegoYih  
       308 天前
    Eiden
        2
    Eiden  
       308 天前
    这撑死几千条吧, 别人未必能发现, 但是你拿去盈利就不好说了
    mumuuu
        3
    mumuuu  
       308 天前   ❤️ 1
    https://www.boohee.com/robots.txt
    先看下这个文件
    然后不要大流量导致他网站受到影响
    不要使用他有版权的内容盈利
    最主要的,他不报警就不犯法
    rimutuyuan
        4
    rimutuyuan  
       308 天前
    灵活违法
    consensus
        5
    consensus  
    OP
       308 天前
    @LeegoYih @mumuuu
    看了下 我请求的是 /shiwu/*,路径下的,好像并不在 Disallow 的范围内
    谢谢 🙏

    @Eiden
    不会盈利的,只是弄着玩的
    isSamle
        6
    isSamle  
       308 天前
    1.搞个 IP 代理池 2.降低采集频率,那你不说谁知道,有些事情是可以做不可以说的
    consensus
        7
    consensus  
    OP
       308 天前
    @isSamle 感谢,了解了 /doge
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2733 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 05:53 · PVG 13:53 · LAX 21:53 · JFK 00:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.