V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
liufish
V2EX  ›  程序员

某些网站把个人博客的文章爬去了,不带原文链接,如何应对?

  •  
  •   liufish ·
    rustfisher · 2019-11-01 20:55:06 +08:00 · 6838 次点击
    这是一个创建于 1885 天前的主题,其中的信息可能已经有所发展或是发生改变。

    话说,某些网站把个人博客的文章爬去了,放在他们自己网站上,还不带原文链接,这个怎么应对呢?

    42 条回复    2019-11-04 10:56:25 +08:00
    murmur
        1
    murmur  
       2019-11-01 21:03:25 +08:00
    只能不写,没办法,君不见啊*云 等大网站都大量爬取外国网站翻译后当 seo 用 整个行业都这样 你能怎么办
    aocif23
        2
    aocif23  
       2019-11-01 21:05:23 +08:00   ❤️ 3
    我想到了百度知道的骚招,让部分文字变成图片。
    opengps
        3
    opengps  
       2019-11-01 21:05:52 +08:00   ❤️ 1
    我反正是为了防这个,原文的连接总是故意作为内容带在文章末尾。
    shiny
        4
    shiny  
       2019-11-01 21:06:18 +08:00   ❤️ 1
    找些版权平台,类似快版权之类
    caijunyi
        5
    caijunyi  
       2019-11-01 21:07:24 +08:00
    维权骑士
    secondwtq
        6
    secondwtq  
       2019-11-01 21:45:14 +08:00   ❤️ 2
    在原文内容中插入一些比较和谐的片段,谁爬谁倒霉

    ... 反正思路大体如此
    一个旧闻:歌词协作共享平台 Genius 怀疑搜索引擎 Google 一直在剽窃他们网站上的歌词,于是他们选了一些歌词,以摩尔斯码的规律替换其中的单引号字符为直引号和弯引号,并监测 Google 的搜索结果,发现这些引号的变化同样出现在 Google 的结果中,于是就发出了 complaint,第二天发现 Google 上面那些零宽字符消失了 :)

    当然个人就算能掌握证据也不能怎么样,所以就只能借助那只无形的大手的力量
    1239305697
        7
    1239305697  
       2019-11-01 22:02:45 +08:00   ❤️ 1
    还好我都加了原文地址的
    xkzhangsan
        8
    xkzhangsan  
       2019-11-01 22:05:00 +08:00
    现在爬虫是违法的,可以告他们
    Jirajine
        9
    Jirajine  
       2019-11-01 22:07:17 +08:00 via Android   ❤️ 1
    放敏感内容,等他爬完删掉然后举报。
    linvaux
        10
    linvaux  
       2019-11-01 22:23:22 +08:00
    开玩笑,看看 csdn,毒瘤啊
    opengps
        11
    opengps  
       2019-11-01 22:40:17 +08:00
    歪个楼,楼主的头像能不能设计的认真点!
    mamahaha
        12
    mamahaha  
       2019-11-01 23:04:09 +08:00
    摇人,打他
    slanternsw
        13
    slanternsw  
       2019-11-01 23:07:02 +08:00   ❤️ 1
    推特上流行喝茶内容反盗图,不过要小心自己吃到赵弹打击
    Monkey2020
        14
    Monkey2020  
       2019-11-01 23:11:12 +08:00   ❤️ 1
    自己在文章中留下自己的原文地址; 最好写系列文章;然后文章里面外链引用一下自己之前发的文章;这样被爬取了,也能看到你的原文的
    jimmy3780
        15
    jimmy3780  
       2019-11-02 02:28:35 +08:00 via iPhone
    不知道国外的主机能不能发出 DMCA 的侵权通知,如果接受的话对方就会被拔网线了

    是国外,一般是美国的主机商

    国内不清楚
    BrightSphere
        16
    BrightSphere  
       2019-11-02 02:56:22 +08:00 via Android
    更改一套字体映射
    liufish
        17
    liufish  
    OP
       2019-11-02 07:57:27 +08:00
    多谢各位回复。我回头在文章里做做内容好了。
    Varobjs
        18
    Varobjs  
       2019-11-02 08:07:28 +08:00 via Android
    隔几段就把后一段变成图,记不影响体验,被抓了换图
    liufish
        19
    liufish  
    OP
       2019-11-02 08:58:30 +08:00
    @opengps 爬文章的人特意把链接删掉了。
    我的头像是很认真设计了的。
    ThomasZ
        20
    ThomasZ  
       2019-11-02 09:04:55 +08:00   ❤️ 1
    恩不写原文链接的是挺没道德的,盗用他人文章样然后说自己原创的不仅没有道德还没有素养
    要不楼主试试直接全文图片带特大号水印的方式, 代码什么的给上 gits 或者 github 的链接这样
    liufish
        21
    liufish  
    OP
       2019-11-02 09:17:46 +08:00
    @1239305697 他们非常贴心的把原文地址删了。
    dandycheung
        22
    dandycheung  
       2019-11-02 09:20:47 +08:00 via iPhone
    曾被推酷这么干过,给他们发邮件就搞定了。觉得还是尽量先直接联系他们吧。
    skiy
        23
    skiy  
       2019-11-02 09:23:50 +08:00
    现在很多人不爱写博客了,因为流量都没到这边来。百度权重永远是给 CSDN 之流的,估计是交了保护费吧
    mydearbaby
        24
    mydearbaby  
       2019-11-02 09:38:32 +08:00 via Android
    这个还是要从根本上解决,早两年也做过一些抓取,楼上说的什么插图片不解决问题,对方可以把图片本地化。这个要先确认下对方是用的什么方法抓去的,html 标签提取,还是 xpath,有没有用代理。如果对方用的标签提取,你不考虑 seo 的话,文章内容写一个打乱排序的方法或者加密方法,结合 js,重置排序或者解密,不影响用户阅读体验,但是他抓去之后就乱了。如果是 xpath 提取,大概率是能直接提取你给用户最终呈现的效果,乱序和加密解密没意义。那没办法,只能封 ip,做策略,限制访问。
    reus
        25
    reus  
       2019-11-02 10:43:19 +08:00 via Android
    起诉
    reus
        26
    reus  
       2019-11-02 10:44:20 +08:00 via Android
    @xkzhangsan 爬虫不违法,爬个人信息才违法。爬虫违法的话,百度就不用干了
    MikeLei
        27
    MikeLei  
       2019-11-02 10:48:53 +08:00
    阿里云爬的文章,真的是垃圾中的战斗机,有时候里面就是零零散散完全没有意义的几个字,有时候里面压根就没有任何内容,只有标题是搜索的目标词,都是目录导流到其它页面的词条,真的是垃圾。
    isukkaw
        28
    isukkaw  
       2019-11-02 12:15:38 +08:00
    把你自己网站的权重做到足够高,这样不论他们怎么爬取,都没有办法和你竞争 SEO。
    luckylo
        29
    luckylo  
       2019-11-02 12:25:04 +08:00 via Android
    转图片?上水印?
    greatbody
        30
    greatbody  
       2019-11-02 12:29:41 +08:00
    爬虫是违法的。除非你的网站里面没有写 rebot.txt
    LZSZ
        31
    LZSZ  
       2019-11-02 12:32:43 +08:00
    放些广告试试?
    tabris17
        32
    tabris17  
       2019-11-02 12:39:00 +08:00
    把原文链接以 0px 的大小嵌入正文
    superrichman
        33
    superrichman  
       2019-11-02 13:30:20 +08:00 via iPhone
    @Jirajine 这操作太骚了
    FantasyPupil
        34
    FantasyPupil  
       2019-11-02 14:10:45 +08:00
    @reus 爬虫需要遵守 robots.txt 规则,只要遵守了就不违法。 主流的搜索引擎都遵守的。
    Epsil0n9
        35
    Epsil0n9  
       2019-11-02 14:21:46 +08:00
    @shiny

    "看了一下这位蒋律师的历史回答,就是快板的人。这是帮律师开的公司,收购作者报刊上的旧文章版权,然后散播到网上。因为作者知名度一般,原文章首发于地方报纸,刊登内容为生活常识小科普。导致网上大多数公众号运营无法判断来源,同时也觉得这种日常生活文章没有过多原创性。转载后,该公司会恶意发函,对公众号索要高达 3000 的侵权费,同时该公司位于杭州垄断了 80%的杭院互联网起诉案,全靠这种无赖起诉法,被告多为内蒙北京等远地,又会驳回异审申诉,导致被告打官司成本过高,只能吃哑巴亏。收益全部被该公司获得,作者只有当初卖的稿费。说白了就是买旧文章处找中小企业碰瓷的公司,钻了法律的漏洞,屡试不爽,用同一篇文章已经起诉了上百家企业,一个打着“保护原创”的流氓公司。"

    作者:匿名用户
    链接: https://www.zhihu.com/question/59277574/answer/227023845
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
    Cielsky
        36
    Cielsky  
       2019-11-02 16:23:15 +08:00 via Android
    @aocif23 百度知道的答案就是百度百科啊,维基百科等地方复制过来的
    shiny
        37
    shiny  
       2019-11-02 17:53:27 +08:00
    @Epsil0n9 之前差评洗稿,霍炬维权就是找的快版权。
    encro
        38
    encro  
       2019-11-02 18:17:36 +08:00
    如果被百度收录了,去百度举报。
    yingfengi
        39
    yingfengi  
       2019-11-02 18:38:51 +08:00 via Android
    我的小破站也被爬了,我去留言要脸吗,作者回复不要。。。。。
    xdaoo
        40
    xdaoo  
       2019-11-04 00:23:49 +08:00 via iPhone
    文章用 canvas 画出来
    liufish
        41
    liufish  
    OP
       2019-11-04 08:44:20 +08:00
    一个比一个硬核了。我这只是个 hexo 做的静态博客而已 [捂脸
    janyin
        42
    janyin  
       2019-11-04 10:56:25 +08:00
    阿里云 seo 很厉害呀
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2254 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 16:04 · PVG 00:04 · LAX 08:04 · JFK 11:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.