V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
BeiChuanAlex
V2EX  ›  程序员

[续] 辛苦爬了 5000+个 Telegram 群/频道/机器人,异常占比却高达 41.7%?

  •  5
     
  •   BeiChuanAlex · 2023-06-27 16:38:03 +08:00 · 6007 次点击
    这是一个创建于 519 天前的主题,其中的信息可能已经有所发展或是发生改变。

    书接上文,没看过上集的同学可以看,第一集内容: https://www.v2ex.com/t/951729


    第二集:

    首先来看看一些有意思的数据:

    • v2ex
      • 在帖子发出后的 24 小时内:共有 6232 次点击,206 人收藏,22 人感谢,被 4505 位注册会员查看过。其中 收藏率 4.6%感谢占比 0.49% ,还有 126 次来自 Google 的点击。
    • GitHub
      • 在帖子发出后的 24 小时内:共收到 Star 552 个,Fork 51 个,有 7 人提交了 issue 。平均每小时 Star 23 个

    昨天发帖之后,发现样本还是太少,所以又重新收集了数据,在昨天数据的基础上,爬了一晚上,样本数来到了 5000+ (这貌似是我能找到的极限了),基于更大的样本集,也重新产出了一些值得参考的新数据:

    • 总样本数量:5205 个
      • 其中正常账号 3036 个,异常账号 2169 个(主要是已注销账号),异常账号占比:41.7%正常账号占比:58%

      • 频道数:1700 ,群组:1136 ,机器人:198 。分别占比:32.7%,21.8%,0.38%

      • 频道订阅人数排名前 10 的没有一个中文账号,前 10 的账号订阅人数均超过了 100 万,最高订阅人数 912 万

      • 群组会员人数排名前 10 的 9 个都是中文账号,最高会员人数 19 万,最低 6 万

    • 在过滤了 144 个关键字之后还剩下 2209 个账号,当然这其中依然有不少是需要筛选的(人麻了,筛了 5 个小时,实在筛不动了...),结果如下:
      • 资源分享类 352 个,占比 15.9%
      • 机场、VPS 类 103 个,占比 4.7%
      • 影视类 108 个,占比 4.9%
      • 音乐类 56 个,占比 2.5%
      • 币圈类 39 个,占比 1.8%
      • 书类 67 个,占比 3%
      • 破解类 44 个,占比 2%
      • 羊毛、优惠类 53 个,占比 2.4%

    总结:

    本次总共从 25 个 URL 地址获得了 5205 个样本集,样本集本身已经做了去重处理,实际的数量应该有 10000+,重复的账号没有分析的意义,就直接过滤掉了没有入库。入库之后的数据进行了二次过滤(主要是人工过滤),过滤了 Sex 、Gamble 、Politics 、黑灰产、已注销、私人账号等,经过两轮筛选最终只剩下了 2209 个账号,占总数的:42.4% ,已经不到一半了,这还是粗筛,如果细筛那最终样本会更少。

    从过滤之后的数据来看,貌似各个分类的占比都很少,其实不然,因为很多账号都是跨多个分类,并不是只专精一个分类。另一方面从关键字来筛选分类,并不是很准确,最准确的应该是点进每个账号里去看内容,但这样的话人工成本会很高。

    假如按照程序员这个角色的用户画像来进行推荐的话,应该和昨天的 6% 差距不大,这也基本反应了现在 Telegram 中文生态的现状。这些数据还有其他的挖掘价值,用来做数据分析还是很不错的。


    总数


    GitHub 地址: https://github.com/alexbei/telegram-groups

    网页版:https://www.tgqun.xyz

    20 条回复    2024-10-12 12:15:49 +08:00
    pengtdyd
        1
    pengtdyd  
       2023-06-27 16:54:21 +08:00
    已 star
    bjzhush
        2
    bjzhush  
       2023-06-27 16:57:46 +08:00
    thanks ,值得翻一翻
    BeiChuanAlex
        3
    BeiChuanAlex  
    OP
       2023-06-27 17:13:30 +08:00
    @bjzhush @pengtdyd 谢谢
    virlaser
        4
    virlaser  
       2023-06-27 17:23:14 +08:00
    我从自己搜集的 20 个左右 sex 相关频道开始爬取,一共爬取了 3000 多个频道,经过筛选(更新质量差、广告、媒体保护、隐藏频道名称)后更新质量可以接受的有 600 多个。
    所有频道每天差不多一共更新 40000 条媒体信息,其中大概有 20000 条消息不可用(命中广告、猎奇关键字,频道间互相转发的重复信息)。
    创建 sex 相关频道用来给广告、菠菜引流已经是完整的产业链了,看到好多频道都是用什么 [xx 转载王] 来批量上传媒体的,顺便还推广工具。这种上传的质量一般都比较差。
    还有一小部分频道主,用爱发电,更新高质量资源,发起众筹买资源,而且还开放媒体下载,简直泪目。
    到目前为止已经爬取了一千多万条消息,还没想到怎么去做数据挖掘。
    BeiChuanAlex
        5
    BeiChuanAlex  
    OP
       2023-06-27 17:28:06 +08:00   ❤️ 1
    @virlaser 做数据挖掘的前提是数据有价值,按照目前 Tg 的生态,数据没什么价值,换个方向吧。
    mywei1989
        6
    mywei1989  
       2023-06-27 18:10:36 +08:00   ❤️ 2
    @virlaser 结果发出来吧
    murongxdb
        7
    murongxdb  
       2023-06-27 18:20:36 +08:00
    @virlaser 结果发出来吧
    fengjianxinghun
        8
    fengjianxinghun  
       2023-06-27 18:23:01 +08:00
    @virlaser 老哥,就等你了
    oneisall8955
        9
    oneisall8955  
       2023-06-27 18:37:57 +08:00 via Android
    @virlaser 我的好兄弟,就等你了
    virlaser
        10
    virlaser  
       2023-06-27 19:25:19 +08:00   ❤️ 9
    spicy777
        11
    spicy777  
       2023-06-27 19:32:06 +08:00
    @virlaser 太攒劲了
    TArysiyehua
        12
    TArysiyehua  
       2023-06-27 19:46:40 +08:00
    请问 filter 过滤器在哪里设置的?如何改成只剩下 sex ?
    BeiChuanAlex
        13
    BeiChuanAlex  
    OP
       2023-06-27 19:48:56 +08:00
    @TArysiyehua 啥都不用改,代码运行就是所有数据,代码里没过滤
    xiaoxuan6
        14
    xiaoxuan6  
       2023-06-27 20:52:32 +08:00
    随机进去第一个频道第一个视频就是色情,还好不是自动播放 [狗头]
    BeiChuanAlex
        15
    BeiChuanAlex  
    OP
       2023-06-27 21:08:17 +08:00
    @xiaoxuan6 哪个?
    Promtheus
        16
    Promtheus  
       2023-06-28 08:17:58 +08:00
    tg 质量高的群组好少啊,包括色情类的。都是大量的数据堆积。需要费力的从一大堆垃圾中刨食的感觉
    NjcyNzMzNDQ3
        17
    NjcyNzMzNDQ3  
       2023-06-28 16:26:05 +08:00
    1 、都上 tg 了还自我阉割啥 ( dog
    2 、数据里选择大于 1500 人,其次含有中文简介的群组,只剩下 500 条了
    3 、数据源好多推荐引流站,还有 V2EX 的陈年老帖。。。

    扫了一圈就加了一个 vps 优惠通知群,qaq
    BeiChuanAlex
        18
    BeiChuanAlex  
    OP
       2023-06-28 22:26:11 +08:00
    @NjcyNzMzNDQ3 暂时还没有去研究其他的数据源渠道。数据要经过过滤、去重、聚合、筛选、整理后才有价值,在精不在多。
    ClA0ClA0
        19
    ClA0ClA0  
       359 天前
    @virlaser #10 佬,过期了可以重新发一下吗
    FlyingDough
        20
    FlyingDough  
       46 天前
    大佬样本集是怎么找的啊
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5481 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 08:53 · PVG 16:53 · LAX 00:53 · JFK 03:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.