例如这个 up 主 https://space.bilibili.com/5760446
我看了一下他视频里面的数据最早一直到 2010 年,不知道这些数据都是哪里来的啊?如果真是 up 主自己爬虫抓了八年,那也真是厉害啊!!!
1
liyvhg 2018-12-14 19:36:46 +08:00 via Android
战略性 mark。
可能是来自于一些统计机构的公开数据吧? |
2
xzc19970719 2018-12-14 19:39:15 +08:00
自己爬的??根据日期分嘛
|
3
Rokee 2018-12-14 21:35:39 +08:00 via iPhone
|
5
fuchar 2018-12-14 21:39:49 +08:00
mark 一下
|
6
orsweet 2018-12-14 21:43:24 +08:00 via Android
插眼
|
7
e9e499d78f 2018-12-14 21:46:31 +08:00
open data ?
|
8
gabon 2018-12-14 21:47:15 +08:00 via Android
mock ?
|
9
orangeade 2018-12-14 21:58:18 +08:00 via Android 1
公开数据集吧,谷歌今年还出了个数据集搜索引擎来着
|
10
whwq2012 2018-12-14 22:00:39 +08:00 via Android 1
我也想问,一想到数据来源可能很水立马觉得这些事情很 low。。
我猜是百度 /谷歌的搜索指数? |
11
yingfengi 2018-12-14 22:09:45 +08:00 via Android
有时候可能是编的,或者,百度一下。
大部分所谓的统计,水分很大的。 |
12
enjoyCoding 2018-12-15 01:45:19 +08:00 via iPhone
Math.radom+lastRadom
|
13
dachuige 2018-12-15 01:54:28 +08:00
这个问题困扰了好久
|
14
Torpedo 2018-12-15 02:06:27 +08:00 via Android
官方告诉的吧?
|
15
molvqingtai 2018-12-15 02:10:38 +08:00 via Android
排除法,肯定不是八年抓的
|
16
locoz 2018-12-15 05:40:19 +08:00 1
首先从八年前开始爬到现在的概率非常低,这个 up 主的账号是 2014 年注册的,八年前他可能还不知道 b 站,或者并不会觉得这个网站的数据能有什么意义。
然后根据他发的视频内容来看,av26727147 这个视频里在 2009 年的时候就出现了广告和时尚区的记录,而这两个区在我的印象中是最近一两年才出来的;还有一点就是所有视频的开头都是有一部分不为 0。 推测出可能的情况: 1、根据发布时间筛选那个时间以前的视频,并计算需要的值的总和。(但是根据我服务器上 2017 年 8 月 17 日的全站数据来看,按这种方式算出来的值与视频中的对不上) 2、数据来源于第三方监控平台。(但是起始时间太早了,那时候一是可能没有这种监控平台,二是当时 b 站只是小众圈子,就算有监控平台也不太可能收录) 3、b 站官方记录的数据,py 交易得来。(概率较低,那么早的时候 b 站会专门存这种每天的记录?) 4、爬网页时光机、快照之类的东西,得到历史网页并解析出当时的实际值。(覆盖面不广、没有完整的数据,视频里看着又挺多,也不太可能) 5、用评论来做估值,根据评论时间和数量判断当时的值是多少,并生成假数据。(有点可能性,但存在评论很少播放量 /收藏量很高的视频,这么弄的话误差可能比较大) 6、以部分时间节点为关键点,并根据现在的数据来生成假数据。 所以很可能是假数据 |
17
locoz 2018-12-15 05:47:08 +08:00
@locoz #16 补充第一点的对比,可以看到用 [2017 年 8 月 17 号的全站数据] 统计出来的 [发布时间小于等于 2009 年 10 月 1 日的视频] 的收藏数都要比视频中的高出很多。
|
18
Pythondr 2018-12-15 10:48:52 +08:00 via Android
看个趋势,看个热闹罢了
|
19
changwei OP |