V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  cqcn1991  ›  全部回复第 27 页 / 共 84 页
回复总数  1680
1 ... 23  24  25  26  27  28  29  30  31  32 ... 84  
2017-06-24 10:41:44 +08:00
回复了 logbang 创建的主题 阅读 微信读书的好友排名和赠一得一功能很不错啊
@crisfun 怎么说?
2017-06-23 16:36:14 +08:00
回复了 wjyph 创建的主题 奇思妙想 有个人/团队在做共享足球没,不想带足球去场地。
@BingoXuan 求看产品
2017-06-23 14:01:16 +08:00
回复了 wjyph 创建的主题 奇思妙想 有个人/团队在做共享足球没,不想带足球去场地。
一般老板,场地都会有?
2017-06-23 11:04:00 +08:00
回复了 pagecho 创建的主题 求职 [上海] 求职 web 前端
@pagecho 你来啦!
@ryanking8215 再怎么加权影响也不大,因为一个分数表达的能力是有限的
比如说,假设一个电影评分分歧很大,50% 1 星, 50% 5 星,你加权出来无论是个什么分数,都没法体现内在的差异.
2017-06-20 22:23:45 +08:00
回复了 shispt 创建的主题 分享创造 如果书荒的话,就用这个来发现图书
很 cool, 最近也在想做类似的东西
不知道有没有 graph model,network analysis 相关的书,课程推荐?
@xmadi lz 哭晕在厕所,我都已经研究生毕业了…
@leemail 另外,Amazon/IMDB 这些也是用的平均分,想问你怎么看....
@paulagent @ilotuo

专门拿数据验证了一下,拿计算出来的平均数和官方给的分数取差,直方图分布如下

![index.png]( https://ooo.0o0.ooo/2017/06/17/5944a3f890a18.png)

简单来说,就是实际影响很小

个人估计,豆瓣 /IMDB 有两套评分系统,见 https://www.zhihu.com/question/19627832

另一套,也就是你们说的,更细致的评分,主要应用于 TOP 250. 这也就是为什么分数高的电影,并不一定会在 TOP 250 里面。

另一方面,假设不是平均分,也没关系。文章观点其实很简单 —— 当你使用一个数值来代表观众整体观点的时候,什么时候这个数值是有效的,什么时候这个数值是无效的?

对豆瓣电影来说,近似当作平均值来考虑(就上图所证明的),那么,当大家看法接近的时候,这个分数是有效的;当大家看法相差很大的时候,这个分数的代表性就不足了。这里只是用标准差作为一个量化标准而已。也完全可以采用其他更严谨的指标.

不知道这样是否还有问题?
@paulagent 这个点不错
之前没有仔细验证,我算一算回来跟你讨论一下
@zingl ....比如代写和当枪手....
一年 2K....好心酸....
@leemail 啊...确实都不知道...感觉犯了大错...非常感谢你的指出!(我是当作离散值来理解的)

不知道这方面有什么可以学习的?

https://stats.stackexchange.com/questions/67551/calculate-mean-of-ordinal-variable

我查到的貌似是有争议?
@Icemic
@Yinz

聚类怎么做的:我就是把 5 个各占的比例输进去,作为输入条件

你们可能想问的是:为什么只有这几种组合?

理论上,会有多得多的组合。比如凹形,五星和一星各占 40%? 但问题在于,这种分布的形状,在数据里并不存在,或者极少。所以并没有。完全可能的形状, 值域都是可以模拟出来的(用 dirclet 做就可以了)。

换句话说,能够得到的聚类结果,是实际数据中存在的情况。本身数据就大概只有这些类型。

不知道这个是否是你想问的

当然,也可能把 STD 作为一个额外的 feature 放进去做聚类,但是我感觉效果不是特别好。
@Icemic 按照正态特性画直线是啥意思? 怎么做?

用 Kmeans 因为是基本的聚类啊...我就传数据进去看看结果,结果感觉还不错就用了.
@leemail 可以具体说说,问题在哪里?
@Yinz 代码里面有
直接把电影的 5 个百分比输进去,然后看聚类的结果
实际就是可以分很细,也可以分很粗,取决于你想分成多少种。还可以分得更细,比如均值为 6 的,可以分成 4 星占多还是 2 星占多的,其他类似。

当然,从 Cross validation 的曲线来看, 6-7 的样子基本上就收窄了.
@lxy 但从产品的使用角度来说,太麻烦了,而且大多数时候,电影的表现是相对比较平均的
所以我觉得可以这样思考这个问题,但是产品这样设计有太多不便。毕竟我们也就是 2C,个人评价一下而已

@yiciyuansky 评分分布有,但是“评分分布”的分歧程度的“大小”,没有。所以很多人不会注意到这点。而且这个和人群一致性无关,是豆瓣电影打分的受众并不小众(摔跤吧爸爸有 30W 了)。我们并不是要追求一个“一致性”的评分,而是知道什么时候这个评分是无效的。
@Abirdcfly 对,只是很多人很少关注这个东西。提醒大家一下评分的分歧程度,有助于减少撕逼…
1 ... 23  24  25  26  27  28  29  30  31  32 ... 84  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3044 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms · UTC 12:04 · PVG 20:04 · LAX 05:04 · JFK 08:04
Developed with CodeLauncher
♥ Do have faith in what you're doing.