V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
v2zero
V2EX  ›  机器学习

通过多个标签来预测值并解释原因,可以使用什么算法来实现?

  •  
  •   v2zero · 2020-04-11 22:31:01 +08:00 · 1245 次点击
    这是一个创建于 1447 天前的主题,其中的信息可能已经有所发展或是发生改变。

    标题可能没写清楚。目的是,研究搜索引擎的排序规则。

    已知的是,网页里面出现特定区块会显著有助于排名,比如「相关文章」这般的区块。

    如果自行去判断区块的性质,还要仿照到搜索引擎具体实现的细节,可能过于困难。但如果仅提取处理网页里面的词,提取出「相关」这样的词,就容易得多,并且也能满足一部分需求。

    目前,通过这样的方式,将网页的分词结果去对照排序结果,通过一些最基础的统计手段有了一些成果。

    但肯定有些不理想之处,比如「相关」和「类似」这两个词有时作用可能是相同的,又如「当前」和「位置」两个词可能要同时出现才具有意义(面包屑导航)……依靠统计方法,也较难在样本量不到特别大的时候,去寻找到一些出现频率极少的但有效的词语。

    x: ['网站', '首页', '文章', '作者'……] (网页上出现的词)

    y: 5 (网页在搜索引擎上搜某一个词时候的排名)

    在大量样本下,可以「一定程度」去分析到底是 x 里面的某个词具体是如何影响 y 的,不知道是否有可能可行的机器学习算法?

    第 1 条附言  ·  2020-04-11 23:45:27 +08:00
    若能够「一定程度」上实现因果推断就非常完美了。
    2 条回复    2020-04-24 09:56:19 +08:00
    iasuna
        1
    iasuna  
       2020-04-12 05:29:12 +08:00 via iPhone
    Cola90
        2
    Cola90  
       2020-04-24 09:56:19 +08:00
    提升树模型
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3535 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 00:48 · PVG 08:48 · LAX 17:48 · JFK 20:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.