V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SlipStupig
V2EX  ›  程序员

sklearn 混合特征工程如何进行训练呢?

  •  
  •   SlipStupig · 2020-01-10 23:20:02 +08:00 · 1633 次点击
    这是一个创建于 1785 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想用 sklearn 做个多特征的分类器,特征分别是:

    • 用户 ID
    • 发帖正文
    • 发帖时间
    • 点赞数

    我现在做的时候使用TF-IDF,做分类,单其它特征就没有用上,有什么办法能把所有特征用上呢?

    第 1 条附言  ·  2020-01-11 15:32:00 +08:00

    这个个分类器主要是用于鉴定用户发帖中是否存在spam,我想用基于行为加上正文内容来做分类,我现在正文用的是sklearn中的tfidfvectorizer,fit之后会有一个矩阵,但是我如何把其它特征和fit后的结果合并到一起呢?

    5 条回复    2020-01-11 10:12:43 +08:00
    qza1212
        1
    qza1212  
       2020-01-11 02:29:56 +08:00
    直接特征拼起来 + 树形分类器 e.g. rf xgboost
    GrayXu
        2
    GrayXu  
       2020-01-11 03:25:21 +08:00
    看你的模型是什么呗,比如 ls 说的如果使用 xgb 之类的重家伙,直接 concat 就好了
    xmoiduts
        3
    xmoiduts  
       2020-01-11 07:55:11 +08:00 via Android
    树形结构例如 rf 的话,特征数量会不会有点少……最近做项目用的是 9 个特征,多个 rf 模型做 4 个输出的回归 /分类。效果(也就那样吧),很神奇的是:均方差比神经网络低一半,rf 和 xgboost 表现几乎一样。
    kuhung
        4
    kuhung  
       2020-01-11 08:29:16 +08:00 via iPhone
    直接拼接。不过事先要观察相关性,无脑上特征不一定好。
    xou130
        5
    xou130  
       2020-01-11 10:12:43 +08:00
    lightgbm, 但是这类分类器吃特征数量,做比赛一般是 40 个特征起
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   941 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 21:24 · PVG 05:24 · LAX 13:24 · JFK 16:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.