V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  rockivy  ›  全部回复第 11 页 / 共 14 页
回复总数  274
1 ... 3  4  5  6  7  8  9  10  11  12 ... 14  
2016-01-28 18:54:11 +08:00
回复了 rockivy 创建的主题 Python sklearn 文本分类器做预测时,如何拿到预测结果。。。
哈哈, 困扰我两天的问题“算是”解决了!

不敢说是圆满解决,因为这个解决方案稍显丑陋:

之前为了加载数据方便,在加载训练数据集时使用了 load_files 方法,
然后使用 train_test_split 方法划分训练数据和测试数据;

但是在做预测时,单独 open 了待测试的文本文件(与训练数据不同的方式!),然后做 TFIDF 和预测,
此时,得到的 pred 结果是有问题的。

经过尝试和修改,
现在的做法是:
将待测试的文本文件,放入一个 unknown 的分类, 然后使用 load_files 加载(与训练数据相同的方式),并使用 train_test_split 方法(设置 test_size 非常大,例如 0.999999 ),使用划分出来的对象做 TFIDF ,然后扔给分类器去预测。
这样,就可以使用如下的代码拿到分类啦!
for index in pred:
label_list.append(training_data.target_names[index])
2016-01-28 12:42:14 +08:00
回复了 rockivy 创建的主题 Python sklearn 文本分类器做预测时,如何拿到预测结果。。。
@KIDJourney target_names 确实就是原始训练语料的标签列表。

现在的情况是,我 debug 了一早上,现在被模型预测的输出结果搞迷糊了
pred = clf.predict(X_new)

这个 pred 对象:
1. 在使用原始语料分割出来的 20%的测试数据(大约有 1000 条)作为 X_new 输入时,
针对每个语料输出了一个分类类别 id ,是没问题的;

2. 在使用**一条**新的文本数据(无分类类别,待模型预测)作为 X_new 时, pred 并不是一个分类类别 id ,而是一个一维数组,这里我就不会解析了。。。

3. 假设把上面的这一条新的文本数据放到一个正确的类别文件夹下面去(其他类别文件夹全部留空),重新 load_files 这部分数据作为测试数据, pred 的输出又是正确:对于这一个文档输入给出了一个预测结果类别 id

上面的 2 , 3 点就是我目前最困惑的地方。
2016-01-28 10:10:08 +08:00
回复了 rockivy 创建的主题 Python sklearn 文本分类器做预测时,如何拿到预测结果。。。
to all ,

上面第 6 点描述中,对 pred 的理解可能有偏差。
我又 debug 查看了二八划分数据时,使用 20%的测试数据去做预测并计算误差的地方,
可以看到:
**这里的的 pred 是一个跟测试标签 y_test 长度一样的一维数组**
也就是说,对于一个文档样本数据, pred 的输出应该是**唯一的一个标签** ;

那么现在问题就来了,
为什么我 read 单个文档样本做预测时,输出的 pred 不是只有**一个元素的数组**呢。。。
2016-01-28 09:38:49 +08:00
回复了 rockivy 创建的主题 Python sklearn 文本分类器做预测时,如何拿到预测结果。。。
@KIDJourney 刚才 debug 看了下, training_data 这个对象没有 label 属性。。。
2016-01-28 09:18:36 +08:00
回复了 Evnton 创建的主题 GitHub Github 不能正常打开,有谁知道是怎么回事吗?
刚才也发现了,出现个 Unicorn
2016-01-28 08:42:52 +08:00
回复了 rockivy 创建的主题 Python sklearn 文本分类器做预测时,如何拿到预测结果。。。
@ike 这种方法下,即使我拿训练数据再反过来去做预测,得到的结果大多数都不对。。。叫上面回复第 7 点,举出的网易财经频道新闻数据的例子
2016-01-28 08:40:31 +08:00
回复了 rockivy 创建的主题 Python sklearn 文本分类器做预测时,如何拿到预测结果。。。
@billgreen1 基本是这样的,不过 preprocessing 中对 label 的一些处理方式我都试过了,貌似都不对(也有可能是我的用法不对?)
2016-01-28 08:38:32 +08:00
回复了 rockivy 创建的主题 Python sklearn 文本分类器做预测时,如何拿到预测结果。。。
@KIDJourney 感谢,一会到公司试试看
2016-01-28 08:04:01 +08:00
回复了 rockivy 创建的主题 Python sklearn 文本分类器做预测时,如何拿到预测结果。。。
感谢楼上各位的回复!

完整的情况是这样的:
0. sklearn 官方给出的文本分类例子中,常用的是一个叫 20-news-group 的语料,是英文语料;

1. 因为想做中文文本分类,我用的语料是自己从网易新闻的各个二级频道爬出来的一些新闻正文内容,
即:娱乐( 100 篇文章),体育( xx 篇),财经( xx 篇),教育( xx 篇),等等;
前面的频道名称就是分类类别标签,每个分类下面的文章是支持(或者说训练)这个分类的语料;

2. 在 sklearn 中,先 load_files 加载这些分类和各自的语料,作为 training_data ( training_data.target_names 就是所有类别标签的 list );
training_data 可以划分出 x_train(新闻正文)和 y_train(类别标签 list ,与 x_train 一一对应)

3. 然后使用 TFIDFVectorizer (配合 jieba 中文分词器),计算语料中分词的 TFIDF 值,将 x_train 转换为 X_train

4. 使用 X_train 和 y_train 去训练分类器;我选择的分类器有:朴素贝叶斯, SGDClassifier 这两种;
其中朴素贝叶斯分类器下,二八划分的语料,得到的测试结果差得令人发指(准确率 30%),就没有作为预测使用(差的原因还没分析出来,不过这是另外一个问题了)

5. 使用 SGDClassifier 在二八划分的语料中,测试预测准确率在 70%左右;现在就又找了一篇新闻正文,想用这个分类器做分类预测;

上述过程在 sklearn 官方文档的文本分类器 demo 代码中基本都能找到,就不贴代码了。

6. 在 pred = clf.predict(X_new) 中,得到的 pred 是一个 ndarray , 里面的值是 training_data.target_names 中每个标签的 index (不是百分百肯定,也有可能这里有误解),
我猜想:这是对待预测数据中分词结果,就是每个词语属于哪个标签的预测, 所以才会有原 po 中尝试的解决方案,就是统计每个标签的出现次数,将出现次数最多的作为这次预测的结果;

7. 问题是,按照第 6 步的思路,即使我拿原始训练语料(比如训练用的财经类下面的新闻),再用训练好的模型去预测,得到的类别仍然不对,大多数结果都不是财经类。。。

不知道这样描述够清楚吗?

欢迎继续讨论~~~
有问必答,需要的话可以将完整代码贴出来。
2016-01-27 21:00:54 +08:00
回复了 rockivy 创建的主题 Python sklearn 文本分类器做预测时,如何拿到预测结果。。。
@h4x3rotab 前面就是加载 training_data ,然后用 training_data 做文本分类器的模型训练,
代码很简单,网上一搜一大把

我的问题就是上面说的,
有了训练好的分类器后,用这个分类器去预测一段新的文本,
分类器的输出 pred 是一个 ndarray ,怎么能映射到训练数据的类别呢?
2016-01-20 10:04:51 +08:00
回复了 ericwang0717 创建的主题 推广 送 10 本《第一本 Docker 书》能刷出存在感吗?——实现网
拉低楼上各位的中奖概率
2016-01-11 11:28:25 +08:00
回复了 axb 创建的主题 程序员 关于烂代码的那些事(下)
写的很棒
2015-12-08 09:01:26 +08:00
回复了 idacker 创建的主题 职场话题 同事整天在打游戏,你还会拼命工作么?
"之前我工作了多年"
工作多年了, 应该清楚知道自己的目标是什么, 自己该干什么吧, 何必那么在意别人在干什么呢
2015-12-01 10:05:48 +08:00
回复了 larkifly 创建的主题 Python python 写 redis 为何如此的慢????
批量操作一定要使用 pipeline.
不久前刚做过一个小测试, 下面的 blog 是我的测试记录
http://www.rockyqi.net/redis-intro-and-a-simple-performance-test-for-batch-operations.html
2015-11-30 14:08:25 +08:00
回复了 Andor_Chen 创建的主题 Java 送几本《Java 技术手册(第 6 版)》
回复, 感谢~~
2015-11-19 10:24:44 +08:00
回复了 devinww 创建的主题 问与答 归属地问题
@ncdx2009 shanxi shaanxi
2015-11-16 15:28:12 +08:00
回复了 weuiyseui 创建的主题 分享发现 天猫魔盒 15 日删除第三方应用
天猫盒子可以正常看电视直播不? 可以的话收一个给家里老人看电视用...
有意出手的请私信我
已剁手 7.95 刀, 这是双 11 第一单
1 ... 3  4  5  6  7  8  9  10  11  12 ... 14  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2281 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 29ms · UTC 03:15 · PVG 11:15 · LAX 20:15 · JFK 23:15
Developed with CodeLauncher
♥ Do have faith in what you're doing.