a.起因:我接到一份商品的 list (条目数大概 1000k, 纯英文),因为是从非结构化数据提取出来的,所以数据比较脏
b.问题:存在同一商品有几种不同写法的问题(比如 book 可能有 book/books/booking 之类的写法)
c.最终目的:需要对商品名称进行清洗(不是单纯的分类),把同一商品的几种写法统一成一种
b.注意:不能以分类名称来替换商品名称,统一后的名字必须保持原来的含义
这是最基本的步骤,不说了
比如单词 book 出现得多,那么很可能是一个商品类别,因此作为一个 tag
比如某一些商品刚好都含有 tag: child/book ,于是打上"child","book"
拥有完全相同 tag 的商品分为同一组,但不一定是相同商品,因为同组里面可能有几个最终映射到 child book A ,另外几个是 child book B
组内算相似度,相似度超过某一阈值的,是同一个商品(不太懂,待商榷)
麻烦大家指点一下,谢谢 :)
1
xiamx 2016-06-24 21:37:51 +08:00
楼主这种课题研究好了还是有可能可以发 Paper 的哦,记得找老板要加工资
|
2
Comdex 2016-06-24 21:58:35 +08:00 via Android
花钱外包给人工做精确度更高
|
3
SoloCompany 2016-06-24 23:38:06 +08:00
一百万条数据不算很多吧
怎么处理应该都行,花个一两 g 内存应该能撑得过去 开始错看成 1g 条数据,吓 niao 了 |
4
vjnjc 2016-06-25 00:28:55 +08:00
@SoloCompany 楼主貌似是在求思路吧,不大懂这个,帮顶
|
5
soratadori 2016-06-25 04:54:40 +08:00
关注下,我从不同站点抓取相同的东西也会存在类似的问题
|
6
vitovan 2016-06-25 06:59:40 +08:00
得给一些例子呀楼举。
|
7
kyrre 2016-06-25 07:52:14 +08:00
有点机器学习的意思,可以从贝叶斯分类算法着手。
|
8
zhangfan 2016-06-25 13:58:37 +08:00
关注
|
9
practicer 2016-06-25 22:38:00 +08:00
Out[14]:
text_title_id text_title Tag score 652 Gigafactory http: ... Tesla Motors 0.666666666667 675 Whatsapp down ... WhatsApp 0.5 714 Thoughts on SiliconVa ... Silicon Valley 0.928571428571 752 How many computer ... Computer programs 0.590909090909 983 Ask HN: This is what is ... Silicon Valley 0.590909090909 1335 Facebook down The ... Facebook 1.0 1417 Santa Claus VS Justin ... Justin Bieber 0.666666666667 1533 Beauty channel Just ... YouTube 0.555555555556 1558 E canl tv izle ... Websites 0.625 2169 General Motors ... General Motors 0.722222222222 ----------- 你想要的是这种效果吗? 自动打 tag 属于机器学习,可以试试 graphlab (和 scikit-learn 类似的,商业软件,一个月免费用) 使用 graphlab 自动打 tag 教程: http://t.im/15qca |