大家有没有比较好的分词 API 推荐

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1595 天前的主题，其中的信息可能已经有所发展或是发生改变。

分词断句，比如——

“我们希望 V2EX 能够成为中文世界中氛围最好的社区，而实现这个目标...”

分词为——

我们希望 V2EX 能够成为中文世界中氛围最好的社区，而实现这个目标 ...

相对智能和稳定一点，付费也可，网上搜了一些前排的，感觉都有点缺陷。

分词

V2EX

中文

氛围

25 条回复 • 2020-08-14 19:18:00 +08:00

dovme

2020-08-13 12:41:05 +08:00

jieba 分词

rabbull

2020-08-13 13:00:29 +08:00

`import jieba as jb`

johnsona

2020-08-13 13:04:53 +08:00

boson 分词
效果很好
页面就可以体验，但限制次数
不要用 ip 代理去撸，不要逼得别人要登录才可以体验

huobazi

2020-08-13 13:07:11 +08:00

中国人都用 "结巴" O(∩_∩)O 哈哈~

zhou00

2020-08-13 13:14:12 +08:00

jieba, 精确模式，得到的结果跟你要的结果一样

marcong95

2020-08-13 13:54:15 +08:00

@jsisjs20130824 #3 搜了下这个 boson，搜到一个 BosonNLP.com 的网站，似乎已经停止对外开放还是怎么着，跳转到了阿里巴巴集团的登录页，用自己的淘宝账号似乎是登不进去，需要内部账号

wangritian

2020-08-13 14:03:20 +08:00

jieba/hanlp

johnsona

2020-08-13 14:10:02 +08:00

http://static.bosonnlp.com/demo

zcfnc

2020-08-13 14:12:08 +08:00

我也是一直用的 jieba
给楼主参考一下
import jieba as jb
result = jb.lcut("我们希望 V2EX 能够成为中文世界中氛围最好的社区，而实现这个目标..")
print(result)

···['我们', '希望', ' ', 'V2EX', ' ', '能够', '成为', '中文', '世界', '中', '氛围', '最好', '的', '社区', '，', '而', '实现', '这个', '目标', '..']···

KalaSearch

2020-08-13 14:30:08 +08:00 via iPhone

请问分词是在什么场景下用？看起来是为了提高搜索的召回率？

如果是搜索的话，可以尝试下卡拉搜索，不用自己配置分词

zxc12300123

2020-08-13 14:33:27 +08:00

bosonnlp, hanlp 都不错，jieba 真的很差。。

KalaSearch

2020-08-13 14:37:46 +08:00 via iPhone

另外推荐下 pullword.com

清华的师兄做的，口碑很好

519718366

2020-08-13 14:49:24 +08:00

借楼问下，java 版的 hanlp 能获取同义词的扩展不
比如同义词：super,超级
输入：super
hanlp 分词处理后，我能获取到 super 以及它的同义词超级

l890908

2020-08-13 15:21:03 +08:00

@jsisjs20130824 这个找了半天没找到注册获得 TOKEN 的地方？😂😂😂

johnsona

2020-08-13 16:34:10 +08:00

@l890908 之前是登录，有后台生成，现在。。可能是 ai 泡沫破灭了，搞不下去了。

johnsona

2020-08-13 16:34:23 +08:00

@l890908 自行联系网站管理员吧

xiaoliu926

2020-08-13 16:51:18 +08:00

我用的百度分词，50W 次免费

laminux29

2020-08-13 17:12:19 +08:00

结巴分词有 2 个问题：

1.不支持新词。如果比较重要的话，可以后期人工再过滤一遍。

2.python 程序性能差，对多核支持不行。建议根据核数，开对应数量的 python 程序，然后用负载均衡的通信框架进行负载均衡地 rpc 。

netnr

2020-08-13 17:31:15 +08:00

结巴 nodejs 版本

https://api.zme.ink/analysis?content=结过婚的和尚未结过婚的

linvaux

2020-08-13 21:26:33 +08:00

用 lucene 的 IK 分词器

Merlini

2020-08-13 22:38:02 +08:00

既然是 nlp，还是要提百度的，推荐百度刚出的 lac 。
https://github.com/baidu/lac

Baboonowen

2020-08-13 23:32:02 +08:00

北大分词

levelworm

2020-08-14 07:32:15 +08:00 via Android

@KalaSearch 梁哥做的对吧，微博上有关注

encro

2020-08-14 10:40:53 +08:00

@laminux29

结巴分词有 2 个问题：

1.不支持新词。如果比较重要的话，可以后期人工再过滤一遍。

2.python 程序性能差，对多核支持不行。建议根据核数，开对应数量的 python 程序，然后用负载均衡的通信框架进行负载均衡地 rpc 。

1，HMM 模式支持自动发现新词。

２，运行过性能测评？那么结巴的ｃ＋＋，GO，Java 实现呢？

mjikop1231

2020-08-14 19:18:00 +08:00

deepl 的分词，除了贵还好用