This repository has been archived by the owner on Apr 19, 2024. It is now read-only.
-
Notifications
You must be signed in to change notification settings - Fork 148
词典里不支持单个字的分词么 #76
Comments
是既有单字,也有词的分词么? |
是的,有单字,也有词的分词。比如: 药 3 这种没有对 "药" 分词。 |
另外,如果自定义词典里的词有包含关系,分词处理似乎也有问题。比如: 反渗透膜 3 对于文本。"实验用反渗透膜元件", 期待的分词后有 "反渗透膜", "反渗透膜元件" 两个 token, 但实际上只有 "反渗透膜元件" 一个 token |
@yren 试试修改分词的模式,采用index的方式,不要采用search的方式 |
嗯,使用的是 index 方式 (jieba_index) , 但还是存在上述问题 |
@yren jieba的python版本,有试验过么?或者jieba-analysis的版本,试一下 |
我有时间试一下。 这些是 jieba ES plugin 的 dependency 是吧 |
@yren 主要是 jieba-analysis,python版本的jieba的java实现。 |
这个问题一直都存在 |
Sign up for free
to subscribe to this conversation on GitHub.
Already have an account?
Sign in.
比如: 在 user.dict 加入一条单字分词
"药 3"
对 text "药品" 的分词测试,只有一个 token "药品"。
希望得到两个, token "药" 和 token “药品”
请问可以在字典里加入单字,对这个单字分词么
The text was updated successfully, but these errors were encountered: