速度更快、效果更好的中文新词发现

实测

在经过充分训练的情况下，用bakeoff2005的pku语料进行测试，能得到0.765的F1，优于ICLR 2019的《Unsupervised Word Discovery with Segmental Neural Language Models》的0.731

（注：这里是为了给效果提供一个直观感知，比较可能是不公平的，因为我不确定这篇论文中的训练集用了哪些语料。但我感觉在相同时间内本文算法会优于论文的算法，因为直觉论文的算法训练起来会很慢。作者也没有开源，所以有不少不确定之处，如有错谬，请读者指正。）

使用前务必通过

chmod +x count_ngrams

赋予count_ngrams可执行权限，然后修改word_discovery.py适配自己的数据，最后执行

python word_discovery.py

QQ交流群：67729435，微信群请加机器人微信号spaces_ac_cn

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
README.md		README.md
count_ngrams		count_ngrams
evaluate.py		evaluate.py
word_discovery.py		word_discovery.py