以下是在不同数据集上的对比结果:
MSRA | Precision | Recall | F-score |
---|---|---|---|
jieba | 87.01 | 89.88 | 88.42 |
THULAC | 95.60 | 95.91 | 95.71 |
pkuseg | 96.94 | 96.81 | 96.88 |
CTB8 | Precision | Recall | F-score |
---|---|---|---|
jieba | 88.63 | 85.71 | 87.14 |
THULAC | 93.90 | 95.30 | 94.56 |
pkuseg | 95.99 | 95.39 | 95.69 |
Precision | Recall | F-score | |
---|---|---|---|
jieba | 87.79 | 87.54 | 87.66 |
THULAC | 93.40 | 92.40 | 92.87 |
pkuseg | 93.78 | 94.65 | 94.21 |
我们选用了混合领域的CTB8语料的训练集进行训练,同时在其它领域进行测试,以模拟模型在“黑盒数据”上的分词效果。选择CTB8语料的原因是,CTB8属于混合语料,理想情况下的效果会更好;而且在测试中我们发现在CTB8上训练的模型,所有工具包跨领域测试都可以获得更高的平均效果。以下是跨领域测试的结果:
CTB8 Training | MSRA | CTB8 | PKU | All Average | OOD Average | |
---|---|---|---|---|---|---|
jieba | 82.75 | 87.14 | 87.12 | 85.68 | 85.67 | 85.18 |
THULAC | 83.50 | 94.56 | 89.13 | 91.00 | 89.55 | 87.88 |
pkuseg | 83.67 | 95.69 | 89.67 | 91.19 | 90.06 | 88.18 |
其中,All Average
显示的是在所有测试集(包括CTB8测试集)上F-score的平均,OOD Average
(Out-of-domain Average)显示的是在除CTB8外其它测试集结果的平均。
考虑到很多用户在尝试分词工具的时候,大多数时候会使用工具包自带模型测试。为了直接对比“初始”性能,我们也比较了各个工具包的默认模型在不同领域的测试效果。请注意,这样的比较只是为了说明默认情况下的效果,并不一定是公平的。
Default | MSRA | CTB8 | PKU | All Average | |
---|---|---|---|---|---|
jieba | 81.45 | 79.58 | 81.83 | 83.56 | 81.61 |
THULAC | 85.55 | 87.84 | 92.29 | 86.65 | 88.08 |
pkuseg | 87.29 | 91.77 | 92.68 | 93.43 | 91.29 |
其中,All Average
显示的是在所有测试集上F-score的平均。