细领域训练及测试结果

以下是在不同数据集上的对比结果：

MSRA	Precision	Recall	F-score
jieba	87.01	89.88	88.42
THULAC	95.60	95.91	95.71
pkuseg	96.94	96.81	96.88

CTB8	Precision	Recall	F-score
jieba	88.63	85.71	87.14
THULAC	93.90	95.30	94.56
pkuseg	95.99	95.39	95.69

WEIBO	Precision	Recall	F-score
jieba	87.79	87.54	87.66
THULAC	93.40	92.40	92.87
pkuseg	93.78	94.65	94.21

我们选用了混合领域的CTB8语料的训练集进行训练，同时在其它领域进行测试，以模拟模型在“黑盒数据”上的分词效果。选择CTB8语料的原因是，CTB8属于混合语料，理想情况下的效果会更好；而且在测试中我们发现在CTB8上训练的模型，所有工具包跨领域测试都可以获得更高的平均效果。以下是跨领域测试的结果：

CTB8 Training	MSRA	CTB8	PKU	WEIBO	All Average	OOD Average
jieba	82.75	87.14	87.12	85.68	85.67	85.18
THULAC	83.50	94.56	89.13	91.00	89.55	87.88
pkuseg	83.67	95.69	89.67	91.19	90.06	88.18

其中，All Average显示的是在所有测试集(包括CTB8测试集)上F-score的平均，OOD Average (Out-of-domain Average)显示的是在除CTB8外其它测试集结果的平均。

考虑到很多用户在尝试分词工具的时候，大多数时候会使用工具包自带模型测试。为了直接对比“初始”性能，我们也比较了各个工具包的默认模型在不同领域的测试效果。请注意，这样的比较只是为了说明默认情况下的效果，并不一定是公平的。

Default	MSRA	CTB8	PKU	WEIBO	All Average
jieba	81.45	79.58	81.83	83.56	81.61
THULAC	85.55	87.84	92.29	86.65	88.08
pkuseg	87.29	91.77	92.68	93.43	91.29

其中，All Average显示的是在所有测试集上F-score的平均。

Provide feedback