PaddleNLP Taskflow

PaddleNLP Taskflow

介绍

paddlenlp.Taskflow提供开箱即用的NLP预置任务，覆盖自然语言理解与自然语言生成两大核心应用，在中文场景上提供产业级的效果与极致的预测性能。

任务清单

自然语言理解任务	自然语言生成任务
中文分词	生成式问答
词性标注	智能写诗
命名实体识别	开放域对话
文本纠错	文本翻译(TODO)
句法分析	自动对联(TODO)
情感分析
文本相似度
『解语』-词类知识标注
『解语』-名词短语标注

随着版本迭代会持续开放更多的应用场景。

安装

环境依赖

python >= 3.6
paddlepaddle >= 2.2.0
paddlenlp >= 2.2.0

用法

查看使用示例

from paddlenlp import Taskflow

seg = Taskflow("word_segmentation")
seg.help()
>>> Examples:
        from paddlenlp import Taskflow

        seg = Taskflow("word_segmentation")
        seg("第十四届全运会在西安举办")
        '''
        ['第十四届', '全运会', '在', '西安', '举办']
        '''

        seg(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
        '''
        [['第十四届', '全运会', '在', '西安', '举办'], ['三亚', '是', '一个', '美丽', '的', '城市']]
        '''

中文分词

from paddlenlp import Taskflow

seg = Taskflow("word_segmentation")
seg("第十四届全运会在西安举办")
>>> ['第十四届', '全运会', '在', '西安', '举办']

seg(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
>>> [['第十四届', '全运会', '在', '西安', '举办'], ['三亚', '是', '一个', '美丽', '的', '城市']]

自定义词典

用户可以通过装载自定义词典来定制化分词结果。词典文件每一行表示一个自定义item，可以由一个单词或者多个单词组成。

词典文件user_dict.txt示例：

平原上的火焰
年 末

以"平原上的火焰计划于年末上映"为例，原本的输出结果为：

['平原', '上', '的', '火焰', '计划', '于', '年末', '上映']

装载自定义词典及输出结果示例：

from paddlenlp import Taskflow

my_seg = Taskflow("word_segmentation", user_dict="user_dict.txt")
my_seg("平原上的火焰计划于年末上映")
>>> ['平原上的火焰', '计划', '于', '年', '末', '上映']

自定义任务

任务的默认路径为$HOME/.paddlenlp/taskflow/word_sementation/lac/，默认路径下包含了执行该任务需要的所有文件。

用户也可以使用自己的数据训练自定义中文分词模型，参考词法分析训练示例。

有了自定义模型后可通过task_path指定用户自定义路径，自定义路径下的文件需要和默认路径的文件一致。

自定义路径需要有如下文件（用户自己的模型权重、标签字典）：

custom_task_path/
├── model_state.pdparams
├── word.dic
├── tag.dic
└── q2b.dic

使用Taskflow加载自定义模型进行一键预测：

from paddlenlp import Taskflow

my_seg = Taskflow("word_segmentation", task_path="./custom_task_path/")

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
user_dict：用户自定义词典文件，默认为None。
task_path：自定义任务路径，默认为None。

词性标注

from paddlenlp import Taskflow

tag = Taskflow("pos_tagging")
tag("第十四届全运会在西安举办")
>>>[('第十四届', 'm'), ('全运会', 'nz'), ('在', 'p'), ('西安', 'LOC'), ('举办', 'v')]

tag(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
>>> [[('第十四届', 'm'), ('全运会', 'nz'), ('在', 'p'), ('西安', 'LOC'), ('举办', 'v')], [('三亚', 'LOC'), ('是', 'v'), ('一个', 'm'), ('美丽', 'a'), ('的', 'u'), ('城市', 'n')]]

标签集合：

标签	含义	标签	含义	标签	含义	标签	含义
n	普通名词	f	方位名词	s	处所名词	t	时间
nr	人名	ns	地名	nt	机构名	nw	作品名
nz	其他专名	v	普通动词	vd	动副词	vn	名动词
a	形容词	ad	副形词	an	名形词	d	副词
m	数量词	q	量词	r	代词	p	介词
c	连词	u	助词	xc	其他虚词	w	标点符号
PER	人名	LOC	地名	ORG	机构名	TIME	时间

自定义词典

用户可以通过装载自定义词典来定制化分词和词性标注结果。词典文件每一行表示一个自定义item，可以由一个单词或者多个单词组成，单词后面可以添加自定义标签，格式为item/tag，如果不添加自定义标签，则使用模型默认标签。

词典文件user_dict.txt示例：

赛里木湖/LAKE
高/a 山/n
海拔最高
湖 泊

以"赛里木湖是新疆海拔最高的高山湖泊"为例，原本的输出结果为：

[('赛里木湖', 'LOC'), ('是', 'v'), ('新疆', 'LOC'), ('海拔', 'n'), ('最高', 'a'), ('的', 'u'), ('高山', 'n'), ('湖泊', 'n')]

装载自定义词典及输出结果示例：

from paddlenlp import Taskflow

my_tag = Taskflow("pos_tagging", user_dict="user_dict.txt")
my_tag("赛里木湖是新疆海拔最高的高山湖泊")
>>> [('赛里木湖', 'LAKE'), ('是', 'v'), ('新疆', 'LOC'), ('海拔最高', 'n'), ('的', 'u'), ('高', 'a'), ('山', 'n'), ('湖', 'n'), ('泊', 'n')]

自定义任务

任务的默认路径为$HOME/.paddlenlp/taskflow/word_sementation/lac/，默认路径下包含了执行该任务需要的所有文件。

用户也可以使用自己的数据训练自定义中文分词模型，参考词法分析训练示例。

有了自定义模型后可通过task_path指定用户自定义路径，自定义路径下的文件需要和默认路径的文件一致。

自定义路径需要有如下文件（用户自己的模型权重、标签字典）：

custom_task_path/
├── model_state.pdparams
├── word.dic
├── tag.dic
└── q2b.dic

使用Taskflow加载自定义模型进行一键预测：

from paddlenlp import Taskflow

my_tag = Taskflow("pos_tagging", task_path="./custom_task_path/")

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
user_dict：用户自定义词典文件，默认为None。
task_path：自定义任务路径，默认为None。

命名实体识别

from paddlenlp import Taskflow

ner = Taskflow("ner")
ner("《孤女》是2010年九州出版社出版的小说，作者是余兼羽")
>>> [('《', 'w'), ('孤女', '作品类_实体'), ('》', 'w'), ('是', '肯定词'), ('2010年', '时间类'), ('九州出版社', '组织机构类'), ('出版', '场景事件'), ('的', '助词'), ('小说', '作品类_概念'), ('，', 'w'), ('作者', '人物类_概念'), ('是', '肯定词'), ('余兼羽', '人物类_实体')]

ner(["热梅茶是一道以梅子为主要原料制作的茶饮", "《孤女》是2010年九州出版社出版的小说，作者是余兼羽"])
>>> [[('热梅茶', '饮食类_饮品'), ('是', '肯定词'), ('一道', '数量词'), ('以', '介词'), ('梅子', '饮食类'), ('为', '肯定词'), ('主要原料', '物体类'), ('制作', '场景事件'), ('的', '助词'), ('茶饮', '饮食类_饮品')], [('《', 'w'), ('孤女', '作品类_实体'), ('》', 'w'), ('是', '肯定词'), ('2010年', '时间类'), ('九州出版社', '组织机构类'), ('出版', '场景事件'), ('的', '助词'), ('小说', '作品类_概念'), ('，', 'w'), ('作者', '人物类_概念'), ('是', '肯定词'), ('余兼羽', '人物类_实体')]]

标签集合：

Taskflow提供的NER任务共包含66种词性及专名类别标签，标签集合如下表

WordTag标签集合
人物类_实体	物体类	生物类_动物	医学术语类	链接地址	肯定词
人物类_概念	物体类_兵器	品牌名	术语类_生物体	个性特征	否定词
作品类_实体	物体类_化学物质	场所类	疾病损伤类	感官特征	数量词
作品类_概念	其他角色类	场所类_交通场所	疾病损伤类_植物病虫害	场景事件	叹词
组织机构类	文化类	位置方位	宇宙类	介词	拟声词
组织机构类_企事业单位	文化类_语言文字	世界地区类	事件类	介词_方位介词	修饰词
组织机构类_医疗卫生机构	文化类_奖项赛事活动	饮食类	时间类	助词	外语单词
组织机构类_国家机关	文化类_制度政策协议	饮食类_菜品	时间类_特殊日	代词	英语单词
组织机构类_体育组织机构	文化类_姓氏与人名	饮食类_饮品	术语类	连词	汉语拼音
组织机构类_教育组织机构	生物类	药物类	术语类_符号指标类	副词	词汇用语
组织机构类_军事组织机构	生物类_植物	药物类_中药	信息资料	疑问词	w(标点)

自定义词典

用户可以通过装载自定义词典来定制化分词和词性标注结果。词典文件每一行表示一个自定义item，可以由一个单词或者多个单词组成，单词后面可以添加自定义标签，格式为item/tag，如果不添加自定义标签，则使用模型默认标签。

词典文件user_dict.txt示例：

长津湖/电影类_实体
收/词汇用语 尾/术语类
最 大
海外票仓

以"《长津湖》收尾，北美是最大海外票仓"为例，原本的输出结果为：

[('《', 'w'), ('长津湖', '作品类_实体'), ('》', 'w'), ('收尾', '场景事件'), ('，', 'w'), ('北美', '世界地区类'), ('是', '肯定词'), ('最大', '修饰词'), ('海外', '场所类'), ('票仓', '词汇用语')]

装载自定义词典及输出结果示例：

from paddlenlp import Taskflow

my_ner = Taskflow("ner", user_dict="user_dict.txt")
my_ner("《长津湖》收尾，北美是最大海外票仓")
>>> [('《', 'w'), ('长津湖', '电影类_实体'), ('》', 'w'), ('收', '词汇用语'), ('尾', '术语类'), ('，', 'w'), ('北美', '世界地区类'), ('是', '肯定词'), ('最', '修饰词'), ('大', '修饰词'), ('海外票仓', '场所类')]

自定义任务

任务的默认路径为$HOME/.paddlenlp/taskflow/ner/wordtag/，默认路径下包含了执行该任务需要的所有文件。

用户也可以使用自己的数据训练自定义NER模型，参考NER-WordTag增量训练示例。

有了自定义模型后可通过task_path指定用户自定义路径，自定义路径下的文件需要和默认路径的文件一致。

自定义路径需要有如下文件（用户自己的模型权重、标签文件）：

custom_task_path/
├── model_state.pdparams
└── tags.txt

使用Taskflow加载自定义模型进行一键预测：

from paddlenlp import Taskflow

my_ner = Taskflow("ner", task_path="./custom_task_path/")

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
user_dict：用户自定义词典文件，默认为None。
task_path：自定义任务路径，默认为None。

文本纠错

from paddlenlp import Taskflow

corrector = Taskflow("text_correction")
corrector('遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇，这样我们才能朝著成功之路前进。')
>>> [{'source': '遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇，这样我们才能朝著成功之路前进。', 'target': '遇到逆境时，我们必须勇于面对，而且要愈挫愈勇，这样我们才能朝著成功之路前进。', 'errors': [{'position': 3, 'correction': {'竟': '境'}}]}]

corrector(['遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇，这样我们才能朝著成功之路前进。',
                '人生就是如此，经过磨练才能让自己更加拙壮，才能使自己更加乐观。'])
>>> [{'source': '遇到逆竟时，我们必须勇于面对，而且要愈挫愈勇，这样我们才能朝著成功之路前进。', 'target': '遇到逆境时，我们必须勇于面对，而且要愈挫愈勇，这样我们才能朝著成功之路前进。', 'errors': [{'position': 3, 'correction': {'竟': '境'}}]}, {'source': '人生就是如此，经过磨练才能让自己更加拙壮，才能使自己更加乐观。', 'target': '人生就是如此，经过磨练才能让自己更加茁壮，才能使自己更加乐观。', 'errors': [{'position': 18, 'correction': {'拙': '茁'}}]}]

自定义任务

任务的默认路径为$HOME/.paddlenlp/taskflow/text_correction/csc-ernie-1.0/，默认路径下包含了执行该任务需要的所有文件。

用户也可以使用自己的数据训练自定义模型，参考文本纠错训练示例。

有了自定义模型后可通过task_path指定用户自定义路径，自定义路径下的文件需要和默认路径的文件一致。

自定义路径需要有如下文件（用户自己的模型权重、拼音字典文件）：

custom_task_path/
├── model_state.pdparams
└── pinyin_vocab.txt

使用Taskflow加载自定义模型进行一键预测：

from paddlenlp import Taskflow

my_ner = Taskflow("text_correction", task_path="./custom_task_path/")

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
task_path：自定义任务路径，默认为None。

句法分析

未分词输入:

from paddlenlp import Taskflow

ddp = Taskflow("dependency_parsing")
ddp("9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫")
>>> [{'word': ['9月9日', '上午', '纳达尔', '在', '亚瑟·阿什球场', '击败', '俄罗斯', '球员', '梅德韦杰夫'], 'head': [2, 6, 6, 5, 6, 0, 8, 9, 6], 'deprel': ['ATT', 'ADV', 'SBV', 'MT', 'ADV', 'HED', 'ATT', 'ATT', 'VOB']}]

ddp(["9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫", "他送了一本书"])
>>> [{'word': ['9月9日', '上午', '纳达尔', '在', '亚瑟·阿什球场', '击败', '俄罗斯', '球员', '梅德韦杰夫'], 'head': [2, 6, 6, 5, 6, 0, 8, 9, 6], 'deprel': ['ATT', 'ADV', 'SBV', 'MT', 'ADV', 'HED', 'ATT', 'ATT', 'VOB']}, {'word': ['他', '送', '了', '一本', '书'], 'head': [2, 0, 2, 5, 2], 'deprel': ['SBV', 'HED', 'MT', 'ATT', 'VOB']}]

输出概率值和词性标签:

ddp = Taskflow("dependency_parsing", prob=True, use_pos=True)
ddp("9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫")
>>> [{'word': ['9月9日', '上午', '纳达尔', '在', '亚瑟·阿什', '球场', '击败', '俄罗斯', '球员', '梅德韦杰夫'], 'head': [2, 7, 7, 6, 6, 7, 0, 9, 10, 7], 'deprel': ['ATT', 'ADV', 'SBV', 'MT', 'ATT', 'ADV', 'HED', 'ATT', 'ATT', 'VOB'], 'postag': ['TIME', 'TIME', 'PER', 'p', 'PER', 'n', 'v', 'LOC', 'n', 'PER'], 'prob': [0.79, 0.98, 1.0, 0.49, 0.97, 0.86, 1.0, 0.85, 0.97, 0.99]}]

使用ddparser-ernie-1.0进行预测:

ddp = Taskflow("dependency_parsing", model="ddparser-ernie-1.0")
ddp("9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫")
>>> [{'word': ['9月9日', '上午', '纳达尔', '在', '亚瑟·阿什球场', '击败', '俄罗斯', '球员', '梅德韦杰夫'], 'head': [2, 6, 6, 5, 6, 0, 8, 9, 6], 'deprel': ['ATT', 'ADV', 'SBV', 'MT', 'ADV', 'HED', 'ATT', 'ATT', 'VOB']}]

使用分词结果来输入:

ddp = Taskflow("dependency_parsing")
ddp.from_segments([['9月9日', '上午', '纳达尔', '在', '亚瑟·阿什球场', '击败', '俄罗斯', '球员', '梅德韦杰夫']])
>>> [{'word': ['9月9日', '上午', '纳达尔', '在', '亚瑟·阿什球场', '击败', '俄罗斯', '球员', '梅德韦杰夫'], 'head': [2, 6, 6, 5, 6, 0, 8, 9, 6], 'deprel': ['ATT', 'ADV', 'SBV', 'MT', 'ADV', 'HED', 'ATT', 'ATT', 'VOB']}]

自定义任务

任务的默认路径为$HOME/.paddlenlp/taskflow/dependency_parsing/ddparser/，默认路径下包含了执行该任务需要的所有文件。

用户也可以使用自己的数据训练自定义模型，参考句法分析训练示例。

有了自定义模型后可通过task_path指定用户自定义路径，自定义路径下的文件需要和默认路径的文件一致。

自定义路径需要有如下文件（用户自己的模型权重、字典文件）：

custom_task_path/
├── model_state.pdparams
├── rel_vocab.json
└── word_vocab.json

使用Taskflow加载自定义模型进行一键预测：

from paddlenlp import Taskflow

my_ddp = Taskflow("dependency_parsing", task_path="./custom_task_path/")

依存关系可视化：

from paddlenlp import Taskflow

ddp = Taskflow("dependency_parsing", return_visual=True)
result = ddp("9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫")[0]['visual']
import cv2
cv2.imwrite('test.png', result)

标注关系说明：

Label	关系类型	说明	示例
SBV	主谓关系	主语与谓词间的关系	他送了一本书(他<--送)
VOB	动宾关系	宾语与谓词间的关系	他送了一本书(送-->书)
POB	介宾关系	介词与宾语间的关系	我把书卖了（把-->书）
ADV	状中关系	状语与中心词间的关系	我昨天买书了（昨天<--买）
CMP	动补关系	补语与中心词间的关系	我都吃完了（吃-->完）
ATT	定中关系	定语与中心词间的关系	他送了一本书(一本<--书)
F	方位关系	方位词与中心词的关系	在公园里玩耍(公园-->里)
COO	并列关系	同类型词语间关系	叔叔阿姨(叔叔-->阿姨)
DBL	兼语结构	主谓短语做宾语的结构	他请我吃饭(请-->我，请-->吃饭)
DOB	双宾语结构	谓语后出现两个宾语	他送我一本书(送-->我，送-->书)
VV	连谓结构	同主语的多个谓词间关系	他外出吃饭(外出-->吃饭)
IC	子句结构	两个结构独立或关联的单句	你好，书店怎么走？(你好<--走)
MT	虚词成分	虚词与中心词间的关系	他送了一本书(送-->了)
HED	核心关系	指整个句子的核心

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
model：选择任务使用的模型，可选有ddparser，ddparser-ernie-1.0和ddparser-ernie-gram-zh。
tree：确保输出结果是正确的依存句法树，默认为True。
prob：是否输出每个弧对应的概率值，默认为False。
use_pos：是否返回词性标签，默认为False。
use_cuda：是否使用GPU进行切词，默认为False。
return_visual：是否返回句法树的可视化结果，默认为False。
task_path：自定义任务路径，默认为None。

情感分析

from paddlenlp import Taskflow

senta = Taskflow("sentiment_analysis")
senta("这个产品用起来真的很流畅，我非常喜欢")
>>> [{'text': '这个产品用起来真的很流畅，我非常喜欢', 'label': 'positive', 'score': 0.9938690066337585}]

senta(["这个产品用起来真的很流畅，我非常喜欢", "作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间"])
>>> [{'text': '这个产品用起来真的很流畅，我非常喜欢', 'label': 'positive', 'score': 0.9938690066337585}, {'text': '作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间', 'label': 'positive', 'score': 0.985750675201416}]

# 使用SKEP情感分析预训练模型进行预测
senta = Taskflow("sentiment_analysis", model="skep_ernie_1.0_large_ch")
senta("作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间。")
>>> [{'text': '作为老的四星酒店，房间依然很整洁，相当不错。机场接机服务很好，可以在车上办理入住手续，节省时间。', 'label': 'positive', 'score': 0.984320878982544}]

自定义任务

可通过task_path指定用户自定义路径，自定义路径下的文件需要和默认路径的文件一致。

自定义bilstm模型

任务的默认路径为$HOME/.paddlenlp/taskflow/sentiment_analysis/bilstm/，默认路径下包含了执行该任务需要的所有文件。

通过task_path指定用户自定义路径，自定义路径下的文件需要和默认路径的文件一致。

自定义路径需要有如下文件（用户自己的模型权重、字典文件）：

custom_task_path/
├── model_state.pdparams
└── vocab.txt

使用Taskflow加载自定义bilstm模型进行一键预测：

from paddlenlp import Taskflow

my_senta = Taskflow("sentiment_analysis", task_path="./custom_task_path/")

自定义SKEP模型

任务的默认路径为$HOME/.paddlenlp/taskflow/sentiment_analysis/skep_ernie_1.0_large_ch/，默认路径下包含了执行该任务需要的所有文件。

用户也可以使用自己的数据训练自定义模型，参考SKEP情感分类任务。

通过task_path指定用户自定义路径，自定义路径下的文件需要和默认路径的文件一致。

自定义路径需要有如下文件（用户自己的模型权重、模型参数配置文件）：

custom_task_path/
├── model_state.pdparams
└── model_config.json

使用Taskflow加载自定义SKEP模型进行一键预测：

from paddlenlp import Taskflow

my_senta = Taskflow("sentiment_analysis", model="skep_ernie_1.0_large_ch", task_path="./custom_task_path/")

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
model：选择任务使用的模型，可选有bilstm和skep_ernie_1.0_large_ch。
task_path：自定义任务路径，默认为None。

文本相似度

from paddlenlp import Taskflow

similarity = Taskflow("text_similarity")
similarity([["世界上什么东西最小", "世界上什么东西最小？"]])
>>> [{'text1': '世界上什么东西最小', 'text2': '世界上什么东西最小？', 'similarity': 0.992725}]

similarity([["光眼睛大就好看吗", "眼睛好看吗？"], ["小蝌蚪找妈妈怎么样", "小蝌蚪找妈妈是谁画的"]])
>>> [{'text1': '光眼睛大就好看吗', 'text2': '眼睛好看吗？', 'similarity': 0.74502707}, {'text1': '小蝌蚪找妈妈怎么样', 'text2': '小蝌蚪找妈妈是谁画的', 'similarity': 0.8192149}]

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
max_seq_len：最大序列长度，默认为128。
task_path：自定义任务路径，默认为None。

知识挖掘-词类知识标注

from paddlenlp import Taskflow

wordtag = Taskflow("knowledge_mining")
wordtag("《孤女》是2010年九州出版社出版的小说，作者是余兼羽")
>>> [{'text': '《孤女》是2010年九州出版社出版的小说，作者是余兼羽', 'items': [{'item': '《', 'offset': 0, 'wordtag_label': 'w', 'length': 1}, {'item': '孤女', 'offset': 1, 'wordtag_label': '作品类_实体', 'length': 2}, {'item': '》', 'offset': 3, 'wordtag_label': 'w', 'length': 1}, {'item': '是', 'offset': 4, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '2010年', 'offset': 5, 'wordtag_label': '时间类', 'length': 5, 'termid': '时间阶段_cb_2010年'}, {'item': '九州出版社', 'offset': 10, 'wordtag_label': '组织机构类', 'length': 5, 'termid': '组织机构_eb_九州出版社'}, {'item': '出版', 'offset': 15, 'wordtag_label': '场景事件', 'length': 2, 'termid': '场景事件_cb_出版'}, {'item': '的', 'offset': 17, 'wordtag_label': '助词', 'length': 1, 'termid': '助词_cb_的'}, {'item': '小说', 'offset': 18, 'wordtag_label': '作品类_概念', 'length': 2, 'termid': '小说_cb_小说'}, {'item': '，', 'offset': 20, 'wordtag_label': 'w', 'length': 1}, {'item': '作者', 'offset': 21, 'wordtag_label': '人物类_概念', 'length': 2, 'termid': '人物_cb_作者'}, {'item': '是', 'offset': 23, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '余兼羽', 'offset': 24, 'wordtag_label': '人物类_实体', 'length': 3}]}]

wordtag(["热梅茶是一道以梅子为主要原料制作的茶饮",
         "《孤女》是2010年九州出版社出版的小说，作者是余兼羽"])
>>> [{'text': '热梅茶是一道以梅子为主要原料制作的茶饮', 'items': [{'item': '热梅茶', 'offset': 0, 'wordtag_label': '饮食类_饮品', 'length': 3}, {'item': '是', 'offset': 3, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '一道', 'offset': 4, 'wordtag_label': '数量词', 'length': 2}, {'item': '以', 'offset': 6, 'wordtag_label': '介词', 'length': 1, 'termid': '介词_cb_以'}, {'item': '梅子', 'offset': 7, 'wordtag_label': '饮食类', 'length': 2, 'termid': '饮食_cb_梅'}, {'item': '为', 'offset': 9, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_为'}, {'item': '主要原料', 'offset': 10, 'wordtag_label': '物体类', 'length': 4, 'termid': '物品_cb_主要原料'}, {'item': '制作', 'offset': 14, 'wordtag_label': '场景事件', 'length': 2, 'termid': '场景事件_cb_制作'}, {'item': '的', 'offset': 16, 'wordtag_label': '助词', 'length': 1, 'termid': '助词_cb_的'}, {'item': '茶饮', 'offset': 17, 'wordtag_label': '饮食类_饮品', 'length': 2, 'termid': '饮品_cb_茶饮'}]}, {'text': '《孤女》是2010年九州出版社出版的小说，作者是余兼羽', 'items': [{'item': '《', 'offset': 0, 'wordtag_label': 'w', 'length': 1}, {'item': '孤女', 'offset': 1, 'wordtag_label': '作品类_实体', 'length': 2}, {'item': '》', 'offset': 3, 'wordtag_label': 'w', 'length': 1}, {'item': '是', 'offset': 4, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '2010年', 'offset': 5, 'wordtag_label': '时间类', 'length': 5, 'termid': '时间阶段_cb_2010年'}, {'item': '九州出版社', 'offset': 10, 'wordtag_label': '组织机构类', 'length': 5, 'termid': '组织机构_eb_九州出版社'}, {'item': '出版', 'offset': 15, 'wordtag_label': '场景事件', 'length': 2, 'termid': '场景事件_cb_出版'}, {'item': '的', 'offset': 17, 'wordtag_label': '助词', 'length': 1, 'termid': '助词_cb_的'}, {'item': '小说', 'offset': 18, 'wordtag_label': '作品类_概念', 'length': 2, 'termid': '小说_cb_小说'}, {'item': '，', 'offset': 20, 'wordtag_label': 'w', 'length': 1}, {'item': '作者', 'offset': 21, 'wordtag_label': '人物类_概念', 'length': 2, 'termid': '人物_cb_作者'}, {'item': '是', 'offset': 23, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '余兼羽', 'offset': 24, 'wordtag_label': '人物类_实体', 'length': 3}]}]

标签集合：

知识挖掘-词类知识标注任务共包含66种词性及专名类别标签，标签集合如下表

WordTag标签集合
人物类_实体	物体类	生物类_动物	医学术语类	链接地址	肯定词
人物类_概念	物体类_兵器	品牌名	术语类_生物体	个性特征	否定词
作品类_实体	物体类_化学物质	场所类	疾病损伤类	感官特征	数量词
作品类_概念	其他角色类	场所类_交通场所	疾病损伤类_植物病虫害	场景事件	叹词
组织机构类	文化类	位置方位	宇宙类	介词	拟声词
组织机构类_企事业单位	文化类_语言文字	世界地区类	事件类	介词_方位介词	修饰词
组织机构类_医疗卫生机构	文化类_奖项赛事活动	饮食类	时间类	助词	外语单词
组织机构类_国家机关	文化类_制度政策协议	饮食类_菜品	时间类_特殊日	代词	英语单词
组织机构类_体育组织机构	文化类_姓氏与人名	饮食类_饮品	术语类	连词	汉语拼音
组织机构类_教育组织机构	生物类	药物类	术语类_符号指标类	副词	词汇用语
组织机构类_军事组织机构	生物类_植物	药物类_中药	信息资料	疑问词	w(标点)

自定义词典

用户可以通过装载自定义词典来定制化分词和词性标注结果。词典文件每一行表示一个自定义item，可以由一个单词或者多个单词组成，单词后面可以添加自定义标签，格式为item/tag，如果不添加自定义标签，则使用模型默认标签。

词典文件user_dict.txt示例：

长津湖/电影类_实体
收/词汇用语 尾/术语类
最 大
海外票仓

以"《长津湖》收尾，北美是最大海外票仓"为例，原本的输出结果为：

[{'text': '《长津湖》收尾，北美是最大海外票仓', 'items': [{'item': '《', 'offset': 0, 'wordtag_label': 'w', 'length': 1}, {'item': '长津湖', 'offset': 1, 'wordtag_label': '作品类_实体', 'length': 3, 'termid': '影视作品_eb_长津湖'}, {'item': '》', 'offset': 4, 'wordtag_label': 'w', 'length': 1}, {'item': '收尾', 'offset': 5, 'wordtag_label': '场景事件', 'length': 2, 'termid': '场景事件_cb_收尾'}, {'item': '，', 'offset': 7, 'wordtag_label': 'w', 'length': 1}, {'item': '北美', 'offset': 8, 'wordtag_label': '世界地区类', 'length': 2, 'termid': '世界地区_cb_北美'}, {'item': '是', 'offset': 10, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '最大', 'offset': 11, 'wordtag_label': '修饰词', 'length': 2, 'termid': '修饰词_cb_最大'}, {'item': '海外', 'offset': 13, 'wordtag_label': '场所类', 'length': 2, 'termid': '区域场所_cb_海外'}, {'item': '票仓', 'offset': 15, 'wordtag_label': '词汇用语', 'length': 2}]}]

装载自定义词典及输出结果示例：

from paddlenlp import Taskflow

my_wordtag = Taskflow("knowledge_mining", user_dict="user_dict.txt")
my_wordtag("《长津湖》收尾，北美是最大海外票仓")
>>> [{'text': '《长津湖》收尾，北美是最大海外票仓', 'items': [{'item': '《', 'offset': 0, 'wordtag_label': 'w', 'length': 1}, {'item': '长津湖', 'offset': 1, 'wordtag_label': '电影类_实体', 'length': 3}, {'item': '》', 'offset': 4, 'wordtag_label': 'w', 'length': 1}, {'item': '收', 'offset': 5, 'wordtag_label': '词汇用语', 'length': 1}, {'item': '尾', 'offset': 6, 'wordtag_label': '术语类', 'length': 1, 'termid': '动物体构造_cb_动物尾巴'}, {'item': '，', 'offset': 7, 'wordtag_label': 'w', 'length': 1}, {'item': '北美', 'offset': 8, 'wordtag_label': '世界地区类', 'length': 2, 'termid': '世界地区_cb_北美'}, {'item': '是', 'offset': 10, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '最', 'offset': 11, 'wordtag_label': '修饰词', 'length': 1}, {'item': '大', 'offset': 12, 'wordtag_label': '修饰词', 'length': 1, 'termid': '修饰词_cb_大'}, {'item': '海外票仓', 'offset': 13, 'wordtag_label': '场所类', 'length': 4}]}]

自定义任务

任务的默认路径为$HOME/.paddlenlp/taskflow/knowledge_mining/wordtag/，默认路径下包含了执行该任务需要的所有文件。

用户也可以使用自己的数据训练自定义模型，参考WordTag增量训练示例。除了自定义模型，Taskflow还支持使用自定义TermTree来实现自定义Term-Linking。

可通过task_path指定用户自定义路径，自定义路径下的文件需要和默认路径的文件一致。

自定义路径包含如下文件（用户自己的模型权重、模型参数配置、标签、百科知识树文件）：

custom_task_path/
├── model_state.pdparams
├── model_config.json
├── tags.txt
├── termtree_type.csv
└── termtree_data

NOTE: 因为该任务包含自定义模型与自定义TermTree两部分，若用户只想使用自己的WordTag模型而使用默认TermTree，则路径下只需要有model_state.pdparams、model_config.json和tags.txt即可；若用户只使用自定义的TermTree而使用默认的WordTag模型，则路径下只需要有termtree_type.csv和termtree_data即可。

使用Taskflow加载自定义模型进行一键预测：

from paddlenlp import Taskflow

my_wordtag = Taskflow("knowledge_mining", task_path="./custom_task_path/")

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
linking：实现基于词类的linking，默认为True。
task_path：自定义任务路径，默认为None。
user_dict：用户自定义词典文件，默认为None。

知识挖掘-名词短语标注

from paddlenlp import Taskflow

nptag = Taskflow("knowledge_mining", model="nptag")
nptag("糖醋排骨")
>>> [{'text': '糖醋排骨', 'label': '菜品'}]

nptag(["糖醋排骨", "红曲霉菌"])
>>> [{'text': '糖醋排骨', 'label': '菜品'}, {'text': '红曲霉菌', 'label': '微生物'}]

# 使用`linking`输出粗粒度类别标签`category`，即WordTag的词汇标签。
nptag = Taskflow("knowledge_mining", model="nptag", linking=True)
nptag(["糖醋排骨", "红曲霉菌"])
>>> [{'text': '糖醋排骨', 'label': '菜品', 'category': '饮食类_菜品'}, {'text': '红曲霉菌', 'label': '微生物', 'category': '生物类_微生物'}]

自定义任务

任务的默认路径为$HOME/.paddlenlp/taskflow/knowledge_mining/nptag/，默认路径下包含了执行该任务需要的所有文件。

用户也可以使用自己的数据训练自定义模型，参考名词短语标注训练示例。

可通过task_path指定用户自定义路径，自定义路径下的文件需要和默认路径的文件一致。

自定义路径包含如下文件（用户自己的模型权重、模型参数配置、标签文件）：

custom_task_path/
├── model_state.pdparams
├── model_config.json
└── name_category_map.json

使用Taskflow加载自定义模型进行一键预测：

from paddlenlp import Taskflow

my_nptag = Taskflow("knowledge_mining", model="nptag", task_path="./custom_task_path/")

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
max_seq_len：最大序列长度，默认为64。
linking：实现与WordTag类别标签的linking，默认为False。
task_path：自定义任务路径，默认为None。

生成式问答

from paddlenlp import Taskflow

qa = Taskflow("question_answering")
qa("中国的国土面积有多大？")
>>> [{'text': '中国的国土面积有多大？', 'answer': '960万平方公里。'}]

qa(["中国国土面积有多大？", "中国的首都在哪里？"])
>>> [{'text': '中国国土面积有多大？', 'answer': '960万平方公里。'}, {'text': '中国的首都在哪里？', 'answer': '北京。'}]

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。

智能写诗

from paddlenlp import Taskflow

poetry = Taskflow("poetry_generation")
poetry("林密不见人")
>>> [{'text': '林密不见人', 'answer': ',但闻人语响。'}]

poetry(["林密不见人", "举头邀明月"])
>>> [{'text': '林密不见人', 'answer': ',但闻人语响。'}, {'text': '举头邀明月', 'answer': ',低头思故乡。'}]

可配置参数说明

batch_size：批处理大小，请结合机器情况进行调整，默认为1。

开放域对话

非交互模式：

from paddlenlp import Taskflow

dialogue = Taskflow("dialogue")
dialogue(["吃饭了吗"])
>>> ['刚吃完饭,你在干什么呢?']

dialogue(["你好", "吃饭了吗"], ["你是谁？"])
>>> ['吃过了,你呢', '我是李明啊']

可配置参数：

batch_size：批处理大小，请结合机器情况进行调整，默认为1。
max_seq_len：最大序列长度，默认为512。

交互模式：

from paddlenlp import Taskflow

dialogue = Taskflow("dialogue")
# 输入`exit`可退出交互模式
dialogue.interactive_mode(max_turn=3)

'''
[Human]:你好
[Bot]:你好,很高兴认识你,我想问你一下,你喜欢运动吗?
[Human]:喜欢
[Bot]:那你喜欢什么运动啊?
[Human]:篮球,你喜欢篮球吗
[Bot]:当然了,我很喜欢打篮球的
'''

交互模式参数：

max_turn：任务能记忆的对话轮数，当max_turn为1时，模型只能记住当前对话，无法获知之前的对话内容。

FAQ

Q1 Taskflow如何修改任务保存路径？

A: Taskflow默认会将任务相关模型等文件保存到$HOME/.paddlenlp下，可以在任务初始化的时候通过home_path自定义修改保存路径。

示例：

from paddlenlp import Taskflow

ner = Taskflow("ner", home_path="/workspace")

通过以上方式即可将ner任务相关文件保存至/workspace路径下。

Q2 Taskflow如何自定义任务？

A: 参考具体任务中的自定义任务说明，用户可按照示例在特定路径配置任务所需的模型权重、字典等文件，然后通过task_path指定自定义任务路径以一键装载任务相关文件。自然语言生成任务暂时不支持自定义任务。

Files

taskflow.md

Latest commit

History

taskflow.md

File metadata and controls

PaddleNLP Taskflow

介绍

任务清单

安装

环境依赖

用法

查看使用示例

中文分词

自定义词典

自定义任务

可配置参数说明

词性标注

自定义词典

自定义任务

可配置参数说明

命名实体识别

自定义词典

自定义任务

可配置参数说明

文本纠错

自定义任务

可配置参数说明

句法分析

自定义任务

依存关系可视化：

标注关系说明：

可配置参数说明

情感分析

自定义任务

可配置参数说明

文本相似度

可配置参数说明

知识挖掘-词类知识标注

自定义词典

自定义任务

可配置参数说明

知识挖掘-名词短语标注

自定义任务

可配置参数说明

生成式问答

可配置参数说明

智能写诗

可配置参数说明

开放域对话

FAQ

Q1 Taskflow如何修改任务保存路径？

Q2 Taskflow如何自定义任务？