Draft_KG2

整个过程面向标准PDF文件，构建知识图谱。整个过程大致分为3部分：一是PDF可编辑转换，二是结构化信息提取，三是图谱构建。为了保证整个文件的内容无缺失性，在构造中，将文件内容分为纯文本、表格、图片三部分，分类整理。内容结构框架如下，其中，中英文名称识别，采用了bert二分类的方式（效果还可以）。在范围内容整理时，参考了标准导则中的编写规则，如下：

内容部分

程序执行

GJBremove.py——移除国军标文件

pdf2word.py

文档提取图片.py

文档读取表格.py

文档内容提取.py——先word2TXT

文档语言判别.py——判断标准是中文or外文

文档内容提取.py——在extract(分章节和模块粗提取)

封面结构化信息提取.py

文档术语提取.py

标准前言信息提取.py

图片链接生成.py

parser_1.py——对上述结构化信息再整理

图谱搭建.py

技术路线

本体构建

图谱效果

单个标准文件

标准与标准之间

git地址：本机地址：E:\python project\pythonProject_draftKG\文件信息结构化

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Draft_KG2

内容部分

程序执行

技术路线

本体构建

图谱效果

单个标准文件

标准与标准之间

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
Django前端		Django前端
关键词抽取		关键词抽取
文件内容		文件内容
文本聚类		文本聚类
本体构建		本体构建
领域词典构建		领域词典构建
GJBremove.py		GJBremove.py
README.md		README.md
pdf2word.py		pdf2word.py
图片链接生成.py		图片链接生成.py
封面结构化信息提取.py		封面结构化信息提取.py
文档内容提取.py		文档内容提取.py
文档提取图片.py		文档提取图片.py
文档术语提取.py		文档术语提取.py
文档语言判别.py		文档语言判别.py
文档读取表格.py		文档读取表格.py
标准前言信息提取.py		标准前言信息提取.py

Hou-jing/Draft_KG2

Folders and files

Latest commit

History

Repository files navigation

Draft_KG2

内容部分

程序执行

技术路线

本体构建

图谱效果

单个标准文件

标准与标准之间

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages