识别到的标题没有text字段以及标题识别不准确的问题 #177

ZzYAmbition · 2024-11-21T04:40:33Z

这是识别pdf生成的json一部分

缺少text字段。
用的模型如下：

标题识别不准确

这种换行标题以及标题和正文在一起有办法识别吗？

下面是识别用到的文件
中医药单用_联合抗生素治疗社区获得性肺炎临床实践指南_李得民.pdf
桂枝茯苓胶囊临床应用指南（2021年）_《中成药治疗优势病种临床应用指南》标准化项目组.pdf

wufan-tb · 2024-11-25T03:36:21Z

标题和text是独立检测的，不会放在一起保存（比如layout如果有10个类，你可以理解为text是第11个类），后处理阶段会比较text的框和layout的框，从而把有文字的布局框中的文字提取出来，可以试试把配置文件中的merge2markdown设置为True看下效果，如果文档排版比较复杂的话，也可以试试MinerU

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

识别到的标题没有text字段以及标题识别不准确的问题 #177

识别到的标题没有text字段以及标题识别不准确的问题 #177

ZzYAmbition commented Nov 21, 2024

wufan-tb commented Nov 25, 2024 •

edited

Loading

识别到的标题没有text字段以及标题识别不准确的问题 #177

识别到的标题没有text字段以及标题识别不准确的问题 #177

Comments

ZzYAmbition commented Nov 21, 2024

标题识别不准确

这种换行标题以及标题和正文在一起有办法识别吗？

wufan-tb commented Nov 25, 2024 • edited Loading

wufan-tb commented Nov 25, 2024 •

edited

Loading