Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Question]: 根据官方文档利用label studio进行文档信息抽取标注,然后用脚本转换,发现前一两个字会漏掉,有什么好的处理方法么。 #9501

Open
lidra opened this issue Nov 26, 2024 · 7 comments
Assignees
Labels
question Further information is requested

Comments

@lidra
Copy link

lidra commented Nov 26, 2024

请提出你的问题

根据官方文档利用label studio进行文档信息抽取标注,然后用脚本转换,发现前一两个字会漏掉,有什么好的处理方法么。
我尝试了在标注的时候标注框尽可能往前放,也是不行。

@lidra lidra added the question Further information is requested label Nov 26, 2024
@lidra
Copy link
Author

lidra commented Nov 26, 2024

如果转换后的json文件不对,怎么进行调整呢,看不太懂格式,不知道怎么调整。

@wawltor
Copy link
Collaborator

wawltor commented Nov 26, 2024

能截图或者提供下相关日志信息吗?

@lidra
Copy link
Author

lidra commented Nov 26, 2024

是标注的身份证图片,隐私问题,不好抛原图。给你看一下我标注的图和抽取结果
标注
结果

@lidra
Copy link
Author

lidra commented Nov 26, 2024

能截图或者提供下相关日志信息吗?

您看下我的回答

@wawltor
Copy link
Collaborator

wawltor commented Nov 27, 2024

能截图或者提供下相关日志信息吗?

您看下我的回答

这个看起来是label stuido标注的问题,建议去 https://github.com/HumanSignal/label-studio 建个issue看看

@lidra
Copy link
Author

lidra commented Nov 27, 2024

能截图或者提供下相关日志信息吗?

您看下我的回答

这个看起来是label stuido标注的问题,建议去 https://github.com/HumanSignal/label-studio 建个issue看看

nin您好,我看着感觉是转换脚本label_studio.py处理的时候出现的问题。转换脚本代码还没完全读明白,不知道是否有这块代码的逻辑解释,但是我debug了一下,脚本的第一步是做ocr识别,这一步会出现识别文字不准确的问题。我怀疑有可能是ocr识别的位置框不准确导致的,这需要搞清楚脚本的逻辑定位问题。
捕获

@lidra
Copy link
Author

lidra commented Nov 27, 2024

能截图或者提供下相关日志信息吗?

您看下我的回答

这个看起来是label stuido标注的问题,建议去 https://github.com/HumanSignal/label-studio 建个issue看看

nin您好,我看着感觉是转换脚本label_studio.py处理的时候出现的问题。转换脚本代码还没完全读明白,不知道是否有这块代码的逻辑解释,但是我debug了一下,脚本的第一步是做ocr识别,这一步会出现识别文字不准确的问题。我怀疑有可能是ocr识别的位置框不准确导致的,这需要搞清楚脚本的逻辑定位问题。 捕获

您好,我想表达的意思是,label_studio.py的处理逻辑就注定通过脚本出来的数据就不是百分百准确和靠谱的,是不是需要人工干预来保证训练数据的准确性。如果需要人工干预,那如何干预呢,是否有教程。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

3 participants