Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

有关数据集的格式 #1

Open
bigcat2333 opened this issue Apr 8, 2019 · 4 comments
Open

有关数据集的格式 #1

bigcat2333 opened this issue Apr 8, 2019 · 4 comments

Comments

@bigcat2333
Copy link

您好,我想问一下在这个model里,数据集采用的标注形式是怎样的呢?以及test.py文件我没有找见,可以麻烦解答一下么,谢谢!

@Chiang97912
Copy link
Owner

我已经将数据集添加到了仓库中,每一行就是一个json数据,具体格式你自己解码后查看。test.py文件我没有上传,具体代码和train.py差不多,你可以自己修改train.py。

@Jinbo-He
Copy link

我已经将数据集添加到了仓库中,每一行就是一个json数据,具体格式你自己解码后查看。test.py文件我没有上传,具体代码和train.py差不多,你可以自己修改train.py。

你好 我想问一下 在这个数据集中一些关于格式的问题 您这里有一份vocabulary idx+数字的组合 但是在其他的数据集中 有些是只有数字没有idx的 我有点迷惑 您能给我解答一下吗

@Chiang97912
Copy link
Owner

我已经将数据集添加到了仓库中,每一行就是一个json数据,具体格式你自己解码后查看。test.py文件我没有上传,具体代码和train.py差不多,你可以自己修改train.py。

你好 我想问一下 在这个数据集中一些关于格式的问题 您这里有一份vocabulary idx+数字的组合 但是在其他的数据集中 有些是只有数字没有idx的 我有点迷惑 您能给我解答一下吗

数据的每一行都是一个json,所以你需要使用json库一行一行的读取。每个json包括question_tokens、evidence_tokens、golden_answers、answer_start、answer_end等字段。其中question_tokens的值是问题分词后的结果,值的类型是数组,数组的每一项是unicode编码,evidence_tokens的值是支撑材料的分词结果,值的类型同样是数组,数组的每一项是unicode编码,golden_answers是精确答案,answer_start是答案在支撑材料中开始的索引位置,answer_end是答案在支撑材料中结束的索引位置。

@Jinbo-He
Copy link

Jinbo-He commented Sep 30, 2020 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants