-
Notifications
You must be signed in to change notification settings - Fork 17
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
有关数据集的格式 #1
Comments
我已经将数据集添加到了仓库中,每一行就是一个json数据,具体格式你自己解码后查看。test.py文件我没有上传,具体代码和train.py差不多,你可以自己修改train.py。 |
你好 我想问一下 在这个数据集中一些关于格式的问题 您这里有一份vocabulary idx+数字的组合 但是在其他的数据集中 有些是只有数字没有idx的 我有点迷惑 您能给我解答一下吗 |
数据的每一行都是一个json,所以你需要使用json库一行一行的读取。每个json包括question_tokens、evidence_tokens、golden_answers、answer_start、answer_end等字段。其中question_tokens的值是问题分词后的结果,值的类型是数组,数组的每一项是unicode编码,evidence_tokens的值是支撑材料的分词结果,值的类型同样是数组,数组的每一项是unicode编码,golden_answers是精确答案,answer_start是答案在支撑材料中开始的索引位置,answer_end是答案在支撑材料中结束的索引位置。 |
好的 非常感谢您的解答
…---原始邮件---
发件人: "Peter Chiang"<[email protected]>
发送时间: 2020年9月30日(周三) 下午5:47
收件人: "Chiang97912/DGCNN"<[email protected]>;
抄送: "Bleak"<[email protected]>;"Comment"<[email protected]>;
主题: Re: [Chiang97912/DGCNN] 有关数据集的格式 (#1)
我已经将数据集添加到了仓库中,每一行就是一个json数据,具体格式你自己解码后查看。test.py文件我没有上传,具体代码和train.py差不多,你可以自己修改train.py。
你好 我想问一下 在这个数据集中一些关于格式的问题 您这里有一份vocabulary idx+数字的组合 但是在其他的数据集中 有些是只有数字没有idx的 我有点迷惑 您能给我解答一下吗
数据的每一行都是一个json,所以你需要使用json库一行一行的读取。每个json包括question_tokens、evidence_tokens、golden_answers、answer_start、answer_end等字段。其中question_tokens的值是问题分词后的结果,值的类型是数组,数组的每一项是unicode编码,evidence_tokens的值是支撑材料的分词结果,值的类型同样是数组,数组的每一项是unicode编码,golden_answers是精确答案,answer_start是答案在支撑材料中开始的索引位置,answer_end是答案在支撑材料中结束的索引位置。
—
You are receiving this because you commented.
Reply to this email directly, view it on GitHub, or unsubscribe.
|
您好,我想问一下在这个model里,数据集采用的标注形式是怎样的呢?以及test.py文件我没有找见,可以麻烦解答一下么,谢谢!
The text was updated successfully, but these errors were encountered: