Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问要怎么用自己製作的中文语料来进行训练呢? #2

Open
lilyliou opened this issue Apr 25, 2018 · 6 comments
Open

Comments

@lilyliou
Copy link

请问要怎么用自己製作的中文语料(.txt档案)来进行训练呢?

@lc222
Copy link
Owner

lc222 commented Apr 26, 2018

可以参考DeepQA里面的数据处理的代码把数据机构造成本模型所需要的格式即可。

@o55665516
Copy link

o55665516 commented May 29, 2018

DeepQA里面的数据处理的代码把数据机构造成本模型所需要的格式即可。

不好意思,可以在麻煩解說詳細一點嗎(需要改成哪些程式碼之類?或是有參考範例嗎~!?)

@lc222
Copy link
Owner

lc222 commented May 30, 2018

DeepQA/chatbot/目录下面的textdata.py是他写的数据类,你先把这个看懂,然后这个目录下面还有一个corpus目录,里面是各个数据集的处理方法,你可以选择一个对着看一下,应该就没什么问题了

@dykhliww
Copy link

DeepQA里面的数据处理的代码把数据机构造成本模型所需要的格式即可。

不好意思,可以在麻煩解說詳細一點嗎(需要改成哪些程式碼之類?或是有參考範例嗎~!?)

你好,请问使用自己的中文语料库做数据的问题你实现了吗,可以分享一下吗

@yjyGo
Copy link

yjyGo commented Apr 14, 2019

你先看清楚作者的训练数据是什么形式,他是用pickle将数据转储成二进制文件也就是data文件夹下面的dataset-cornell-length10-filter1-vocabSize40000.pkl,这个二进制文件里面是一个data词典,有三个key:word2id词典,id2word词典,还有转成索引号的问答对列表trainingSamples,你要做的就是把你的中文语料处理成这三个东西,再转储到pkl文件里面,替换掉作者的pkl文件,基本上没问题,我就是这么搞的。

@yjyGo
Copy link

yjyGo commented Apr 14, 2019

我今年三月份才开始搞问答,之前从没接触过

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants