请问要怎么用自己製作的中文语料来进行训练呢？ #2

lilyliou · 2018-04-25T12:55:17Z

请问要怎么用自己製作的中文语料（.txt档案）来进行训练呢？

lc222 · 2018-04-26T08:12:31Z

可以参考DeepQA里面的数据处理的代码把数据机构造成本模型所需要的格式即可。

o55665516 · 2018-05-29T01:55:24Z

DeepQA里面的数据处理的代码把数据机构造成本模型所需要的格式即可。

不好意思，可以在麻煩解說詳細一點嗎(需要改成哪些程式碼之類?或是有參考範例嗎~!?)

lc222 · 2018-05-30T02:20:58Z

DeepQA/chatbot/目录下面的textdata.py是他写的数据类，你先把这个看懂，然后这个目录下面还有一个corpus目录，里面是各个数据集的处理方法，你可以选择一个对着看一下，应该就没什么问题了

dykhliww · 2019-01-19T13:17:10Z

DeepQA里面的数据处理的代码把数据机构造成本模型所需要的格式即可。

不好意思，可以在麻煩解說詳細一點嗎(需要改成哪些程式碼之類?或是有參考範例嗎~!?)

你好，请问使用自己的中文语料库做数据的问题你实现了吗，可以分享一下吗

yjyGo · 2019-04-14T07:01:44Z

你先看清楚作者的训练数据是什么形式，他是用pickle将数据转储成二进制文件也就是data文件夹下面的dataset-cornell-length10-filter1-vocabSize40000.pkl，这个二进制文件里面是一个data词典，有三个key：word2id词典，id2word词典，还有转成索引号的问答对列表trainingSamples，你要做的就是把你的中文语料处理成这三个东西，再转储到pkl文件里面，替换掉作者的pkl文件，基本上没问题，我就是这么搞的。

yjyGo · 2019-04-14T07:03:54Z

我今年三月份才开始搞问答，之前从没接触过

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问要怎么用自己製作的中文语料来进行训练呢？ #2

请问要怎么用自己製作的中文语料来进行训练呢？ #2

lilyliou commented Apr 25, 2018

lc222 commented Apr 26, 2018

o55665516 commented May 29, 2018 •

edited

Loading

lc222 commented May 30, 2018

dykhliww commented Jan 19, 2019

yjyGo commented Apr 14, 2019

yjyGo commented Apr 14, 2019

请问要怎么用自己製作的中文语料来进行训练呢？ #2

请问要怎么用自己製作的中文语料来进行训练呢？ #2

Comments

lilyliou commented Apr 25, 2018

lc222 commented Apr 26, 2018

o55665516 commented May 29, 2018 • edited Loading

lc222 commented May 30, 2018

dykhliww commented Jan 19, 2019

yjyGo commented Apr 14, 2019

yjyGo commented Apr 14, 2019

o55665516 commented May 29, 2018 •

edited

Loading