对话数据怎么设置不对别人说的话训练？ #264

petergaoshan · 2024-10-10T06:00:24Z

通常对话数据只在模型的回复上面进行梯度下降。比如把非模型输出的label index变成-100。
类似这样：

<start>user
你好<end>
<start> assistant
请问有什么帮助你的？<end>

transformer只在assistant后面进行梯度下降。
rwkv这种结构是不是不太适合这种只在回复上面训练的方式？如果适合，请问在RWKV-LM训练的时候是怎么设定的？

The text was updated successfully, but these errors were encountered:

Triang-jyed-driung · 2024-10-10T10:21:09Z

petergaoshan · 2024-10-11T02:12:17Z

RWKV的训练方式跟GPT、Llama完全一致。

在User上进行训练似乎没有副作用

感谢。主要很多时候user会犯错，模型要纠正user的错误。不想把错误也学进去。

uniartisan · 2024-10-19T04:35:29Z

Please consider using a loss with mask, you can skip user's tokens when calculating cross-entropy

Provide feedback