本仓库是对大规模语言模型:从理论到实践一书第六章强化学习部分的内容讲解。包括介绍强化学习基本概念的示例代码和对应的PPT。
概念涉及强化学习中的Q-learning、DQN,策略梯度,广义优势估计,重要性采样,近端策略优化等。
参考书目包括:
- 大规模语言模型:从理论到实践
- 动手学强化学习
- 蘑菇书EasyRL
- Secrets of RLHF in Large Language Models Part I: PPO
- Proximal Policy Optimization Algorithms
- Learning to summarize from human feedback
参考博客