RL for LLM
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning
code
使用ORM,逆向课程学习的方法
方法
对一个正确答案中采样M个中间状态,并从这个中间状态以后开始往下推理,得到结果奖励
最开始采样距离目标最近的状态,而最后采样的状态是距离目标最远的状态
但简单推理的过拟合学习(距离目标近)会导致难以学习更难的推理,所以使用混合状态的方法
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.