Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning

code
使用ORM,逆向课程学习的方法

方法
对一个正确答案中采样M个中间状态,并从这个中间状态以后开始往下推理,得到结果奖励
最开始采样距离目标最近的状态,而最后采样的状态是距离目标最远的状态
但简单推理的过拟合学习(距离目标近)会导致难以学习更难的推理,所以使用混合状态的方法