RL for LLM

Created2024-11-30|Updated2024-11-30

|Word Count:133|Reading Time:1mins|Post Views:

Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning

code
使用ORM，逆向课程学习的方法

方法
对一个正确答案中采样M个中间状态，并从这个中间状态以后开始往下推理，得到结果奖励
最开始采样距离目标最近的状态，而最后采样的状态是距离目标最远的状态
但简单推理的过拟合学习(距离目标近)会导致难以学习更难的推理，所以使用混合状态的方法

Author: Kevin