从gpt1到gpt3.5
文章和课程
这篇知乎上的文章和李沐b站上对于gpt1-3的讲解比较类似,这部分内容有transformer基础就可以看。
这篇文章结构和内容感觉是看得几篇文章里面比较全面的,从几个gpt模型的结构,到训练数据来源,训练方法,局限性等等角度进行解析,但是对于gpt3的内容讲解比较简略。
这里补充一篇gpt3的讲解文章,我认为提到很重要的一点就是gpt3出现的上下文能力(In context learning),解释上下文能力的论文比较复杂,笔者还未学习。
技术创新
这里的进化之路中涉及很多技术细节,这里就选取我认为比较重要的部分。
- zero,one,few-shot
gpt2和gpt3用了这个方法,相比之下gpt1使用预训练后再针对不同任务做微调模型的方法,这样模型的泛化能力就比较差。
这里都是不进行任何梯度更新的,和fine-tuning基于标注数据对模型参数进行更新不同。 - RLHF
参考文章:https://zhuanlan.zhihu.com/p/677607581
这篇文章从强化学习的基础开始讲起,比较详细。
以下就是个人认为需要关注的技术要点actor-critic的网络为什么这样使用?
建议还是看一下王树森的《深度强化学习》。简而言之,critic网络就是为了近似动作价值函数的。 的来源就是策略梯度定理,详细内容在书本的第七章。
个人强化学习相关网址:强化学习入门指南
Reference Model参考模型,用KL散度衡量输出分布的相似度
对于优势函数的设计过程
可以先学习一下PPO和GAE的内容再来看这篇文章。 - codex
参考视频:b站李沐
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.