flow matching rlhf项目参考论文合集
1.LLAVA-CRITIC: LEARNING TO EVALUATE MULTIMODAL MODELS
提出LLaVA-Critic,旨在作为通用评估器来评估各种多模态任务的性能
证明有效性的场景:
1.LLM as a judge
2.偏好学习
pointwise
(Image, Question, Response, Reference, Evaluation Criteria, Score, Reason)
收集了多个指令数据集
模型响应来自于VLFeedback和GPT-4o
用了7个广泛使用的多模态基准测试构建,并用GPT作为评估员
pairwise
(Image, Question, Response 1&2, Evaluation Criteria, Preference, Reason)
2.ALIGNING LARGE MULTIMODAL MODELS WITH FACTUALLY AUGMENTED RLHF
问题: 跨模态幻觉
解决方法: 提出Fact-RLHF,以事实增强用于视觉语言对齐
评估方法: 开发了一个新的评估基准MMHAL-BENCH来评估模型在现实世界场景中的表现,特别是惩罚幻觉的能力
基础模型问题: 缺乏高质量视觉指令调整数据,LLaVA模型是从预训练的视觉编码器和指令调整的语言模型初始化的,只接受了15万个基于合成图像的对话的训练
增强sft和收集人类偏好数据(主要是幻觉)
使用转换为多轮QA任务的VQA-v2,A-OKVQA和Spotting Captioning任务的Flickr30k进一步sft
在增加sft模型的基础上收集10k数据,然后根据一个筛选模版人工处理幻觉,并且用人工标注的数据训练奖励模型
Fact-RLHF
对于LLaVA合成的多轮数据只使用第一个问题进行RL训练,担心上下文幻觉
相比普通RLHF增加了关于图像的文字描述事实
同时也有长度惩罚(令牌数量惩罚)
实验细节
reward model和base model一样的基本结构,在此基础上对最后一个token嵌入输出向量加上一个全连接层,value model初始化为reward model
构建的评测数据集
评测数据集
3.PROMETHEUS-VISION: Vision-Language Model as a Judge for Fine-Grained Evaluation
介绍了一个名为PROMETHEUS-VISION的新型开源视觉语言模型评估器
问题: 传统指标依赖于基于文本的精确匹配或编辑距离(重点关注如何生成的文本与参考标题对齐,视觉问答是使用基于模型答案与人工注释答案之间的精确匹配的准确度指标来评估的),无法遵守感兴趣的细粒度评估标准并捕获输出中丰富的上下文
方法: 通过一个新的15k多模态反馈数据集训练(fine-grained代替coarse-grained数据)微调LLaVa-1.5 13B
相关工作: 细粒度评估,论文可以多看看
数据组成: 输入(image, instruction, response to evaluate, customized score rubric, reference answer)和输出(feedback, score)
数据生成:
1.先写50个分数指标
2.对真实世界5k图像逐一生成3个打分指标
3.对每个打分指标生成2个instruction
4.最后对于每一个instruction生成5个response和feedback
测试方法: 人工和gpt4v相结合
1.给定图像和文本指令编写文本输出
2.给定图像和问题输出文本
3.给定图像编写文本标题
评估这个评估器的指标(实验需要与人类评估器和gpt4v对比)
1.数据集LLaVa-Bench, Visit-Bench, Perception-Bench
2.指标Pearson correlation, kendall-Tau, Spearman
4.Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
提出了BPO,通过引导模型自身生成负面响应,构建了偏好数据集,并利用该数据集进行偏好学习 corpus 语料库
发现的问题: (很重要)
1.多模态大模型对齐阶段训练样本比文本大模型少很多,容易会出现预训练分布主导多模态大模型生成,需要有更好的训练方法适应新的偏好
2.训练多模态的价值函数的时候,图像的连续分布让模型偏好具有挑战
自动收集负面回答:
1.对图像进行扭曲,类似diffusion的前向过程
2.注入文本的错误响应细节