Multimodal Chain-of-Thought Reasoning in Language Models

各方面实验比较完整,可以参考5和6分析与实验部分
https://arxiv.org/pdf/2302.00923.pdf
code

提出multimodel-cot范式 backbone model基座模型
T-SciQ提到这里微调的cot是人工标注的

方法
激发方式两种: prompt或者finetune
文章中第三部分详细对比了当前的cot方法遇到的问题,并且提出用图像特征来完成(3.1)

prompt 使用caption model字幕模型 图片->文字(不是图像特征) 缺点: 信息丢失,不同模态表示空间缺乏相互协同,消耗额外资源部署
finetune 两阶段: 生成推理原理;根据推理原理生成答案 这里是两个相同框架的独立模型 两个阶段比一个阶段更有效

注意力上是language和vision进行融合(需要结合源代码阅读)

基准数据集
ScienceQA, A-OKVQA -> 带有注释推理链的多模态benchmark

问题与疑惑
1.Note that our approach is general to both scenarios with or without image context. For the questions without associated images, we use all-zero vectors as the “blank features” with the same shape as the normal image features to tell the model to ignore them.
这里没有关联的图像直接置零?

收获
1.ScienceQA, A-OKVQA等可用数据集
2.注意力融合的方法

T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large Language Model Signals for Science Question Answering

https://arxiv.org/pdf/2305.03453
code

提出T-SciQ生成高质量的cot数据
提出新的数据混合策略,对于困难问题有任务拆解回答的PCoT数据集,简单问题直接CoT数据集
推理方法与multimodel cot中提到的一样,都是两阶段推理

方法
QA-CoT 对给定训练集要求 Please give me a detailed explanation
QA-PCoT 3步0-shot的prompt 概括主题,生成计划,生成理由
这两种数据混合效果在消融实验中得到了验证
对一个问题生成CoT和PCoT,除非PCoT错误数低于CoT,否则选用CoT数据,得到混合的训练数据集

问题与疑惑
1.这里生成CoT和PCoT的基座模型是multimodel-cot?

收获
1.generate cot的template
2.PCoT和CoT数据混合

Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic

https://arxiv.org/pdf/2306.15195
code

提出Shikra处理自然语言的空间坐标输入和输出,目标解决referential dialogue的问题
关注RD数据集

word
superset ? spatial 空间的

related work
1.多模态位置相关的任务
task with output boxes: 输出方框指示目标位置

referring expression comprehension REC 定位目标
described object detection 将REC扩展到对象可能不存在或可能存在多个对象的更现实的场景中
VQA grounding 回答视觉问题,并将答案与特定的视觉区域或对象相关联

task with input boxes: 接受方框位置生成描述

grounding caption GC 通过考虑周围环境来生成对该位置的描述
reference expression generation REG 要求生成的描述是对该区域的特征描述,而不是对其他区域的特征描述,要求描述必须具有判别性
PointQA 查询图片中的特定位置

2.位置表达方法
input: 裁剪目标区域并与原始图片拼接,0/1掩码,高斯图
output: R-CNN, FCOS, DETR… 这里可以考虑调研一下

Shikra把input和output联系了起来,提出了简单的referential dialogue
优势: 可完成的任务更多,泛化能力更强

当前MLLM的问题
无法理解绝对空间
设计了2x2的chessboard任务测试LLaVA-13B,结果和随机选择的概率差不多

数据集
附录A中描述
1.数据集VL: 做重组后的开源数据 数据处理中把测试和验证集中存在的图像去除(即使图像-文本对有区别)
2.数据集RD: 借助gpt4对于Flickr30K Entities生成高质量RD annotation 做RD(reference dialogue)任务

方法
模型架构: 很常规的pre-trained,ViT+CLIP
空间表示: 用[xmin,ymin,xmax,ymax]表示边界框,[xcenter,ycenter]表示区域中心点,根据图片大小做归一化处理
任务: 设计了任务的prompt—>详细见附录B
训练: 两阶段训练,先用数据集VL训练,再用LLaVA-Instruct-150K和数据集RD混合训练,这个过程中冻结视觉编码器
实验:
1.使用GCoT效果最好,也就是在CoT的过程中对每一个提到的物体生成中心坐标位置,而且使用CoT不如直接给答案,这个观点可以mark一下,和其他论文观点相似
2.各方面任务的测试可以注意一下

缺点和展望
用数字而不是添加location token的方法 在稠密目标检测和分割任务上有困难
可以探索坐标表示方法

收获
1.用数字表示坐标
2.POPE 物体幻觉检测,可以找一下对应论文
3.任务和数据集的对应可以参考论文中图8
4.任务的prompt参考论文中图9

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

https://arxiv.org/pdf/2403.16999
code

发展能够处理多轮、动态聚焦视觉输入的方法

related work
常规训练方法: 先用image-caption对预训练,再用question-answer-box三元组对齐

数据集
3.1描述比较信息,结合附录的处理方法一起看

方法
文本用gpt-4注释,视觉用PaddleOCR注释
对于有可视化CoT注释的数据,先用prompt提取box(Please provide the bounding box coordinate of the region that can help you answer the question better.)
用visual sampler得到裁剪图片,然后整合原始图片和切割图片输入做推理
附录B

实验
消融实验:
1.得到结论,使用真实标注的边界框代替模型预测产生了最高的性能,另外选择随机盒子与w/o CoT效果差不多

问题与疑惑
1.对于裁剪图片的方法表示疑惑,和图3相比,visual sampler不是裁剪为一个正方块吗
而且这样的扩展可以得到更好的效果,视觉token的输入是一个正方形,所以根据4-坐标得到中心位置和宽度就可以了

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

https://arxiv.org/pdf/2411.10440v1
这篇文章没啥用

方法
4个推理过程: summary caption reasoning conclusion
并且用不同的special tags包裹,模型根据需要自主选择这些标签,根据自己的判断激活每个阶段
数据构建: 用gpt4o蒸馏生成详细推理过程

推理:
提出Stagelevel Beam Search,在每一个stage选择最佳选项

收获
1.即将开源的LLaVa-o1-100k数据集可以看看细节
2.使用一些special token,完成一次性推理

ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback

https://arxiv.org/pdf/2407.00087
使用RL和SFT结合的方法

方法