多模态推理合集

Multimodal Chain-of-Thought Reasoning in Language Models

各方面实验比较完整，可以参考5和6分析与实验部分
https://arxiv.org/pdf/2302.00923.pdf
code

提出multimodel-cot范式 backbone model基座模型
T-SciQ提到这里微调的cot是人工标注的

方法
激发方式两种: prompt或者finetune
文章中第三部分详细对比了当前的cot方法遇到的问题，并且提出用图像特征来完成(3.1)

prompt 使用caption model字幕模型图片->文字(不是图像特征) 缺点: 信息丢失，不同模态表示空间缺乏相互协同，消耗额外资源部署
finetune 两阶段: 生成推理原理；根据推理原理生成答案这里是两个相同框架的独立模型两个阶段比一个阶段更有效

注意力上是language和vision进行融合(需要结合源代码阅读)

基准数据集
ScienceQA, A-OKVQA -> 带有注释推理链的多模态benchmark

问题与疑惑
1.Note that our approach is general to both scenarios with or without image context. For the questions without associated images, we use all-zero vectors as the “blank features” with the same shape as the normal image features to tell the model to ignore them.
这里没有关联的图像直接置零？

收获
1.ScienceQA, A-OKVQA等可用数据集
2.注意力融合的方法

T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large Language Model Signals for Science Question Answering

https://arxiv.org/pdf/2305.03453
code

提出T-SciQ生成高质量的cot数据
提出新的数据混合策略，对于困难问题有任务拆解回答的PCoT数据集，简单问题直接CoT数据集
推理方法与multimodel cot中提到的一样，都是两阶段推理

方法
QA-CoT 对给定训练集要求 Please give me a detailed explanation
QA-PCoT 3步0-shot的prompt 概括主题，生成计划，生成理由
这两种数据混合效果在消融实验中得到了验证
对一个问题生成CoT和PCoT，除非PCoT错误数低于CoT，否则选用CoT数据，得到混合的训练数据集

问题与疑惑
1.这里生成CoT和PCoT的基座模型是multimodel-cot？

收获
1.generate cot的template
2.PCoT和CoT数据混合

Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic

https://arxiv.org/pdf/2306.15195
code

提出Shikra处理自然语言的空间坐标输入和输出，目标解决referential dialogue的问题
关注RD数据集

word
superset ？ spatial 空间的

related work
1.多模态位置相关的任务
task with output boxes: 输出方框指示目标位置

referring expression comprehension REC 定位目标
described object detection 将REC扩展到对象可能不存在或可能存在多个对象的更现实的场景中
VQA grounding 回答视觉问题，并将答案与特定的视觉区域或对象相关联

task with input boxes: 接受方框位置生成描述

grounding caption GC 通过考虑周围环境来生成对该位置的描述
reference expression generation REG 要求生成的描述是对该区域的特征描述，而不是对其他区域的特征描述，要求描述必须具有判别性
PointQA 查询图片中的特定位置

2.位置表达方法
input: 裁剪目标区域并与原始图片拼接，0/1掩码，高斯图
output: R-CNN, FCOS, DETR… 这里可以考虑调研一下

Shikra把input和output联系了起来，提出了简单的referential dialogue
优势: 可完成的任务更多，泛化能力更强

当前MLLM的问题
无法理解绝对空间
设计了2x2的chessboard任务测试LLaVA-13B，结果和随机选择的概率差不多

数据集
附录A中描述
1.数据集VL: 做重组后的开源数据数据处理中把测试和验证集中存在的图像去除(即使图像-文本对有区别)
2.数据集RD: 借助gpt4对于Flickr30K Entities生成高质量RD annotation 做RD(reference dialogue)任务

方法
模型架构: 很常规的pre-trained，ViT+CLIP
空间表示: 用[xmin,ymin,xmax,ymax]表示边界框，[xcenter,ycenter]表示区域中心点，根据图片大小做归一化处理
任务: 设计了任务的prompt—>详细见附录B
训练: 两阶段训练，先用数据集VL训练，再用LLaVA-Instruct-150K和数据集RD混合训练，这个过程中冻结视觉编码器
实验:
1.使用GCoT效果最好，也就是在CoT的过程中对每一个提到的物体生成中心坐标位置，而且使用CoT不如直接给答案，这个观点可以mark一下，和其他论文观点相似
2.各方面任务的测试可以注意一下

缺点和展望
用数字而不是添加location token的方法在稠密目标检测和分割任务上有困难
可以探索坐标表示方法

收获
1.用数字表示坐标
2.POPE 物体幻觉检测，可以找一下对应论文
3.任务和数据集的对应可以参考论文中图8
4.任务的prompt参考论文中图9

https://arxiv.org/pdf/2403.16999
code

发展能够处理多轮、动态聚焦视觉输入的方法

related work
常规训练方法: 先用image-caption对预训练，再用question-answer-box三元组对齐

数据集
3.1描述比较信息，结合附录的处理方法一起看

方法
文本用gpt-4注释，视觉用PaddleOCR注释
对于有可视化CoT注释的数据，先用prompt提取box(Please provide the bounding box coordinate of the region that can help you answer the question better.)
用visual sampler得到裁剪图片，然后整合原始图片和切割图片输入做推理
附录B

实验
消融实验:
1.得到结论，使用真实标注的边界框代替模型预测产生了最高的性能，另外选择随机盒子与w/o CoT效果差不多

问题与疑惑
1.对于裁剪图片的方法表示疑惑，和图3相比，visual sampler不是裁剪为一个正方块吗
而且这样的扩展可以得到更好的效果，视觉token的输入是一个正方形，所以根据4-坐标得到中心位置和宽度就可以了

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

https://arxiv.org/pdf/2411.10440v1
这篇文章没啥用

方法
4个推理过程: summary caption reasoning conclusion
并且用不同的special tags包裹，模型根据需要自主选择这些标签，根据自己的判断激活每个阶段
数据构建: 用gpt4o蒸馏生成详细推理过程

推理:
提出Stagelevel Beam Search，在每一个stage选择最佳选项

收获
1.即将开源的LLaVa-o1-100k数据集可以看看细节
2.使用一些special token，完成一次性推理

https://arxiv.org/pdf/2407.00087
使用RL和SFT结合的方法

方法

Multimodal Chain-of-Thought Reasoning in Language Models

T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large Language Model Signals for Science Question Answering

Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback