本人参与的工作
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervisionhttps://arxiv.org/pdf/2411.16579
agent方向论文调研
考察的问题1.目前看到的论文大多与RAG相关,所以首先关注知识库构建的来源,提供哪些查询方式2.如何融入查询的过程(联想到一些长下文的工作),提供的知识库引入方式有special token—-prompt/sft3.对于复杂的任务进行分解4.o1模型中提到的critique和refinement,目前没有看到这样的工作。比如提取到一个知识库之后发现没法很好的解决问题,然后进行回退
Search-o1: Agentic Search-Enhanced Large Reasoning Modelshttps://arxiv.org/pdf/2501.05366code
motivation: 长思维链导致过度思考和增加知识不足的风险,在推理过程中高频的prehaps表明缺乏知识这篇文章涉及到的触发检索是以prompt形式完成的
疑惑与想法1.如果想触发检索,是不是用一些高质量数据做监督微调更好,让模型自适应的学会去查询什么信息,这里可以考虑构建一个pipeline—-具体这里怎么去实现
AGENTGYM: Evolving Large Language Model-based Age ...
多模态可解释性论文合集
OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocationhttps://arxiv.org/pdf/2311.17911code
关键观察: 幻觉问题与自注意力矩阵中的知识聚合模式密切相关,MLLMs往往通过关注少数几个总结性token来生成新token,而忽视了图像tokens的完整信息,导致幻觉的产生其中许多幻觉内容的开始与柱状注意力模式后生成的后续标记一致,而且往往体现在句号这种缺乏信息的token上
聚合模式似乎是LLM的本质 LLM倾向于聚合浅层的一些anchor token的先前信息,并根据深层的这些锚标记预测下一个标记
聚合模式导致幻觉 当前的MLLM通常将vision token放在序列的开头,并且期望它们专注于vision token并提供精确的理解。然而随着生成的文本越长,摘要标记之间的信息传递过程中视觉信息就越容易衰减 出现summary token越多,越容易触发幻觉 ...
视频图像推理benchmark调研
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaceshttps://arxiv.org/pdf/2412.14171
当前情况: 视觉空间智能未被探索
提出概念: visual-spatial intelligence能力分类:视觉-空间智能的能力可以分为视觉感知、语言智能、时间处理和空间推理。空间推理进一步细分为关系推理和自我中心-环境中心转换
提出VSI-bench:1.configuration—-计数,相对距离,相对方向,路线规划2.measurement estimation—-物体大小,房间大小,绝对距离3.spatiotemporal—-出现顺序
分析错误: 发现主要问题在空间推理上不行改进方法: 构建一致的空间布局表示 cognitive maps,这里分别考察了生成map和预先规划好map,都有不小的提升
视频图像推理调研
V*: Guided Visual Search as a Core Mechanism in Multimodal LLMshttps://arxiv.org/pdf/2312.14135
视觉搜索两大因素:1.top-down feature guidance2.contextual scene guidance
当前的问题:1.基于预训练的视觉编码器分辨率低,需要把图片resize成低分辨率,忽视一些细节2.无法识别缺失或不清楚的视觉细节,无法查找请求这些丢失的信息
提出SEAL架构,一个VQA LLM和一个视觉搜索模型组成,都是用llava初始化设计V搜索算法模仿人类的视觉搜索提出Vbench
总体架构主要是VWM储存所需的内容,不断缩小图片进行搜索注意点: 3.1最后提到视觉投射层使用linear projection或cross-attention based resampler projection
训练数据处理negative data: 图像中不存在的物体以及无法被clip编码器捕捉的问题(20*20以内)进行提问,要求列出所有需要额外的目标物体 —- gpt3.5生 ...
数学题推理论文合集
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinkinghttps://arxiv.org/pdf/2501.04519
核心点:1.mcts生成的推理轨迹—-生成单步,代码生成验证2.奖励模型训练—-利用mcts的Q值作为正确/错误的划分,而非reward label3.自我迭代
Common 7B Language Models Already Possess Strong Math Capabilitieshttps://arxiv.org/pdf/2403.04706
使用合成数据提出instability issue: 尽管模型在生成多个答案时具有较高的准确率,但难以保证在每次生成中都能稳定地产生正确答案
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learninghttps://github.com/deepseek-ai/DeepSeek-R1/blob/main/D ...
多模态benchmark论文合集
MMSCI: A DATASET FOR GRADUATE-LEVEL MULTIDISCIPLINE MULTIMODAL SCIENTIFIC UNDERSTANDINGhttps://arxiv.org/pdf/2407.04903
两个benchmark1.MMSCICAP(1)只给图片生成caption (2)给abstract,提供了图形的上下文生成caption指标: ROUGE, METEOR, BERTScore, 经过修改的FACTSCORE(专注于precision而非recall), G-Eval
2.MMSCIQA—>选择题(1)figure->caption 负例用同一个文章中其他caption(2)subfigure->subcaption 负例用同一个图片其他3个子标题(3)subcaption->subfigure 图中所有子图作为选项
ICL论文合集
In-Context Learning with Long-Context Models: An In-Depth Explorationhttps://arxiv.org/pdf/2405.00200code
长上下文ICL可能非常有效,但大部分收益来自于回顾类似的例子,而不是任务学习
实验对比方法:1.采样固定子集2.检索每个示例的相关数据(使用BM25检索器)3.对完整数据集进行微调(使用分类头?)模型:不同长度的预训练模型—>一般也选择这些 猜测原因:或许是这样更容易对比出结果
基础结论1.更长的上下文会降低仔细选择上下文示例的重要性(随机/检索),检索相对于随机的优势随着例子增多不断变小2.微调相比于ICL需要更多数据 —> 没啥意思3.提供额外上下文输入可能会降低性能,但整体还是不断提升的4.载所有上下文长度下对示例顺序都有一定的敏感性,但随着上下文的增加,这种影响会大大减弱5.把相同标签的排序放在一起,随着示例增加,对性能有很大负面影响 —> 论证示例的随机分布对于保持模型性能的重要性
研究长ICL起作用的原因实验设置: 修改注意力形式,用一个个块分割 ...
切割模型论文合集
Segment Anythinghttps://arxiv.org/pdf/2304.02643code
解析文章: Segment-anything学习到微调系列2_SAM细节理解和部分代码
图像分割开山之作,值得精读
Segment anything in medical imageshttps://www.nature.com/articles/s41467-024-44824-z
LISA: Reasoning Segmentation via Large Language Modelhttps://arxiv.org/pdf/2308.00692code
利用seg特殊token的embedding做变换映射为一个掩码图
收获1.有文本-图片-掩码数据集
One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Promptshttps://arxiv.org/pdf/2312.17183提出了SAT通用模型,可以使用文本提示对放射扫描的内容进行分割
之前的工 ...
RL for LLM
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learningcode使用ORM,逆向课程学习的方法
方法对一个正确答案中采样M个中间状态,并从这个中间状态以后开始往下推理,得到结果奖励最开始采样距离目标最近的状态,而最后采样的状态是距离目标最远的状态但简单推理的过拟合学习(距离目标近)会导致难以学习更难的推理,所以使用混合状态的方法