avatar
Articles
29
Tags
7
Categories
6

首页
时间轴
标签
分类
清单
  • 音乐
  • 照片
  • 电影
友链
关于
Hexo
首页
时间轴
标签
分类
清单
  • 音乐
  • 照片
  • 电影
友链
关于

Hexo

llm可解释性论文合集
Created2024-11-24
A Mathematical Framework for Transformer Circuitshttps://transformer-circuits.pub/2021/framework/index.html 机制可解释性,试图逆向工程Transformer所执行的详细计算对特定注意力头进行研究(induction head) —> 这里只研究两层或者更少的注意力 Model Simplifications不考虑transformer框架中的mlp层,偏置和层归一化 Virtual Weights and the Residual Stream as a Communication Channel子空间概念: 模型处理信息时,信息所在的特征空间的不同部分每个层在处理信息时,不是一次性处理所有的信息,而是只关注其中的某一部分特征,这部分特征对应的是一个子空间注意力头选择操作不同的子空间,储存的信息相互独立在一个高维的残差流中,不同的层和不同的注意力头可以通过不同的子空间传递信息 问题与困惑1.将归一化合并到相邻权重是什么意思We do not consider bias ...
医学benchmark合集
Created2024-11-23
MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical Vision-Language Modelshttps://arxiv.org/pdf/2402.09262code 现状是现有评估制度不统一,这里建立了统一基准 related work几篇关于训练医学报告生成,VQA的论文需要看一下 任务图像分类、问答 (QA)、视觉 QA、报告摘要、报告生成和自然语言推理 (NLI) 多类别图像分类:除MIMIC-CXR数据集,模型的预测答案是通过计算模型响应与每个类别之间的BLEU分数来确定的,选择分数最高的类别对于MIMIC-CXR数据集,我们在响应上使用CheXBert标记器,提取类别以后使用macro F1, macro AUROC, and macro accuracy评估 Question answering:主要是选择题,是非题—>提取或者使用BLEU visual question answering:标记化预测答案和生成答案,用recall,F1等指标评估(封闭式和开放式问题对于recall的要求不 ...
数学题benchmark论文合集
Created2024-11-20
OMNI-MATH: A UNIVERSAL OLYMPIAD LEVEL MATHEMATIC BENCHMARK FOR LARGE LANGUAGE MODELShttps://arxiv.org/pdf/2410.07985 提出Omni-Math和Omni-Judge 数据收集: 从AoPS网站提取数据,多个答案相互比对数据标注: 手动标注验证数据集的解决方案和答案难度分级: 直接利用AoPS的难度评级,如果没有评级的比赛,用gpt4o领域划分: 用gpt4o验证: 对于生成的答案和标准答案格式不同的情况,采用gpt4o验证。同时训练一个Omni-Judge的评估模型,低成本评估模型解决方案和参考答案的一致性分析实验中:1.消除数据污染,n-gram准确性2.judge模型准确性3.不同领域,难度,相关度的数据上下文相互影响(这个测试任务mark一下) 问题与困惑4.4没看懂 Can Language Models Solve Olympiad Programming?https://arxiv.org/pdf/2404.10952 推理技术1.reflection2.RAG ...
多模态推理合集
Created2024-11-18
Multimodal Chain-of-Thought Reasoning in Language Models各方面实验比较完整,可以参考5和6分析与实验部分https://arxiv.org/pdf/2302.00923.pdfcode 提出multimodel-cot范式 backbone model基座模型T-SciQ提到这里微调的cot是人工标注的 方法激发方式两种: prompt或者finetune文章中第三部分详细对比了当前的cot方法遇到的问题,并且提出用图像特征来完成(3.1) prompt 使用caption model字幕模型 图片->文字(不是图像特征) 缺点: 信息丢失,不同模态表示空间缺乏相互协同,消耗额外资源部署finetune 两阶段: 生成推理原理;根据推理原理生成答案 这里是两个相同框架的独立模型 两个阶段比一个阶段更有效 注意力上是language和vision进行融合(需要结合源代码阅读) 基准数据集ScienceQA, A-OKVQA -> 带有注释推理链的多模态benchmark 问题 ...
医学多模态论文合集
Created2024-11-12
Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Datahttps://arxiv.org/pdf/2308.02463code 内容提出了RadFM,放射学基础模型 divide-and-conquer 分治构建多模态数据集MedMD,先用MedMD预训练再用从中提炼的RadMD微调提出RadBench评估基准 数据集组成1.interleaved dataset 从医学论文中提取出来图片和描述性文字2.visual-language instruction tuning dataset3.Radiology Multimodal Dataset 训练方法和任务预训练使用加权的负对数似然方法,对于UMLS(Unified Medical language system)中的词,设置更高的权重,对image token不设置权重 对于visual instruction dataset有五种任务,有些包含(是否/ ...
模型架构修改论文合集
Created2024-10-17
1.DIFFERENTIAL TRANSFORMERtransformer问题: 过度关注不相关的上下文 substantiate 证实 negligible 微不足道的 drowns out 淹没 改进:1.用差分注意力替换了传统的softmax注意力2.采用pre-RMSNorm和SwiGLU作为LLaMA的改进 论文中提到了其他技术Group Normalization: 参考文章全面解读Group Normalization-(吴育昕-何恺明)RMSNorm: 参考文章Llama改进之——均方根层归一化RMSNormSwiGLU: 参考文章SwiGLU 代码: 这里调用了flash_attn包 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091929394def ini ...
flow matching rlhf项目参考论文合集
Created2024-10-14
1.LLAVA-CRITIC: LEARNING TO EVALUATE MULTIMODAL MODELS提出LLaVA-Critic,旨在作为通用评估器来评估各种多模态任务的性能证明有效性的场景:1.LLM as a judge2.偏好学习 pointwise(Image, Question, Response, Reference, Evaluation Criteria, Score, Reason)收集了多个指令数据集模型响应来自于VLFeedback和GPT-4o用了7个广泛使用的多模态基准测试构建,并用GPT作为评估员pairwise(Image, Question, Response 1&2, Evaluation Criteria, Preference, Reason) 2.ALIGNING LARGE MULTIMODAL MODELS WITH FACTUALLY AUGMENTED RLHF问题: 跨模态幻觉解决方法: 提出Fact-RLHF,以事实增强用于视觉语言对齐评估方法: 开发了一个新的评估基准MMHAL-BENCH来评估模型在现实世界场景中的 ...
多模态入门
Created2024-10-13
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALEhttps://arxiv.org/pdf/2010.11929code 这里还是先参考解读文章: 再读VIT,还有多少细节是你不知道的 对一个图像做拆分,从patch->token例如对于224*224*3的图片,分割为196个16*16*3的小块patch 1.预处理对于其中一个patch做预处理得到1*1*768的张量这里用展平或者别的拉平方式都不好,使用CNN转换(768个16*16*3的卷积核) 2.将patch变成token,也就是embedding196*768的输入经过nn.Linear()的矩阵(768*n)变成196*n,得到了embedding, n可以理解为词向量维度,这里n是768注意: 这里和bert一样都需要加一个token \来处理分类任务,取出\对应的最后一层的向量,在加上一些全连接层就可以分类预测 3.加位置编码编码位置信息的方式差别不大 4.预训练 5.微调 —> 论文中讲的很简略这里微 ...
图片生成算法调研
Created2024-10-12
1.Denoising Diffusion Probabilistic Models之前的图片生成方法: GANs,自回归模型,flow,VAEs,这里提出扩散概率模型我这里没有看论文,有点抽象,先看了一篇解析很细致的博文: Diffusion Model 详解:直观理解、数学原理、PyTorch 实现 论文阅读未完待续~~~ 2.Diffusion Model Alignment Using Direct Preference Optimization这里需要补充一些数学基础极大似然: 快速理解极大似然法ELBO: 证据下界(ELBO)、EM算法、变分推断、变分自编码器(VAE)和混合高斯模型(GMM) 主要挑战: 参数的分布$p_{\theta}(x_0|c)$不可处理原因: 扩散过程中,每一步的噪声都是随机引入的,所以存在多种可能的路径可以导致同一个最终图像$x_0$,我们无法对所有可能的路径积分方法: 使用ELBO改写奖励模型的目标函数,取整个生成路径公式5+公式9->公式10公式11->公式12 利用马尔科夫链,将一串链条,变成一个时间点的抽样,利用Jenson ...
test time scaling调研
Created2024-10-05|大模型推理
分类:1.1-3关于小模型推理计算下比大模型更具有优势2.4关于搜索方法3.5-6关于RM训练 1.Large Language Monkeys: Scaling Inference Compute with Repeated SamplingAbstract探索了通过增加生成样本的数量来扩展推理计算的另一种方式在多个任务和模型中,覆盖率随着样本数量的增加而增加,覆盖率可以跨越四个数量级 (从1-10000次)在可以自动验证答案的领域(如编程和形式证明),这些覆盖率的提高直接转化为性能的提升探讨了在没有自动验证器的领域中,如何从许多生成的样本中识别正确的样本,这是未来研究的一个重要方向 Introduction重复采样的有效性由两个关键属性决定:1.覆盖范围: 随着样本数量的增加,我们可以使用生成的任何样本解决多少比例的问题2.精度: 在我们必须从生成的样本集合中选择最终答案的设置中,我们可以识别正确的样本吗 观察结果:1.覆盖范围随着样本数量几乎呈对数线性增长几个数量级 (state-of-the-art 最先进的)2.在没有自动验证器的领域,我们展示了像多数投票和奖励模型评 ...
123
avatar
Kevin
Articles
29
Tags
7
Categories
6
Follow Me
Announcement
This is my Blog
Recent Post
agent方向论文调研2025-02-25
多模态可解释性论文合集2025-01-17
视频图像推理benchmark调研2025-01-16
视频图像推理调研2025-01-13
数学题推理论文合集2025-01-10
Categories
  • 其他1
  • 大模型基础2
  • 大模型实践1
  • 大模型推理1
  • 强化学习基础3
  • 服务器1
Tags
论文解读MCTSllama2大模型推理gpttransformers随笔
Archives
  • February 20251
  • January 20254
  • December 20243
  • November 20247
  • October 20245
  • August 20241
  • July 20243
  • April 20242
Info
Article :
29
Total Count :
33.9k
UV :
PV :
Last Update :
©2020 - 2025 By Kevin
Framework Hexo|Theme Butterfly