llm可解释性论文合集

A Mathematical Framework for Transformer Circuits

https://transformer-circuits.pub/2021/framework/index.html

机制可解释性，试图逆向工程Transformer所执行的详细计算
对特定注意力头进行研究(induction head) —> 这里只研究两层或者更少的注意力

Model Simplifications
不考虑transformer框架中的mlp层，偏置和层归一化

Virtual Weights and the Residual Stream as a Communication Channel
子空间概念: 模型处理信息时，信息所在的特征空间的不同部分
每个层在处理信息时，不是一次性处理所有的信息，而是只关注其中的某一部分特征，这部分特征对应的是一个子空间
注意力头选择操作不同的子空间，储存的信息相互独立
在一个高维的残差流中，不同的层和不同的注意力头可以通过不同的子空间传递信息

问题与困惑
1.将归一化合并到相邻权重是什么意思
We do not consider biases, but a model with biases can always be simulated without them by folding them into the weights and creating a dimension that is always one.

Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models

https://arxiv.org/pdf/2402.16438
code

提出根据language activation probability entropy来检测LLM内的语言特定神经元

之前的工作
FFN模块可以存储事实知识，位置编码信息，句法触发器

评价指标
几个考察方式

Language activation probability entropy (LAPE)
对FFN的activation神经元计算该语言下激活的数学期望值，然后对期望向量(几种语言)做L1正则化，然后计算这几种语言激活概率的熵之和
对于低的LAPE分数作为language-specific neurons
Language activation probability (LAP)
激活概率超过95%看做language-specific
Language activation value entropy (LAVE)
用跨语言的平均激活值替换激活概率
Parameter variation (PV)
计算各种语言之间的变化率，并选择在一两个语言中表现出较低变化率的参数但在其他语言中比例很高
Random selection (RS)
每种语言随机选择神经元

微扰实验
考察对一种语言专有的1%神经元干扰，PPL(perplexity，困惑度)分数的改变
结果: 停用语言特定神经元会显着损害目标语言的生成能力

分析和结论
主要分为以下几点

计算1%(这是假设总体神经元中只有1%是有特定语言的)下的不同language-specific神经元分布，然后在0-10%的ratio下考察，从PPL数据得到结论相似语言受到的影响大
语言处理聚集(激活的神经元比较多)在底层和顶层，通过计算不同语言下相同文本的mean sentence embedding similarity(经过embedding后的向量)，发现在底层需要将不同语言的对齐文本映射到共享表示空间，因此需要更多特定于语言的神经元进行语义转换；在顶层服务于token生成的同时，LLM需要处理词汇映射
高资源的language-specific神经元数量少于其他语言—-language dominance measurement方法？
引导llm输出的语言，促进跨语言生成。对language-specific神经元的激活值主动加到语言的平均值，有效改善脱靶问题(用一种语言提示，但生成另外一种语言的响应);关闭某种语言，激活另外一种语言，改变了预期的输出语言

疑惑
1.这里SES实际操作怎么做呢，对于两个同样意思不同语言的话，token数不同，不太好做相似度计算吧—-看具体实现代码，一般来说是比如是取10个中文，10个英文，截取相同长度来做相似度计算，如果要算不同长度的话可以用fid, cka这些指标
2.分析的3.3.3不太懂—-确实没说清楚
3.LAPE分数低然后怎么判断属于哪一种language-specific呢—-先判断是否LAPE分数低，然后只有某种语言激活概率超过0.515(超过95%)，才能算

How do Large Language Models Handle Multilingualism?

https://arxiv.org/pdf/2402.18815
code

提出Parallel Language-specific Neuron Detection检测方法

PLND
SND

$\text{Imp}(N^{(i)} | c) = \| T_i \backslash N^{(i)}(h_i) - T_i(h_i) \|_2$ $\{N^{(i)} | \text{Imp}(N^{(i)} | c_l) \geq \epsilon, \forall c_l \in C \}$

然后对sequential neuron Detection做并行化，对比是否去掉注意力和FNN层中的特定神经元得到的L2范数

结论: 停用很少的language-specific神经元会导致多语言能力崩溃，随机停用没有影响

MWork
提出这样的多语言理解框架
这里分层根据每一层上统计的神经元激活数量来确定
1.LLM通过统一不同的语言特征来理解用户输入—-理解层(前几层)
2.进入任务解决阶段，分别使用英语进行推理并通过自注意力和前馈结构利用多语言知识—-任务解决层
3.模型生成与查询的原始语言一致的响应—-生成层(最后几层)

分层: 理解层的全部，任务解决层中attention和FNN(这里分开因为我们倾向于认为attention是理解上下文，FNN是提取储存的知识)，生成层的全部
验证实验: 理解，推理，知识提取，生成
结论:

前几层负责理解，因为禁用这些层中的语言特异性神经元仅使LLMs在非英语语言的自然语言理解（NLU）任务上失效。此外，禁用任务解决层的语言特异性神经元表明LLMs依赖英语，因为所有语言的表现都下降了
任务解决层对于推理任务至关重要，且该层中的语言特异性神经元对不同语言的表现有显著影响，其中注意力结构在推理过程中发挥重要作用
前馈结构在任务解决层中对多语言知识提取起关键作用，而自注意力结构对解决跨语言任务至关重要
生成层中的语言特异性神经元对生成对应语言的内容至关重要，通过调节这些神经元可以精确地控制模型的多语言生成能力

之后针对这些神经元进行微调

疑惑和想法
1.这里的并行是把一行的神经元看成一个—-不管了
2.相比于前一篇论文这里还考察了注意力的神经元
3.停用不相关神经元是不是有时候还能提升性能
4.实验中停用神经元组件的疑惑，表3和表4对比禁用了理解和生成层不太懂—-不管了

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

https://arxiv.org/pdf/2501.17161

结论:
RL 在文本和视觉任务中都比 SFT 具有更好的泛化能力
SFT 更容易记住训练数据，难以应对 OOD 任务
RL 还能增强 VLM 的视觉识别能力
尽管 RL 泛化能力更强，但 SFT 仍然在 RL 训练中起到重要作用
多步验证（verification iterations）能进一步提高 RL 的泛化能力—-多轮对话+RL，验证提供奖励信号

收获
1.verifer提供奖励提升性能—-减少搜索空间

ECM: A Unified Electronic Circuit Model for Explaining the Emergence of In-Context Learning and Chain-of-Thought in Large Language Model

https://arxiv.org/pdf/2502.03325

之前的工作将ICL和CoT分开解释，这里结合起来