近年来,Transformer 架构在自然语言处理领域取得了巨大成功,从机器翻译到文本生成,其强大的建模能力为语言理解与生成带来了前所未有的突破。
然而,随着模型规模的不断扩大和应用场景的日益复杂,传统 Transformer 架构逐渐暴露出缺陷,尤其是在处理长文本、关键信息检索以及对抗幻觉等任务时,Transformer 常常因过度关注无关上下文而陷入困境,导致模型表现受限。
为攻克这一难题,来自微软和清华的研究团队提出了DIFF Transformer,一种基于差分注意力机制的创新基础模型架构。
论文标题:Differential Transformer论文链接:https://openreview.net/pdf?id=OvoCm1gGhN代码链接:https://aka.ms/Diff-Transformer
其核心思想是通过计算两组 Softmax 注意力图的差值来放大对关键上下文的关注,同时消除注意力噪声干扰。DIFF Transformer 具备以下显著优势:
在语言建模任务中,DIFF Transformer 在模型大小、训练 token 数量等方面展现出了卓越的可扩展性,仅需约 65% 的模型规模或训练 token 数量即可达到与传统 Transformer 相当的性能,大幅提升了语言模型通用表现。
在长文本建模、关键信息检索、数学推理、对抗幻觉、上下文学习、模型激活值量化等一系列任务中,DIFF Transformer 展现了独特优势,相比传统 Transformer 有显著提升。
DIFF Transformer 的特性使其在自然语言处理领域具有广阔的应用前景,有望成为推动语言模型发展的新动力。此外,已有跟进研究初步验证方法在视觉、多模态等领域中的有效性,显示出其跨模态通用的潜力。该研究已被 ICLR 2025 接收,并获选为 Oral 论文(入选比例 1.8%)。
方法
本文提出了一种名为 Differential Transformer(DIFF Transformer) 的基础模型架构,旨在解决传统 Transformer 在长文本建模中对无关上下文过度分配注意力的问题。该方法通过差分注意力机制(Differential Attention)放大对关键上下文的关注,同时消除注意力噪声,从而显著提升模型在多种任务中的性能。
差分注意力机制
传统 Transformer 的注意力机制通过 Softmax 函数对输入序列中的不同 token 进行加权,但 Softmax 的性质导致模型难以完全消除无关上下文的影响。为了克服这一问题,DIFF Transformer 引入了差分注意力机制。
具体而言,该机制将查询向量(Query)和键向量(Key)在注意力头(Head)维度分为两组,分别计算两组的 Softmax 注意力图,然后计算两者的差值作为最终的注意力分数。这一设计类似于电子工程中的差分放大器,以及降噪耳机,通过两组信号相减以消除共有噪声。
差分注意力的数学表达如下:
图 2. Transformer 与 DIFF Transformer 注意力分数分布可视化
图 2 展示了 DIFF Transformer 和传统 Transformer 在注意力分数分配上的显著差异。作者将一段关键信息插入大段不相关文本的中间位置,并对模型抽取关键信息时的注意力分数分配进行可视化。
传统 Transformer 的注意力分数被广泛分配到整个上下文中,只有极少分数分配至关键信息;而 DIFF Transformer 能够将更高的分数集中在目标答案上,并且几乎不向无关上下文分配注意力。
注意力分数分配的稀疏性与精准性也使得 DIFF Transformer 在处理长文本关键信息检索任务时显著优于 Transformer。
实验
作者通过一系列实验验证了 DIFF Transformer 在多个方面的卓越性能,证明了其在大语言模型中应用的独特潜力与优势。
语言建模
作者研究了 DIFF Transformer 在扩展模型规模和训练数据量时的性能,如图 3 所示。实验表明,DIFF Transformer 仅需约 65% 的参数规模或训练数据量即可达到与 Transformer 相当的语言建模性能。例如,6.8B 参数规模的 DIFF Transformer 在语言建模损失上与 11B 参数规模的 Transformer 相当。
图 3. 语言建模上的模型参数、训练数据量可扩展性实验
长文本建模
作者将模型扩展到 64K 上下文长度,并在长文本书籍数据上进行了评估。结果显示,考虑累积平均负对数似然(NLL)指标, DIFF Transformer 在不同序列位置上均优于 Transformer,能够更有效地利用长上下文信息。
图 4. 长文本书籍数据模型性能评估
关键信息检索
作者通过「多针检索」(Multi-Needle Retrieval)实验评估了模型从大量上下文中提取关键信息的能力,如图 5 所示。实验表明,DIFF Transformer 在不同上下文长度和答案深度下均表现出更高的准确率,尤其是在文本较长以及答案位于文本更靠前位置时,优势更为明显。例如,在 64K 上下文中,DIFF Transformer 在答案位于 25% 深度时的准确率比 Transformer 高出 76%。此外,统计信息显示,DIFF Transformer 在注意力分数分配上也表现出更高的聚焦能力,能够准确定位关键信息,并展现了更高的信噪比。
图 5. 多针检索评估
上下文学习
作者从两个角度评估了 DIFF Transformer 的上下文学习能力:多样本上下文学习和样本顺序鲁棒性测试。 如图 6 所示,在多样本上下文学习任务中,作者使用了 4 个不同的数据集(TREC、TREC-fine、Banking-77 和 Clinic-150),并逐步增加示例数量,直到总长度达到 64K tokens。结果显示,DIFF Transformer 在不同数据集上均优于 Transformer,平均准确率提升显著。
图 6. 多样本上下文学习
在鲁棒性测试中,作者通过打乱示例顺序的方式评估了模型的性能稳定性。如图 7 所示,DIFF Transformer 在不同示例排列下的性能方差显著低于 Transformer,表明其对输入顺序的敏感性更低,具有更强的鲁棒性。
图 7. 样本顺序鲁棒性测试
幻觉评测
作者利用文本摘要和问答任务作为两个典型的幻觉评测场景,评估了 DIFF Transformer 在降低大模型幻觉(hallucination)方面的表现。结果如图 8 所示,DIFF Transformer 在生成摘要和回答问题时显著提升了准确率,减少了幻觉现象。这是因为差分注意力机制能够准确定位重要文段,避免无关上下文对模型预测的干扰。
图 8. 利用文本摘要、问答任务进行幻觉评测
异常激活值分析
作者还发现 DIFF Transformer 能够显著减少模型激活中的异常值,这为模型激活值的量化提供了新的可能性。实验表明,DIFF Transformer 在注意力激活值(attention logits)和隐藏状态(hidden states)中的最大激活值显著低于 Transformer。例如,在注意力激活值的 Top-1 激活值上,DIFF Transformer 比 Transformer 低了近 8 倍。利用这一性质,DIFF Transformer 在注意力激活值的低比特量化下的性能也优于 Transformer,如图 9 所示。
图 9. 注意力激活值的低比特量化
数学推理能力
作者在数学推理任务上进一步验证了 DIFF Transformer 的性能。作者采用两阶段训练,在 3B 预训练模型的基础上进行有监督微调,并在 MATH 等 8 个数学数据集上评测模型性能。在第一阶段,采用 20B token 合成数学数据对模型进行微调,使模型获得基础数学能力,评测结果如图 10 所示。从 15B token 开始,DIFF Transformer 展现出了显著优于 Transformer 的数学能力,至 20B token 结束的时候,准确率的差距达到了 11% 左右。
图 10. 第一阶段数学合成数据微调
在第二阶段,作者利用 Deepseek-R1 输出所构造的数据集 OpenThoughts-114K-Math 对模型进行蒸馏,使模型更强大的深度推理能力。如图 11 所示,在 8 个数据集上,DIFF Transformer 相较 Transformer 均有不同程度的提升,平均准确率提升了 7.5%,这表明差分注意力机制更强大的上下文建模能力在推理任务中也至关重要。
图 11. 第二阶段深度推理能力评测
讨论与未来工作
DIFF Transformer 自发布以来获得了较大关注与讨论。作者在Hugging Face论文讨论平台、alphaXiv平台上与社区开展了深入的探讨。在 X 平台(原 Twitter)上,Google DeepMind 高级研究科学家(Senior Staff Research Scientist)Petar Veličković与作者就文章中的理论分析展开讨论,ViT 核心作者Lucas Beyer也在阅读文章后撰写了一篇深入的论文总结,相关发帖已获得数十万浏览。目前 DIFF Transformer 也已集成至 Hugging Face 的transformers 库中。
Hugging Face:https://huggingface.co/papers/2410.05258alphaXiv:https://www.alphaxiv.org/abs/2410.05258v1Petar Veličković:https://x.com/PetarV_93/status/1874820028975267866Lucas Beyer:https://x.com/giffmana/status/1873869654252544079transformers库:https://github.com/huggingface/transformers/tree/main/src/transformers/models/diffllama
未来工作方面,作者认为可以利用 DIFF Transformer 的性质设计低比特注意力算子,以及利用差分注意力的稀疏特性进行键值缓存(key-value cache)的剪枝。此外,将 DIFF Transformer 应用在除语言以外的其他模态上也值得探索。近期工作DiffCLIP将差分注意力扩展至视觉、多模态领域,揭示了 DIFF Transformer 在不同模态任务中的更多结构特性与应用潜力。
DiffCLIP:https://arxiv.org/abs/2503.06626
总结
本文的贡献主要在两个方面:
(1)DIFF Transformer 通过创新的差分注意力机制,有效解决了传统 Transformer 在处理文本时受到噪声干扰、注意力分配不准确的问题;
(2)凭借对关键信息的关注和对噪声的抵御能力,DIFF Transformer 在语言建模、长文本建模、关键信息检索、数学推理、对抗幻觉、上下文学习、模型激活值量化等任务中表现出色,有望在自然语言处理、多模态等领域作为基础模型架构。
《日本美女裸体视频》,《w3u7903ejky2ywls》吹雪被爆❌羞羞漫画
“欧美尺码日本尺码专线美国”
吸舌添泬的A片
……
04月30日
“美女又爽❌又黄❌偷拍app”白夜追了7年的真凶有线索了
↓↓↓
04月30日,县域文旅特写:浙江台州府城迎来今年第两千万名游客,小仙女自慰www蹭蹭蹭av,美女裸体❌捆绑调教,把男生的困困放进女生的困困里(动漫),12学生小泬XX视频
04月30日,创新打造“博士产研诊所” 江西崇仁助企纾困添新招,9+1免费版极速版,少妇与大狼拘作爱性A片,黑人性❌❌❌❌DH,教师美妇1~180无删减版漫画
04月30日,加强职业启蒙教育 让成长不迷茫,国产乱婬AV国产888草莓Av,红桃视频18,中国xart官网登录入口,八重神子被❌到深处喷水的
04月30日|重庆非遗万州三峡绣:一针一线“绣画结合”|脱粪排泄goshopping|qq卖片➕v|扒开👙看18禁|偷拍洗澡-ThePorn
04月30日|新思想引领新征程丨谱写高质量共建“一带一路”新篇章|火影小南被❌吸乳视频色情|灰原哀疯狂❌喷水h文|wc女次撤尿tv女次偷拍|国产AV精品️免费网站宋雨琦
04月30日|(两会速递)国家体育总局局长:坚决惩治体育领域腐败|火神玛薇卡的堕落(全)|性变XXX♥Hentai|原神男被绑住㊙️四肢挠痒|白丝袜❌动漫美女网站……
04月30日,“梅花泰斗”花五宝在天津逝世 享年101岁,动漫❌到喷水18禁视频,免费➕精品➕国产37在线,同性,91看片看婬黄大片Videos
04月30日,(两会速递)海关总署:上半年中国外贸可保持增长,中国篮球生手冲solo视频在线观看,特级女片内谢A片AAA小说,泰勒知道自己叫霉霉吗,欧美开裆裤自慰❌
04月30日|青海循化黄河岸畔迎来成群候鸟结伴越冬|国产91在线播放|符玄裸体❌开腿视频|Porno😍52|扒开腿灌水憋尿憋到尿失禁
04月30日,李辉特代结束第二轮穿梭外交 中方介绍情况,撑起琪亚娜的腿强行输入,白鹿被扒开腿吸乳❌,娇妻被骗去黑人俱乐部,17·c_起草
04月30日,2024全国青年男子冰球锦标赛(U18)在威海开赛,爽爽爽2018,免费人妻视频,SDMM—054魔镜号,校花被教官扒开腿狂躁,日本猛❌猛❌猛❌护肤品
04月30日,吉林省国防动员办公室原主任穆占一被“双开”,百合扒腿爽出白浆电影,国产黃色A片三級三級婚纱,扒开美女C❌狂揉❌免费,www,17chhh.com
04月30日|《摆脱贫困》葡萄牙文版首发式暨中巴治国理政研讨会在巴西举行|神里绫华扒开双腿被c到爽|打白嫩光屁内裤网站|被表妹调教成她的足奴小说|男人添女人荫蒂视频观看免费
04月30日|新疆阿克苏地区乌什县7.1级地震致民房倒塌 被困儿童获救紧急送医|皇上~好猛~舒服~h~视频|JUY633 人妻内射痴汉电车 吉濑菜菜子|黄💖色💖视💖频💖|春丽裸体被❌羞羞动画
04月30日|台湾青年盼奥运明星赴台交流 国台办:将鼓励支持两岸各领域青年交流往来|3d动漫XXX美女啪啪free|MM131杨晨晨❌视频|13学生小毛片自慰|亲子乱子伦XXXX刘涛
毕业生花式领证给校长整害羞了,狼队让三追四晋级决赛|国家网信办发布第七批深度合成服务算法备案信息|男同被到爽流网站地下偶像|国产熟妇XX❌❌❌小电女明星|丛林女兵伦理HD中字|女帝裸乳被爆❌白浆的视频
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺