EPIC Lab团队 投稿量子位 | 公众号 QbitAI
首个用于加速扩散式大语言模型(diffusion-based Large Language Models, 简称 dLLMs)推理过程的免训练方法。
上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制:dLLM-Cache。
其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低,并保持了原有的生成质量。
图1 不同dLLMs使用dLLM–Cache和不使用dLLM–Cache在速度和质量上的对比
dLLM-Cache具有几个重要的亮点:
1. 训练无关,即插即用。dLLM-Cache完全在推理过程中工作,无需修改模型参数或重训练。dLLM-Cache可以在完全不损失模型输出质量的前提下,带来最高9.1倍的推理速度提升 。
2.通用于主流dLLM架构,如LLaDA、Dream以及LLaDA-V、MMaDA、Dimple等多模态模型。
3. 在推理过程中,首次识别出了prompt部分的Transformer中间层特征(Key、Value、Attention output、FFN output)长期稳定,而response部分仅有一小部分tokens的特征变化较大,为缓存特征并后续复用提供了理论基础。
4. 独创了以V-verify机制为核心的选择更新策略。以Value向量的变化为选择基准,成功识别出了response部分变化较大的那些tokens,通过仅更新这些特征,摒弃了高达75%的冗余计算。
本论文共同第一作者刘知远和杨奕存是哈尔滨工业大学2022级本科生,目前在上海交通大学EPIC Lab进行科研实习,师从张林峰助理教授,主要研究方向为高效深度学习,此前曾在CVPR2025上收获满分论文。
接下来,我们一起来看看该研究的细节。
研究动机
基于扩散的大语言模型正成为语言生成领域最受关注的新范式之一。随着模型架构的发展、去噪算法的优化以及Masked Diffusion在语言建模中逐步展现出与自回归模型不同的建模能力,这类模型正在逐步成为挑战 GPT 等主流模型的重要力量。
以LLaDA、Dream为代表的扩散语言模型,基于迭代去噪的生成过程,不再依赖严格的自回归因果结构,天然支持双向建模、全局依赖和反向推理等能力,已经在“逆转诅咒”、数学推理等任务上展现出领先性能。
然而,这种范式的优势也伴随着巨大的代价。为了确保生成的质量,dLLMs在推理过程中通常需要执行长达数百步的去噪迭代,每一步都需重新计算attention、FFN等所有层的特征,计算量相当于多次完整前向传播。这为dLLMs的推理效率带来了严重的瓶颈,制约了其实际部署。更重要的是,主流的加速手段如用于自回归模型的KV Cache,由于不兼容双向注意力架构,在dLLMs中完全失效。
与传统的自回归语言模型不同,dLLMs不再依赖顺序生成下一个token,而是采用随机遮蔽(mask) + 逐步还原的方式建模token分布,这种机制使得模型具备天然的双向建模能力,理论上能够更好地处理逆向逻辑、长距离依赖等任务。
LLaDA 等模型已经在多个基准任务中超越主流ARMs,尤其在“逆转诅咒”上明显胜出。
然而,这种扩散式推理带来一个严重的挑战:为了确保生成质量,dLLMs通常需要上百步的去噪迭代,每一步都需全量计算Attention、FFN等模块,导致其推理速度相比ARMs慢一个数量级,落地成本高。同时,ARMs 通用的加速方法如KV-Cache因dLLMs的双向注意力设计而无法兼容。这些造成了dLLMs在推理时既慢又缺乏加速手段的现象。这正是 dLLM-Cache所要破解的核心问题。
方法简介
本文作者仔细研究了dLLMs推理的中间特征变化过程,发现如下关键现象:
图2 dLLM中两个相邻去噪步骤之间的Key、Value、Attention Output和FFN Output的余弦相似度
Prompt tokens的特征在整个去噪过程中基本保持稳定,每一步都重新计算这些特征是完全不必要且浪费计算资源的;
Response tokens多数变化很小,仅少部分变化剧烈,全量计算所有response tokens存在冗余。
由此,问题转化为了如何高效识别出这些变化剧烈的response tokens。
图3 Response tokens的K或V变化与其他特征变化的相关性
本文作者首创性得提出了V-verify机制。它的提出源于另一项重要的发现:作者量化了response tokens的底层特征(Key, Value向量)的变化与其上层复杂特征(Attention Output, FFN Output)的变化之间的关系,结果显示它们存在着极强的正相关性,皮尔逊相关系数最高可达0.944。
这意味着,一个token底层的Value向量是否发生变化,是其整体状态是否发生改变的一个极佳的、且计算成本极低的“指示器”。
基于以上这些关键的观察,本文作者提出了dLLM-Cache ,具体的框架设计如下:
图4 dLLM-Cache方法整体pipeline
Prompt缓存:长间隔重用
对于prompt部分,作者设计了长间隔Prompt缓存,每隔Kp步(在实验中一般设置为100)更新一次prompt的Key、Value、Attention Output、FFN Output,其余步骤全部复用先前结果。这样避免了对稳定不变的特征的重复计算,大幅减少了计算量
Response缓存:自适应部分更新
对生成目标response区域,由于response tokens的特征并不是一直保持稳定不变的,作者设计了较短间隔的Response缓存,每隔Kr步(在实验中一般设置为8左右)全量更新一次response的Key、Value、Attention Output、FFN Output,在其余的步骤,作者提出了基于V-verify的自适应缓存策略
在每个去噪步骤,首先计算所有response tokens最新的Value向量。然后,通过计算新Value向量与缓存中旧Value向量的余弦相似度,将余弦相似度作为每个response tokens的一个“变化分”。选出“变化分”最高(即相似度最低)的极少数tokens(例如,变化最剧烈的25%),将它们标记为“待更新” 。最后,模型只对这些被标记的“待更新”tokens,进行完整的特征重计算。而其余75%的“稳定”tokens,则继续高效地从缓存中复用其特征
通过这种“长间隔”与“自适应”相结合的缓存策略,dLLM-Cache在Transformer的每一层都实现了计算量的极致优化,且整个过程无需任何额外训练,做到了真正的即插即用
3 实验结果
本文在 LLaDA 8B和Dream 7B两大代表性的开源dLLM的基础版与指令微调版上,针对数学与科学、通用任务、代码生成三大领域的8个主流基准测试,对dLLM-Cache的有效性进行了严苛的检验 。评估维度不仅包括推理速度(TPS)计算效率(FLOPs),更核心的是模型性能得分(Score),以确保加速不是以牺牲模型能力为代价
本文在LLaDA 8B的基础版和指令微调版上都部署了dLLM-Cache,下图的实验结果充分展示了其强大的加速能力和卓越的生成质量保持。在几乎所有的基准测试中,达到了5倍以上的加速效果,且在绝大部分情况下,生成质量都没有降低,甚至有轻微的提升。特别是当面对LongBench任务时,prompt的稳定性带来了更显著的加速效果,在HotpotQA上实现了高达9.1倍的无损加速
图5 dLLM-Cache在LLaDA模型上的效果
为了进一步证明dLLM-Cache的通用性和鲁棒性,作者将其无缝迁移至另一款架构略有不同的dLLM——Dream 7B上。下图的实验结果再次印证了dLLM-Cache方法的有效性,充分说明了其通用于主流dLLM架构
图6 dLLM-Cache在Dream模型上的效果
作者还将dLLM和主流的基于ARM的LLM进行了对比,下图展示了LLaDA 8B与LLaMA3 8B在GSM8K任务上的比较。结果显示,原始的LLaDA在准确率上以近20个点的巨大优势领先于LLaMA3,但在推理速度上却远不及。然而,在使用了本文的dLLM-Cache之后,LLaDA的推理速度获得了超过3.3倍的提升,首次超过了LLaMA3的推理速度。这一结果有力地证明,本文提出的dLLM-Cache能够让dLLMs在保持其显著准确率优势的同时,获得与ARMs相当竞争力的推理速度
图7 使用dLLM-Cache的dLLM vs 使用KV-Cache的ARM
论文链接: https://github.com/maomaocun/dLLM-cache/blob/main/asset/paper.pdf代码已开源: https://github.com/maomaocun/dLLM-Cache
《日本黄油❌18禁游戏游戏》,《w3u7903ejky2ywls》新疆旱厕高手贴近拍照视频
“强行扒开腿❌狂揉❌玩视频”
千仞雪被扒开大腿❌小说
……
06月04日
“男男GaYGAYS✅体育生小说”剧版繁花拍的都是镜面以上的内容
↓↓↓
06月04日,巴西东南部车祸致8亡43伤,♥草莓视频app❤免费,91麻豆精品aV一区二区三区在线,91丝袜❤️国产在线观看,动漫❌🐻黄扒衣服网站
06月04日,华东政法大学普通法学术中心打造沪港法律服务交流合作平台,白丝爆❌jk漫画网站免费,中国美女做浣肠㊙️视频,女学生喷浆❌❌❌老王666,国产美女爆乳娇喘呻吟视频
06月04日,“十五运·十五城”宣传活动首站将于12月18日走进北京,五条悟被c到高潮(穿越咒回),二次元疯狂❌自慰动画,伸进胸罩~嗯~好舒服~视频糖心,动漫裸体❌羞羞网站
06月04日|中新健康丨国内外心脑血管领域权威专家共绘疾病联合防控新路径|免费的黄漫❌18禁动漫app|捆绑+口球+系紧+乳夹电影|免费无码黄在线观看www学校|脱了邓紫棋内裤猛烈进入
06月04日|当广州遇见阿克苏——2024年读懂中国会议的双城文化交响曲|动漫玉足❌吸乳羞免费网站玉足|ATID-476椎冰怜在线播放|女AVwww无套白浆流出|欧美性猛交XXXX三人直播
06月04日|力压同分的哈兰德 梅西第八次当选世界足球先生|男男GAY无套免费视频欧美|美女憋尿㊙️网站|小樱被鸣人❌在线观看|男男被粗大的🐔巴捣出白浆……
06月04日,解码中华文化基因:这部用彩线绣在身上的史书,不止于美,扒开纲手❌狂揉❌3d,手指戳到了怎么办,鸣人张开腿让佐助爽了一夜,巨茎挺进美少年体内疯狂冲刺
06月04日,农业农村部:计划建立世界最大的土壤样品库,私は赤ちゃんが好きです怎么读,林淑娟和狼狗后续章节更新时间,18🈲🍆🍑无套,美女趴下打针露全屁股视频
06月04日|香江观澜:内地香港联手舞动香江 展现文化软实力|国产3p精品一区|嗯~啊~乖~进去了唔哼嗯哈|朱竹清3D同人18❌AV|㊙️羞羞漫画入口网站
06月04日,街坊邻居炫球技 沈阳首届“街BA”社区篮球联赛启幕,男生的🍌放男生的🍑网站,苍月奥特曼网站入口链接,人妻被黑人猛烈进入A片,娜美扒开腿做❌同人漫画
06月04日,“五一”假期北京重点商圈消费升温 多元场景融合焕新,婬妇❌❌❌❌❌一次,我是主人的贱母狗游戏特色,Sm国产女王调教系列小说,!欧美多人群交Gangbang
06月04日,让“清新的蓝”“怡人的绿”成为厦门恒久骄傲,走绳粗糙麻绳调教play双男主,成人羞羞视频🔞免费湖北动漫,18🈲🍆🍆🍆🍆看片",禁♥漫画天♥堂♥原♥神p站p站
06月04日|五部门发布国有公益性收藏单位进口藏品免税规定|少萝被❌脱脱内内做运动的视频|女学生喷浆❌❌❌游戏|赵露思嗯灬啊灬把腿张开灬|肥婆A片无套内谢WWW
06月04日|数读中国 | “压舱石”作用凸显 四组数据看工业经济向上向好|美女脱👙给男主捏🐻吃奶视频|97在线无码精品㊙️人口传媒|快手星野大战光头哥原版视频|调教捆绑Tk丨Ⅴk
06月04日|中国红十字会总会组织开展新疆7.1级地震灾害救援|18🈲无打码|悠可化妆品公司简介|佐良娜脱了白丝玩弄巨胸网站|美女被❌吸乳羞羞免费视频
44岁女高管被老公要求不生孩子就离婚,塔图姆回应最佳球员讨论|创历史新高 2023年内蒙古外贸进出口总值达1965.3亿元|海角社区深夜㊙️入口|老狼19潮水rapper仙踪林|末发育娇小性色XXXⅩ|免费看男男GAY啪啪网站
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺