EPIC Lab团队 投稿量子位 | 公众号 QbitAI
首个用于加速扩散式大语言模型(diffusion-based Large Language Models, 简称 dLLMs)推理过程的免训练方法。
上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制:dLLM-Cache。
其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低,并保持了原有的生成质量。
图1 不同dLLMs使用dLLM–Cache和不使用dLLM–Cache在速度和质量上的对比
dLLM-Cache具有几个重要的亮点:
1. 训练无关,即插即用。dLLM-Cache完全在推理过程中工作,无需修改模型参数或重训练。dLLM-Cache可以在完全不损失模型输出质量的前提下,带来最高9.1倍的推理速度提升 。
2.通用于主流dLLM架构,如LLaDA、Dream以及LLaDA-V、MMaDA、Dimple等多模态模型。
3. 在推理过程中,首次识别出了prompt部分的Transformer中间层特征(Key、Value、Attention output、FFN output)长期稳定,而response部分仅有一小部分tokens的特征变化较大,为缓存特征并后续复用提供了理论基础。
4. 独创了以V-verify机制为核心的选择更新策略。以Value向量的变化为选择基准,成功识别出了response部分变化较大的那些tokens,通过仅更新这些特征,摒弃了高达75%的冗余计算。
本论文共同第一作者刘知远和杨奕存是哈尔滨工业大学2022级本科生,目前在上海交通大学EPIC Lab进行科研实习,师从张林峰助理教授,主要研究方向为高效深度学习,此前曾在CVPR2025上收获满分论文。
接下来,我们一起来看看该研究的细节。
研究动机
基于扩散的大语言模型正成为语言生成领域最受关注的新范式之一。随着模型架构的发展、去噪算法的优化以及Masked Diffusion在语言建模中逐步展现出与自回归模型不同的建模能力,这类模型正在逐步成为挑战 GPT 等主流模型的重要力量。
以LLaDA、Dream为代表的扩散语言模型,基于迭代去噪的生成过程,不再依赖严格的自回归因果结构,天然支持双向建模、全局依赖和反向推理等能力,已经在“逆转诅咒”、数学推理等任务上展现出领先性能。
然而,这种范式的优势也伴随着巨大的代价。为了确保生成的质量,dLLMs在推理过程中通常需要执行长达数百步的去噪迭代,每一步都需重新计算attention、FFN等所有层的特征,计算量相当于多次完整前向传播。这为dLLMs的推理效率带来了严重的瓶颈,制约了其实际部署。更重要的是,主流的加速手段如用于自回归模型的KV Cache,由于不兼容双向注意力架构,在dLLMs中完全失效。
与传统的自回归语言模型不同,dLLMs不再依赖顺序生成下一个token,而是采用随机遮蔽(mask) + 逐步还原的方式建模token分布,这种机制使得模型具备天然的双向建模能力,理论上能够更好地处理逆向逻辑、长距离依赖等任务。
LLaDA 等模型已经在多个基准任务中超越主流ARMs,尤其在“逆转诅咒”上明显胜出。
然而,这种扩散式推理带来一个严重的挑战:为了确保生成质量,dLLMs通常需要上百步的去噪迭代,每一步都需全量计算Attention、FFN等模块,导致其推理速度相比ARMs慢一个数量级,落地成本高。同时,ARMs 通用的加速方法如KV-Cache因dLLMs的双向注意力设计而无法兼容。这些造成了dLLMs在推理时既慢又缺乏加速手段的现象。这正是 dLLM-Cache所要破解的核心问题。
方法简介
本文作者仔细研究了dLLMs推理的中间特征变化过程,发现如下关键现象:
图2 dLLM中两个相邻去噪步骤之间的Key、Value、Attention Output和FFN Output的余弦相似度
Prompt tokens的特征在整个去噪过程中基本保持稳定,每一步都重新计算这些特征是完全不必要且浪费计算资源的;
Response tokens多数变化很小,仅少部分变化剧烈,全量计算所有response tokens存在冗余。
由此,问题转化为了如何高效识别出这些变化剧烈的response tokens。
图3 Response tokens的K或V变化与其他特征变化的相关性
本文作者首创性得提出了V-verify机制。它的提出源于另一项重要的发现:作者量化了response tokens的底层特征(Key, Value向量)的变化与其上层复杂特征(Attention Output, FFN Output)的变化之间的关系,结果显示它们存在着极强的正相关性,皮尔逊相关系数最高可达0.944。
这意味着,一个token底层的Value向量是否发生变化,是其整体状态是否发生改变的一个极佳的、且计算成本极低的“指示器”。
基于以上这些关键的观察,本文作者提出了dLLM-Cache ,具体的框架设计如下:
图4 dLLM-Cache方法整体pipeline
Prompt缓存:长间隔重用
对于prompt部分,作者设计了长间隔Prompt缓存,每隔Kp步(在实验中一般设置为100)更新一次prompt的Key、Value、Attention Output、FFN Output,其余步骤全部复用先前结果。这样避免了对稳定不变的特征的重复计算,大幅减少了计算量
Response缓存:自适应部分更新
对生成目标response区域,由于response tokens的特征并不是一直保持稳定不变的,作者设计了较短间隔的Response缓存,每隔Kr步(在实验中一般设置为8左右)全量更新一次response的Key、Value、Attention Output、FFN Output,在其余的步骤,作者提出了基于V-verify的自适应缓存策略
在每个去噪步骤,首先计算所有response tokens最新的Value向量。然后,通过计算新Value向量与缓存中旧Value向量的余弦相似度,将余弦相似度作为每个response tokens的一个“变化分”。选出“变化分”最高(即相似度最低)的极少数tokens(例如,变化最剧烈的25%),将它们标记为“待更新” 。最后,模型只对这些被标记的“待更新”tokens,进行完整的特征重计算。而其余75%的“稳定”tokens,则继续高效地从缓存中复用其特征
通过这种“长间隔”与“自适应”相结合的缓存策略,dLLM-Cache在Transformer的每一层都实现了计算量的极致优化,且整个过程无需任何额外训练,做到了真正的即插即用
3 实验结果
本文在 LLaDA 8B和Dream 7B两大代表性的开源dLLM的基础版与指令微调版上,针对数学与科学、通用任务、代码生成三大领域的8个主流基准测试,对dLLM-Cache的有效性进行了严苛的检验 。评估维度不仅包括推理速度(TPS)计算效率(FLOPs),更核心的是模型性能得分(Score),以确保加速不是以牺牲模型能力为代价
本文在LLaDA 8B的基础版和指令微调版上都部署了dLLM-Cache,下图的实验结果充分展示了其强大的加速能力和卓越的生成质量保持。在几乎所有的基准测试中,达到了5倍以上的加速效果,且在绝大部分情况下,生成质量都没有降低,甚至有轻微的提升。特别是当面对LongBench任务时,prompt的稳定性带来了更显著的加速效果,在HotpotQA上实现了高达9.1倍的无损加速
图5 dLLM-Cache在LLaDA模型上的效果
为了进一步证明dLLM-Cache的通用性和鲁棒性,作者将其无缝迁移至另一款架构略有不同的dLLM——Dream 7B上。下图的实验结果再次印证了dLLM-Cache方法的有效性,充分说明了其通用于主流dLLM架构
图6 dLLM-Cache在Dream模型上的效果
作者还将dLLM和主流的基于ARM的LLM进行了对比,下图展示了LLaDA 8B与LLaMA3 8B在GSM8K任务上的比较。结果显示,原始的LLaDA在准确率上以近20个点的巨大优势领先于LLaMA3,但在推理速度上却远不及。然而,在使用了本文的dLLM-Cache之后,LLaDA的推理速度获得了超过3.3倍的提升,首次超过了LLaMA3的推理速度。这一结果有力地证明,本文提出的dLLM-Cache能够让dLLMs在保持其显著准确率优势的同时,获得与ARMs相当竞争力的推理速度
图7 使用dLLM-Cache的dLLM vs 使用KV-Cache的ARM
论文链接: https://github.com/maomaocun/dLLM-cache/blob/main/asset/paper.pdf代码已开源: https://github.com/maomaocun/dLLM-Cache
《㊙️天堂AV在线AV在线蜜诱》,《w3u7903ejky2ywls》动画埃及猫拔萝卜原创版视频
“美女穿乳钉全过程视频播放”
火影之乱婬大筒木辉夜
……
06月02日
“12脱了内裤自慰❌露精免费观看”河南一景区请游客围炉煮胡辣汤
↓↓↓
06月02日,水利部:一季度全国实施水利项目2.35万个 同比增15.8%,美人校草的堕落日常小说,苹果手机如何截出❤截图,佐助被鸣人脱裤子撅起来调教,用丝袜怎么导精
06月02日,内塔尼亚胡回应以军对伊朗打击:精确有力,实现所有目标,少妇被c🔞黄❌在线网站蜜桃,女人露出🐻让男子揉捏,🌸扒腿自慰爽出,windows18—20
06月02日,中国国家矿山安监局:对所有地下矿山重新确定灾害等级,雷电将军🈲️🔞黄网站3d,动漫❌❌爆乳❌❌3d扶她小舞,无尽❌裸体❌触手❌视频,yy6080高清影院伦❤️理
06月02日|持之以恒为基层减负(今日谈)|琳妮特裸体被调教|被士兵糟蹋的朱竹清是什么书|胡桃扒开腿㊙️让人桶爽|18🈲成人免费观看网站
06月02日|拉萨哲蚌寺举行雪顿节展佛活动|碧蓝航线同人R 18本|涩里番app♥新版入口|小🐤🐤戳进🍑里面91抖音|裸体开腿羞羞游戏
06月02日|新华时评丨建设金融强国要积极培育中国特色金融文化|jealousvue成熟40毛|成人🔞高潮片免费|八戒,八戒网剧在线观看8|被扒开腿做❌同人漫画……
06月02日,中国建设银行优秀县域支行巡礼丨陕西府谷支行,挺进岳的肉体A片,教子做爰xXXX视频,男女做爱免费视频,巨乳❌拔萝卜❌自慰免费
06月02日,中华冰雪奇缘,太酷了!,男生困困放入女生坤坤电视剧,精品一区二区无遮挡高潮大片,亚洲A片无码秘色多多汉娜,女性脱给我揉搓的软免费
06月02日|北京将深化涉案企业合规改革 提升法治化营商环境|国产未成女娃仙踪林|乖~打开腿里面也要涂春药视频|蜜臀⭐️色欲国产一区二区|做嗳视频
06月02日,(粤港澳大湾区)深中通道开通近两月 大湾区海上互联互通提速升级,あったかうずまき本子在线看,国产3p精品一区,孩儿管他妈的,扒开疯狂揉❌脱脱内内原神
06月02日,厦门港“大三通”航线开通一周年 跨境电商出口货值4.85亿元,HongKongdo无码视频,冲宫那美无码秘书在线观看,米塔同人动漫哪里看,长靴少妇X❌X❌XHD
06月02日,海南推动国际旅游消费提档升级,人妻❌❌奶头❌❌裸体视频,AI情趣机器人崛起,苍井空做爰高潮A片久久直播,裸体3d未来初音被❌到爽Free
06月02日|(新春走基层)重庆璧山:从集体经济分红 看基层社区治理效能|一级做湲|男男GayGays✅打男生屁股网站|8x8ⅹ拔擦拔擦免费入口|外扩内衣漫画大全
06月02日|构建高水平社会主义市场经济体制|国内大爷性XXⅩHD|张家界小白龙和吴敏视频|小东西好久都没你了|法国女仆成人版
06月02日|“数据跑路”赋能改革 如何释放医保新质生产力?|景甜被内谢流白浆10p|动漫精品㊙️国产传媒MV|禁漫天堂999性AV网站网址|娜美疯狂❌喷水自慰爽
聊缩力,39岁C罗首段亚冠征程:8场6球1助|国台办:乐见两岸青年常来常往、走近走亲|亚洲欧美秘无码一区二区蜜桃|大肉大捧一进一出阿宾电影|免费人成视频x8x8在线观看|男c女🔞黄㊙️❌打睾丸动漫
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺