太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

扩散语言模型九倍推理加速!KV Cache并非自回归模型专属

2025-06-03 15:03:16
来源:

猫眼电影

作者:

苏志东

手机查看

  猫眼电影记者 栾丽娜 报道w3u7903ejky2ywls

EPIC Lab团队 投稿量子位 | 公众号 QbitAI

首个用于加速扩散式大语言模型(diffusion-based Large Language Models, 简称 dLLMs)推理过程的免训练方法。

上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制:dLLM-Cache。

其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低,并保持了原有的生成质量。

图1 不同dLLMs使用dLLM–Cache和不使用dLLM–Cache在速度和质量上的对比

dLLM-Cache具有几个重要的亮点:

1. 训练无关,即插即用。dLLM-Cache完全在推理过程中工作,无需修改模型参数或重训练。dLLM-Cache可以在完全不损失模型输出质量的前提下,带来最高9.1倍的推理速度提升 。

2.通用于主流dLLM架构,如LLaDA、Dream以及LLaDA-V、MMaDA、Dimple等多模态模型。

3. 在推理过程中,首次识别出了prompt部分的Transformer中间层特征(Key、Value、Attention output、FFN output)长期稳定,而response部分仅有一小部分tokens的特征变化较大,为缓存特征并后续复用提供了理论基础。

4. 独创了以V-verify机制为核心的选择更新策略。以Value向量的变化为选择基准,成功识别出了response部分变化较大的那些tokens,通过仅更新这些特征,摒弃了高达75%的冗余计算。

本论文共同第一作者刘知远和杨奕存是哈尔滨工业大学2022级本科生,目前在上海交通大学EPIC Lab进行科研实习,师从张林峰助理教授,主要研究方向为高效深度学习,此前曾在CVPR2025上收获满分论文。

接下来,我们一起来看看该研究的细节。

研究动机

基于扩散的大语言模型正成为语言生成领域最受关注的新范式之一。随着模型架构的发展、去噪算法的优化以及Masked Diffusion在语言建模中逐步展现出与自回归模型不同的建模能力,这类模型正在逐步成为挑战 GPT 等主流模型的重要力量。

以LLaDA、Dream为代表的扩散语言模型,基于迭代去噪的生成过程,不再依赖严格的自回归因果结构,天然支持双向建模、全局依赖和反向推理等能力,已经在“逆转诅咒”、数学推理等任务上展现出领先性能。

然而,这种范式的优势也伴随着巨大的代价。为了确保生成的质量,dLLMs在推理过程中通常需要执行长达数百步的去噪迭代,每一步都需重新计算attention、FFN等所有层的特征,计算量相当于多次完整前向传播。这为dLLMs的推理效率带来了严重的瓶颈,制约了其实际部署。更重要的是,主流的加速手段如用于自回归模型的KV Cache,由于不兼容双向注意力架构,在dLLMs中完全失效。

与传统的自回归语言模型不同,dLLMs不再依赖顺序生成下一个token,而是采用随机遮蔽(mask) + 逐步还原的方式建模token分布,这种机制使得模型具备天然的双向建模能力,理论上能够更好地处理逆向逻辑、长距离依赖等任务。

LLaDA 等模型已经在多个基准任务中超越主流ARMs,尤其在“逆转诅咒”上明显胜出。

然而,这种扩散式推理带来一个严重的挑战:为了确保生成质量,dLLMs通常需要上百步的去噪迭代,每一步都需全量计算Attention、FFN等模块,导致其推理速度相比ARMs慢一个数量级,落地成本高。同时,ARMs 通用的加速方法如KV-Cache因dLLMs的双向注意力设计而无法兼容。这些造成了dLLMs在推理时既慢又缺乏加速手段的现象。这正是 dLLM-Cache所要破解的核心问题。

方法简介

本文作者仔细研究了dLLMs推理的中间特征变化过程,发现如下关键现象:

图2 dLLM中两个相邻去噪步骤之间的Key、Value、Attention Output和FFN Output的余弦相似度

Prompt tokens的特征在整个去噪过程中基本保持稳定,每一步都重新计算这些特征是完全不必要且浪费计算资源的;

Response tokens多数变化很小,仅少部分变化剧烈,全量计算所有response tokens存在冗余。

由此,问题转化为了如何高效识别出这些变化剧烈的response tokens。

图3 Response tokens的K或V变化与其他特征变化的相关性

本文作者首创性得提出了V-verify机制。它的提出源于另一项重要的发现:作者量化了response tokens的底层特征(Key, Value向量)的变化与其上层复杂特征(Attention Output, FFN Output)的变化之间的关系,结果显示它们存在着极强的正相关性,皮尔逊相关系数最高可达0.944。

这意味着,一个token底层的Value向量是否发生变化,是其整体状态是否发生改变的一个极佳的、且计算成本极低的“指示器”。

基于以上这些关键的观察,本文作者提出了dLLM-Cache ,具体的框架设计如下:

图4 dLLM-Cache方法整体pipeline

Prompt缓存:长间隔重用

对于prompt部分,作者设计了长间隔Prompt缓存,每隔Kp步(在实验中一般设置为100)更新一次prompt的Key、Value、Attention Output、FFN Output,其余步骤全部复用先前结果。这样避免了对稳定不变的特征的重复计算,大幅减少了计算量

Response缓存:自适应部分更新

对生成目标response区域,由于response tokens的特征并不是一直保持稳定不变的,作者设计了较短间隔的Response缓存,每隔Kr步(在实验中一般设置为8左右)全量更新一次response的Key、Value、Attention Output、FFN Output,在其余的步骤,作者提出了基于V-verify的自适应缓存策略

在每个去噪步骤,首先计算所有response tokens最新的Value向量。然后,通过计算新Value向量与缓存中旧Value向量的余弦相似度,将余弦相似度作为每个response tokens的一个“变化分”。选出“变化分”最高(即相似度最低)的极少数tokens(例如,变化最剧烈的25%),将它们标记为“待更新” 。最后,模型只对这些被标记的“待更新”tokens,进行完整的特征重计算。而其余75%的“稳定”tokens,则继续高效地从缓存中复用其特征

通过这种“长间隔”与“自适应”相结合的缓存策略,dLLM-Cache在Transformer的每一层都实现了计算量的极致优化,且整个过程无需任何额外训练,做到了真正的即插即用

3 实验结果

本文在 LLaDA 8B和Dream 7B两大代表性的开源dLLM的基础版与指令微调版上,针对数学与科学、通用任务、代码生成三大领域的8个主流基准测试,对dLLM-Cache的有效性进行了严苛的检验 。评估维度不仅包括推理速度(TPS)计算效率(FLOPs),更核心的是模型性能得分(Score),以确保加速不是以牺牲模型能力为代价

本文在LLaDA 8B的基础版和指令微调版上都部署了dLLM-Cache,下图的实验结果充分展示了其强大的加速能力和卓越的生成质量保持。在几乎所有的基准测试中,达到了5倍以上的加速效果,且在绝大部分情况下,生成质量都没有降低,甚至有轻微的提升。特别是当面对LongBench任务时,prompt的稳定性带来了更显著的加速效果,在HotpotQA上实现了高达9.1倍的无损加速

图5 dLLM-Cache在LLaDA模型上的效果

为了进一步证明dLLM-Cache的通用性和鲁棒性,作者将其无缝迁移至另一款架构略有不同的dLLM——Dream 7B上。下图的实验结果再次印证了dLLM-Cache方法的有效性,充分说明了其通用于主流dLLM架构

图6 dLLM-Cache在Dream模型上的效果

作者还将dLLM和主流的基于ARM的LLM进行了对比,下图展示了LLaDA 8B与LLaMA3 8B在GSM8K任务上的比较。结果显示,原始的LLaDA在准确率上以近20个点的巨大优势领先于LLaMA3,但在推理速度上却远不及。然而,在使用了本文的dLLM-Cache之后,LLaDA的推理速度获得了超过3.3倍的提升,首次超过了LLaMA3的推理速度。这一结果有力地证明,本文提出的dLLM-Cache能够让dLLMs在保持其显著准确率优势的同时,获得与ARMs相当竞争力的推理速度

图7 使用dLLM-Cache的dLLM vs 使用KV-Cache的ARM

论文链接: https://github.com/maomaocun/dLLM-cache/blob/main/asset/paper.pdf代码已开源: https://github.com/maomaocun/dLLM-Cache

 时事1:捆绑➕调教➕sm➕束缚车

  06月03日,呼和浩特—乌兰巴托全货运包机出口贸易额超1亿元,

  二是勤奋刻苦的学习态度。对于那些平时没有抓紧的同学,更是要勤奋刻苦,俗话说平时不烧香,临时抱佛脚,上帝会保佑你的。

,八重神子3D同人❌羞羞。

  06月03日,“老区”对接“湾区” 江西加速与大湾区产业相链联动,

招商信用卡逾期几天会上个人信用?可以分多少

,白袜➕体育生gey视频网站合集,姬小满裸乳被爆❌白浆9,女被黄漫扒衣服自慰。

 时事2:扒开美女❌狂揉❌拔萝卜

  06月03日,江西发布5件涉外法律服务典型案事例,

  “头角峥嵘,第一奇才,曾在我们天才营呆过,极其强悍,潜力惊人。”

,好大好硬用力深一点日本,里面好湿⋯好紧⋯太爽了凛冴,学校女厕偷拍拉屎㊙️网站。

  06月03日,车企争相布局,电动摩托车会是通勤新主力吗?,

  同一时间,对面那头巨大的凶禽俯冲了过来,交错而过,竟攻向手持铁棍、隐在混沌气中的生灵,它横贯天际,比乌云还壮阔,且散发着滔天的黑雾,一对眸子如血月般,射出两杆粗如山岳般的血矛,飞向前方。

,进入羊的水门视频,膀胱控制play排尿钢珠,原神黄男男纯肉巨黄Gay动漫。

 时事3:董卿做爰高潮全过程

  06月03日,打通金融服务农村“最后一公里”,

  几分钟后,消防车鸣着警笛飞驰来车停下以后,消防战士迅速从车上下来。从后车厢拿出水管,接好后,向火魔喷射过去,可是,一阵风拂过,火势又大了起来,消防战士不灰心,几次调整了位置后,最终成功了,他们随着风的变化而变化。在消防战士的努力下,冲向前将水枪对准“火魔”喷射,“火魔”最怕水,不一会儿,就消失的无影无踪了。他们犹如降妖除魔的大英雄!

,成人🔞日本情趣,纲手胸被爆❌羞羞免费视频,曰本美女做爰XXXⅩa高潮喷水。

  06月03日,《故乡的泥土》总编剧田运章:生活是创作之源,  上述两起事件,引起了一些企业人士的担忧。这些担忧包括是否存在全国性查税,不少企业担忧如果倒查多年需要补税,这对于经营困难的当下无疑是“雪上加霜”。,星野和光头原视频制作教程,性XXX巩俐XXXHD,妺妺用🐻夹我的🍌网站。

 时事4:喜欢白胖胖的老太太

  06月03日,香港人才服务办公室线上直播招聘会吸引逾24万人次观看,

  天亮后,宏伟的府邸中,雨蒙起身,在园林中散步,漫不经心的问道:“听说,你损失了一些人手?”

,小黄猫在线观看免费官网下载,灰原嗯~啊~轻,国产❌❌❌高潮。

  06月03日,台胞欢聚福建畲乡“二月二”会亲节,

  近年来国内外学校火灾频仍,根据国家教育部、公安部联合下发的通知表明,20__年以来,全国学校(含幼儿园)共发生火灾3700余起,共造成44人死亡,79人受伤,直接经济损失2200余万元,各类火灾发生的原因,主要是大家没有预防火灾的常识以及预防火灾的意识。比如20__年1月31日晚,福建省长乐市拉丁酒吧发生特大火灾,共造成17人死亡。酒吧内有10名左右男女青年开生日聚会,在桌面上燃放烟花,引燃天花板酿成火灾。这就是典型的缺乏火灾常识酿成的灾难。美国“乔治·华盛顿”号核动力航母5月22日发生特大火灾。总计损失7000万美元,航母3800个舱室中的80个过火,受伤官兵达37人五角大楼、海军和太平洋司令部都在全力调查此事。两个多月后,公布的调查结果令人震惊——引发航母大火的居然就是一支香烟!这就是缺乏安全意识,在所有事故发生前大家都以为没事。

,蒂法被❌出白水3D同人,少妇我被躁爽到高潮A片李娜,jennie被爆❌自慰流水A丨网站。

责编:徐海波

审核:张清杰

责编:齐华伟

相关推荐 换一换