太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题

2025-05-31 19:31:29
来源:

猫眼电影

作者:

袁烜喻

手机查看

  猫眼电影记者 黄宙辉 报道w3u7903ejky2ywls

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

推理大模型开卷新方向,阿里开源长文本深度思考模型QwenLong-L1,登上HuggingFace今日热门论文第二。

其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能。

除测评分数外,论文中还详细展示了一个金融文档推理的案例。传统模型容易被无关细节误导,而QwenLong-L1通过回溯和验证机制过滤干扰信息,正确整合关键数据。

任务要求:根据文档回答问题“将优先票据的发行成本与第一年的利息支出合并计算,总资本成本是多少?”

首先出场的基础模型DeepSeek-R1-Distill-Qwen-14B被文档中“自2011年10月15日起每半年支付一次利息”误导,根据不相关的时间和财务信息,错误计算了第一年的利息支付。

接下来,经过额外SFT的版本仍然未能解决这个问题。

它在对不相关文档进行过度分析的循环中自我怀疑,最终尽了最大生成限制(10000 tokens),却没有给出最终答案。

相比之下,虽然QwenLong-L1-14B最初也表现出类似的分心,但它很快进行了有效的自我反思。通过及时验证和回溯,成功过滤掉了不相关的细节,得出了正确答案。

那么,QwenLong-L1是如何做到的?

渐进式上下文扩展

首先,现有推理模型在面对长文本(如几万字甚至更长)时遇到什么问题?

Qwen团队通过对比实验发现,长文本推理的强化学习训练存在两个“硬伤”:

一是训练效率低,传统强化学习(RL)方法在长文本中容易陷入局部最优,奖励收敛慢,限制了策略优化时的探索行为。

二是优化过程不稳定,长文本任务的输出长度更高、输入长度分布不均匀,导致策略更新时的方差被放大,训练过程中参数更新不稳定(如KL散度坐过山车)。

为此团队提出QwenLong-L1训练框架,核心是通过渐进式上下文扩展让模型逐步适应长文本推理。训练过程分为两阶段:

预热监督微调(Warm-Up Supervised Fine-Tuning)

在开始强化学习之前,先用高质量的演示数据进行监督微调,让模型先具备基本的长文本理解能力、推理链生成能力和答案提取能力。

团队从DeepSeek-R1蒸馏了5.3K个高质量的问题-文档-答案三元组,确保模型有个稳定的起点。实验结果显示,这个”热身”阶段对后续的强化学习训练至关重要。

课程引导的分阶段强化学习(Curriculum-Guided Phased Reinforcement Learning)。

从短文本逐步过渡到长文本。例如,先训练模型处理2万token的文本,稳定后再增加到6万token,最后到128K。每个阶段只关注对应长度的文本。

此外还引入了难度感知的回溯采样机制。在进入下一阶段时,会保留前一阶段中最难的样本(平均准确率为零的那些),确保模型不会”忘记”如何处理困难案例。

长文本问答的答案往往比较开放,单纯的规则匹配太死板,可能漏掉正确答案。

QwenLong-L1在强化学习训练中采用混合奖励函数,结合了基于规则的验证和LLM-as-a-Judge。

规则验证也就是直接检查答案是否与标准答案完全一致(如数学题计算结果是否正确),再用另一个模型判断答案的语义是否正确(应对答案表述不同但意思一致的情况),两者结合避免单一规则过于严格或宽松

在DocMath、Frames、2WikimQA等七个长文本基准测试中,QwenLong-L1-14B相比基础模型R1-Distill-Qwen-14B,平均提升了4.1分,超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。

QwenLong-L1的32B版本相比基础模型提升了5.1分,达到70.7的平均分。这个成绩不仅超过了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。

团队还针对Test-time Scaling性能做了评估。当生成16个候选答案时,QwenLong-L1-14B的表现超过了DeepSeek-R1和OpenAI-o1-preview。

最后论文中还深入探讨了两个问题:

既然SFT相对简单便宜,为什么还要费劲搞强化学习(RL)?

实验结果很有启发性。长文本SFT确实能带来2.6分的提升,比短文本SFT的效果更好。但是,如果在长文本SFT的基础上再做RL,提升幅度只有0.3分;而在短文本SFT基础上做RL,却能提升3.2分。

对此团队提出一个观点:SFT提供了一种经济的性能提升方式,而RL则是达到最优性能必不可少的。

通过跟踪分析了四种关键推理行为发现3个结论:信息定位(grounding)、子目标设定(subgoal setting)、回溯(backtracking)和验证(verification)。

所有模型都展现出明显的推理行为,尤其是信息定位行为出现频率最高,这证明了它在处理上下文依赖推理时的重要性;强化学习训练过程中,这些行为会逐渐增强,并与性能提升高度相关,表明强化学习能有效调整输出空间,优先保留有助于得出准确解答的推理模式虽然SFT模型也能学会这些行为,但这些表面上的行为模仿并没有带来实质性能提升,这揭示了SFT更关注表面模式匹配,而非实质推理能力的培养。

论文地址:https://arxiv.org/pdf/2505.17667

 时事1:男生露jiji㊙️视频撒尿

  05月31日,2024中国西藏第五届跨喜马拉雅国际公路自行车极限赛圆满完赛,

  族人点头,这个方法不错,一群大老爷们口水哗哗地,做梦都想拥有一头宝驹。

,FerrPorno💋👙49。

  05月31日,中新教育丨毕业生80%都出国? 清华大学辟谣:出国(境)深造比例为8%,

  四是督导评价,引导学校竞争发展。我县目前对教育的督导评价工作还处于起步阶段,对学校的评价还没有形成有效机制,导致学校办学主动意识和竞争意识淡薄,从校领导到教师对教育倾注的心血还很不够,得过且过的现象还时有存在。今年的工作:一要建立学校发展性评价机制,让学校有努力的方向;二要加强年度督导考核,及时公开考核结果,奖优罚劣,去年12月份已经进行了一次,并于近期已对部分薄弱学校的领导班子进行了调整。三要每年组织两次全县统考,及时总结反馈,让每一所学校、每一个校长、每一个教师清醒地认识自我、反思自我,从而超越自我。

,成人做爰黄✌片视频动漫入口,美女裸体㊙️无遮挡免费视频,美女跪床❌❌被🌿动漫。

 时事2:おめでとうクリスマス歌词

  05月31日,【小新的Vlog】在宁夏沙湖乘破冰船体验“破冰”之旅,

  七年级新生已跨入中学大门,从今天起,你们就开始了自己学习生活的另一个征程,希望同学们从进入中学校门的第一天起,就有一个新的计划,严格要求自己,遵守校纪班规,努力学习,勤奋上进,争做一名合格的中学生!九年级同学已进入人生重要的选择阶段,从今天开始,你的手中就握着你自己的命运,从今天开始,你的学习生活一切要求就要更强、更高,希望你们不要碌碌无为悔恨终身,谁要是游戏了人生,必将会一事无成;谁不能主宰自己,就永远是一个奴隶,唯有奋斗,才能征服命运之神。正如我们南教学楼的名字:(行健楼)“天行健,君子以自强不息;地势坤,君子以厚德载物”,奋斗才是成功的法宝,生命不止奋斗不息。正如我们北教学楼的名字(励志楼),俗话说:“有志者事竟成”,“志不立,天下无可成之事”。志当存高远,远大志向可以给人奋斗的动力。励志,

,欧产➕日产➕国产精品一二,刘亦菲版极乐神教诸葛菲菲,纲手裸乳爆乳❌白浆视频。

  05月31日,工行积极参与多边央行数字货币桥项目最小可行化产品阶段,

  也许你会发现,每一个楼层的墙上都有大小不依的黑脚印,瓷砖上也有。本来是洁白的墙,现在变成黑白相间的花墙,你说多难看,有多破坏学校的整洁度。

,heeljob榨精高跟鞋踩踏,海洋之心隐私自慰漫画,甘雨被扒开腿做❌同人网站。

 时事3:唐三❌宁荣荣18禁污污小说

  05月31日,英特尔宣布扩容成都封装测试基地 提高中国本土供应链效率,

  石云峰吃惊,快步跟了过来,抱起一条大鱼,翻过来掉过去的看,惊道:“真的是龙须鱼?还是品质极好的金鳞种,这可是好东西啊,蕴有灵精,长期吃的话能增长力气,强壮筋骨,对孩子们有很大的好处!”

,动漫禁纯肉无码涩涩H影视,део+38是18还是19,牡工ozO体内交FIO另类。

  05月31日,百位两岸音乐唱作人齐聚福州 两岸原创歌曲评选颁奖盛典举行,

  “杀了!”小不点点头。

,性一一交一一乳一一乱睡觉,赫敏被c到深处合不拢腿视频,剑来宁姚让人内射。

 时事4:末发育娇小性色XXXX妓女

  05月31日,【东盟专线】东南亚水果输华新添湄公河水运航道,

企业领导五四表彰讲话(精选3篇)

,看美女隐私㊙️免费视频,莫妮卡在厨房被c高潮部分,XXXmmm💋🍌🍆🍑女。

  05月31日,外交部:福岛第一核电站附近海域相关海水样本已运抵中国,

  深呼一口气,小不点体内顿时发出瀑布冲击的声响,而且瑞光喷薄,除却筋脉骨骼更加晶莹与强健外,他的脏腑也发光,跟一轮轮小太阳似的。

,自慰喷水私人影院九一制片厂,免费无遮挡🔞视频在酒店里入口,赵露思裸乳被爆❌ai。

责编:程警官

审核:冯海峰

责编:乔汗

相关推荐 换一换