太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether

首页 >新闻 >社会新闻

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题

2025-05-31 09:52:33

来源：

猫眼电影

作者：

孙平化

手机查看

　　猫眼电影记者冯亚伦报道w3u7903ejky2ywls

梦晨发自凹非寺量子位 | 公众号 QbitAI

推理大模型开卷新方向，阿里开源长文本深度思考模型QwenLong-L1，登上HuggingFace今日热门论文第二。

其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等，取得与Claude-3.7-Sonnet-Thingking相当的性能。

除测评分数外，论文中还详细展示了一个金融文档推理的案例。传统模型容易被无关细节误导，而QwenLong-L1通过回溯和验证机制过滤干扰信息，正确整合关键数据。

任务要求：根据文档回答问题“将优先票据的发行成本与第一年的利息支出合并计算，总资本成本是多少？”

首先出场的基础模型DeepSeek-R1-Distill-Qwen-14B被文档中“自2011年10月15日起每半年支付一次利息”误导，根据不相关的时间和财务信息，错误计算了第一年的利息支付。

接下来，经过额外SFT的版本仍然未能解决这个问题。

它在对不相关文档进行过度分析的循环中自我怀疑，最终尽了最大生成限制（10000 tokens），却没有给出最终答案。

相比之下，虽然QwenLong-L1-14B最初也表现出类似的分心，但它很快进行了有效的自我反思。通过及时验证和回溯，成功过滤掉了不相关的细节，得出了正确答案。

那么，QwenLong-L1是如何做到的？

渐进式上下文扩展

首先，现有推理模型在面对长文本（如几万字甚至更长）时遇到什么问题？

Qwen团队通过对比实验发现，长文本推理的强化学习训练存在两个“硬伤”：

一是训练效率低，传统强化学习（RL）方法在长文本中容易陷入局部最优，奖励收敛慢，限制了策略优化时的探索行为。

二是优化过程不稳定，长文本任务的输出长度更高、输入长度分布不均匀，导致策略更新时的方差被放大，训练过程中参数更新不稳定（如KL散度坐过山车）。

为此团队提出QwenLong-L1训练框架，核心是通过渐进式上下文扩展让模型逐步适应长文本推理。训练过程分为两阶段：

预热监督微调（Warm-Up Supervised Fine-Tuning）

在开始强化学习之前，先用高质量的演示数据进行监督微调，让模型先具备基本的长文本理解能力、推理链生成能力和答案提取能力。

团队从DeepSeek-R1蒸馏了5.3K个高质量的问题-文档-答案三元组，确保模型有个稳定的起点。实验结果显示，这个”热身”阶段对后续的强化学习训练至关重要。

课程引导的分阶段强化学习（Curriculum-Guided Phased Reinforcement Learning）。

从短文本逐步过渡到长文本。例如，先训练模型处理2万token的文本，稳定后再增加到6万token，最后到128K。每个阶段只关注对应长度的文本。

此外还引入了难度感知的回溯采样机制。在进入下一阶段时，会保留前一阶段中最难的样本（平均准确率为零的那些），确保模型不会”忘记”如何处理困难案例。

长文本问答的答案往往比较开放，单纯的规则匹配太死板，可能漏掉正确答案。

QwenLong-L1在强化学习训练中采用混合奖励函数，结合了基于规则的验证和LLM-as-a-Judge。

规则验证也就是直接检查答案是否与标准答案完全一致（如数学题计算结果是否正确），再用另一个模型判断答案的语义是否正确（应对答案表述不同但意思一致的情况），两者结合避免单一规则过于严格或宽松

在DocMath、Frames、2WikimQA等七个长文本基准测试中，QwenLong-L1-14B相比基础模型R1-Distill-Qwen-14B，平均提升了4.1分，超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。

QwenLong-L1的32B版本相比基础模型提升了5.1分，达到70.7的平均分。这个成绩不仅超过了OpenAI-o3-mini（70.4分）、Qwen3-235B-A22B（70.6分），甚至和Claude-3.7-Sonnet-Thinking（70.7分）打成平手。

团队还针对Test-time Scaling性能做了评估。当生成16个候选答案时，QwenLong-L1-14B的表现超过了DeepSeek-R1和OpenAI-o1-preview。

最后论文中还深入探讨了两个问题：

既然SFT相对简单便宜，为什么还要费劲搞强化学习（RL）？

实验结果很有启发性。长文本SFT确实能带来2.6分的提升，比短文本SFT的效果更好。但是，如果在长文本SFT的基础上再做RL，提升幅度只有0.3分；而在短文本SFT基础上做RL，却能提升3.2分。

对此团队提出一个观点：SFT提供了一种经济的性能提升方式，而RL则是达到最优性能必不可少的。

通过跟踪分析了四种关键推理行为发现3个结论：信息定位（grounding）、子目标设定（subgoal setting）、回溯（backtracking）和验证（verification）。

所有模型都展现出明显的推理行为，尤其是信息定位行为出现频率最高，这证明了它在处理上下文依赖推理时的重要性；强化学习训练过程中，这些行为会逐渐增强，并与性能提升高度相关，表明强化学习能有效调整输出空间，优先保留有助于得出准确解答的推理模式虽然SFT模型也能学会这些行为，但这些表面上的行为模仿并没有带来实质性能提升，这揭示了SFT更关注表面模式匹配，而非实质推理能力的培养。

论文地址：https://arxiv.org/pdf/2505.17667

时事1：美女➕光屁屁➕无遮挡物

05月31日,国台办：“九二共识”是两岸对话协商的共同政治基础,

　　三、增强意识，落实责任，以良好的精神状态抓好当前工作今年是“”规划的关键之年，同时也是党召开之年，也是我们来宾市建市10周年。我们县正处于全方位打基础工业、各领域大开发的重要战略机遇期。乡(镇)党委领导班子既肩负着实现本乡(镇)新发展的艰巨任务，又承担着全面实施“”规划的神圣使命，责任重大、任重道远。这次党代会后，我们乡(镇)经济社会发展的思路已经很清晰，工作的目标、重点已经非常明确，当前要有个好的精神状态就显得尤为重要。全乡(镇)各级党组织要坚持解放思想，实事求是，与时俱进的思想路线，树立起符合适应新形势发展的新观念，求真务实，真抓实干，以只争朝夕、勇往直前的精神状态投入到工作中去。大力倡导创新精神，不断创新工作方式方法，积极研究新情况、解决新问题，争创一流的工作业绩。要不断增强忧患意识、政治意识、大局意识、意识、开放意识、机遇意识和创新意识，紧紧抓住广西建设西部经济强区、民族文化强区、社会和谐稳定模范区、生态文明示范区、民族团结进步模范区，的历史机遇，依托区位优势和资源优势，加快实施“打造区域内河港口和区域物流

,樱空㊙️无码一区二区91。

05月31日,3元吃半自助早餐市场为何这么卷,

　　我相信，只要大家能够拾起一片白色，就能装点一寸绿荫，只要大家尽一份自身一点微不足道的力，就可以创造出一个更加洁净的校园。

,浣肠と排泄の羞耻～视频,岳丰满熟妇猛交DVD,免费无遮挡🔞视频网站西瓜TV。

时事2：灰原哀㊙️黄漫免费漫画

05月31日,国际观察：“大金砖合作”为全球南方汇聚信心和力量,

　　尊敬的中、省、市各位领导、各位来宾、同志们：

,原神芙宁娜同人18❌AV黄漫,温迪被扒开双腿疯狂输入小说,羞羞漫画❤️在线入口。

05月31日,火箭专家描绘中国商业火箭“四步走”蓝图,

　　虽然我们对环境逐渐重视，但为了自己那一丁点儿利益而破坏环境的人仍然屡见不鲜，他们肆意砍伐树木，处处都有他们那可恶的身影。

,美女露隐私秘免费视频网站,🈲18❌❌❌OOO,美女裸体㊙️免费照片AVmm。

时事3：5566tv夜月直播

05月31日,中国“洋紫荆之城”将开启马拉松赛事警民共赏美景,

村干部培训班的篇6

,91蝌蚪少妇👠👠👠,打女仆屁股从白打到嫩红,纲手胸被爆❌羞羞免费视频。

05月31日,中新教育丨中国山东高等教育展在雅加达举办,

　　尊敬的各位家长、亲爱的少先队员们：

,精跪趴灌满H室友4P公交车,宋雨琦❌❌裸乳自慰,崩铁3D黄漫❌18禁动漫。

时事4：少女的惩罚游戏2.0版本更新内容

05月31日,江苏特种设备焊接技能高手在扬州同台竞技,

　　同学们，今天是属于你们的。让甜蜜的歌声飞出我们的心头，让优美的舞姿美化我们的生活，让欢乐的鼓乐奏响节日的'乐章!

,中国男同志boy体育帅哥自慰,嗯嗯啊哈顶着孕肚进入,虞书欣疯狂❌喷水自慰。

05月31日,百余名设计师创意“龙”形展亮相天津,

　　同学们，初中是人生中最美好的一段时光，从红领巾到共青团，你们逐渐走向成熟，并开始用自己的眼光审视人生，审视社会，审视身边的一切。我们为和你们共度这段美好时光感到快乐。今天是你们最后一次全体聚会了。今后，你们中的有些同学可能还会留在母校继续上学，但多数同学会离开母校到新的环境去求学，不管何去何从，母校都祝福你们。你们走出了母校，甚至可能在老师的视野中消失，但你们走不出母校的期望，走不出老师们对你们的牵挂。有时间回来看看，与老师保持着联系。

,中国🇨🇳老太DH,中国美女做浣肠㊙️网站,老师掀开裙子让我挺进去18禁。

【今年以来北京海关查获旅客违规携带象牙制品超2000件】

【华北黄淮等地将有强降雨江淮及以南大部地区高温持续】

责编：埃珀森

审核：桑贝

责编：胡文平

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题

村干部培训班的 篇6

村干部培训班的篇6