太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether

首页 >新闻 >社会新闻

DeepSeek-R1 “小更新”：靠后训练改进就能榨出如此多潜力

2025-06-01 23:14:19

来源：

猫眼电影

作者：

傅丽萍

手机查看

　　猫眼电影记者乔治·吉尔报道w3u7903ejky2ywls

深度求索（DeepSeek）宣布其 DeepSeek-R1 模型已完成一次重要的小版本升级，最新版本号为 DeepSeek-R1-0528。根据官方报告，此次更新显著提升了模型的思维深度与推理能力，并在多个基准测评中取得了国内领先的成绩。用户现已可通过官方网站、APP 或小程序开启“深度思考”功能体验新版模型，API 也已同步更新。

深度思考与推理能力显著增强

据官方介绍，DeepSeek-R1-0528 依然基于2024年12月发布的 DeepSeek V3 Base 模型构建。

然而，在后训练阶段，团队投入了更多算力，使得模型在数学、编程及通用逻辑等方面的表现得到大幅优化。

更新后的 R1 模型在多项基准测评中表现优异，成绩在国内同类模型中名列前茅。官方信息指出，其整体表现已接近其他国际顶尖模型，如 o3 与 Gemini-2.5-Pro。开源继续紧逼顶尖闭源模型。

一个显著的例子是在 AIME 2025（美国数学邀请赛）测试中，新版模型的准确率从旧版的 70% 大幅提升至 87.5%。官方将这一进步归因于模型在推理过程中思维深度的增强。数据显示，在 AIME 2025 测试集上，旧版模型平均每题使用 12K tokens，而新版模型则平均使用 23K tokens，表明其在解题时进行了更为详尽和深入的思考。这种“更长的思考时间”换取更高准确性的策略，也成为社区讨论的一个特点。

此外，深度求索团队还将 DeepSeek-R1-0528 的思维链蒸馏后训练了 Qwen3-8B Base 模型，得到了 DeepSeek-R1-0528-Qwen3-8B。这个8B参数量的模型在数学测试 AIME 2024 中的表现仅次于 DeepSeek-R1-0528，超越了原版 Qwen3-8B（提升10.0%），并与拥有235B参数量的 Qwen3-235B 表现相当。

深度求索认为，DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。在R1最初发布时，这就是DeepSeek想要证明的技术趋势之一，而这个叫做DeepSeek-R1-0528-Qwen3-8B的小模型，是最新的证明。该模型最核心的技术亮点在于成功地将 DeepSeek-R1-0528 这种超大规模模型的复杂“思维链”（Chain of Thought, CoT）蒸馏到一个仅有8B参数量的 Qwen3-8B 基座模型上。结果显示，蒸馏后的8B模型在极具挑战性的AIME数学竞赛中取得了超越原版Qwen3-8B达10%的成绩，甚至达到了与235B参数量的Qwen3-235B相当的水平。这强有力地证明了高质量思维链对于提升小模型推理能力的巨大潜力，以及蒸馏技术在传递这种高级认知能力方面的有效性。这一成果会继续打破“唯参数论”的迷思，它展示了通过先进的训练方法（如思维链蒸馏），小参数模型完全有可能在特定复杂任务上达到或接近远超其参数规模的大模型的性能水平。这对于算力受限、追求更高效率和更低部署成本的场景具有极其重要的现实意义。

当然，它也是DeepSeek最好的广告，会有更多模型用它来做蒸馏。

DeepSeek-R1-0528 的发布迅速引起了国内外技术社区和分析机构的关注。根据AI评测机构 Artificial Analysis 的报告，新版 DeepSeek R1 的“智慧指数”从60分跃升至68分，这一成绩使其超越了 xAI、Meta、Anthropic 等公司的模型，与 Google Gemini 2.5 Pro 并列全球第二梯队，仅次于 OpenAI 的部分顶尖模型（如 o3 及 o4.mini 高阶版），成为开源模型领域的有力竞争者。

多家评测指出，DeepSeek-R1-0528 的进步主要体现在其核心的推理和编码能力上。

例如，在著名代码测试平台 LiveCodeBench 的早期测试中，新版 R1 展现出与 OpenAI 最新 o3 高版本模型相媲美的表现。Analytics Vidhya 等分析机构也认为，R1-0528 作为开源模型，在数学（如AIME测试中接近OpenAI o3水平）、通用推理（GPQA Diamond）和编码能力上，已经成为 Gemini 2.5 Pro 的有力挑战者，并在性价比方面展现出显著优势，其性能表现接近 Claude 级别，而成本则低数倍。

分析普遍认为，DeepSeek R1 的此次迭代，并非单纯依赖模型参数规模的扩大，而更多是通过改进后训练策略，投入更多算力进行深度优化，从而实现了性能的跃升。尽管新模型在执行复杂任务时可能消耗更多 tokens（即“思考”时间更长），但这通常被视为换取更高准确性和更深度思考的合理代价。同时，相较于某些同级别模型，其在完成特定评测任务时的总 token 消耗量仍具有竞争力。

其他关键能力提升

除了核心的推理能力，新版 DeepSeek-R1 在以下方面也获得了改进：

幻觉改善：针对大模型常见的“幻觉”问题，新版 R1 进行了优化。在改写润色、总结摘要、阅读理解等场景中，幻觉率降低了约45%至50%，能提供更准确可靠的输出。此前DeepSeek系列模型最为人诟病的问题就是幻觉，此前在Vectara HHEM人工智能幻觉测试——行业权威测试，通过检测语言模型生成内容是否与原始证据一致，从而评估模型的幻觉率，帮助优化和选择模型——中，DeepSeek-R1显示出14.3%的幻觉率，这不仅是 DeepSeek-V3的近4倍，也远超行业平均水平。此次根据官方的数据，幻觉问题得到了很大的改善。这对于这款模型继续进入更深的生产场景至关重要。

创意写作：模型在议论文、小说、散文等文体的创作能力上得到进一步优化，能够生成篇幅更长、结构内容更完整的作品，写作风格也更贴近人类偏好。据不少评测，曾经R1张口就来的“量子纠缠”文风，得到了改进。

工具调用：DeepSeek-R1-0528 现已支持工具调用功能（但在“thinking”过程中不支持）。目前，该模型在 Tau-Bench 测评中的成绩为 airline 53.5% / retail 63.9%，与 OpenAI o1-high 水平相当，但与 o3-High 及 Claude 4 Sonnet 相比仍有一定差距。官方展示了通过 LobeChat 调用 R1 模型进行网页文章总结的示例。

其他领域：模型在前端代码生成（如示例中的单词卡片应用）、角色扮演等方面的能力也得到了更新和提升。

API 更新详情

伴随模型升级，API 也已同步更新，接口与调用方式保持不变。新版 R1 API 不仅继续支持查看模型思考过程，还新增了对 Function Calling 和 JsonOutput 的支持。

值得注意的是，max_tokens 参数的含义在新版 API 中有所调整。现在，该参数用于限制模型单次输出的总长度（包括思考过程），默认值为 32K tokens，最大可支持 64K tokens。API 用户需及时调整此参数，以防输出内容被提前截断。

官方网站、小程序、App 端和 API 中的模型上下文长度目前仍为 64K。对于需要更长上下文的用户，可以通过其他第三方平台调用开源版本的 R1-0528 模型，该版本支持 128K 的上下文长度。

模型开源信息

DeepSeek-R1-0528 与之前的 DeepSeek-R1 使用相同的基座模型，主要改进在于后训练方法。对于私有化部署的用户，仅需更新 checkpoint 和 tokenizer_config.json 文件（主要涉及工具调用相关变动）。

模型参数量为 685B（其中 14B 为 MTP 层）。开源版本的上下文长度为 128K。模型权重已在 Model Scope 和 Hugging Face 等平台开放下载：

Model Scope: https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528

Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

与以往版本一致，此次 DeepSeek-R1 的开源仓库（包括模型权重）继续采用 MIT License，允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

DeepSeek-R1-0528 的发布，被DeepSeek称为小版本更新，但解决的问题样样关键，而且此次更新也反映出，通过精心的后训练和算力投入，即使基于现有基座模型，也能实现性能的显著飞跃。这可能是更重要的思路，也让人继续对DeepSeek下一个真正的大更新继续充满好奇。

点个爱心，再走吧

时事1：黄婷大连大学视频中女主是谁

06月01日,东西问丨诺维·巴苏基：如何让中印尼合作成果惠及更多民众？,

　　二是创新运作机制。按照政企分开、政事分开、事企分开、打破垄断、特许经营的思路，放开建设事业的投资和经营领域。鼓励和吸引多种经济成份参与建设和经营城市基础设施，实现城市建设投资主体的多元化、服务运营的市场化。合理补充、调整城市管理专项经费和市政公用事业财政补贴，随着市场的发展，及时核定市政公用事业产品、服务、作业标准及费用定额，改革经费拨付方式，变"以费养人"为"以费养事"。要进一步深化市政公用事业经营体制改革，实行建管分开、管养分开。行政主管部门主要抓好行业和市场监管，具体经营和作业行为走企业化、市场化、社会化的路子。公共交通、供水、污水处理、供热、供气等实行"特许经营"，市政设施维护、卫生保洁、绿化养护实行动态招标承包。国有市政公用事业单位要尽快与主管部门脱钩，改制为公司制企业，逐步走向市场，建立起适应市场经济体制要求的市政公用运营发展新机制。

,芙宁娜撕内衣挠奶头视频。

06月01日,广东建有和在建国家大科学装置达10个,

　　“你们该不会熬炼了一头太古遗种吧？”刚才吃瘪、心中很愤懑的孩子蛟鹏，这个时候忍不住开口。

,白白的深夜宝库,雷电将军裸体被❌羞羞网站,弱网2.15,版本最新版。

时事2：浣肠と排泄の羞耻～视频

06月01日,上海交通大学发讣告悼念李政道：心通天宇，情系华夏,

　　“族长爷爷，他们是什么人，为了什么而来？”小不点问道。

第七十二章走出大荒,美杜莎被到爽被爆视频,动漫furry裸体被❌羞羞嗯网站,艾莎和安娜被❌吸乳网站。

06月01日,甘肃白银：构建新型用地模式服务闭环强“内动力”,

　　回应给它的是一根铁棍，劈在璀璨的宝术上，爆发出阵阵大道伦音。而且，一种至强的原始符文出现，铿锵作响，让棍子发出无量光，缭绕着成片的字符，密密麻麻，被加持后，此棍神威激增。

,韩漫被狂❌到高潮的漫画,爆❌喷水❌洗澡❌外网,林尼被❌吸乳脱内内。

时事3：naruto❌sakura18

06月01日,AI+藏医人体生命科学业界专家在青讨论新医科,

　　小不点诧异，毛球竟然在装傻，成了这个样子。同时，他也已生出感应，四方共有十几人围了过来。

,永久免费看成品人漫画破解版,小母狗水好多主人,www.教师被爆❌羞羞视视频动漫。

06月01日,河南平顶山煤矿事故涉事煤矿党委书记、矿长被免职,

　　“这……不是它自己的宝骨，是其他遗种的骨块，来头更大！”小不点敏锐的发现了异常。

,打屁股狠㊙️免费动漫网站,刘涛又紧又大又湿又爽,日韩人妻精品无码一区二区三区。

时事4：刘亦菲自慰❌❌喷水

06月01日,国足主帅展望小组生死战：将全力以赴拿下比赛,

　　他们曾去过现场，那种可怕场面，比在千军万马间冲杀还危险，一块巨石从那么高的地方落下，力道何止万斤，真要砸中，必然会化成肉泥！

,18禁美女腿打开无遮直播,❌❌❌美女裸体免费视频,媚黑母猪宣言。

06月01日,上海推进国际金融中心建设：将丰富金融领域“上海价格”“上海指数”指标体系,

　　第二，进一步优化城市空间形象。一要加快推进城市控制性详细规划和修建性规划修编。规划建设部门要根据城市发展的新要求，不断加快各类专项规划编制进度，逐步形成以县域城镇体系规划、城镇总体规划、控制性详细规划、修建性详细规划为主要内容的法定规划体系，确保规划的科学性和可操作性。今年，我们要尽快完成《嘉荫县朝阳镇城区四期50公顷控制性详细规划》、《嘉荫县朝阳镇中心区50公顷修建性详细规划》和《嘉荫县滨水城市建设发展规划》等编制。二要更加注重整体协调。在具体城市规划建设过程中，城市的每个组团、每条街道、每幢建筑，都必须注重与总体规划的统一，与自然生态环境的统一，注重建筑造型、色彩、风格的协调一致，多做精品，少留遗憾。三要积极拓展城市空间。按照“五横七纵、环网相连、节点畅通”的道路框架，以江山路为轴，以友谊大街为线，稳步推进城区道路改造，加快实施江山路、朝阳路、繁荣街等道路升级改造工程，推进西外环、东外环、南外环道路建设，拉大城市框架。积极服务汤嘉铁路建设，做好铁路线走向和站点布局等工作，力争用最短的时间把我县建设成一个道路纵横、功能完善、品位高雅、环境整洁的美丽城市。

,莫妮卡在厨房被c高潮部分,XXXmmm💋🍌🍆🍑女,扒开徐伦❌狂揉❌难受真人。

【1-9月中国国有企业营业总收入同比增长1.2%】

【三峡库区航运繁忙有序】

责编：纪边强

审核：莱丽

责编：唐新亮