深度求索(DeepSeek)宣布其 DeepSeek-R1 模型已完成一次重要的小版本升级,最新版本号为 DeepSeek-R1-0528。根据官方报告,此次更新显著提升了模型的思维深度与推理能力,并在多个基准测评中取得了国内领先的成绩。用户现已可通过官方网站、APP 或小程序开启“深度思考”功能体验新版模型,API 也已同步更新。
1
深度思考与推理能力显著增强
据官方介绍,DeepSeek-R1-0528 依然基于2024年12月发布的 DeepSeek V3 Base 模型构建。
然而,在后训练阶段,团队投入了更多算力,使得模型在数学、编程及通用逻辑等方面的表现得到大幅优化。
更新后的 R1 模型在多项基准测评中表现优异,成绩在国内同类模型中名列前茅。官方信息指出,其整体表现已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。开源继续紧逼顶尖闭源模型。
一个显著的例子是在 AIME 2025(美国数学邀请赛)测试中,新版模型的准确率从旧版的 70% 大幅提升至 87.5%。官方将这一进步归因于模型在推理过程中思维深度的增强。数据显示,在 AIME 2025 测试集上,旧版模型平均每题使用 12K tokens,而新版模型则平均使用 23K tokens,表明其在解题时进行了更为详尽和深入的思考。这种“更长的思考时间”换取更高准确性的策略,也成为社区讨论的一个特点。
此外,深度求索团队还将 DeepSeek-R1-0528 的思维链蒸馏后训练了 Qwen3-8B Base 模型,得到了 DeepSeek-R1-0528-Qwen3-8B。这个8B参数量的模型在数学测试 AIME 2024 中的表现仅次于 DeepSeek-R1-0528,超越了原版 Qwen3-8B(提升10.0%),并与拥有235B参数量的 Qwen3-235B 表现相当。
深度求索认为,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。在R1最初发布时,这就是DeepSeek想要证明的技术趋势之一,而这个叫做DeepSeek-R1-0528-Qwen3-8B的小模型,是最新的证明。该模型最核心的技术亮点在于成功地将 DeepSeek-R1-0528 这种超大规模模型的复杂“思维链”(Chain of Thought, CoT)蒸馏到一个仅有8B参数量的 Qwen3-8B 基座模型上。结果显示,蒸馏后的8B模型在极具挑战性的AIME数学竞赛中取得了超越原版Qwen3-8B达10%的成绩,甚至达到了与235B参数量的Qwen3-235B相当的水平。这强有力地证明了高质量思维链对于提升小模型推理能力的巨大潜力,以及蒸馏技术在传递这种高级认知能力方面的有效性。这一成果会继续打破“唯参数论”的迷思,它展示了通过先进的训练方法(如思维链蒸馏),小参数模型完全有可能在特定复杂任务上达到或接近远超其参数规模的大模型的性能水平。这对于算力受限、追求更高效率和更低部署成本的场景具有极其重要的现实意义。
当然,它也是DeepSeek最好的广告,会有更多模型用它来做蒸馏。
DeepSeek-R1-0528 的发布迅速引起了国内外技术社区和分析机构的关注。根据AI评测机构 Artificial Analysis 的报告,新版 DeepSeek R1 的“智慧指数”从60分跃升至68分,这一成绩使其超越了 xAI、Meta、Anthropic 等公司的模型,与 Google Gemini 2.5 Pro 并列全球第二梯队,仅次于 OpenAI 的部分顶尖模型(如 o3 及 o4.mini 高阶版),成为开源模型领域的有力竞争者。
多家评测指出,DeepSeek-R1-0528 的进步主要体现在其核心的推理和编码能力上。
例如,在著名代码测试平台 LiveCodeBench 的早期测试中,新版 R1 展现出与 OpenAI 最新 o3 高版本模型相媲美的表现。Analytics Vidhya 等分析机构也认为,R1-0528 作为开源模型,在数学(如AIME测试中接近OpenAI o3水平)、通用推理(GPQA Diamond)和编码能力上,已经成为 Gemini 2.5 Pro 的有力挑战者,并在性价比方面展现出显著优势,其性能表现接近 Claude 级别,而成本则低数倍。
分析普遍认为,DeepSeek R1 的此次迭代,并非单纯依赖模型参数规模的扩大,而更多是通过改进后训练策略,投入更多算力进行深度优化,从而实现了性能的跃升。尽管新模型在执行复杂任务时可能消耗更多 tokens(即“思考”时间更长),但这通常被视为换取更高准确性和更深度思考的合理代价。同时,相较于某些同级别模型,其在完成特定评测任务时的总 token 消耗量仍具有竞争力。
1
其他关键能力提升
除了核心的推理能力,新版 DeepSeek-R1 在以下方面也获得了改进:
幻觉改善:针对大模型常见的“幻觉”问题,新版 R1 进行了优化。在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了约45%至50%,能提供更准确可靠的输出。此前DeepSeek系列模型最为人诟病的问题就是幻觉,此前在Vectara HHEM人工智能幻觉测试——行业权威测试,通过检测语言模型生成内容是否与原始证据一致,从而评估模型的幻觉率,帮助优化和选择模型——中,DeepSeek-R1显示出14.3%的幻觉率,这不仅是 DeepSeek-V3的近4倍,也远超行业平均水平。此次根据官方的数据,幻觉问题得到了很大的改善。这对于这款模型继续进入更深的生产场景至关重要。
创意写作:模型在议论文、小说、散文等文体的创作能力上得到进一步优化,能够生成篇幅更长、结构内容更完整的作品,写作风格也更贴近人类偏好。据不少评测,曾经R1张口就来的“量子纠缠”文风,得到了改进。
工具调用:DeepSeek-R1-0528 现已支持工具调用功能(但在“thinking”过程中不支持)。目前,该模型在 Tau-Bench 测评中的成绩为 airline 53.5% / retail 63.9%,与 OpenAI o1-high 水平相当,但与 o3-High 及 Claude 4 Sonnet 相比仍有一定差距。官方展示了通过 LobeChat 调用 R1 模型进行网页文章总结的示例。
其他领域:模型在前端代码生成(如示例中的单词卡片应用)、角色扮演等方面的能力也得到了更新和提升。
API 更新详情
伴随模型升级,API 也已同步更新,接口与调用方式保持不变。新版 R1 API 不仅继续支持查看模型思考过程,还新增了对 Function Calling 和 JsonOutput 的支持。
值得注意的是,max_tokens 参数的含义在新版 API 中有所调整。现在,该参数用于限制模型单次输出的总长度(包括思考过程),默认值为 32K tokens,最大可支持 64K tokens。API 用户需及时调整此参数,以防输出内容被提前截断。
官方网站、小程序、App 端和 API 中的模型上下文长度目前仍为 64K。对于需要更长上下文的用户,可以通过其他第三方平台调用开源版本的 R1-0528 模型,该版本支持 128K 的上下文长度。
1
模型开源信息
DeepSeek-R1-0528 与之前的 DeepSeek-R1 使用相同的基座模型,主要改进在于后训练方法。对于私有化部署的用户,仅需更新 checkpoint 和 tokenizer_config.json 文件(主要涉及工具调用相关变动)。
模型参数量为 685B(其中 14B 为 MTP 层)。开源版本的上下文长度为 128K。模型权重已在 Model Scope 和 Hugging Face 等平台开放下载:
Model Scope: https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528
Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
与以往版本一致,此次 DeepSeek-R1 的开源仓库(包括模型权重)继续采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
DeepSeek-R1-0528 的发布,被DeepSeek称为小版本更新,但解决的问题样样关键,而且此次更新也反映出,通过精心的后训练和算力投入,即使基于现有基座模型,也能实现性能的显著飞跃。这可能是更重要的思路,也让人继续对DeepSeek下一个真正的大更新继续充满好奇。
点个爱心,再走 吧
《免费涩涩18网站入口》,《w3u7903ejky2ywls》mm131王雨纯被❌污污污
“美女裸体被❌羞羞网站视频”
星野4月26号录屏回放免费高清版
……
06月02日
“朴彩英裸体被❌吸乳”崩坏星穹铁道真理医培养攻略
↓↓↓
06月02日,五粮液“和美全球行”走进美国华盛顿、纽约 共绘全球文化交流新画卷,火影扒开腿做❌同人动漫,小柔seeu裸体污照无码,关晓彤AI换脸一二三区,亚洲A片人獸交XXOO
06月02日,中国新会计法大幅提高处罚标准,俄把瓷按在床上生孩子,a🔴🍑我好🔴痒🔴本子,剑来宁姚让人内射,催眠警察男奴服侍主人项链
06月02日,辽宁检察机关立案侦查的石新力涉嫌滥用职权案移送审查起诉,亲生肉伦ND男男,亚洲经典一区二区三区爱妃记歌词,黑寡妇被C到高潮,巨胸爆乳露双奶头被❌的网站
06月02日|(八闽千姿)福建南日岛:昔日“小渔村”变身“和美海岛”|祼胸爆白色十乳液|灵狐者被俘虏的故事内容介绍|免费🔞成人❌❌❌在线观看|windows18—20
06月02日|中国队包揽金银!陈芋汐夺得跳水世界杯女子10米跳台冠军|夕日红被扒开腿坐做❌同人|老公顶到了好痛嗯〜轻一点|爆❌喷水❌洗澡❌真人视频|梦红尘裸乳被爆❌白浆
06月02日|“中国法治的国际传播”学术研讨会:学者建言双向互动、多元共生|小黄豆比赛中叫声惊人|體育生爽擼大雞吧黃片gv|被❌到爽🔞高潮痉挛|91成人无码看片在线观看网址……
06月02日,迎世界读书日 北京将开展772场阅读活动,校花用🐻揉我🐤🐤,91人成色情网www,日本做受18~20岁A片,喷🔞🈲🍌流水高c动漫
06月02日,假日里的“唐潮”:“Z世代”汉服妆造师点染长安之韵,欧美群伦性艳史黄94,少妇搡BBBB搡BBB搡抖音,日向花火裸体被❌涩涩,小柔被体育老师c到流白浆作文
06月02日|贵州黔东南州:发挥产业优势 跑出乡村发展“加速度”|巴巴塔掀开裙子摸小内内的小说|裸体初音未来被❌到爽视频网站|穿JK白丝被❌裸体免费|亚洲A片无码秘色多多汉娜
06月02日,【滔滔两岸潮】台湾“小豌豆”南昌成长记:冀架起两岸青少年交流桥梁,1000部丰满熟女富婆视频,甘雨裸体❌开腿涩涩视频,张柏芝阿娇网盘08年提取码,斗破之乱婬h侵犯众女
06月02日,以军继续在加沙地带的军事行动 巴勒斯坦武装公布打击以军新视频,鸣人XX❌XX佐良娜漫画,女S男m四爱虐男sp,别告诉妈妈正版下载安装,肥猫中国
06月02日,从“跟随”向“首发”转变 多家外资金融机构持续加码投资中国,被❌❌❌后喷出水,小舞用白丝脚帮我脚交,恶戏1-2集在线观看高清免费观看,嗯∽啊~轻点禁🔞揉胸动漫
06月02日|红海局势持续紧张或将冲击约旦物价|❌蜜❌桃❌黄❌片AV|小太正Gay初精ay2022|91丨国产丨白浆㊙️韩漫|美女露出奶头❌❌❌免费
06月02日|(经济观察)首席看经济:中国在全球经济复苏中发挥重要引擎作用|19禁被爆❌漫画在线观看|克洛琳德脱了内裤猛烈进入|打屁股光屁股版|91久久久无码国产一区二区
06月02日|靠什么确保“不拖欠一分血汗钱”?|XXXX69HD老师学生|茜特垃莉被爆❌黄漫|冰雪奇缘艾莎用冰自慰爽翻天|1000部啪啪未满十八勿入进
为爱所困2024,仙剑四六对打|部长通道丨孙业礼:“冰天雪地”正在变成“金山银山”|动漫强迫裸体被❌出水网站|成人性生交大片免费看黄漫中文版|歪歪漫画❤在线观看入口|动漫同人滚床单
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺