猫眼电影
猫眼电影记者 皮娜·鲍 报道w3u7903ejky2ywls
克雷西 明敏 发自 凹非寺量子位 | 公众号 QbitAI
字节Seed首次开源代码模型!
Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。
它证明“只需极少人工参与,LLM就能自行管理代码训练数据”。
通过自身生成和筛选高质量训练数据,可大幅提升模型代码生成能力。
这可以被视为对DeepSeek-R1模型自我生成和筛选训练数据策略的扩展。
一共包含三个版本:
BaseInstructReasoning
其中,Instruct在编程方面表现出色,拿下两个测试基准SOTA。
推理版本,在IOI 2024上超越了QwQ-32B和DeepSeek-R1。
模型上下文长度32K,使用6T tokens训练,并采用宽松的MIT开源协议,完整代码已发布在Hugging Face。
用模型管理训练数据
Seed-Coder的前身是doubao-coder,采用Llama 3结构,参数量为8.2B,6层,隐藏层大小为4096,采用分组查询注意力(GQA)机制。
最关键的工作是数据的处理,Seed团队提出了一种“模型中心”的数据处理方式,使用模型来策划数据。
具体来说,模型会从GitHub和网络档案爬取原始代码数据,经过几个处理步骤后输出最终的预训练数据。
Seed-Coder的过滤数据分为四个类别:
文件级代码:来自GitHub的单个代码文件,经过处理后保留了高质量的代码内容。仓库级代码:基于仓库结构的代码文件,保留了项目结构信息,使模型能学习到代码间的关系。Commit数据:GitHub提交的快照,包括提交信息、仓库元数据、相关文件和代码补丁,包括来自14万个高质量仓库的7400万次提交;代码相关网络数据:从网络存档中提取的包含代码块或高度代码相关的文档。
先看看代码的处理,在预处理阶段,系统在仓库和文件两个层级实施去重,SHA256哈希进行精确去重,并通过MinHash算法进行近似去重。
这种双层策略产生了两种变体的代码语料库——文件级变体用于短上下文窗口训练,仓库级变体保留了项目结构以支持更连贯的长上下文学习。
随后,系统使用Tree-sitter等语法解析器检查剩余文件,丢弃那些包含语法错误的文件。这个预处理阶段总共减少了大约98%的原始数据量。
在质量过滤阶段,Seed-Coder使用一个经过22万+份代码文档特殊训练的评分模型来过滤低质量代码文件。
评分模型以DeepSeek-V2-Chat为基础,评价指标包含四个关键方面:
可读性:包含合理数量的注释,遵循一致的命名规范,并遵循通用的格式和结构规范;模块性:结构合理,避免功能过于复杂或冗长,通过模块化实现逻辑功能清晰分离;清晰度:减少冗余,(如过多的函数调用、大段注释代码或调试打印语句),每个代码块的意图表达清晰;可重用性:没有语法和逻辑错误、避免过多硬编码数据、设计便于与其他项目集成、功能完整且有意义。
评分模型被要求给出一个从0到10的总体评分,并提供详细解释,之后将分数重新缩放到[0,1]范围,并使用1.3B参数的预训练Llama 2模型,通过回归头进行一个epoch的微调作为质量评分器。
最终基于这种评分方法,Seed团队过滤掉了得分最低的约10%文件,得到了支持89种编程语言、包含约1万亿个独特token的语料库。
再来是Commit的部分,Seed-Coder从14万个高质量GitHub仓库中收集了7400万个提交记录。这些仓库的筛选标准包括:至少100颗星、10个fork、100次提交和100天的维护活动。
每个提交记录都包含丰富的元数据,如提交消息、代码补丁、合并状态以及提交前的代码快照。
为了在预训练中有效利用这些数据,Seed-Coder将每个提交样本格式化为一个代码变更预测任务。给定一个提交消息及其相关上下文,模型需要预测被修改的文件路径以及相应的代码变更。
在进行去重和预处理后,Seed-Coder获得了约1000亿token的提交数据语料库用于预训练。
对于从网络获取的数据,Seed-Coder也提出了一个专门的提取框架。
在预处理阶段,框架对大规模网络档案进行高效预处理,并识别出两类原始数据:
第一类是HTML中带有明确代码标签(如…)的网页,这些可以通过标准规则直接提取;第二类是没有明确代码标签但可能包含代码或相关知识的数据,这类数据由于其体量和复杂性带来了提取挑战。
与GitHub数据处理类似,研究团队实施了精确和近似去重技术,并开发了启发式规则来在预处理阶段剔除明显的低质量文档(例如少于10个词的文档)。
在质量过滤阶段,框架采用两个互补策略来确保数据质量:首先是识别代码相关性,然后评估已识别内容的内在质量。
在代码相关性识别步骤中,研究团队首先从Common Crawl数据中抽取了1000万个网页样本,将具有代码特征的页面标记出来,建立评估数据集。
这个数据集中70%用作训练集,用于训练fastText模型来自动识别代码相关内容,剩余30%作为验证集来评估模型效果。
在质量评估步骤中,系统使用LLM对已识别的代码相关内容进行评分,评分标准采用0-10分制,评估内容的规范性、完整性和价值。
但在实际评估过程中,研究者发现不同类型网站的得分出现了系统性偏差:
文档网站、技术博客等由于格式规范、结构清晰,普遍获得较高分数;而技术论坛、问答平台等网站,虽然往往包含有价值的技术讨论和解决方案,但因其非正式的格式而得分较低。
为了解决这种评分偏差,研究团队对评分系统进行了优化——首先将网站按其内容形式和功能进行分类,然后为每类网站制定专门的评分标准和筛选阈值。
通过这套经过优化的双重过滤机制,系统最终构建了一个约1.2万亿tokens的网络数据语料库。
基于前面的四个数据类别,Seed-Coder的预训练分为了两个阶段。
其中,第一个阶段为常规预训练,使用的是文件级代码和代码相关网络数据,目的是构建模型的基础能力。
第二个阶段是持续预训练,使用所有四个类别的数据,并额外引入了高质量数据集和长上下文数据集,以增强性能并进行对齐,同时刺激模型理解长上下文数据的能力。
除了常规的next-token预测目标外,Seed-Coder还采用了Fill-in-the-Middle(FIM)和Suffix-Prefix-Middle(SPM)训练,分别增强上下文感知完成和中间内容能力。
基于基础模型,Seed团队还开发了Seed-Coder的两个特殊变体——
指令模型(-Instruct):目的是增强模型的指令遵循能力,其训练分为监督微调(SFT)第二阶段和直接偏好优化(DPO)两个阶段;推理模型(-Reasoning):目的是提升模型在复杂编程任务中的多步推理能力,采用长链条思维(LongCoT)强化学习训练。首先使用从编程竞赛问题和高质量模型生成的解决方案进行预热训练,然后通过GRPO框架实施强化学习训练。
这两个变体的设立,进一步扩展了Seed-Coder的实用性。
字节Seed最近更开放了
除了开源Seed-Coder外,字节Seed近期多个动作也都聚焦在了降门槛、开源开放方面。
比如在基础模型方面,发布了视频生成和推理模型。
视频生成模型Seaweed,70亿参数原生支持1280x720分辨率、任意宽高比和时长视频生成,效果超越140亿参数模型。
它强调了成本方面的优势,使用665000 H100 GPU小时完成训练,中小团队可部署,仅需40GB显存单GPU就可生成分辨率达1280x720的视频。
深度思考模型Seed-Thinking-v1.5,更轻量级、更少激活参数,在数学、代码等推理任务中超越DeepSeek-R1。
同时团队公开技术报告,介绍其中秘诀,通过数据、RL算法和RL基础设施三方面提升推理表现。
在智能体方面,与清华联手推出了电脑操作智能体UI-TARS,超越GPT-4o等,且免费商用。
它在Qwen-VL基础上而来,能一步步自动完成跨任务的复杂操作,并兼容各种系统。目前GitHub上星标已超过5.8k。
此外还推出了Multi-SWE-bench:用于问题解决的多语言基准。它跨越7种编程语言,包含1632个高质量实例。
与此同时,字节Seed内部也在不断调整。消息称,LLM 之下的3个团队,Pre-train(预训练)、Post-train(后训练) 和Horizon如今转为直接向Seed负责人吴永辉汇报。字节AI Lab中探索机器人&具身智能、AI for Science和AI安全可解释性的三个方向,也已并入Seed。
今年年初,字节正式设立代号为“Seed Edge”的研究项目,核心目标是做比预训练和大模型迭代更长期、更基础的AGI前沿研究,项目成员拥有宽松的研究环境、独立计算资源,并实行更长期的考核方式。拟定五大研究方向也完全面向下一代AI研究、原始性创新,或者是范式上的更迭。
而透过字节的动向,如今AI圈子的新风向也更明朗了。
开源、开放、原始性创新、AI普惠……
言而总之,还得是感谢DeepSeek了?(doge)
项目地址:https://bytedance-seed-coder.github.io/
参考链接:https://seed.bytedance.com/zh/
时事1:蘑菇视频成人精品网站图标
05月14日,中国正能量| “一带一路”,共筑全球梦想,
“呜呜,我恨啊……”老人回光返照,说完这些,马上就不行了,最后脸上挂着泪水,混着血淌下,便一动不动了。
,雷电裸体被❌视频网站。05月14日,2024第八届“多彩贵州”自行车联赛收官,
因此让我们携起手来共筑国防、共同维护国家安全,为了我们的祖国,也为了我们自己。中国梦是宏大的国家梦,也是具体入微的个人梦。我们决不会因为几个演戏的、唱歌的而失了民族大义!决不会为了经济利益而自吞损害国家利益的苦果!我们渴望和平,但不怯战!中华民族不可辱!中国人民不可欺!希望个别国家好自为之!
,白丝女仆被❌免费无遮挡,金克丝脸红流眼泪翻白眼,雌堕的肛门训练计划2全流程攻略。时事2:furry脱精光洗澡时自慰
05月14日,“桃芝”强度逐渐减弱 南海北部海面仍有大风天气,
“切,都是庸才,上次还说是什么了不得的天才呢,还不是被我们击败,要不是他骑着火麒逃进了火焰洞中,非抓回来不可。”一个少年反驳。
,胸走光看奶,河北彩花在线播放かわきたさいか,捷克街头原版网站入口。05月14日,让“银发族”搭上数字化快车,
共有四头至强的生物在战斗,它们的恐怖层次超乎了想象,连恶魔猿、离火牛魔这样的强大遗种都在发抖,躲在远方,不敢动弹。
,娇妻屁股眼被开发1-8,女女❌互慰吃奶互揉视频,性裸交直播。时事3:动漫美女乖乖扒下小内裤打屁股
05月14日,和谐共生|我们的生活与“碳”有什么关系?,
加强干部作风建设是个老生常谈的话题,弄得不好,就容易流于形式、走过场。现在我们全镇上下正在开展以“推动跨越发展,加速千人桥崛起”为主题的解放思想大讨论活动。我们将借此机会,乘此东风,把如何加强干部作风建设作为这次思想大讨论的重点,切实改变我们干部队伍中一些不良现象。作风建设效果如何,除了看我们的决心大不大,措施硬不硬,还要看我们的每个干部,以什么样的姿态来介入,以什么样的心态来对待。首先必须认识到作风问题不是小节问题。俗话说:“小洞不补,大事吃苦”。有些人认为只要自己不犯错,有点小问题也不要紧,谁拿自己也没有办法。其实作风问题,看起来多数都是生活小节、工作细节、思想支节、行为末节问题,上不了纲,上不了线。但我们知道,许多走向犯罪道路的人,都是从小节开始堕落的。这一点,在我们的现实生活中不胜枚举。大到高官落马,小到村官进牢,原因都是平时工作生活中不注意小节,关键时候犯下大错。
,和平精英❌18禁视频,白丝校花🌸让我C在线观看91,黑人巨大进入袖珍女。05月14日,澳大利亚珀斯北部发生船只倾覆事故 一人遇难,
现在已经是4 月中旬了,大家要对照年初定下的目标,看看离这个目标还有多远,然后寻找自身存在的问题,特别是作风方面的问题。目前最重要的就是要咬紧目标,鼓足干劲,把思想和精力聚集到狠抓落实上来。抓好落实,关键在人,核心在干部,在干部的工作作风上。一个地方与一个地方的竞争,很大程度上是干部素质的竞争,干部作风的竞争。近年来,我们通过学习江浙等先进地区经验,就强烈地感受到,我们的干部与浙江的干部比,有很大的差距,主要体现在抓发展的理念没有人家新,抓落实的作风没有人家实,困难环境下破解难题的能力没有人家强。我们千人桥区位和资源优势相对滞后,发展基础相对薄弱,这两年之所以取得了这么大的成绩,靠的是艰苦奋斗的作风,靠的是埋头苦干的精神,靠的是改革创新的魄力,靠的是优质高效的服务。总之一句话,靠的是人,是干部,是扎实的作风。大家都好好琢磨一下,同是一个环境,同是一样的地方,为什么有的村和单位镇上布置的工作项项能落实,事事能成功,而且有特色,但是有的单位和村,镇上布置的工作却没有多大起色。有的甚至是上级给他钱,也干不好事情。我镇的计划生育、村村通水泥公路和农业结构调整总体上应该是很不错的。但我们一年到头抓计生工作,一年到头讲计生工作,可是我们就是有少数村、少数干部就是抓不好,抓不到点子上去,一到检查就出问题。问题出来后,不从自身找原因,总是强调这样那样的客观原因。村规模要讲大,没有比重阳村再大的;人口多,有比重阳村再多的吗?为什么重阳村在镇上和县里组织的计生检查中,就是不出问题,这不是重阳村干部作风扎实,是什么?再说,我们村村通水泥公路工程,全镇50% 的村在实施,为什么有的村群众捐款踊跃,捐款达到90% 以上,而有的村几乎一分钱收不上来,这又能说明什么呢?这只能说明我们的一些干部工作没有做到家,方法不对路,措施不得力。
,小🐤🐤戳进去里面91抖,电影来5566黑夜免费播放最新章节,国精产品无码ThePorn。时事4:ふた扶她部无删减版樱花动漫
05月14日,年货市场“旺”起来 “年货经济”呈现新亮点、新趋势,
各位皇庭家人:
,berazeresssHD俄语,3D动漫美女❌❌到高潮,亚洲精品国产精品国。05月14日,马来西亚外长穆罕默德将访华,
南部奥体中心,城市中心划时代创举,以南部奥体中心
,爆c18🈲开襟乳液狂飙视频,老太婆大肥又白A片,Qos媚黑女王漫画免费阅读下拉式。责编:刘建文
审核:赛桂冠
责编:肖军