太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o

2025-05-31 06:15:34
来源:

猫眼电影

作者:

曹雪锋

手机查看

  猫眼电影记者 谢计来 报道w3u7903ejky2ywls

新智元报道

编辑:英智

【新智元导读】Meta推出KernelLLM,这个基于Llama 3.1微调的8B模型,竟能将PyTorch代码自动转换为高效Triton GPU内核。实测数据显示,它的单次推理性能超越GPT-4o和DeepSeek V3,多次生成时得分飙升。

在AI领域,参数规模曾被视为「性能天花板」。

Meta最新发布的KernelLLM,却用8B参数的「小身板」,在GPU内核生成任务中把200B的GPT-4o按在地上摩擦。

这是一个基于Llama 3.1 Instruct进行微调的8B参数模型,旨在将PyTorch模块自动转换为高效的Triton GPU内核。

KernelLLM简直是GPU内核开发神器,用更少的参数实现了更强的性能,且简单易用。

它只有8B参数,但是在KernelBench-Triton Level 1,单次推理性能超过了GPT-4o和DeepSeek V3。

通过多次推理,KernelLLM性能优于DeepSeek R1。

这一切都来自一个参数规模比竞争对手小两个数量级的模型。

@Denis Kanonik吐槽「这又是用测试集训练的吗?」

KernelLLM让内核开发更易上手

KernelLLM是一款基于Llama 3.1 Instruct的8B模型,专门针对用Triton编写GPU内核的任务进行了训练。

它能让GPU编程变得更简单,实现高性能GPU内核生成的自动化。

KernelLLM通过自动化生成高效的Triton实现,满足对高性能GPU内核日益增长的需求。

随着工作负载的增大和加速器架构的多样化,对定制化内核解决方案的需求显著增加。

现在市面上很多相关工具,要么只能在测试的时候优化,要么就只盯着KernelBench的问题调优,很难应对更广泛的场景。

KernelLLM是首个在外部(PyTorch,Triton)代码对数据上进行微调的LLM。

Triton内核生成工作流程

把PyTorch代码输进去,KernelLLM就会生成Triton内核候选代码。

然后用单元测试来验证这些代码,用随机输入跑一跑,看看输出对不对。要是生成好几个候选代码,还能比比哪个最好,挑出最优的。

KernelLLM的Triton内核生成流程:用KernelLLM把PyTorch代码翻译成Triton内核的候选代码。生成的代码会通过单元测试验证,测试用已知形状的随机输入数据运行内核。这个流程支持生成多个候选代码(通过 pass@k评估),增加候选数量来提高质量,最后选出最好的Triton内核实现作为输出(绿色部分)

为了训练这个模型,团队可是下了大功夫,用了25000多对(PyTorch,Triton)代码示例,还有合成的样本。

这些数据一部分来自TheStack的过滤代码,一部分是通过torch.compile () 和提示技术生成的。

数据集KernelBook,参考链接:https://huggingface.co/datasets/GPUMODE/KernelBook。

训练时用的是Llama3.1-8B-Instruct模型,在自定义数据集上做了监督微调(SFT),测试它在KernelBench-Triton上生成正确Triton内核及调用代码的能力。

KernelBench-Triton是基于KernelBench[Ouyang et al. 2025]开发的变体,专注Triton内核生成。

训练和评估时,PyTorch代码会配置一个包含格式示例的提示模板作为指令。

模型训练了10个epoch,批大小为32,采用标准SFT方法,超参数根据验证集的困惑度(perplexity)来选择。

训练用了16个GPU,共耗时12小时(192 GPU小时),报告了最佳检查点的验证结果。

性能评估

尽管模型规模较小,但其性能可与最先进的LLM相媲美。

KernelBench-Triton测试中,8B参数的KernelLLM,单次推理得分20.2,比671B参数的DeepSeek V3(16分)和200B参数的GPT-4o(15分)都高。

要是多生成几个候选代码,得分还能蹭蹭往上涨,生成10个的时候能到51.8分,20个的时候能到57.1分。

KernelLLM推理用temperature=1.0和top_p=0.97运行。

在KernelBench上测试了模型,这是一个开源基准测试,用于评估LLM编写的高效GPU内核的能力。

它包含250个精心挑选的PyTorch模块,按负载调整,从简单的单操作(如Conv2D或Swish,Level 1)到完整的模型架构(Level 3)。

它在不同难度的任务里表现都很稳,不管是简单的单个操作符,还是复杂的模型架构,都能应对。

测试会同时降低代码的正确性(通过与参考PyTorch输出对比)和性能(通过与基准实现的加速比)。

团队开发了一个新的KernelBench-Triton变体,专门评估LLM生成Triton内核的能力,非常适合测试KernelLLM。

所有测试都在NVIDIA H100 GPU上完成。

KernelLLM在pass@k中表现出近似对数线性的扩展行为

KernelLLM怎么用?

先装几个依赖包:

用的时候,先导入库,调用generate_triton函数,就能生成优化后的Triton代码啦。

KernelLLM提供了一个简单的接口,用于从PyTorch代码生成Triton核。

要是不想写脚本,还能直接运行python kernelllm.py,使用内置的REPL接口,打开交互式界面,实时看结果。

kernelllm.py提供了多种与模型交互的方法。

KernelLLM提供了几种自定义生成过程的方法:

有时它会犯点小错误,比如API引用不对、语法出错,有时候还不太能按指令生成理想的内核。

生成的代码结构有点像编译器自动吐出来的,有时在变量命名、张量形状、类型处理和数值精度这些细节上也容易出问题。

参考资料:

https://x.com/reach_vb/status/1924478755898085552

https://huggingface.co/facebook/KernelLLM

 时事1:成人羞羞视频🔞在线观看

  05月31日,长春:54路文旅东北虎专列吸引游客打卡,  彭博社指出,全球前十大电池供应商中,只有3家不是中国企业。美方的做法表明,美国国会试图进一步推动五角大楼和国土安全部门的供应链与中国“脱钩”。,啊┅┅快┅┅用力啊淑芬小暖视频。

  05月31日,汽车产业重塑竞争新格局,

  即便这样,他也离地倒飞,被小石昊一脚踢的凌空而起,横飞出去十几米远,扑通一声跌落在地上。在这个过程中,小不点也飞了出去,不过却不是被震退,而是自己在动,冲向雷明远,一拳直击,简单而暴力。

,动画埃及猫拔萝卜原创版视频,捆绑㊙️免费视频网站,大乳美女大乳。

 时事2:FC2PPV完全初撮り♥

  05月31日,面向东盟开放合作前沿 广西高水平共建西部陆海新通道,

  1、不带火柴、打火机等火种以及汽油、烟花、爆竹等易燃易爆物品进入校园。

,欧做爰XXXⅩ性欧120秒视频,刻晴被❌到爽🔞高潮痉挛漫画,虽然很笨但是很擅长啃小鸡。

  05月31日,法定假日增加2天 民众:不仅是时间延长 也是幸福翻倍,

  俗话说:“良好的开端等于成功的一半。”新学期开学了,我相信同学们一定会满怀信心走向成功。怎样争取有一个良好的开端呢?在这里,我向同学们提议:

,妓女同❌裸乳❌动漫,卡戴珊裸被❌视频无码网址,啊轻点灬太粗嗯太深了电影。

 时事3:成人叼嘿视频网站免费下载

  05月31日,粤港澳大湾区内地九市用电增速猛,

  它与小不点接连碰撞,虎爪对拳头,铿锵作响,符文飞舞,周围巨石皆腾空,在巨大的冲击波下四飞。

,91丝袜❤️国产在线观看,霍雨浩把唐舞桐❌爽到高潮,女人露出🐻让男子揉捏。

  05月31日,提前查询分数?内部买补录名额? 高考过后骗局来袭,

  二是把好村民代表推选关。根据《x省村民委员会选举办法》规定和当前农村经济社会发展的需要,对村民代表的构成及人员素质提出了新的要求,在村民代表推选环节上,我们重点抓三个环节。一是强调人员素质。除选举办法中规定的基本条件外,我们还结合鄞江实际,出台了《村民代表推选办法》,重点推选一些热心于村级事务发展、群众公认度高、善于发挥代表作用的优秀人员;二是强调构成比例。为充分体现党的先进性和妇女参政议政的需要,在选举过程中加大了对代表和妇女代表的推荐力度,要求村民代表中女性代表女性比例一般不少于15%,代表一般不低于三分之一;三是把握推选程序。全镇各村以村民小组为单位,采取书面推选的方式直接产生村民代表。

,欧美AV大毛毛片免费看,男人露jiji㊙️免费网站推特,老师脱了裙子坐肉茎。

 时事4:小鲜肉GayGay✅✅免费自慰

  05月31日,珠海百年古村蝶变国际村,

  各位老师、各位:

,男性裸体㊙️无遮挡蛋蛋,narutoXXXX玖辛奈爆乳,八重神子裸体开腿网站。

  05月31日,赵丽颖获第十七届亚洲电影大奖“AFA新世代奖”,

  对我们来说,最好是祝愿这个世界幸福盛开!

,国产肥老妇九色,黄⭐色⭐视⭐频,Japan⭕⭕⭕⭕XXXX19。

责编:何立新

审核:赵杰

责编:乔余堂

相关推荐 换一换