太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

支持原生FP8和PyTorch 2.5.0,摩尔线程发布Torch-MUSA v2.0.0

2025-05-21 12:15:30
来源:

猫眼电影

作者:

邓柱峰

手机查看

  猫眼电影记者 邱岳峰 报道w3u7903ejky2ywls

近日,摩尔线程正式发布Torch-MUSA v2.0.0版本,这是其面向PyTorch深度学习框架的MUSA扩展库的重要升级。新版本基于MUSA Compute Capability 3.1计算架构,支持原生FP8数据类型,支持PyTorch 2.5.0,并通过多项针对MUSA计算平台的性能优化,进一步提升了对AI模型和大规模数据处理的支持能力。

FP8原生支持,国产GPU的技术突破

作为本次升级的核心亮点,Torch-MUSA v2.0.0率先在国产GPU上实现了对FP8数据类型的完整支持。FP8是当前AI计算的一种前沿低精度格式,在支持原生FP8的GPU上,大语言模型(LLM)训练采用FP8混合精度可大幅提高GPU算力,显著降低显存占用。摩尔线程基于新一代 MUSA Compute Capability 3.1 计算架构的全功能 GPU 原生支持 FP8 计算,这为 Torch-MUSA v2.0.0 实现 FP8 矩阵乘法和分布式通信优化提供了坚实的基础。依托这一底层架构优势,Torch-MUSA v2.0.0 能够充分发挥 FP8 的计算效能,显著提升大语言模型训练和推理的效率。

三大关键优化,提升AI计算效率

Torch-MUSA v2.0.0在MUSA计算平台引入多项创新功能,进一步提升深度学习任务的执行效率:

▼ 新增虚拟内存管理支持:

MUSA虚拟内存管理技术能够有效缓解GPU内存碎片化问题,降低模型训练过程中的峰值内存占用,特别适用于FSDP、DeepSpeed和Megatron-LM等主流大模型训练框架。

▼ 新增MUSA Graph支持:

MUSA Graph技术将多个MUSA内核整合到一个图中,通过单次CPU调度大幅减少启动开销,提升计算效率,同时与CUDA Graph接口高效兼容。

▼ torch.compile增加Triton后端支持:

为torch.compile提供了Triton-MUSA后端支持,开发者可以直接使用PyTorch原生接口,获得更高效的性能表现。

支持PyTorch 2.5.0,生态兼容性更强

Torch-MUSA v2.0.0在完整支持PyTorch 2.2.0的基础上,新增了对PyTorch 2.5.0的支持,使开发者能够在基于MUSA Compute Capability 3.1计算架构的全功能GPU上,无缝运行新版本的PyTorch,享受更高效的AI计算体验。

Torch-MUSA已完全开源,开发者可通过访问GitHub获取源代码。摩尔线程鼓励开发者积极参与该项目的开发与改进,通过提交问题报告(issue)或代码修改申请(pull request)等方式,共同推动Torch-MUSA以及MUSA软件生态的持续进步与创新。

▼ Torch-MUSA开源地址:

https://github.com/MooreThreads/torch_musa

▼ 功能特性:

在Torch-MUSA中,用户只需指定torch.device("musa"),即可轻松将现有的PyTorch模型迁移到MUSA架构的GPU上运行,无需大幅修改代码。Torch-MUSA完全兼容PyTorch的自动微分和动态图机制,支持多种常用的神经网络模块及优化算法,并加速了关键深度学习算子的计算。此外,Torch-MUSA还支持多种PyTorch特性,包括DDP、JIT、FSDP、Profiler、Extension等。

▼ 版本迭代:

MUSA Graph技术将多个MUSA内核整合到一个图中,通过单次CPU调度大幅减少启动开销,提升计算效率,同时与CUDA Graph接口高效兼容。

v1.1.0:初次发布,支持PyTorch 2.0,提供基础张量操作和常见神经网络层的MUSA加速。

v1.2.0:进一步扩展算子支持,支持了完整功能的Profiler、MUSA Extension,并增加了Torch-MUSA专有特性如compare_tool、musa_converter,帮助用户更快的定位模型精度问题。

v1.3.0:支持PyTorch 2.2.0,性能进一步提升,支持FSDP,支持更复杂的模型和更大规模的数据处理。

v2.0.0:在MUSA Compute Capability 3.1计算架构上,原生支持FP8数据类型,支持PyTorch 2.5.0,新增MUSA虚拟内存管理技术优化大模型训练内存效率,通过集成Triton-MUSA后端显著提升torch.compile编译效率,支持MUSA Graph技术。

▼ 未来计划:

Torch-MUSA将继续跟进PyTorch的版本更新,计划支持更高版本的PyTorch。摩尔线程期待与广大开发者和研究人员共同完善Torch-MUSA的功能,持续优化性能,为基于MUSA架构的国产全功能GPU构建更强大的深度学习生态。

 时事1:欧美Gay青年粗硬巨大照片

  05月21日,江苏一高校搭建教育数字化教学研究基地,

开学学校领导讲话 篇12

,伊蕾娜被各种姿势c到哭的小说。

  05月21日,4名王浩文系列拐卖案的被拐儿童被找回 公安机关组织认亲,

  傍晚,晚霞如血,染红了半边天,火烧云涌动,镶嵌着一道道金边,连石村似乎也被笼罩上了一层神秘的光彩。

,三玖裸体被❌羞羞本子在线看,浏览器p7ycc免费,车后座挺进朋友人妻女友。

 时事2:动漫18涩涩动漫人物下载

  05月21日,东西问丨吴静:雕塑艺术如何成为中法文化交融的“使者”?,

  最后,祝老师们身体健康,工作顺利!祝同学们愉快学习,健康成长,学习进步!谢谢大家!

,日本精品裸体奶头大胸av主播,让我们站着再来一次的更新时间,女学生小嫩嫩裸露尿。

  05月21日,香港海关1月截获97宗怀疑携带濒危物种入境个案,

  过去的一年,我们围绕中心,大力实施招商引资, 扎实推进重点项目建设。 先后引进 投资51.1亿元 的 中铁置业集团公司合作实施高铁新区起步区建设、投资6.6 亿元的 化工技师学院迁建项目、投资100亿元的奥特莱斯生态购物城项目、投资3 亿元的 世界公园项目、投资5亿元的光大垃圾发电项目顺利招商签约、落户高铁新区。完成投资1.8亿元, 基础设施建设实现投资 7200万元,完成了 平安路项目30 万M3 土方清运和20xx 余米管道铺设部分工程、洪河桥项目底板预制、桩基施工等工程、站前广场综合改造部分工程、联迪商务中心改造工程项目等,新区建设步伐进一步加快。

,我在办公室被添荫蒂视频,日本五╳╳裸体╳╳大片,小戳进里面图片。

 时事3:日本护士裸体㐅乄㐅❌❌漫画

  05月21日,中新健康丨专家:中西医结合,是中医药现代化发展的重要路径,

  数十个陶罐都被打开了,有奇异的小兽,有毒虫,都很特别,如筷子长的金色小蛇,会飞的银色蜘蛛等。

,蜜桃AV精品视频一区二区三区,男同🔞被🌿出水动漫aPP,脱裤子❌❌屁屁灌水网站。

  05月21日,处暑节气适合做哪些运动?丨时令节气与健康,

  夜已深,天色很黑,一座又一座山峰矗立,巍峨而磅礴,原始山脉中传来各种嘶吼声,此起彼伏,惊人魂魄。

,美女露出🐻让男生揉好爽,英雄联盟卡莎翻白眼流眼泪图,日B就日小嫩B。

 时事4:申鹤被爆♡❌3D动漫

  05月21日,6岁萌娃雪道畅滑“圈粉”:冀站上最高领奖台,

  4、注意饮食卫生,防止食物中毒,不买“三无”食品,不随便在外就餐。不买校园周边非法经营摊点售卖的食品、饮料,要从小养成不乱花钱的习惯。

,艳妇全程穿着长靴做爰AV,国产男女无套✅免费网站,美女隐私㊙️裸体网站无遮挡。

  05月21日,中共中央政治局召开会议 审议《关于二十届中央第三轮巡视情况的综合报告》 中共中央总书记习近平主持会议,

  只是一年多来,它陷入沉眠,这才终止。

,中国明星裸体㊙️无遮挡,火辣御妇被❌到高潮喷出www,蒂法3d成人h无码视频。

责编:刘永兵

审核:克林斯曼

责编:徐常珍

相关推荐 换一换