太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether

首页 >新闻 >社会新闻

蚂蚁集团推出开源多模态框架Ming-Lite-Uni；微软推出LLM统一框架ARTIST｜今日热门论文

2025-05-07 23:53:06

来源：

猫眼电影

作者：

克林·罗宾逊

手机查看

　　猫眼电影记者李光洁报道w3u7903ejky2ywls

速览热门论文：

1.蚂蚁集团推出开源多模态框架 Ming-Lite-Uni

2.微软推出 LLM 统一框架 ARTIST：集成推理、RL 和工具

3.R1-Reward：通过稳定强化学习训练多模态奖励模型

4.语音-语言模型 Voila：实时自主交互和角色扮演

5.RM-R1：将推理整合到奖励建模中

1.蚂蚁集团推出开源多模态框架 Ming-Lite-Uni

在这项工作中，来自蚂蚁集团的研究团队推出了一个开源多模态框架——Ming-Lite-Uni，其具有新设计的统一视觉生成器和为统一视觉和语言而定制的本地多模态自回归模型。

具体来说，该项目提供了集成MetaQueries 和 M2-omni框架的开源实现，同时引入了新颖的多尺度可学习 token 和多尺度表征对齐策略。通过利用固定的 MLLM 和可学习的扩散模型，Ming-Lite-Uni 使本地多模态 AR 模型能够执行文本到图像的生成和基于指令的图像编辑任务，从而将其功能扩展到纯粹的视觉理解之外。

实验结果证明了 Ming-Lite-Uni 的性能，并展示了其交互过程中的流畅性。值得注意的是，这项工作与同时进行的多模态人工智能里程碑--如 2025 年 3 月 25 日更新的具有原生图像生成功能的 ChatGPT-4o --相吻合，强调了像 Ming-Lite-Uni 这样的统一模型在通往 AGI 道路上的广泛意义。Ming-Lite-Uni目前处于alpha阶段，不久将进一步完善。

论文链接：

https://arxiv.org/abs/2505.02471

GitHub 地址：

https://github.com/inclusionAI/Ming/tree/main/Ming-unify

2.微软推出 LLM 统一框架 ARTIST：集成推理、RL 和工具

大语言模型（LLM）在复杂的推理任务中取得了进步，但由于依赖于静态的内部知识和纯文本推理，它们仍然受到根本性的限制。现实世界的问题解决往往需要动态、多步骤推理、自适应决策以及与外部工具和环境交互的能力。

在这项工作中，微软团队推出了一个整合代理式推理、强化学习和工具集成的 LLM 统一框架——ARTIST，其无需步骤级监督，利用基于结果的 RL 学习工具使用和环境交互的鲁棒策略，就可以使模型能够自主决定何时、如何以及在多轮推理链中调用哪些工具。

在数学推理和多轮函数调用基准上进行的大量实验表明，ARTIST 的性能始终优于SOTA基准模型，与基准模型相比，ARTIST 的绝对性能提高了 22%，而且在更具挑战性的任务上也取得了进步。详细的研究和度量分析表明，代理式 RL 训练能带来更深入的推理、更有效的工具使用和更高质量的解决方案。

论文链接：

https://arxiv.org/abs/2505.01441

3.R1-Reward：通过稳定强化学习训练多模态奖励模型

多模态奖励模型（MRM）在提高多模态大语言模型（MLLM）的性能方面发挥着重要作用。虽然最近的研究进展主要集中在改进 MRM 的模型结构和训练数据上，但对奖励模型的长推理能力的有效性以及如何在 MRM 中激活这些能力的探索还很有限。

在这项工作中，来自中国科学院自动化研究所、清华大学、快手和南京大学的研究团队探讨了如何利用强化学习（RL）来改进奖励建模。具体来说，他们将奖励建模问题重新表述为基于规则的 RL 任务。然而，他们发现，由于Reinforce++等现有 RL 算法的固有局限性，直接将这些算法应用于奖励建模往往会导致训练不稳定甚至崩溃。于是，他们改进了现有 RL 方法的训练损失、优势估计策略和奖励设计，提出了 StableReinforce 算法。这些改进带来了更稳定的训练动态和更好的性能。为了促进 MRM 训练，他们从不同的数据集中收集了 20 万个偏好数据。他们的奖励模型 R1-Reward 在该数据集上使用 StableReinforce 算法进行训练，有效提高了多模态奖励建模基准的性能。

与之前的 SOTA 模型相比，R1-Reward 在 VL 奖励基准测试中提高了 8.4%，在多模态奖励基准测试中提高了 14.3%。此外，随着推理计算量的增加，R1-Reward 的性能也得到了进一步提高。

论文链接：

http://arxiv.org/abs/2505.02835

GitHub 地址：

https://github.com/yfzhang114/r1_reward

4.语音-语言模型 Voila：实时自主交互和角色扮演

可以与日常生活完美融合的 AI agent 将以自主、实时和情感表达的方式与人类互动。它将不仅仅是对命令做出响应，而是持续倾听、推理并主动做出反应，从而促进流畅、动态和情感共鸣的互动。

在这项工作中，来自Maitrix的研究团队及其合作者提出了一个大型语音-语言基础模型系列 Voila，其采用全新的端到端架构，实现了全双工、低延迟对话，同时保留了丰富的语音细微差别，如音调、节奏和情感，从而超过了传统的管道系统。而且，Voila 的响应延迟时间仅为195 毫秒，超过了人类的平均响应时间。另外，它的分层多尺度 Transformer 集成了大语言模型（LLM）的推理能力和声学建模功能，实现了自然、个性化的语音生成--用户只需编写文本指令，就能定义说话者的身份、语调和其他特征。此外，Voila 还支持 100 多万种预构建语音，并可以根据短至10 秒的简短音频样本高效定制新语音。

除口语对话外，Voila 还被设计成一个统一的模型，可以用于各种基于语音的应用，包括自动语音识别（ASR）、文本到语音（TTS），以及只需极少调整即可实现的多语言语音翻译。

论文链接：

https://arxiv.org/abs/2505.02707

项目地址：

https://voila.maitrix.org/

5.RM-R1：将推理整合到奖励建模中

奖励建模，尤其是基于人类反馈的强化学习（RLHF），对于将大语言模型（LLM）与人类偏好对齐至关重要。为了提供准确的奖励信号，奖励模型（RM）应该激发深度思考，并在给出分数或判断之前进行可解释的推理。然而，现有的 RM 要么生成不透明的标量分数，要么直接生成首选答案的预测，难以整合自然语言评论，从而缺乏可解释性。

受推理密集型任务中长思维链（CoT）进展的启发，来自伊利诺伊大学厄巴纳-香槟分校的研究团队及其合作者，假设并验证了将推理能力整合到奖励建模中能够提高 RM 的可解释性和性能。他们提出了一类新的生成式 RM，即推理奖励模型（ReasRMs），其将奖励建模表述为一项推理任务。他们提出了一个面向推理的训练管道，并训练了一系列ReasRMs，即RM-R1。训练包括两个关键阶段：（1）高质量推理链的蒸馏；（2）可验证奖励的强化学习。RM-R1 通过自我生成推理踪迹或特定于聊天的评分标准，并根据这些标准评估候选回复，从而改进 LLM 的推出。

从经验上看，RM-R1 在多个综合奖励模型基准中实现了 SOTA 或接近 SOTA 的生成式 RM 性能，比更大的开放权重模型（如Llama3.1-405B）和专有模型（如GPT-4o）高出 13.8%。除了性能，他们还进行了全面的实证分析，以了解 ReasRM 训练成功的关键因素。

论文链接：

https://arxiv.org/abs/2505.02387

GitHub 地址：

https://github.com/RM-R1-UIUC/RM-R1

整理：学术君

如需转载或投稿，请直接在公众号内留言

时事1：我要操逼

05月07日,中外赛车手齐聚长春上演冰雪版“速度与激情”,

　　79年前的今天，为挽救国家和民族的危亡，在中国共产党的领导下，当时的北平数千名学生走上街头，举行了大规模的游行示威活动，发出了“停止内战，一致对外”的呐喊。游行队伍遭到了国民党军警的残酷镇压，寒冷的冰水射向了示威游行的学生队伍，恶狠狠的皮鞭抽向了赤手空拳的爱国青年，明晃晃的刺刀戳进了手无寸铁的学生胸膛，导致100多人受伤、30多人被捕。然而残酷的镇压并没有浇灭学生的爱国怒火，它越烧越旺，燃遍了大江南北，燃遍了神州大地，由此，轰轰烈烈地掀开了全国救亡运动的新高潮。

,国产做受❌❌❌高潮游戏明星。

05月07日,发展绿色循环经济政学研界代表共论再生资源回收利用,

　　自**镇第**届人民代表大会第一次会议召开以来，**镇政府在区委、区政府和镇党委的正确领导下，认真贯彻执行党在农村的各项方针政策，团结和带领全镇广大干部群众，求真务实，开拓创新，较好地完成了上届人代会确定的各项工作任务。

,artist:tomet呜人和小樱,男男冖❌❌❌无套,国产Chinese男男GayGay免费网站。

时事2：男男Gay互吃鳮吧吞网站

05月07日,（走进中国乡村）浙江德清：全域美丽带动全民共同富裕,

　　“好吧，既然是孩子的事，我们就旁观好了，不去参合。”云天宫的老人点头道，不再多说什么。

,美女裸身黄网高清无码视频在线观看,小心🐤入🍑🍑动漫下拉观看,亚洲色恨天。

05月07日,香港歌剧院《狮子山下》音乐会贵阳开演,

　　这是一副恐怖的景象，宛如灭世，想阻止都不行，因为这数千万人口被乌光笼罩后，已经意味着难以活命了。

,小兰被新一❌到爽羞羞视频,荫蒂被男人添的好舒服A片在线,少萝裸乳被爆❌白浆的。

时事3：果冻精品㊙️国产传媒AV消防

05月07日,【国际熊猫日特刊】被“圆滚滚”萌晕了！国宝表情包大合集来啦,

　　一是城镇规模不断膨胀，城镇化水平日益提高。近年来，市、县、乡三级都十分重视城镇化建设，极力打造城镇这一承载工商业发展的载体、蕴含文化的容器，构建加快发展的大舞台。目前，市中心城区建成区面积达平方公里，市区非农业人口达到万人，分别比年增长平方公里和万人。全市县城建成区面积达平方公里，比年的平方公里增加平方公里，建成区总人口达万人。市区规划并开始建设平方公里的新城和工业城，目前，城市框架正在拉开，朝着建设豫鄂皖三省交界处的区域中心城市和豫南重点城市方向发展。县规划了平方公里的东城区，一期开发平方公里区域内各项建设进展顺利，形势喜人;县城市建设力度不减，年，县城框架拉大到平方公里，建成区面积平方公里，常住人口万，城镇化水平达到;县按照“一河两线三水四片”发展构想，城镇建成区面积扩大到平方公里，县城区人口达到万人，城镇化率达，分别较年增长了、;县城规模达到平方公里，人口达到万人;县按照“三纵三横”发展思路，县城面积由原来的平方公里扩大到平方公里;县把饮马港入淮口段平方公里水域改造成的“东西湖”，既提升了城市品味，又扩大了面积;区五路沿线开发如火如荼，并积极开辟城区向南挺进的新天地;县大力开发城东新区，扩大城区面积;区加大了旧城改造和浉河南岸改造开发力度;县不仅扩大了县城面积，而且建出了山城特色;新区开发建设经过几年的蕴育，已经进入快速发展期。全市小城镇建成区面积达平方公里，比年的平方公里增长了平方公里。重点镇、中心镇、沿边镇规模不断扩大。全市个建制镇镇区常住人口达万人，较年的万人增长万人，平均规模达平方公里，比年的平方公里增长倍，其中个省级重点镇镇区常住人口达万人，较年的万人增长。全市城镇化水平今年年底预计可以达到左右，将比年提升个多百分点，比年提升近个多百分点。

,中国免费挠脚心tk网站折磨,脱了邓紫棋内裤猛烈进入小说,《上司的少妇做爰HD》。

05月07日,复旦科创投资基金启动聚焦科技前沿打造创新“核爆点”,

　　同时，我们要励精图治，严谨办学，把~~~小学办成一所领导满意、社会满意、家长满意、学生成才的学校。

,51在线无精精品㊙️白丝,高清码男同在线观看,三角洲骇爪产奶动画。

时事4：美杜莎3D同人18❌羞羞

05月07日,吉林省森林草原防灭火指挥部办公室、吉林省气象台发布森林火险黄色预警信号,

　　黑蛟木，坚硬而沉重，与精铁差不多，树体如螭龙，蜿蜒而苍劲，呈乌黑色，连叶子都如墨玉般。

,苍井空做爰高潮A片,古见同人18❌AV黄动画网站,梅花十一翻白眼流眼泪流口水。

05月07日,澳门各界：澳门载荷专家诞生激励澳门青少年追寻“航天梦”,

　　1、要集中精力，认真学习。目前，大家的工作任务很重。工作上的、生产上的许多事情需要我们安排处理。希望大家妥善安排工作，在两天的时间里集中精力，认真学习，保证时间，保证质量，静下心来专心听课，善始善终地完成好培训任务。大家要看到，现代社会是一个充满竞争的社会，是一个学习型社会，要把加强学习、更新知识、提高素质作为一项长期性任务，适应现代社会和新形势的要求，不断充实提高自己，增强驾驭农村工作的能力。

,高清乱码🔞❌91入口,58性猛交ⅩXXX乱大交男男,90岁老太婆乱婬A片。

【和评理 | 马尼拉应停止侵权挑衅不要引火烧身玩火自焚】

【英雄联盟LPL春季赛揭幕新赛季新变化创造新看点】

责编：李玮玮

审核：王金笛

责编：邓晓文