太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

蚂蚁集团推出开源多模态框架Ming-Lite-Uni;微软推出LLM统一框架ARTIST|今日热门论文

2025-05-14 19:11:38
来源:

猫眼电影

作者:

秦纳

手机查看

  猫眼电影记者 莫新雄 报道w3u7903ejky2ywls

速览热门论文:

1.蚂蚁集团推出开源多模态框架 Ming-Lite-Uni

2.微软推出 LLM 统一框架 ARTIST:集成推理、RL 和工具

3.R1-Reward:通过稳定强化学习训练多模态奖励模型

4.语音-语言模型 Voila:实时自主交互和角色扮演

5.RM-R1:将推理整合到奖励建模中

1.蚂蚁集团推出开源多模态框架 Ming-Lite-Uni

在这项工作中,来自蚂蚁集团的研究团队推出了一个开源多模态框架——Ming-Lite-Uni,其具有新设计的统一视觉生成器和为统一视觉和语言而定制的本地多模态自回归模型。

具体来说,该项目提供了集成MetaQueries 和 M2-omni框架的开源实现,同时引入了新颖的多尺度可学习 token 和多尺度表征对齐策略。通过利用固定的 MLLM 和可学习的扩散模型,Ming-Lite-Uni 使本地多模态 AR 模型能够执行文本到图像的生成和基于指令的图像编辑任务,从而将其功能扩展到纯粹的视觉理解之外。

实验结果证明了 Ming-Lite-Uni 的性能,并展示了其交互过程中的流畅性。值得注意的是,这项工作与同时进行的多模态人工智能里程碑--如 2025 年 3 月 25 日更新的具有原生图像生成功能的 ChatGPT-4o --相吻合,强调了像 Ming-Lite-Uni 这样的统一模型在通往 AGI 道路上的广泛意义。Ming-Lite-Uni目前处于alpha阶段,不久将进一步完善。

论文链接:

https://arxiv.org/abs/2505.02471

GitHub 地址:

https://github.com/inclusionAI/Ming/tree/main/Ming-unify

2.微软推出 LLM 统一框架 ARTIST:集成推理、RL 和工具

大语言模型(LLM)在复杂的推理任务中取得了进步,但由于依赖于静态的内部知识和纯文本推理,它们仍然受到根本性的限制。现实世界的问题解决往往需要动态、多步骤推理、自适应决策以及与外部工具和环境交互的能力。

在这项工作中,微软团队推出了一个整合代理式推理、强化学习和工具集成的 LLM 统一框架——ARTIST,其无需步骤级监督,利用基于结果的 RL 学习工具使用和环境交互的鲁棒策略,就可以使模型能够自主决定何时、如何以及在多轮推理链中调用哪些工具。

在数学推理和多轮函数调用基准上进行的大量实验表明,ARTIST 的性能始终优于SOTA基准模型,与基准模型相比,ARTIST 的绝对性能提高了 22%,而且在更具挑战性的任务上也取得了进步。详细的研究和度量分析表明,代理 式 RL 训练能带来更深入的推理、更有效的工具使用和更高质量的解决方案。

论文链接:

https://arxiv.org/abs/2505.01441

3.R1-Reward:通过稳定强化学习训练多模态奖励模型

多模态奖励模型(MRM)在提高多模态大语言模型(MLLM)的性能方面发挥着重要作用。虽然最近的研究进展主要集中在改进 MRM 的模型结构和训练数据上,但对奖励模型的长推理能力的有效性以及如何在 MRM 中激活这些能力的探索还很有限。

在这项工作中,来自中国科学院自动化研究所、清华大学、快手和南京大学的研究团队探讨了如何利用强化学习(RL)来改进奖励建模。具体来说,他们将奖励建模问题重新表述为基于规则的 RL 任务。然而,他们发现,由于Reinforce++等现有 RL 算法的固有局限性,直接将这些算法应用于奖励建模往往会导致训练不稳定甚至崩溃。于是,他们改进了现有 RL 方法的训练损失、优势估计策略和奖励设计,提出了 StableReinforce 算法。这些改进带来了更稳定的训练动态和更好的性能。为了促进 MRM 训练,他们从不同的数据集中收集了 20 万个偏好数据。他们的奖励模型 R1-Reward 在该数据集上使用 StableReinforce 算法进行训练,有效提高了多模态奖励建模基准的性能。

与之前的 SOTA 模型相比,R1-Reward 在 VL 奖励基准测试中提高了 8.4%,在多模态奖励基准测试中提高了 14.3%。此外,随着推理计算量的增加,R1-Reward 的性能也得到了进一步提高。

论文链接:

http://arxiv.org/abs/2505.02835

GitHub 地址:

https://github.com/yfzhang114/r1_reward

4.语音-语言模型 Voila:实时自主交互和角色扮演

可以与日常生活完美融合的 AI agent 将以自主、实时和情感表达的方式与人类互动。它将不仅仅是对命令做出响应,而是持续倾听、推理并主动做出反应,从而促进流畅、动态和情感共鸣的互动。

在这项工作中,来自Maitrix的研究团队及其合作者提出了一个大型语音-语言基础模型系列 Voila,其采用全新的端到端架构,实现了全双工、低延迟对话,同时保留了丰富的语音细微差别,如音调、节奏和情感,从而超过了传统的管道系统。而且,Voila 的响应延迟时间仅为195 毫秒,超过了人类的平均响应时间。另外,它的分层多尺度 Transformer 集成了大语言模型(LLM)的推理能力和声学建模功能,实现了自然、个性化的语音生成--用户只需编写文本指令,就能定义说话者的身份、语调和其他特征。此外,Voila 还支持 100 多万种预构建语音,并可以根据短至10 秒的简短音频样本高效定制新语音。

除口语对话外,Voila 还被设计成一个统一的模型,可以用于各种基于语音的应用,包括自动语音识别(ASR)、文本到语音(TTS),以及只需极少调整即可实现的多语言语音翻译。

论文链接:

https://arxiv.org/abs/2505.02707

项目地址:

https://voila.maitrix.org/

5.RM-R1:将推理整合到奖励建模中

奖励建模,尤其是基于人类反馈的强化学习(RLHF),对于将大语言模型(LLM)与人类偏好对齐至关重要。为了提供准确的奖励信号,奖励模型(RM)应该激发深度思考,并在给出分数或判断之前进行可解释的推理。然而,现有的 RM 要么生成不透明的标量分数,要么直接生成首选答案的预测,难以整合自然语言评论,从而缺乏可解释性。

受推理密集型任务中长思维链(CoT)进展的启发,来自伊利诺伊大学厄巴纳-香槟分校的研究团队及其合作者,假设并验证了将推理能力整合到奖励建模中能够提高 RM 的可解释性和性能。他们提出了一类新的生成式 RM,即推理奖励模型(ReasRMs),其将奖励建模表述为一项推理任务。他们提出了一个面向推理的训练管道,并训练了一系列ReasRMs,即RM-R1。训练包括两个关键阶段:(1)高质量推理链的蒸馏;(2)可验证奖励的强化学习。RM-R1 通过自我生成推理踪迹或特定于聊天的评分标准,并根据这些标准评估候选回复,从而改进 LLM 的推出。

从经验上看,RM-R1 在多个综合奖励模型基准中实现了 SOTA 或接近 SOTA 的生成式 RM 性能,比更大的开放权重模型(如Llama3.1-405B)和专有模型(如GPT-4o)高出 13.8%。除了性能,他们还进行了全面的实证分析,以了解 ReasRM 训练成功的关键因素。

论文链接:

https://arxiv.org/abs/2505.02387

GitHub 地址:

https://github.com/RM-R1-UIUC/RM-R1

整理:学术君

如需转载或投稿,请直接在公众号内留言

 时事1:欧美男GayGays✅免费网站

  05月14日,礼来替尔泊肽实现平均减重20.2% 头对头研究显示优于司美格鲁肽的13.7%,

  同志们,新形势、新任务给党委办公室工作带来了新挑战,也给大家提供了更加广阔的舞台和发展空间,各级党委寄予厚望。 大家一定要严格要求自己,高标准、创造性地开展工作,把心思用在尽心尽力为领导和群众服务上、为市场主体服务上。 各级党委对办公室干部要政治上关心、思想上关爱、生活上关怀,高看一眼、厚爱三分,把大家的积极性充分调动好、保护好、发挥好,不断提高办公室的凝聚力和战斗力。 希望大家以更加饱满的热情、更加高昂的斗志、更加坚定的信念、更加务实的作风,扎实推进党委办公室工作,为推动天门科学发展、跨越式发展做出新的更大的贡献,以优异的成绩迎接党的召开!

,白洁与大狼姁1~5TXT下载。

  05月14日,中国驻挪威大使馆提醒中国游客注意旅行安全,

  大火燃烧,所有建筑都被点燃了,在村东曾经发生过激烈的反抗,那是一群壮年男子,可是都被分尸了,死的很惨,兵器亦都折断。

,玛拉妮被调教到奶水直流视频,浏览器p7ycc免费,海姆斯利外网原版pdf。

 时事2:男男GayGays自慰网站

  05月14日,200余位业界专家汇聚齐鲁 推动构建中国新闻传播自主知识体系,

  半数以上的人都已猜到小不点的身份,知道他有多么的凶残,因此在那些师兄师姐还没有回来的情况下就去一战,依旧是无惧。

,白丝女仆被❌免费无遮挡,男生撕开👙咬奶头的软照片,WWW日本裸体无码扒衣视频。

  05月14日,云南“夜经济”从城市延绵到乡村 “小集市”里有“大民生”,

  然而,事情还未就此止住,符文漫天,如汪洋般汹涌,在这里形成无垠的秩序领域,喷薄瑞霞。

,少女浴室叉开腿,色欲AV久久久久久爽啪啪直播,小蓝视频全球最好g平台2024。

 时事3:鸣人❌佐助18禁车视频

  05月14日,和谐共生|我们的生活与“碳”有什么关系?,

网站董事长致辞 篇25

,岳让我一晚弄了6次高潮,XXXXXXX泡妞🍆🍑日本,18🈲动漫在线观看。

  05月14日,促进数字经济和实体经济深度融合,

  领导干部是人民的公仆,顺应民意、化解民忧、为民谋利是自己的天职。这就要求我们必须紧跟时代发展的步伐,与时俱进,开拓创新,把主要精力用在经济发展和社会稳定上,以求实的作风,始终把人民群众的利益挂在心上,把人民群众的事情抓在手上,要深怀爱民之心,恪守为民之责,善谋富民之策,多办利民之事。以人民群众最关心的热点、难点问题为重点,实实在在为群众解难题,诚心诚意为群众谋利益。作为村级干部无论职位高低、权力大小,就是要忠诚地履行职责,用诚实守信的言行赢得组织和群众的信赖,真正做到“靠得住、有本事”。

,美女光溜溜图片视频素材没有马赛克,休内谢精一汇编的深刻含义和意义,八重神子被吸乳羞羞动漫。

 时事4:揉啊嗯~出水了动漫

  05月14日,“辣”小吃带“热”人气 浙西小城“味蕾游”受追捧,

  第四、要牢记安全。安全问题无小事,容不得丝毫懈怠。希望同学们牢固树立“安全第一”的思想,时刻绷紧安全这根弦,提高自我保护意识,确保安全参训。

,伊莉雅调教受辱h文,双飞小姐KTV的特色,欧美⭕⭕⭕⭕XXXX纪录片。

  05月14日,这150多场招商会,紧跟中国外贸新变化!,

  “好一场劫难,雷族、紫山、罗浮大泽、金狼部落,这是何等强大的族群,王侯领地内可是有数以千万的人口啊,就这么没了。”有族老感叹,不胜唏嘘。

,嗯⋯脱我内衣吸我奶小内裤图片,🌿我~慢爽好大~男男日本,肌肉男互摸jiji㊙️隐私网站。

责编:周镇宏

审核:杭甬

责编:水谷雅子

相关推荐 换一换