姜东志,香港中文大学MMLab博士,研究方向为理解与生成统一的多大模型及多模态推理。在ICML, ICLR, NeurIPS, ECCV, ICCV等顶级会议上发表过论文。
最近的大语言模型(LLMs)如 OpenAI o1 和 DeepSeek-R1,已经在数学和编程等领域展示了相当强的推理能力。通过强化学习(RL),这些模型在提供答案之前使用全面的思维链(CoT)逐步分析问题,显著提高了输出准确性。最近也有工作将这种形式拓展到图片理解的多模态大模型中(LMMs)中。然而,这种 CoT 推理策略如何应用于自回归的图片生成领域仍然处于探索阶段,我们之前的工作 Image Generation with CoT(https://github.com/ZiyuGuo99/Image-Generation-CoT)对这一领域有过首次初步的尝试。
与图片理解不同,图片生成任务需要跨模态的文本与图片的对齐以及细粒度的视觉细节的生成。为此,我们提出了 T2I-R1—— 一种基于双层次 CoT 推理框架与强化学习的新型文本生成图像模型。
论文标题:T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT论文地址:https://arxiv.org/pdf/2505.00703代码地址:https://github.com/CaraJ7/T2I-R1机构:港中文 MMLab、上海 AI Lab
方法介绍
具体而言,我们提出了适用于图片生成的两个不同层次的 CoT 推理
Semantic-CoT
Semantic-CoT 是对于要生成的图像的文本推理,在图像生成之前进行。负责设计图像的全局结构,例如每个对象的外观和位置。优化 Semantic-CoT 可以在图片 Token 的生成之前显式地对于 Prompt 进行规划和推理,使生成更容易。
Token-CoT
Token-CoT 是图片 Token 的逐块的生成过程。这个过程可以被视为一种 CoT 形式,因为它同样是在离散空间中基于所有先前的 Token 输出后续的 Token,与文本 CoT 类似。Token-CoT 更专注于底层的细节,比如像素的生成和维持相邻 Patch 之间的视觉连贯性。优化 Token-CoT 可以提高生成图片的质量以及 Prompt 与生成图片之间的对齐。
然而,尽管认识到这两个层次的 CoT,一个关键问题仍然存在:我们怎么能协调与融合它们?
当前主流的自回归图片生成模型如 VAR 完全基于生成目标进行训练,缺乏 Semantic-CoT 推理所需的显式文本理解。虽然引入一个专门用于提示解释的独立模型(例如 LLM)在技术上是可行的,但这种方法会显著增加计算成本、复杂性和部署的困难。最近,出现了一种将视觉理解和生成合并到单一模型中的趋势。在 LMMs 的基础上,这些统一 LMMs(ULMs)不仅可以理解视觉输入,还可以从文本提示生成图像。然而,它们的两种能力仍然是解耦的,通常在两个独立阶段进行预训练,没有明确证据表明理解能力可以使生成受益。
鉴于这些潜力和问题,我们从一个 ULM(Janus-Pro)开始,增强它以将 Semantic-CoT 以及 Token-CoT 统一到一个框架中用于文本生成图像
我们提出了 BiCoT-GRPO,一种使用强化学习的方法来联合优化 ULM 的两个层次的 CoT:
我们首先指示 ULM 基于 Image Prompt 来想象和规划图像来获得 Semantic-CoT。然后,我们将 Image Prompt 和 Semantic-CoT 重新输入 ULM 来生成图片以获得 Token-CoT。我们对于一个 Image Prompt 生成多组 Semantic-CoT 和 Token-CoT,对于得到的图像计算组内的相对奖励,从而使用 GRPO 的方法来在一个训练迭代内,同时优化两个层次的 CoT。
与图片的理解任务不同,理解任务有明确定义的奖励规则,图像生成中不存在这样的标准化的规则。为此,我们提出使用多个不同的视觉专家模型的集成来作为奖励模型。这种奖励设计有两个关键的目的:
它从多个维度评估生成的图像以确保可靠的质量评估作为一种正则化方法来防止 ULM 过拟合到某个单一的奖励模型
根据我们提出的方法,我们获得了 T2I-R1,这是第一个基于强化学习的推理增强的文生图模型。
实验
根据 T2I-R1 生成的图片,我们发现我们的方法使模型能够通过推理 Image Prompt 背后的真实意图来生成更符合人类期望的结果,并在处理不寻常场景时展现出增强的鲁棒性。
同时,定量的实验结果也表明了我们方法的有效性。T2I-R1 在 T2I-CompBench 和 WISE 的 Benchmark 上分别比 baseline 模型提高了 13% 和 19% 的性能,在多个子任务上甚至超越了之前最先进的模型 FLUX.1。
© THE END
《色情喂奶XXXXXX》,《w3u7903ejky2ywls》欧美护士撒尿❌❌❌○
“印度熟妇BBBB搡BBBB”
小光裸体任小智玩
……
05月12日
“ai换脸宋雨琦自慰❌❌喷水好爽”江西鹰潭龙舟侧翻致1死2失联
↓↓↓
05月12日,【巴黎奥运会】张雨霏:希望下届奥运会中国队男女混合泳接力登顶世界第一,鞠婧祎被c到高潮嗯~啊~嗯嗯~,杨颖自慰喷水指法精湛,动漫八尺大人被❌黄漫视频,美女露全胸㊙️
05月12日,南水北调进京水量达百亿立方米 北京地下水位连年回升,修女裸体❌开腿,51在线无精精品㊙️白丝,禁漫天堂❌黄动漫网站下载,亚洲AV无码4480私人小说
05月12日,2024年汉诺威工博会开幕 聚焦可持续工业解决方案,日本漏尿失禁丨∨K视频,3D蒂法被❌到爽喷水,性少妇√jdeOs七xf一,胡桃狂揉❌下部❌难受
05月12日|深阅读:强化农田保护 助力生态振兴|妲己好大⋯好爽⋯裙子湿透了|日联美女裸体㊙️免費观看直播|男男GaYGAYS18飞机|荷兰顶级A片巜熟妇的荡欲
05月12日|伦敦等地砸车盗窃、持刀行凶等案件频发 中领馆发布安全提醒|肌肉furry老虎男男裸体小说|“苍月奥特曼无删减”|少妇搡BBBB搡BBB搡造水多|九色jk
05月12日|贵州龙宫风景名胜区暑期旅游热|成人🔞免费A片10086欧美|女拉屎㊙️黄网站|大白奶柚子奶头|紫悦被狂❌爆乳图片……
05月12日,四大主题90条线路展示国企风采 2024年“首都国企开放日”活动启幕,小s货边洗澡边c你,神里绫华疯狂被❌喷水自慰,内谢中国老婆,彩虹🌈Gay.Cam
05月12日,湖北首届乡村铁人三项公开赛举行 苗浩获得年龄组冠军,九色PORNYⅠ最新地址,把jiji进女班长屁屁里视频,妈妈美白大蚌埠原文,女打屁股♥网站╳
05月12日|北京环球度假区换上“龙年新装”焕发“新年味”|奶头又大又❌又白吃奶|🔞免费吃奶摸下激烈|久久国产精品一区二区无尽3DH|男c女🔞黄㊙️❌打睾丸
05月12日,公安部:群众办理补换领牌证等业务 可选择快递上门,女被多触手怪❌吸乳动漫,美女被❌吸乳jk白丝,51露脸丨熟女,日本做受高潮91网址
05月12日,交易规则禁售“神药”,二手平台为何禁而不止,苍井空被强3p无码流出,男生洗澡露j网站秘小说,揉我奶啊岳乱,女富婆按摩高潮A片
05月12日,雪后路面湿滑,摔伤后如何正确处理?……权威解答来啦!,FreeHD8❌❌❌4D,安妮海瑟薇全黄A片,AI情趣机器人崛起,新垣里子义母在线播放
05月12日|截至2023年底 青海省登记在册经营主体超57万户|1谢内|3d无尽动漫可爱得到男|妓院女春DVD片|藏獒又硬又粗进去好爽A片免费
05月12日|内蒙古乌兰牧骑赴贵州参加“姑妈篮球赛”|男人的坤坤❌进女人的游戏|浪小辉ChineseGayXX|毛片日山羊|青少年的危害
05月12日|构建产业资本和金融资本“防火墙”|免费白丝jk爆乳软件|男c男🔞黄㊙️❌无套|原神芙宁娜裸体❌网站原神芙宁娜裸|斗破之乱婬h侵犯众女
体操女子平衡木决赛,波普林vs德约科维奇|赖清德就任后两岸和平统一可能性已经丧失?国台办回应|色情性黄❌片涩涩涩的视频|男人的伸到里51动漫|步非烟中文女友闺蜜|动漫❌狂揉胸❌巨乳
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺