太阳成tyc7111cc·(中国)集团官方网站-Macau Bellwether
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

DanceGRPO:首个统一视觉生成的强化学习框架

2025-05-18 22:27:48
来源:

猫眼电影

作者:

贾西亚

手机查看

  猫眼电影记者 安乔拉 报道w3u7903ejky2ywls

本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。项目通讯作者为黄伟林博士和罗平教授。

R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。

现在,我们推出名为DanceGRPO的创新框架,这是首个旨在统一视觉生成强化学习的解决方案,实现了单一强化学习算法在两大生成范式(diffusion/rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五类奖励模型(图像 / 视频美学、图文对齐、视频动态质量、二元奖励)中的全面覆盖。

论文标题:DanceGRPO: Unleashing GRPO on Visual GenerationarXiv 链接:https://arxiv.org/pdf/2505.07818

动机

在生成式 AI 快速发展的这三年,RLHF 逐渐的走进了大家的视野,首先是 GPT-3.5/o1 等一系列工作让大家明白了 RLHF 在 LLM 中的意义,LLM 领域的 RLHF 方案百花齐放,发展的相对成熟一些,今年更催生了 R1 这一类的大爆款工作。同时,大家也发现,对于视觉生成任务,RLHF 对美感等指标几乎有着决定性影响,但相较 LLM 的成熟度,生成领域的 RLHF 方案显然没那么成熟,目前的主流方案大概分为两类:

1. Diffusion/Flow-DPO:这一类方法是也是直接来自于 LLM 的 DPO 的影响,在实际操作中,大体分为两种方案,第一种是离线 DPO,即让模型去生成一批数据,然后人工标注,然后让好和坏的数据组成 pairs 送回模型去优化,第二种是在线 DPO,即在线生成数据,然后让 reward model 实时打分,然后拿回去训练,这两种思路大同小异。在实际操作中,我们发现 DPO 对模型的效果比较微弱,比如 DPO 前后的生成结果区别并不是很大,原因也很好理解,DPO 并没有拿 reward 作为信号去 reinforce 模型的学习,而是用一种类似 SFT 的方案去做,这种情况下对模型的作用并不是很大。

2. ReFL:这一类方案是 diffusion/rectified flow 所专有的,思路非常简单直接,就是直接在 z_t 步下直接预测 z_0 的结果,然后 vae 去 decode 直接送进 reward model 去直接反向传播进行优化。这一类方案在图像上效果很明显,但是因为要对 reward model 和 decode 后的 features 进行反向传播,在面对 100 帧以上的视频生成的时候显存压力很大。而且,目前 LLM 和 diffusion 联合训练已成为大势所驱,ReFL 这种通过建模 z_t 和 z_0 的关系,并且直接反向传播的方式,似乎和这一类模型的建模策略有着很大的 gap。

于是,利用强化学习对模型进行优化的思路也就呼之欲出了,之前社区也对强化学习优化生成模型有过一些探索,例如 DDPO 和 DPOK,但是他们都有很强的局限性:

1. 尝试的数据集非常小,一般小于 100 个 prompts,

2. 只针对文生图 diffusion model 进行了测试,并没有涉及到目前流行的 rectified flow 和视频生成模型

实现目标

于是,我们的目标也呼之欲出,我们的强化学习算法需要满足以下特征:

1. 提升明显,reward 上涨的足够多

2. 在 video 上实现的时候显存压力不能大,即,不能直接反向传播 reward model 和 vae

3. 能在大型 prompt 数据集上训练

4. 能迁移到 rectified flow 和视频生成模型

DanceGRPO

核心贡献

我们是第一个视觉生成 + 强化学习的大一统框架,一个 DanceGRPO,可以应用在 diffusion 和 rectified flow,可以应用在文生图,文生视频,图生视频三类任务,我们在四个 foundation model 上进行了测试,包括了 Stable Diffusion,FLUX,HunyuanVideo,SkyReel-I2V,我们还在五个 reward model 上进行了测试。

方案设计

受最近在 LLM 大火的 GRPO 影响,我们开始尝试 GRPO 这一类方案是否能在 diffusion model 或者 rectified flow 上稳定训练,首先我们要 claim 的点是,diffusion model 和 rectified flow 的出发点虽然不同,即 diffusion 和 rectified flow 都可以表示成 stochastic interpolant 的特殊情况,在这种 case 下,他们的采样方程都可以用 SDE 实现,具体的公式推导参见原文即可。

接下来,我们就开始实现啦,核心的思路还是 follow 了 DeepSeek 的 GRPO 策略,即,用一个 prompt,生成一批数据,然后用 GRPO 的目标函数进行优化,但我们并没有加入 KL 散度的正则项,因为发现这一项实际上作用不大,以下是我们实验过程中的一些核心发现:

1. 同一个 prompt 的初始化噪声最好相同,不然容易 reward hacking

2. 我们可以采样一个子集的 timesteps 来加速训练,同时让模型见过更多的 prompts

3. 实现中可以使用多个 reward model 叠加,而且实现的时候最好是多个 advantage 来叠加

4. DanceGRPO 可以学会 best-of-n inference scaling 的轨迹

5. 强化学习会削弱生成的多样性

6. 训练尽量不要打开 cfg,如果非要打开的话,一批 prompt 只能更新一次梯度

算法流程如下:

接下来是关于 reward model 的讨论,我们一共使用了五类 reward model:

(1) 图像美感

(2) 视频美感

(3) 图文匹配

(4) 视频动态质量

(5) 我们提出了一种新的 reward model,即把美感 & 图文匹配 reward model 的结果给二值化,意思是大于某个阈值就是 1,小于这个阈值就是 0

我们在文生图,文生视频和图生视频上进行了测试。

实验结果

我们使用了 HPS-v2.1 和 Clip score 去优化模型,结果如下所示:

我们利用 VideoAlign 在 HunyuanVideo 上进行训练:

以下是一些 reward 曲线:

ps:i2v 任务有一些区别,我们拿视觉美感 reward model 训练的时候很容易发散,个人认为是因为 i2v 的美感更多取决于首帧,这个任务本身只有 motion quality 可言,所以我们只选择了使用 motion quality reward 去进行训练。

这是一个随着 FLUX 训练迭代次数的增加,可视化的变化,我们在训练过程中引入随机性,但是可视化是不会引入的,就是正常的 ODE solver。

更多的结果欢迎看原文~

 时事1:人人妻人人澡人人爽人人添学生

  05月18日,江西人大代表傅信平:做深做实为大局服务、为人民司法,

  在三楼的指挥中心,有一个大大的屏幕,上面有三十多个小屏幕。阿姨告诉我们,全市有107个路口安装有电子眼,这些小屏幕可以通过电子眼观察到路口的交通实时情况。通过电子眼,我们看到机动车与行人、自行车应该各行其道。但是,在每个路口都有一些机动车闯红灯、抢行等,还有很多自行车根本不看信号灯走,或者干脆走快车道,与汽车抢道,很是危险!阿姨告诉我们,电子眼还可以监视到一些可疑人员的行为,帮助侦察员叔叔快速抓到罪犯份子。

,原神仆人裸身被❌羞羞照片。

  05月18日,多学科学者关注北京春节习俗变化,

  “那好,我们去观看,等待奇迹!”有人起哄。

,扒开温迪❌狂揉下部❌,高清乱码❌♋男女,日本三级大乳吃奶。

 时事2:纳西妲主动掀开内裤给我玩小说

  05月18日,国家开发银行总务部高级经理刘猛接受审查调查,

厂长新年讲话 篇2

,▇蓝莓视频▇在线观看入口,大胸美女❌❌❌奶头,女人与动物交配一区2区三区四区。

  05月18日,日均验放7200余人次 二连浩特口岸迎客流高峰,

  “你们不是也在盯着我吗,也想夺我宝骨,害我性命,现在我决定先抢劫你们。”小不点说道。

,公车奶乳揉搓震动器h,91丨PORNY丨老熟女,男被搓澡工搓飞机✈️视频。

 时事3:少妇吴敏的群交

  05月18日,外卖小哥送“书香” 长沙推出300余场文化活动与市民读者“阅”享,

交通信用卡是一种方便快捷的支付工具,但如果因为各种原因导致逾期未能按时还款,就会面临一系列的问题。在这种情况下,与银行行协商解决是一种明智的选择。本文将探讨交通信用卡逾期后如何与银行协商解决,以及逾期协商还款方式和后果。 一、交通信用卡逾期怎么跟银行协商解决 1. 及时与银行**:一旦发现自...

,雷电将军裸身被❌羞羞照片,日本❌❌❌❌❌色情14,性少妇√jdeOs七xf一。

  05月18日,“西电入浙”7月输电量同比增38% 月度规模创历史新高,

  “我还怕你们不成?不给我一宗宝术,别想将人领走。”小不点道。

,裸体裸乳被🍑免费看视频,李毅吧动态第270期内容,邻居的丰满人妻HD学生。

 时事4:东京热Av成人无码免费视频

  05月18日,初步结果显示:马尔代夫总统所在政党赢得议会选举,

  “他们在干什么?”小清风不解,问石昊。

,四爱十八禁🔞啪啪网站,岳洗澡让我进去摸她奶,少年白袜自慰出精Gay。

  05月18日,贵州黔东南州:发挥产业优势 跑出乡村发展“加速度”,

  这些人一个个寒毛倒竖,冷气嗖嗖,从头凉到了脚。原本见武王出现,还希望他镇压十五爷,为他们出一口气呢,怎曾料到,会是这么一个结果。

,宁柔柔脱了裤子叫唐三桶小说,日本裸体全身㊙️无遮挡,在线无码精品㊙️入口快色。

【讲述奋进故事 传递信心力量】

【【理响中国】加快农业农村现代化】

责编:杨东坡

审核:赵雯

责编:陈某武

相关推荐 换一换