扩散模型与强化学习(0):专栏汇总与导航
最近强化学习在Diffusion Models得到了越来越多广泛的应用,本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。
1、Diffusion与强化学习(1):字节Seedance中的人类偏好优化实践
最近强化学习在Diffusion Models得到了越来越多广泛的应用,本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。这篇博客介绍字节最新的视频生成模型Seedance 1.0: Exploring the Boundaries of Video Generation Models中所用到的强化学习技术。
2、扩散模型与强化学习(2):字节视频生成模型Seaweed-7B中的RLHF实践
虽然SFT在改善美观方面是有效的,但在SFT后经常观察到运动和结构的退化。在Seaweed-7B中,使用RLHF可以明显改善在改善结构和运动质量。
3、扩散模型与强化学习(3):Skyreels-v2中的DPO实战
《Skyreels-v2: Infinite-length film generative model》中详细介绍了训练Flow-DPO的原理、方法、数据收集策略等,内容非常翔实,是训练Flow-DPO非常难得的一份参考资料。
4、扩散模型与强化学习(4):PG/TRPO/PPO/DPO/GRPO的区别与联系
本文系统梳理了强化学习策略优化方法的演进过程,从PG(策略梯度)到TRPO(信任域策略优化)、PPO(近端策略优化)、DPO(直接偏好优化)直至GRPO(群组相对优化策略)。这一发展路径呈现出三大规律:1)从在线策略向离线策略迁移;2)策略稳定性不断提升;3)数据需求从环境交互转向静态偏好数据。文章重点对比了各算法核心思想与改进点:TRPO引入信任域约束解决PG的高方差问题,PPO通过Clip机制简化TRPO的复杂计算,DPO实现离线策略学习并利用人类偏好数据,而GRPO则在保持奖励模型的同时优化计算效率。
5、扩散模型与强化学习(5):Flow-based Model与GRPO
最近在生成模型方面的突破- -特别是扩散模型和矫正流- -已经彻底改变了视觉内容的创造,但将模型输出与人类偏好保持一致仍然是一个关键的挑战。现有的基于强化学习( RL )的视觉生成方法存在严重的局限性:与基于常微分方程( ODEs )的现代采样范式不兼容、大规模训练不稳定以及缺乏视频生成的验证。本文介绍DanceGRPO,第一种将群体相对策略优化( Group Relative Policy Optimization,GRPO )适应于视觉生成范式的统一框架。
6、扩散模型与强化学习(6):快手可灵提出经典的视频Flow-DPO方法VideoAlign
本文提出了一种利用人类反馈改进视频生成的系统方法。研究团队构建了包含182k样本的多维人类偏好数据集(视觉质量、运动质量和文本对齐),并开发了VideoReward奖励模型。基于强化学习框架,研究者提出了三种基于流模型的对齐算法:Flow-DPO、Flow-RWR两种训练时方法和Flow-NRG推理时技术。实验表明,VideoReward优于现有模型,Flow-DPO表现最佳,而Flow-NRG支持推理时自定义质量权重。通过分离上下文相关与无关的评估维度,该方法显著提升了视频生成质量与可解释性。
7、扩散模型与强化学习(7):用DPO改进音频驱动视频生成实践
本文提出了一种创新的人类偏好对齐扩散框架,用于生成音频和骨骼运动驱动的高质量肖像动画。该框架包含两个核心技术:1)针对肖像动画的定向偏好优化,通过构建人类偏好数据集优化生成结果;2)时间运动调制机制,将不同采样率的运动信号有效整合到扩散模型中,保持高频运动细节。实验表明,该方法在唇音同步、表情自然度和运动连贯性方面显著优于现有基线方法,同时提升了人类偏好评价指标。研究还发布了专门构建的肖像动画偏好数据集,为相关研究提供了新基准。
8、扩散模型与强化学习(8):解读Wan2.1 reward训练代码
目前为止Wan2.1还没有特别好开源的强化学习代码可供参考,本文介绍了如何利用奖励函数训练Wan2.1视频生成模型。文章详细讲解了四种奖励函数(美学奖励、HPS奖励、PickScore奖励和MPS奖励)的实现方法,并提供了完整的训练代码。通过控制计算图的保存范围来优化内存使用,只保留关键步骤的计算图,避免计算图爆炸。该方法适用于视频生成强化学习任务,为相关研究提供了实用参考。
9、扩散模型与强化学习(9):Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization
本文提出了一种基于人类偏好对齐的扩散框架,用于生成高度动态和逼真的音频驱动肖像动画。通过构建专门的人类偏好数据集,并引入定向偏好优化和时序运动调制两大创新,解决了唇部同步、表情自然度和运动连贯性等关键挑战。该方法在UNet和DiT架构中均表现出优势,实验表明其显著提升了唇音同步精度和面部表现力,同时在人类偏好指标上优于现有基线。研究还发布了首个针对肖像动画的偏好数据集,为相关领域研究提供了重要资源。该框架为高保真肖像动画的生成提供了新的技术路径。
10、扩散模型与强化学习(10):解读第一个视频生成DPO的工作VideoDPO
本文提出VideoDPO方法,通过改进直接偏好优化(DPO)来解决视频扩散模型存在的视觉质量与文本-视频对齐问题。作者设计了OmniScore综合评分系统,同时评估视频质量和语义对齐度,并开发自动化流程生成偏好对数据,无需人工标注。实验表明,该方法显著提升了生成视频的视觉保真度和语义一致性,为多维度偏好对齐提供了有效解决方案。
11、扩散模型与强化学习(11):解读经典Diffusion-DPO
本文提出Diffusion-DPO方法,通过直接优化人类偏好数据来对齐文本到图像扩散模型。该方法基于直接偏好优化(DPO)框架,重新设计损失函数以适应扩散模型的似然特性。实验使用85.1万对Pick-a-Pic数据集微调Stable Diffusion XL模型,结果表明该方法在视觉吸引力和文本对齐度上显著优于基线模型。研究还探索了AI反馈替代人工评估的可行性,发现使用PickScore等评分模型训练能进一步提升性能,为扩散模型对齐提供了新方向。
12、扩散模型与强化学习(12):RLHF中的Reward hacking现象
Reward hacking是指强化学习Agent利用奖励函数中的缺陷或模糊性来获取高额奖励,而实际上并未真正学习或完成预期任务。Reward hacking的存在是因为 RL 环境通常不完善,而且准确指定奖励函数从根本上来说极具挑战性。这篇博客就详细讨论一下RLHF中的Reward hacking,以及如何避免Reward hacking。
13、扩散模型与强化学习(13):In-Context Reward Hacking现象与解决方案
奖励作弊(Reward Hacking)指智能体通过钻规则漏洞而非真正完成任务来最大化奖励信号。以论文编辑实验为例,研究提出“上下文奖励作弊”(ICRH)概念,即模型利用共享上下文钻空子,如盲目添加“正确!”或输出无关内容。实验发现,模型规模扩大可能加剧ICRH,且提示词优化难以根治。与传统奖励作弊不同,ICRH发生在部署阶段,由通用性驱动。
14、扩散模型与强化学习(14):强化学习中黑客技能的泛化现象与解决方案
在强化学习(RL)领域,奖励黑客技能的泛化现象指的是模型在训练过程中发展出的利用系统漏洞或设计缺陷以最大化奖励的行为模式,这种行为不仅限于特定任务,还可能跨任务泛化。本篇博客详细讲解强化学习中黑客技能的泛化现象与解决方案。
15、扩散模型与强化学习(15):强化学习的十条实战经验
强化学习的十条实战经验。
16、扩散模型与强化学习(16):强化学习的10条实战经验(第二版)
强化学习的十条实战经验(第二版)。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)