本文是对李宏毅老师的课程的总结,B站链接如下:
stable diffusion(1)概述
讲最经典的DDPM。

1. DDPM图像生成是一个多个step的去噪过程

DDPM是一个从噪声图像中通过不断去噪(经过很多个step),生成图像的过程。
“雕像本来就已经存在石头里,只是把多余的去掉。”
在这里插入图片描述
问题是,这么多个step用的是同一个去噪模型吗?是的!!!但是不同的step含有的噪声大小是不一样的,所以,去噪模型还需要知道是哪个step(噪声的大小程度)。
在这里插入图片描述

2. 去噪模型内部机制

(1)有一个噪声预测模型(Noise Predicter),输入时带有噪声的图片和当前的step代号,输出是该图片含有的噪声
(2)带有噪声的图片减去预测的噪声
在这里插入图片描述

3. 如何训练这个噪声预测模型

这个训练过程肯定需要当前这个step的噪声作为ground truth
在这里插入图片描述
这个ground truth其实是自己加的。这需要一个前向加噪的过程(扩散过程)。
在这里插入图片描述

4. 把文本加进来

需要图像文本对,LAION图像文本对5.85B

在这里插入图片描述
把文本输入到去噪模型中,让模型根据文本去噪。
在这里插入图片描述
把文本输入到去噪模型中,实际上也就是输入到噪声预测模型中.
在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐