stable diffusion系列（1）------概述

讲最经典的DDPM。

溯源006

713人浏览 · 2024-10-13 21:38:28

溯源006 · 2024-10-13 21:38:28 发布

本文是对李宏毅老师的课程的总结，B站链接如下：
stable diffusion(1)概述
讲最经典的DDPM。

1. DDPM图像生成是一个多个step的去噪过程

DDPM是一个从噪声图像中通过不断去噪（经过很多个step），生成图像的过程。
“雕像本来就已经存在石头里，只是把多余的去掉。”
在这里插入图片描述
问题是，这么多个step用的是同一个去噪模型吗？是的！！！但是不同的step含有的噪声大小是不一样的，所以，去噪模型还需要知道是哪个step（噪声的大小程度）。

2. 去噪模型内部机制

（1）有一个噪声预测模型(Noise Predicter)，输入时带有噪声的图片和当前的step代号，输出是该图片含有的噪声
（2）带有噪声的图片减去预测的噪声
在这里插入图片描述

3. 如何训练这个噪声预测模型？

这个训练过程肯定需要当前这个step的噪声作为ground truth
在这里插入图片描述
这个ground truth其实是自己加的。这需要一个前向加噪的过程（扩散过程）。

4. 把文本加进来

需要图像文本对，LAION图像文本对5.85B

在这里插入图片描述
把文本输入到去噪模型中，让模型根据文本去噪。

把文本输入到去噪模型中，实际上也就是输入到噪声预测模型中.

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模