机器学习笔记:李宏毅 stable diffusion
大体上和diffusion model 类似,这里就是最后多接一个decoder,将中间产物变成图片。这张图越往右下表示效果越好,可以看到text encoder尺寸越大,对后续生成图片的增益越多。
·
1 基本框架

- ①:文字变成向量
- ②:喂入噪声+文字encoder,产生中间产物
- ③:decoder 还原图片
2 text encoder

这张图越往右下表示效果越好,可以看到text encoder尺寸越大,对后续生成图片的增益越多
3 评价图片生成好坏的标准
3.1 FID

- 现有一个训练好的CNN 模型,可以生成真实影像和生成图像的representation
- 这两组表征的分布越近,效果越好
- ——>我们sample 一堆图片,然后生成一组同语义的图片,计算他们分布的distance
3.2 CLIP

- 如果图片和文字是成对的,那么他们的representation越近表示生成的图片效果越好
4 decoder

- 训练一个auoto encoder
- 训练完把decoder拿出来用即可
5 噪声加的位置

- 之前defusion model 中,noise是加在图片上
- 但现在产生的东西已经不是图片了
- ——>noise 加在中间产物上

大体上和diffusion model 类似,这里就是最后多接一个decoder,将中间产物变成图片
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐




所有评论(0)