大模型文生图是一种基于人工智能大模型的技术,能够将自然语言文本描述转化为对应的图像。目前非常火的AI大模型赛道,有很多公司在此赛道竞争,大模型技术也非常牛叉,既有像OpenAI、谷歌Gemini、智普等多模态的公司,也有专攻文生图的公司,比如Stability,MidJourney。

原理

  • 文本编码:运用预训练的语言模型,如词嵌入、BERT 等,把输入的文本描述转变成模型能够处理的高维向量形式,以此来让模型理解文本的语义信息。
  • 图像生成:主要采用生成对抗网络(GANs)、变分自编码器(VAEs)及其混合模型等架构进行图像生成。GANs 由生成器和判别器构成,通过二者的对抗训练提升生成图像的质量;VAEs 则是学习数据的潜在表示,从潜在空间采样生成新图像,生成过程相对稳定。
  • 融合与生成:将编码后的文本向量作为条件输入到图像生成模型中,模型依据文本语义在潜在空间中生成相应的图像表示,再经过解码等操作转化为可视化的图像。一些模型还会分粗略生成和精细生成两个阶段,逐步增加图像细节,生成高质量图像。

常见的文生图模型


FLUX :由StableDiffusion原班人马成立的新工作室——黑森林工作室推出,也就是从StableDiffusion公司Stability离职的成员组成。目前最强开源文生图模型


DALL·E 3(OpenAI):它可以根据文本描述生成图像,支持非常具体的指令。DALL·E 2和3在创作方面非常强大,能够生成高质量的、富有创意的图像。(不开源)


Stable Diffusion(Stability AI):这是一个开源模型,能够根据文字提示生成高清图像,支持更多的自定义功能,且社区活跃,常常发布新版本和扩展。


MidJourney:Midjourney 是一款基于 Discord 的文生图工具,这个模型基于文本提示生成艺术风格的图像,非常注重图像的艺术感,适合需要创意和美学的图像生成。(不开源)


DeepAI:它也有一个文本到图像的生成模型,用户可以输入描述,生成相应的图像。它提供了一些免费的API接口供开发者使用。


Google Imagen:这是Google的一个文本生成图像的模型,质量很高,但目前可能更侧重于学术研究,还没有像DALL·E 3那样广泛普及。


Runway Gen-2:这是Runway推出的一个多模态模型,可以根据文本描述生成图像,并且支持视频生成。


文心一格 (Baidu): 文心一格是百度开发的文生图模型,它在理解中文描述和生成具有中国文化特色的图像方面表现出色。


混元文生图 (Tencent): 混元文生图是腾讯开发的文生图模型,它在生成图像的清晰度和细节方面表现出色。


可图 (Kuaishou): 可图是快手开发的文生图模型,它在生成图像的风格和多样性方面表现出色。


DeepSeek-Janus:是 DeepSeek 刚推出的用于多模态理解和生成的自回归框架。目前功能较弱,但潜力很大,开源

豆包:抖音的AI大模型工具。

查找开源大模型


查找开源的文生图模型,可以在模塔社区网站上找:

https://modelscope.cn/models?page=1&tasks=hotTask%3Atext-to-image-synthesis&type=tasks

也可以在Hugging Face上找。

https://huggingface.co/models?pipeline_tag=text-to-image&sort=trending

体验文生图大模型

相同的提示词prompt,看下几个文生图大模型的图片生成效果。

图片风格为宝丽来相机拍摄,一位可爱的日本高中女生,身穿校服,留着黑色短发,在高中的入口处微笑着摆姿势。

一般来说,中文的提示词,在很多大模型中无法精确的理解,所以我们可以将该提示词优化一下:转成英文:

In the style of a Polaroid photo, a cute Japanese high school girl, dressed in her school uniform, with short black hair, is smiling and posing at the entrance of her high school. The soft, warm tones of the Polaroid film capture the gentle morning light, highlighting the neat pleats of her skirt and the crisp white collar of her blouse. Her cheerful expression and bright eyes reflect the excitement of a new day, and the background shows the familiar brick walls and arched entryway of the school, with a few cherry blossom petals scattered on the ground, adding a touch of seasonal beauty.

微调Flux的MAILAND/majicflus_v1模型生成的图片。生成的地址:

魔搭社区

硅基流动统一登录

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐