3月25日凌晨,OpenAI终于放出了憋了一年的大招——GPT-4o图像生成功能正式上线了,目前正开始在ChatGPT和Sora中向所有Plus、Pro、Team和Free用户推出。
本次升级,除了基本的图像生成能力很强以外,还有些值得一提的特性:
  • 多轮生成:在聊天上下文中构建图像和文本,确保整体一致性。例如我们要设计一个游戏或者动漫角色,随着不断细化和实验,这个角色的外观也可以在整个迭代过程中保持一致。
  • 指令跟随:4o的图像生成遵循详细的提示,注重细节。与其他系统相比,4o可以在一次生成中处理多达10-20个不同的对象,而其他系统在处理5-8个对象时往往会遇到困难。
  • 上下文学习:4o可以从用户上传的图片中分析和学习,并将图片的细节无缝地融入其语境中,以指导图片生成。
  • 世界知识:原生图像生成使4o能够在其文本和图像之间建立知识链接,从而使模型显得更聪明、更高效。
GPT-4o生成的图片达到了以假乱真的程度,让人乍一看还以为是真人在黑板上写的,下图是由GPT-4o生成的。
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐