深夜突袭！OpenAI放出图像生成王炸，GPT-4o原生图像生成功能，一句话搞定设计、P图、创意，免费开放所有用户！

就在昨夜，OpenAI用一场毫无预警的发布会宣告GPT-4o原生图像生成功能正式上线！从写实照片到漫画分镜，从菜单设计到科学图表，甚至能精准生成图像中的文字。

暮鼓晨钟♛

641人浏览 · 2025-03-26 20:18:11

暮鼓晨钟♛ · 2025-03-26 20:18:11 发布

就在昨夜，OpenAI用一场毫无预警的发布会宣告GPT-4o原生图像生成功能正式上线！

这一功能不仅直接对标谷歌前脚发布的Gemini 2.5，更以免费开放所有用户的策略掀起AI竞赛的新高潮。

从写实照片到漫画分镜，从菜单设计到科学图表，甚至能精准生成图像中的文字。

四大革新

1.精准“文转图”，终结AI乱码时代

无论是菜单上的菜品描述、路牌上的复杂标识，还是海报中的中文文案，GPT-4o能100%还原文字细节，甚至支持多语言混合排版。

此前国内模型生成的汉字乱码问题，在GPT-4o中已成历史。用户只需描述“韩式餐厅菜单配彼得兔插画”，模型便能生成高端精致的图文融合设计。

划重点：它还能通过对话实时修改错别字，真正做到所见即所得。

2.多模态联动，对话式无限优化

GPT-4o支持上传图片+文字指令的组合创作。上传一张猫咪照片后，输入“给它戴上侦探帽和单片眼镜”，AI会在保留原图细节的基础上完成改造。

用户还能进一步要求“将场景变成4K游戏画面，添加血条和技能图标”，实现跨风格迭代。

3.处理20个对象，碾压同行

其他AI模型最多处理5-8个物体，而GPT-4o可同时操控10-20个对象并保持逻辑关联。

如生成一张包含16个不同形状、颜色和文字元素的网格图，或设计一辆“三角形轮胎车辆”并标注专利信息，细节分毫不乱。

4.知识库赋能，生成专业级内容

调用GPT-4o内置的庞大知识库，用户只需一句“制作旧金山多雾成因的信息图”，模型便能自动整合地理、气象数据，输出直观的可视化图表。科研、教育、商业场景的效率革命就此开启。

从“离谱AI”到“生产力神器”

设计师：输入“女巫在纽约街头查看禁止扫帚停车的荒谬路牌”，GPT-4o生成的照片级图像中，连背景车辆的反光都清晰可见。
自媒体：一句话生成“奶奶用电锯切火鸡”的感恩节广告，还能自动添加标语“传统节日，硬核团圆”。
游戏开发者：通过多轮对话设计角色，AI能确保角色发型、服装在多次修改中保持一致，甚至自动补全世界观设定。

免费开放

覆盖范围：

即日起，ChatGPT免费用户、Plus、Pro、Team用户均可使用，企业版和教育版将在未来几周跟进。

现存局限：

生成长图（如海报）时可能裁剪底部。
非拉丁字符（如中文小字体）偶有模糊。
暂不支持同时呈现元素周期表等超复杂科学图表。
安全机制：所有图像自带C2PA元数据可溯源，真人图像生成受严格限制，避免滥用。

GPT-5已在路上

OpenAI CEO山姆·奥特曼称此为“创作自由的新高峰”，而更大的杀招GPT-5已进入倒计时。据透露，GPT-5将集成更强大的推理能力，进一步模糊虚拟与现实的界限。

结语

从语言模型到全模态智能体，GPT-4o的图像生成功能不仅是技术突破，更是一场创作民主化运动——无论你是学生、设计师、创业者，只需一段对话，即可将灵感变为现实。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模