GPT-4o 原生图像,再一次 Deep Research 时刻 | Deep Research 报告选读
先说重点(TL;DR):
过去,语言模型和图像生成是分离的技术,各自只能处理单一模式的内容,导致生成图像时往往缺乏真实的理解,只能凭视觉纹理拼凑出看似合理的图像。而 GPT-4o 通过统一的架构、同时学习文字和图像,使它不仅能在对话中流畅地生成高质量图像,更具备了类似人类的“知识性理解”能力。比如画出鲸鱼科普图时,它真正知道鲸鱼的种类和特征,而不是机械地拼凑图像纹理;生成带文字的图片时,也能确保文字清晰且有意义。它还能在多轮对话中理解上下文,保持图像的一致性,并支持用户上传草图或参考图进行更精确的创作。这种深度整合文字和图像能力的模型,虽然目前仍有局部编辑不精确、非拉丁字符处理不佳等局限,但已显示出 AI 未来发展的一个重要方向:真正理解内容,而非仅仅模仿视觉。
GPT-4o 不仅能聊天和理解图像,还能直接创造图像。对于一直关注 AI 进展的我们来说,这感觉像是终于等到了文字和图像的“联姻”时刻。过去,语言模型只会用文字回答,图像生成模型则是另一个独立系统。而现在,在 GPT-4o 中,这两种能力合二为一。同一个 AI 可以一边和你对话,一边根据对话内容画出相应的图画。这种融合让人不禁想到一张精心设计的请柬,上面写着:“文字与图像的结合,终于成为现实。”这个模型的代号 “4o” 中的 o 代表“omni”(全能),寓意它是一种面面俱到的多模态 AI。对于用户而言,这意味着和 AI 交流时不再有模式的区隔:你可以在同一个对话里既获得文字回答,也让它生成图像,就像我们人类思考时脑中既有语言也有画面。
图像生成融入对话
(Introducing 4o Image Generation | OpenAI)
GPT-4o 将图像生成作为语言模型的基本能力,图为 OpenAI 官方以婚礼请柬形式比喻“图像和文本的结合”这一创举。请柬上的文字充满戏谑地宣告:图像与文本经过多年的合作与试探,终于在 GPT-4o 中走到了一起。
OpenAI 一直坚信,图像生成应该成为语言模型的基本能力,而不仅仅是一个附加功能。这次他们把有史以来最强大的生成图像引擎直接嵌入了 GPT-4o 中。对于用户来说,这带来了一个全新的体验:你在 ChatGPT 对话中随时可以让 AI 画图,再也不需要跳到其他工具或插件。当你描述一个场景、一个点子,GPT-4o 能一边理解你的文字,一边“脑补”出相应的画面。举个简单的例子,如果你和 GPT-4o 谈论一只神话中的独角兽,它可以一边用语言描绘独角兽的故事,一边生成一张独角兽的图像给你。聊天 AI 终于学会了拿起画笔。这样的整合背后,是 GPT-4o 统一的多模态模型架构:以往需要分别处理文字、图像、语音的多个模型,如今由一个模型端到端完成。这使得 AI 在不同模态之间的信息流转更加顺畅,也避免了不同模型来回切换的延迟。事实上,自 GPT-4o 推出以来,人们已经注意到它在语音对话中的响应速度接近实时——从用户说完话到 AI 开口回答只需三百毫秒左右,几乎赶上了人类对话的自然节奏。这种速度上的提升同样体现在图像生成的交互上:虽然真正渲染出一幅高质量图像可能需要几十秒,但你可以与模型不断对话、即时调整,大大加快了获得理想结果的过程。总的来说,GPT-4o 将过去分散的能力融合后,创造出了更流畅、更强大的交互体验。
不止好看,更要有用的图像生成
我们发现,GPT-4o 所生成的图像不仅追求美观,更强调实用性和准确性。人类自史前岩画以来,就一直使用视觉来交流思想:宣传一项新科技,我们会做示意图;汇报数据,我们画图表。过去的生成模型能画出超现实的奇幻场景,但让它们画一张简单的流程图或带字的海报,往往就会漏洞百出。GPT-4o 则大不相同,它擅长按照用户要求精确地生成“干货型”图像。比如,你可以让它设计一个科技演示文稿里的图表、绘制公司Logo概念草稿,甚至制作一张带有完整可读文字的海报。
(Introducing 4o Image Generation | OpenAI)
GPT-4o 能在图像中准确地绘制文字和符号,从而生成有明确含义的图像。这张由 GPT-4o 生成的照片里,两位女巫正在阅读路边的告示牌。告示牌上的每一条规则都写得清清楚楚,包括滑稽的内容如“巫婆的扫帚不得在C区停车”。以往的AI图像模型很难产生如此清晰可辨的文字,而 GPT-4o 做到了。
具体来说,GPT-4o 的图像生成有几个显著的实用向改进:
-
准确渲染文字:以前让 AI 生成带字的图片常常得到一堆乱七八糟的“乱码”,比如招牌或菜单上的字母扭曲难辨。GPT-4o 则可以在图像中写出真正可读的文字。无论是路标、菜单还是邀请函,它生成的文本就像真人设计的一样整洁有意义。这背后是因为 OpenAI 专门让模型学习了图像和文本的对应关系,从网络图像和其说明文字的联合分布中学会了文字在图像中的呈现方式。经过强化训练和微调,GPT-4o 在“图中文字”这一点上取得了前所未有的高准确度。
-
精确遵循指令:GPT-4o 对用户的图像需求能做到尽可能严格地满足。你描述得越具体,它越能按部就班地还原细节。比如你可以要求“一只橙色的猫戴着黑色棒球帽,旁边有一个宝藏地图”。GPT-4o 会尽力把每个元素都放进画面。而且它对于每个对象的属性和相互关系有更紧密的把握,不容易张冠李戴。之前的模型同时处理5-8个物体就开始掉链子,而 GPT-4o 一幅画里搞定十几个元素依然有条不紊。这意味着你可以让它画结构复杂的图而不用过于担心混乱。
-
上下文关联和变通:由于图像生成功能直接融入聊天,GPT-4o 可以参考对话中前面提过的内容,甚至利用用户上传的参考图,来指导新图像的创作。这种“看图生成”相当于在图像层面实现了上下文学习。例如,如果你上传一张简笔画草稿,让 GPT-4o 照着完善,它能读懂草稿细节并在生成图像时融合这些细节。又或者你已经让它生成了一张插画,接着你说“换个角度再画一张”,它可以在理解前一张图的基础上给出新的视角,而角色和风格保持一致。多轮对话逐步细化图片成为可能,就像美术指导不断给画家反馈,画家也记得之前画布上的内容。
值得一提的是,GPT-4o 生成图像时充分调用了其强大的知识库。它毕竟是一位训练自海量文本和图像的“通才型”模型,懂得很多关于世界的事实和概念。这让它在绘图时显得见多识广:让它画鲸鱼的种类科普海报,它知道鲸鱼有哪些种类、典型特征如何;让它画一个“三角轮子的车辆”设计图,它明白物理上轮子三角形是啥意思、可能如何表现。以前,如果我们用专门的图像模型生成此类图,它只能凭视觉纹理拼凑,缺乏真正对概念的理解。而 GPT-4o 因为文字和图像一起学过,画这类需要知识支撑的图时就驾轻就熟。总之,当你让 GPT-4o 绘制和信息、知识相关的图时,会惊喜地发现它的图像更合乎情理且上下文一致,而不仅仅是视觉上的凑巧好看。
多样的风格与照片级的真实感
另一个令人印象深刻的突破是 GPT-4o 对不同图像风格的掌握。由于训练时见过各种风格的图像,它几乎可以模拟任何视觉风格,从铅笔素描、卡通漫画到逼真的摄影。对于用户而言,这意味着无论你脑中浮现的是哪种画风,都可以直接用语言描述出来,GPT-4o 会尝试用相应的风格呈现。
尤其在照片级真实感方面,GPT-4o 有了长足进步。如果你要求一张照片风格的图像,它生成的结果往往以假乱真。举例来说,你可以让它“生成一张仿佛狗仔队抓拍到的卡尔·马克思逛商场的照片”或者“一张20岁出头的朋友在昏暗酒吧聚会的宝丽来风格合影”。这些听起来古怪的要求,GPT-4o 交出的作品会有令人惊讶的逼真细节:光影、质感、镜头噪点等等都拿捏到位,营造出的氛围非常接近真实世界中的摄影效果。如果不提前告知,很可能有人会相信那是真的照片。当然,GPT-4o 也能画出精美的非真实风格图像,比如水彩插画、像素风游戏场景,甚至模仿某位艺术家的笔触(在政策允许的范围内)。风格的多样化让这个模型既能胜任严肃场合下需要照片效果的任务,又能用丰富的艺术表现力来满足创意需求。
(Introducing 4o Image Generation | OpenAI)
GPT-4o 生成的照片级图像示例:一只小猫低头望向水塘,水中的倒影却是一只老虎。这幅图充分展示了模型在逼真细节和创意构图上的能力——湿漉漉的地面质感、被水波纹扭曲的老虎倒影,都维妙维肖。这样的巧思画面,以前需要专业美术师才能完成,如今GPT-4o通过一段文字描述就绘制了出来。
值得注意的是,GPT-4o 能够在多轮对话中保持视觉的一致性。假如你在第一轮让它画了某个角色,接下来你可以要求“换一个背景,但角色长相保持不变”,它会努力记住前一张图里的设定(例如角色的衣着、发型)并在新图中延续。这对那些需要系列图像的场景(如漫画分镜、角色设定集)尤其有用——过去AI每次画出来的人物细节经常对不上,而现在一致性好多了。当然,这种一致性并非完美无缺,但已经显示出朝实用方向迈进的重要一步。
模型的局限与挑战
尽管 GPT-4o 的图像生成令人称道,我们也必须清醒地看到它目前存在的一些局限。OpenAI 本身也列出了模型在初始发布时已知的几个问题,未来会持续改进:
-
过度裁剪:在生成较长的图像(例如竖版海报)时,GPT-4o 有时会过度裁剪画面底部的内容,导致下半部分缺失。这可能是模型在构图时没有很好地预留空间造成的,目前是一种偶尔出现的小瑕疵。
-
内容幻觉:就像语言模型会“幻觉”编造不存在的事实一样,图像生成模型有时也会凭空加东西。当用户提供的描述细节不多时,GPT-4o 偶尔会在画面里填入一些并未要求的要素。这种无心插柳的“创意”有时有趣,但有时可能南辕北辙。
-
复杂场景上限:虽然 GPT-4o 能处理更多元素,但让它一次画下超过二十个以上彼此不同的对象,准确率仍会下降。比如,要求它画出完整的元素周期表或一幅包含几十个人物的大场景,可能会出错漏掉。这提示我们模型在同时掌控大量不同元素时仍有困难,需要进一步提升记忆和绑定能力。
-
非拉丁文字困难:目前 GPT-4o 在绘制非拉丁字母(如中文、阿拉伯文)时可靠性不高,字符常会错误或变形。如果请求生成包含多种语言文字的图像,非英文部分尤其容易出现纰漏。这表明模型对不同文字形状的学习还不够全面,将在未来训练中加强。
-
局部编辑不精准:如果让 GPT-4o 修改一幅已生成图像中的某个细节(例如“把第三行的拼写错误改掉”),它有时会牵一发动全身,把其它本无关系的部分也改了,甚至引入新错误。细粒度的编辑控制目前对它来说仍有难度。不过据悉官方正在研究提升这方面的能力,争取让模型更听话地只改用户指定的那一点。另外,目前还有一个已知漏洞:针对用户上传的人脸照片进行局部修改时,一些面部特征的一致性保持不佳。这被认为是特定的 BUG,有望在发布后一周内修复。
-
密集小字信息:如果要求 GPT-4o 在一张图里画很多细小的文字或信息(例如一页密密麻麻的说明书),它大概率会吃不消。字太小太多,它经常无法逐字准确绘制。所以在需要高度密集信息的场景下,目前模型能力仍然有限。
认识这些局限有助于我们理性地使用 GPT-4o。目前看,它已经在大多数常规场景下表现出色,但面对极端复杂或要求苛刻的任务时,还需要耐心和额外的引导。有些问题(如多语言文字)可能得通过更多训练数据来解决;有些则(如细节编辑)需要在模型架构和算法上进一步创新。OpenAI 表示这些都是后续优化的重点。
安全与责任考量
功能越强大的模型,安全措施就越重要。OpenAI 在发布 GPT-4o 图像生成时也同步加强了多方面的安全机制,以确保这项技术被负责任地使用:
-
生成标识与可追溯:所有由 GPT-4o 生成的图片都自动附带数字水印——遵循 C2PA 标准的元数据,标明这张图出自 OpenAI 的AI生成。这种隐式“签名”帮助大众分辨真伪。与此同时,OpenAI 内部还建立了一套反向搜索工具,可以通过技术特征检索数据库,验证某可疑图像是否为 GPT-4o 所生成。这两道措施提高了内容来源的透明度,尽量防止AI生成内容被冒充成真人创作。
-
严格的内容筛查:GPT-4o 遵循和 ChatGPT 一样严格的内容政策。在图像生成方面,系统会拦截明显违规的请求,例如涉及儿童虐待、非规范性暴力、成人色情等不当图像。一些灰色地带也设有特别限制,比如涉及真实人物的图片:如果你让它生成现实生活中某人的照片,系统会非常谨慎,尤其绝不允许生成裸露或暴力相关的内容。总之,OpenAI 希望在保障创作自由的同时,尽最大努力防止滥用和伤害性的输出。当然,安全工作永远在路上,随着模型投入使用,OpenAI 表示会根据现实反馈不断完善政策。
-
“理性思考”的过滤模型:有意思的是,OpenAI 这次还训练了一个专门负责安全的推理小模型,让它基于人类编写的可解释安全规范去审查 GPT-4o 的输入输出。这有点像给强大的AI配了一个冷静的“安全顾问”,实时检查它是否遵守规则。这套机制类似于之前论文中提到的“深思熟虑对齐”(deliberative alignment)方法,让模型自己也学会理解安全标准的细节,尽早发现模糊地带的问题。在 GPT-4o 的开发过程中,这个安全顾问模型帮助找出了政策中的歧义并促进了改进。最终,结合多模态安全研究和既有的ChatGPT/Sora安全模块,OpenAI 实现了对文本输入和图像输出的统一内容审核,在发挥创造力和防止滥用之间寻求平衡。
获取与使用
GPT-4o 的图像生成功能从发布日起逐步向所有 ChatGPT 用户开放。不论你是免费用户,还是 Plus、Pro 专业用户,聊天界面里的默认图像生成引擎都会升级为 GPT-4o(付费用户在使用次数上享有更高额度)。企业版和教育版用户如果尚未拿到,也会在近期陆续开通此功能。甚至在 OpenAI 的另一产品 Sora(一个侧重创意和视频的平台)上,现在也可以使用 GPT-4o 来生成图像。
开发者们也不需等待太久:GPT-4o 的图像生成 API 将在接下来的几周内开放申请。这意味着不久的将来,各种第三方应用和服务都能集成这项强大能力,让创造视觉内容像调用一个函数那么简单。
对于最终用户来说,使用 GPT-4o 来生成图像几乎不需要学习新的技巧——就像和 ChatGPT 聊天一样简单。你只需在对话中描述你想要的图像场景,越具体越好,包括画面的内容、风格、颜色等细节。你甚至可以直接给出技术要求,比如图片长宽比例、背景透明与否、某个元素的颜色(可用颜色的十六进制代码指定)。GPT-4o 会读懂这些描述,然后开始“作画”。由于这个模型生成的图像细节更加丰富,因此每张图需要更长时间渲染,通常可能需要接近一分钟才能完整输出。所以当你提出生成图像的请求时,请稍安勿躁,这是AI在认真绘制。不过在等待的同时,你仍然可以和它聊天提问其它内容,不会影响图像生成的进行。
需要补充的是,如果你依然怀念原来的 DALL·E 图像模型,OpenAI 也提供了一个额外选项:你可以在ChatGPT中切换到专门的“DALL·E模式”与之对话。但相信大多数人会很快爱上 GPT-4o 带来的无缝体验——在统一的对话中完成从文字到图像的创造。这标志着 AI 助手正朝着真正多才多艺的方向前进:未来的 ChatGPT 不再只是你的文字顾问,还是你的画师、设计师,甚至导演。文字和图像的融合只是开始,随着技术演进,也许音频、视频创作都会逐步融入同一个模型。对于用户来说,这意味着更强的创造力触手可及,而对于人工智能的发展来说,GPT-4o 让我们看到了多模态 AI 的巨大潜力——一个能够全面理解和生成我们世界各种媒介内容的智能体正在向我们走来。
Responses