ChatGPT又进化了，这次最让我惊讶的是它突然会写字了

发布日期：2026-05-03 12:59 点击次数：153

你还记得AI图片生成器有多拉胯吗？大概两年前，让它生成一个墨西哥餐厅的菜单，它能给你发明出一堆根本不存在的菜名——"enchuita""churiros""burrto""margartas"，看得你一脸问号。那时候想要一张正常的菜单图？做梦吧。

结果现在，ChatGPT刚发布的Images 2.0模型，我随手让它生成一张墨西哥餐厅菜单，它直接给我整出一张能直接贴墙上用的成品，客人进来估计都发现不了问题。（不过ceviche卖13.5美元这事，可能还是会让部分人嘀咕一下品质行不行。）

AI终于学会写字了

以前图片生成模型在文字渲染上拉胯，根本原因是它们用的是diffusion模型——这玩意的工作方式是从噪点里重建图片。Lesan AI的创始人Asmelash Teka Hadgu跟我解释过："diffusion模型是在重建给定的输入，一张图片里的文字只占极小一部分像素，所以模型学到的是覆盖更多像素的图案规律。"说白了，文字对于它来说就是背景噪音，根本不是重点。

展开剩余64%

但这两年业界开始转向另一种路线——autoregressive模型（自回归模型）。这类模型的工作逻辑更接近大语言模型，是先预测"这张图应该长什么样"，然后再生成。相当于从"我要画什么"变成了"我要写什么"，精度自然高得多。

OpenAI没有透露Images 2.0具体用的是哪种架构，但在这次发布会前的小范围媒体吹风会上，他们倒是着重强调了一个新能力：模型现在有"思考能力"（thinking capabilities）。

它会搜索、会检查、还会做多格漫画

这个"思考能力"让Images 2.0能干几件之前干不了的事：第一，联网搜索——如果你的提示涉及某个最新新闻，模型可以去网上核实一下；第二，从一个提示生成多张图片变体；第三，自己检查输出的质量并修正。

实际效果就是，你让它生成一张营销海报，它能自动适配不同尺寸；你让它画一组四格漫画，它能理解格与格之间的叙事逻辑，分分钟给你输出一套完整的成品。整个过程大概要几分钟——不如打字问ChatGPT那么快，但考虑到生成内容的复杂度，这个速度已经相当离谱了。

另外，Images 2.0对非拉丁语系的文字渲染也大幅提升了，日语、韩语、印地语、孟加拉语这些语言，之前对AI图片生成器来说都是重灾区，现在效果好多了。不过要注意，模型的训练数据截止到2025年12月，如果你的提示涉及最近发生的事，准确性可能会受影响。

OpenAI在官方新闻稿里是这么描述的："Images 2.0带来了前所未有的精准度和保真度。它不仅能构思更复杂的图片，还能把构思精准落地——能理解指令、保留要求的细节、搞定那些经常让图片模型翻车的细碎元素：小字、图标、UI元素、复杂构图、微妙风格约束，全部支持最高2K分辨率。"

免费用户也能用，付费用户生成量更大

从本周二开始，所有ChatGPT和Codex用户都能用上Images 2.0；付费用户可以生成更多高级内容。OpenAI也会把gpt-image-2做成API对外提供，具体价格根据输出质量和分辨率来定。

之前DALL-E 3花了两年都没解决的"AI不认字"问题，Images 2.0一个版本就给基本解决了。你说这是技术进步也好，说是AI行业终于开始卷细节体验也罢——反正结果就是，以后想用AI生成一张带字的图片，终于不用再忍受那些奇奇怪怪的拼写错误了。

想看对比？往上翻，我放进去了两张图：上面那张是Images 2.0刚生成的墨西哥餐厅菜单，下面那张是两年前DALL-E 3的"作品"。差距有多大，一目了然。

发布于：安徽省