新闻动态 你的位置:华宇娱乐平台靠谱吗 > 新闻动态 > ChatGPT又进化了,这次最让我惊讶的是它突然会写字了

ChatGPT又进化了,这次最让我惊讶的是它突然会写字了

发布日期:2026-05-03 12:59    点击次数:153

ChatGPT又进化了,这次最让我惊讶的是它突然会写字了

你还记得AI图片生成器有多拉胯吗?大概两年前,让它生成一个墨西哥餐厅的菜单,它能给你发明出一堆根本不存在的菜名——"enchuita""churiros""burrto""margartas",看得你一脸问号。那时候想要一张正常的菜单图?做梦吧。

结果现在,ChatGPT刚发布的Images 2.0模型,我随手让它生成一张墨西哥餐厅菜单,它直接给我整出一张能直接贴墙上用的成品,客人进来估计都发现不了问题。(不过ceviche卖13.5美元这事,可能还是会让部分人嘀咕一下品质行不行。)

AI终于学会写字了

以前图片生成模型在文字渲染上拉胯,根本原因是它们用的是diffusion模型——这玩意的工作方式是从噪点里重建图片。Lesan AI的创始人Asmelash Teka Hadgu跟我解释过:"diffusion模型是在重建给定的输入,一张图片里的文字只占极小一部分像素,所以模型学到的是覆盖更多像素的图案规律。"说白了,文字对于它来说就是背景噪音,根本不是重点。

展开剩余64%

但这两年业界开始转向另一种路线——autoregressive模型(自回归模型)。这类模型的工作逻辑更接近大语言模型,是先预测"这张图应该长什么样",然后再生成。相当于从"我要画什么"变成了"我要写什么",精度自然高得多。

OpenAI没有透露Images 2.0具体用的是哪种架构,但在这次发布会前的小范围媒体吹风会上,他们倒是着重强调了一个新能力:模型现在有"思考能力"(thinking capabilities)。

它会搜索、会检查、还会做多格漫画

这个"思考能力"让Images 2.0能干几件之前干不了的事:第一,联网搜索——如果你的提示涉及某个最新新闻,模型可以去网上核实一下;第二,从一个提示生成多张图片变体;第三,自己检查输出的质量并修正。

实际效果就是,你让它生成一张营销海报,它能自动适配不同尺寸;你让它画一组四格漫画,它能理解格与格之间的叙事逻辑,分分钟给你输出一套完整的成品。整个过程大概要几分钟——不如打字问ChatGPT那么快,但考虑到生成内容的复杂度,这个速度已经相当离谱了。

另外,Images 2.0对非拉丁语系的文字渲染也大幅提升了,日语、韩语、印地语、孟加拉语这些语言,之前对AI图片生成器来说都是重灾区,现在效果好多了。不过要注意,模型的训练数据截止到2025年12月,如果你的提示涉及最近发生的事,准确性可能会受影响。

OpenAI在官方新闻稿里是这么描述的:"Images 2.0带来了前所未有的精准度和保真度。它不仅能构思更复杂的图片,还能把构思精准落地——能理解指令、保留要求的细节、搞定那些经常让图片模型翻车的细碎元素:小字、图标、UI元素、复杂构图、微妙风格约束,全部支持最高2K分辨率。"

免费用户也能用,付费用户生成量更大

从本周二开始,所有ChatGPT和Codex用户都能用上Images 2.0;付费用户可以生成更多高级内容。OpenAI也会把gpt-image-2做成API对外提供,具体价格根据输出质量和分辨率来定。

之前DALL-E 3花了两年都没解决的"AI不认字"问题,Images 2.0一个版本就给基本解决了。你说这是技术进步也好,说是AI行业终于开始卷细节体验也罢——反正结果就是,以后想用AI生成一张带字的图片,终于不用再忍受那些奇奇怪怪的拼写错误了。

想看对比?往上翻,我放进去了两张图:上面那张是Images 2.0刚生成的墨西哥餐厅菜单,下面那张是两年前DALL-E 3的"作品"。差距有多大,一目了然。

发布于:安徽省

Powered by 华宇娱乐平台靠谱吗 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024