根据第三方评测机构Artificial Analysis颁布的综合智能指数榜单,OpenAI凭借GPT-5.5系列在前六名中独有四席,该机构认为,“GPT-5.5让OpenAI重回AI范畴的第一位,打破了与Anthropic和Google的三方平局。”
这意味着,当这个今朝“最聪慧”的AI大年夜脑面对不肯定或未知的问题时,选择“坦言不知”的概率极低,反而更偏向于“自负地虚构”一个谜底。而这种高幻觉率一旦放在须要高靠得住性的工作场景中,很可能导致分析误差、决定计划掉误甚至财务损掉。
这个道具的功能是:玩家应用时,能消费“连击”能量,把棋盘上与最后一次清除雷同类型的图标全部随机刷新一次。
最强的AI也是最危险的“撒谎者”?面对高幻觉率,GPT-5.5毕竟可否在实际应用中靠得住地完成复杂的常识义务?为了答复这些关键问题,我们对GPT-5.5进行了实测,从处理家庭账本到编写及时对战游戏,测试其应对长高低文、复杂逻辑的常识工作与编程实战才能。
此次测试不仅关乎一个模型的机能,更关乎AI技巧进入深水区后,我们如安在拥抱其强大年夜才能的同时,应对其潜在风险。
01. 常识才能:它真的像职场人一样会干活
根据官方宣布的基准测试成果,GPT-5.5在几乎所有核心指标上都超出了前代GPT-5.4,在常识工作范畴表示尤为凸起。
在一项覆盖44个职业的GDPval测试中,GPT-5.5取得了84.9%的得分,不仅跨越了83.0%的真实职场人员程度,也高于Claude Opus 4.7的80.3%和Gemini 3.1 Pro的67.3%。该测试模仿了金融分析师、市场经理、软件工程师等多种白领职业的日常工作,请求模型完成信息整合、分析推理、决定计划建议与申报生成等综合性义务。
此外,GPT-5.5在其他多个实用处景的测试中也表示不错。在模仿复杂客服对话的测试中,无需特别指导就能达到98.0%的精确率;在让AI像真人一样操作电脑完成义务的测试中,得分78.7%;在须要结合图像、文字懂得并调用对象解决问题的测试中,分别拿到83.2%和75.3%的分数。这些成就解释,GPT-5.5正在慢慢打通“看、说、做”等一系列才能。
这些才能在真实生活顶用起来怎么样?我们设计了一个切近家庭的测试来验证。
这个测试场景设计得固然简单,却很能看出AI是否真的“好用”。因为家庭记账是很多人的日常,但记录经常是顺手写、格局乱,“混乱无章”的记账数据请求AI不克不及只会处理整洁的表格,还得能“看懂”手写式的记录、懂得每笔钱是什么意思,并把类似项目归到一路。
而算总账、分析钱花在哪儿、给出节俭建议,其实对应着一套完全的思虑过程,GPT-5.5须要先把信息理清楚,再从里面看出门道、提出可行的办法,最终让它“写申报”,则是请求它会用人能听懂、能接收的方法来报告请示工作。
测试成果显示,它精确归并了“外卖-午餐”和“外卖-晚餐”,并且主动提示“付出宝主动扣”应同一计入“付出宝”统计,展示出了懂得纷乱账目和用户真实意图的才能。


GPT-5.5自立梳理表格并给出分析
在分析中,它经由过程计算占比,指出“网购”(衣物、书本)类目支出较高,且多为非急需品,是以建议为这类花费设置预算,给出的建议具体可行。最后生成的申报也充斥情面味,那句“稍微管住网购的小冲动,咱们家的开支就能更轻松一些”,相符“给家人看”的沟通请求,语气亲切,建议接地气。
这个简单的测试,相当于在生活场景中还原了上述GDPval测试所考察的核心才能,今朝的成果也解释它的专业才能能用到实际生活中。
OpenAI还用内部的实际案例证清楚明了它的临盆力价值。其财务团队用它审核了24771份K-1税表、总计71637页文件,并称这套流程比上一年提前了两周完成。这解释GPT-5.5是可以或许直接融入工作流程、切实晋升效力的临盆力对象。
除了在日常常识义务中表示靠得住,在编程这类对精准性请求更高的“硬工夫”上,GPT-5.5同样展示了不错的进步。
在一项考验“智能体”的基准测试(Terminal-Bench 2.0)中,它拿到了82.7%的高分。这个测试模仿了在敕令行里履行连续串复杂操作,就像让AI本身完成一个多步调的运维义务。它的成就不仅比自家上一代(GPT-5.4的75.1%)高,也明显跨越了竞争敌手Claude Opus 4.7(69.4%)。这解释它在须要记住步调、本身调试、保持完成长时光义务时,表示更好。
其次,在处理超长内容方面也有进步。在一项针对50万到100万字符超长文本的检索测试中,它的得分达到74.0%,是上一代(36.6%)的两倍还多。这意味着让它分析一本厚书、浏览宏大年夜的代码仓库时,它更不轻易“看漏”或“记混”,找信息更准、思路也更连贯。
并且多项测试成果显示,在履行雷同的编程义务时,GPT-5.5消费的token数量明显少于GPT-5.4。就连代码编辑器Cursor的结合开创人Michael Truell也评价说,它比上一代更聪慧、更有韧性,调用对象更靠得住,面对复杂经久义务时能保持更久。
简单来说,在编程这类复杂操作场景下,上述数据解释,GPT-5.5不仅更强,并且更稳、更省资本,合适处理那些步调多、耗时长的实际开辟义务。
为了验证它真实的编程才能,我们用一个具体的开辟义务进行了测试,从零开端构建并慢慢进级一款连连看游戏,并硬性规定其必须应用给到的12种不合的emoji神情。
但与高机能一同被曝光的,还有高幻觉率。在Artificial Analysis的私有基准测试AA-Omniscience中,GPT-5.5的幻觉率高达86%,远高于Claude Opus 4.7的36%。
起首,我们让GPT-5.5生成一个完全可运行的连连看游戏。
这须要它懂得开辟者的文字需求、设计界面、治理游戏状况,并自立实现核心的路径搜刮算法。成果它在几分钟之内便顺利完成了。
接着,我们进步难度,请求它在游戏中参加一个“重绘”道具。

之后,我们持续让其为游戏参加完全的用户体系,包含登录、积分记录和排行榜展示。
GPT-5.5生成的连连看小游戏
要实现这一点,GPT-5.5必须做两件事,一是修改游戏背后的数据规矩来支撑这个新功能;二是确保刷新后的棋盘构造仍然是“有解”的,不会让玩家卡关。最终,GPT-5.5成功写好了这部分代码。
这一步重要考验的是,GPT-5.5可否将新功能腻滑地接入现有框架,同时保持游戏原有的核心弄法和逻辑不被破坏。
它再一次顺利完成了义务,并且在代码迭代过程中表示得相当克制,没有进行过度重构,也没有引入不须要的变更。

GPT-5.5履行对游戏细节的调剂指令
最后,我们将难度推至更高阶的及时对战模式,让两名玩家能在不合浏览器中及时竞争清除。
这个中涉及棋盘状况同步、操作冲突裁决和收集延迟处理等一系列典范的多人在线难题。面对如许一个集成度高、及时性强的复杂挑衅,GPT-5.5依然做到了精确交付。
这个从简到繁的测试注解,GPT-5.5在真实编程义务中,既能处理复杂逻辑与架构设计,也能精准响应开辟者需求,且不随便重构或引入其他代码,甚至当我们请求回退到上一版本时,它也能稳定恢复到之前的状况。
03. 高幻觉率:能用,但不敢放手
尽管在实测中表示惊艳,但结合公开数据来看,GPT-5.5依然没有跨越市场太大年夜预期,并且存在弗成忽视的风险。
来看一组比较数据。
在Artificial Analysis的私有基准测试AA-Omniscience中,GPT-5.5的幻觉率高达86%,而Claude Opus 4.7仅为36%。这意味着在该测试所设定的、专门探测模型常识界线的场景下,当GPT-5.5面对不肯定的谜底时,其“坦言不知”的概率远低于敌手,更偏向于生成一个可能缺点的答复。
须要留意的是,这86%并不料味着模型在大年夜多半日常问答中都邑产生幻觉,而是其在触及常识盲区时的特定行动偏向。一位从业者解释,这可能是因为GPT-5.5的事实常识覆盖面更强,但不肯定性也更过火进,对于不肯定的问题会猜谜底。但在将其用于须要高靠得住性的义务时,这一指标仍需引起高度当心。
当GPT-5.5被安排到“自立工作”场景中时,这种高幻觉偏向可能会激发风险。
比如在数据分析与申报生成义务中,它可能自负地引用不存在的数据、编造统计趋势,或基于缺点事实提出决定计划建议,导致用户做出偏离实际的贸易断定。而在编程与调试环节,它供给的代码筹划也许看起来合理,却可能无法运行,甚至隐蔽安然马脚,大年夜幅增长后期排查与修复的成本。
并且,这类幻觉往往以高度自负、逻辑自洽的情势出现。对于缺乏相干专业背景的用户而言,这种“肯定性”输出极具欺骗性,须要进步当心。
除了技巧层面的隐忧,OpenAI此次的贸易策略也显露出明白的意图:先用生态锁定用户,再用涨价收割市场。
02. 编程才能:从初级到复杂,它没添乱
一方面,GPT-5.5首发时并未同步开放API,仅限自家ChatGPT和Codex应用,初步将用户锁定在其应用生态内。另一方面,GPT-5.5的订价比拟上一代有了明显上涨。根据官方颁布的数据,GPT-5.5每处理100万tokens,输入收费5美元,输出收费30美元。而上一代的GPT-5.4,输入和输出价格分别为2.5美元和15美元,这意味着新一代的价格直接翻了一倍。
我们给GPT-5.5多条格局纷乱的单月开支数据,让其扮演家庭数据分析师,完成整顿数据、计算总支出、分析各付出方法占比、分类统计开销等义务,并最毕生成一份给家人看的建议申报。
假如与当前的重要竞争敌手比较,Anthropic最强的模型Opus 4.7订价为每百万tokens输入5美元、输出25美元。可以看出,GPT-5.5在输入价格上与敌手持平,但在输出价格上则赶过20%。
尽管OpenAI解释称,token应用效力的晋升可对冲价格上涨,应用户实际成本无明显增长,但具体性价比仍需业界进一步验证。
对于这一模型,资深Agent从业者赵江杰评价道,此次GPT-5.5的宣布并未形成断档领先,不如对社区热传的“Spud”模型预期的大年夜幅晋升期望那么大年夜,但在agentic和coding才能上仍然持续保持头部顶尖地位,agentic才能晋升的同时也在推动基模厂商晋升模型迭代效力,OpenAI的下一代冲破模型(GPT-6)很可能也在路上了。
总之,对通俗用户而言,GPT-5.5或许值得尝鲜,但不该视其为绝对靠得住的对象,对企业用户来说,在将其接入核心工作流前,则必须慎重,一旦出现那86%的“自负缺点”,该由谁来兜底?

发表评论 取消回复