GPT-5.5实测：更聪慧，也更爱“撒谎”

217 阅读 0 评论 0 点赞

根据第三方评测机构Artificial Analysis颁布的综合智能指数榜单，OpenAI凭借GPT-5.5系列在前六名中独有四席，该机构认为，“GPT-5.5让OpenAI重回AI范畴的第一位，打破了与Anthropic和Google的三方平局。”

这意味着，当这个今朝“最聪慧”的AI大年夜脑面对不肯定或未知的问题时，选择“坦言不知”的概率极低，反而更偏向于“自负地虚构”一个谜底。而这种高幻觉率一旦放在须要高靠得住性的工作场景中，很可能导致分析误差、决定计划掉误甚至财务损掉。

这个道具的功能是：玩家应用时，能消费“连击”能量，把棋盘上与最后一次清除雷同类型的图标全部随机刷新一次。

最强的AI也是最危险的“撒谎者”？面对高幻觉率，GPT-5.5毕竟可否在实际应用中靠得住地完成复杂的常识义务？为了答复这些关键问题，我们对GPT-5.5进行了实测，从处理家庭账本到编写及时对战游戏，测试其应对长高低文、复杂逻辑的常识工作与编程实战才能。

此次测试不仅关乎一个模型的机能，更关乎AI技巧进入深水区后，我们如安在拥抱其强大年夜才能的同时，应对其潜在风险。

01. 常识才能：它真的像职场人一样会干活

根据官方宣布的基准测试成果，GPT-5.5在几乎所有核心指标上都超出了前代GPT-5.4，在常识工作范畴表示尤为凸起。

在一项覆盖44个职业的GDPval测试中，GPT-5.5取得了84.9%的得分，不仅跨越了83.0%的真实职场人员程度，也高于Claude Opus 4.7的80.3%和Gemini 3.1 Pro的67.3%。该测试模仿了金融分析师、市场经理、软件工程师等多种白领职业的日常工作，请求模型完成信息整合、分析推理、决定计划建议与申报生成等综合性义务。

此外，GPT-5.5在其他多个实用处景的测试中也表示不错。在模仿复杂客服对话的测试中，无需特别指导就能达到98.0%的精确率；在让AI像真人一样操作电脑完成义务的测试中，得分78.7%；在须要结合图像、文字懂得并调用对象解决问题的测试中，分别拿到83.2%和75.3%的分数。这些成就解释，GPT-5.5正在慢慢打通“看、说、做”等一系列才能。

这些才能在真实生活顶用起来怎么样？我们设计了一个切近家庭的测试来验证。

这个测试场景设计得固然简单，却很能看出AI是否真的“好用”。因为家庭记账是很多人的日常，但记录经常是顺手写、格局乱，“混乱无章”的记账数据请求AI不克不及只会处理整洁的表格，还得能“看懂”手写式的记录、懂得每笔钱是什么意思，并把类似项目归到一路。

而算总账、分析钱花在哪儿、给出节俭建议，其实对应着一套完全的思虑过程，GPT-5.5须要先把信息理清楚，再从里面看出门道、提出可行的办法，最终让它“写申报”，则是请求它会用人能听懂、能接收的方法来报告请示工作。

测试成果显示，它精确归并了“外卖-午餐”和“外卖-晚餐”，并且主动提示“付出宝主动扣”应同一计入“付出宝”统计，展示出了懂得纷乱账目和用户真实意图的才能。

GPT-5.5自立梳理表格并给出分析

在分析中，它经由过程计算占比，指出“网购”（衣物、书本）类目支出较高，且多为非急需品，是以建议为这类花费设置预算，给出的建议具体可行。最后生成的申报也充斥情面味，那句“稍微管住网购的小冲动，咱们家的开支就能更轻松一些”，相符“给家人看”的沟通请求，语气亲切，建议接地气。

这个简单的测试，相当于在生活场景中还原了上述GDPval测试所考察的核心才能，今朝的成果也解释它的专业才能能用到实际生活中。

OpenAI还用内部的实际案例证清楚明了它的临盆力价值。其财务团队用它审核了24771份K-1税表、总计71637页文件，并称这套流程比上一年提前了两周完成。这解释GPT-5.5是可以或许直接融入工作流程、切实晋升效力的临盆力对象。

除了在日常常识义务中表示靠得住，在编程这类对精准性请求更高的“硬工夫”上，GPT-5.5同样展示了不错的进步。

在一项考验“智能体”的基准测试（Terminal-Bench 2.0）中，它拿到了82.7%的高分。这个测试模仿了在敕令行里履行连续串复杂操作，就像让AI本身完成一个多步调的运维义务。它的成就不仅比自家上一代（GPT-5.4的75.1%）高，也明显跨越了竞争敌手Claude Opus 4.7（69.4%）。这解释它在须要记住步调、本身调试、保持完成长时光义务时，表示更好。

其次，在处理超长内容方面也有进步。在一项针对50万到100万字符超长文本的检索测试中，它的得分达到74.0%，是上一代（36.6%）的两倍还多。这意味着让它分析一本厚书、浏览宏大年夜的代码仓库时，它更不轻易“看漏”或“记混”，找信息更准、思路也更连贯。

并且多项测试成果显示，在履行雷同的编程义务时，GPT-5.5消费的token数量明显少于GPT-5.4。就连代码编辑器Cursor的结合开创人Michael Truell也评价说，它比上一代更聪慧、更有韧性，调用对象更靠得住，面对复杂经久义务时能保持更久。

简单来说，在编程这类复杂操作场景下，上述数据解释，GPT-5.5不仅更强，并且更稳、更省资本，合适处理那些步调多、耗时长的实际开辟义务。

为了验证它真实的编程才能，我们用一个具体的开辟义务进行了测试，从零开端构建并慢慢进级一款连连看游戏，并硬性规定其必须应用给到的12种不合的emoji神情。

但与高机能一同被曝光的，还有高幻觉率。在Artificial Analysis的私有基准测试AA-Omniscience中，GPT-5.5的幻觉率高达86%，远高于Claude Opus 4.7的36%。

起首，我们让GPT-5.5生成一个完全可运行的连连看游戏。

这须要它懂得开辟者的文字需求、设计界面、治理游戏状况，并自立实现核心的路径搜刮算法。成果它在几分钟之内便顺利完成了。

接着，我们进步难度，请求它在游戏中参加一个“重绘”道具。

之后，我们持续让其为游戏参加完全的用户体系，包含登录、积分记录和排行榜展示。

GPT-5.5生成的连连看小游戏

要实现这一点，GPT-5.5必须做两件事，一是修改游戏背后的数据规矩来支撑这个新功能；二是确保刷新后的棋盘构造仍然是“有解”的，不会让玩家卡关。最终，GPT-5.5成功写好了这部分代码。

这一步重要考验的是，GPT-5.5可否将新功能腻滑地接入现有框架，同时保持游戏原有的核心弄法和逻辑不被破坏。

它再一次顺利完成了义务，并且在代码迭代过程中表示得相当克制，没有进行过度重构，也没有引入不须要的变更。

GPT-5.5履行对游戏细节的调剂指令

最后，我们将难度推至更高阶的及时对战模式，让两名玩家能在不合浏览器中及时竞争清除。

这个中涉及棋盘状况同步、操作冲突裁决和收集延迟处理等一系列典范的多人在线难题。面对如许一个集成度高、及时性强的复杂挑衅，GPT-5.5依然做到了精确交付。

这个从简到繁的测试注解，GPT-5.5在真实编程义务中，既能处理复杂逻辑与架构设计，也能精准响应开辟者需求，且不随便重构或引入其他代码，甚至当我们请求回退到上一版本时，它也能稳定恢复到之前的状况。

03. 高幻觉率：能用，但不敢放手

尽管在实测中表示惊艳，但结合公开数据来看，GPT-5.5依然没有跨越市场太大年夜预期，并且存在弗成忽视的风险。

来看一组比较数据。

在Artificial Analysis的私有基准测试AA-Omniscience中，GPT-5.5的幻觉率高达86%，而Claude Opus 4.7仅为36%。这意味着在该测试所设定的、专门探测模型常识界线的场景下，当GPT-5.5面对不肯定的谜底时，其“坦言不知”的概率远低于敌手，更偏向于生成一个可能缺点的答复。

须要留意的是，这86%并不料味着模型在大年夜多半日常问答中都邑产生幻觉，而是其在触及常识盲区时的特定行动偏向。一位从业者解释，这可能是因为GPT-5.5的事实常识覆盖面更强，但不肯定性也更过火进，对于不肯定的问题会猜谜底。但在将其用于须要高靠得住性的义务时，这一指标仍需引起高度当心。

当GPT-5.5被安排到“自立工作”场景中时，这种高幻觉偏向可能会激发风险。

比如在数据分析与申报生成义务中，它可能自负地引用不存在的数据、编造统计趋势，或基于缺点事实提出决定计划建议，导致用户做出偏离实际的贸易断定。而在编程与调试环节，它供给的代码筹划也许看起来合理，却可能无法运行，甚至隐蔽安然马脚，大年夜幅增长后期排查与修复的成本。

并且，这类幻觉往往以高度自负、逻辑自洽的情势出现。对于缺乏相干专业背景的用户而言，这种“肯定性”输出极具欺骗性，须要进步当心。

除了技巧层面的隐忧，OpenAI此次的贸易策略也显露出明白的意图：先用生态锁定用户，再用涨价收割市场。

02. 编程才能：从初级到复杂，它没添乱

一方面，GPT-5.5首发时并未同步开放API，仅限自家ChatGPT和Codex应用，初步将用户锁定在其应用生态内。另一方面，GPT-5.5的订价比拟上一代有了明显上涨。根据官方颁布的数据，GPT-5.5每处理100万tokens，输入收费5美元，输出收费30美元。而上一代的GPT-5.4，输入和输出价格分别为2.5美元和15美元，这意味着新一代的价格直接翻了一倍。

我们给GPT-5.5多条格局纷乱的单月开支数据，让其扮演家庭数据分析师，完成整顿数据、计算总支出、分析各付出方法占比、分类统计开销等义务，并最毕生成一份给家人看的建议申报。

假如与当前的重要竞争敌手比较，Anthropic最强的模型Opus 4.7订价为每百万tokens输入5美元、输出25美元。可以看出，GPT-5.5在输入价格上与敌手持平，但在输出价格上则赶过20%。

尽管OpenAI解释称，token应用效力的晋升可对冲价格上涨，应用户实际成本无明显增长，但具体性价比仍需业界进一步验证。

对于这一模型，资深Agent从业者赵江杰评价道，此次GPT-5.5的宣布并未形成断档领先，不如对社区热传的“Spud”模型预期的大年夜幅晋升期望那么大年夜，但在agentic和coding才能上仍然持续保持头部顶尖地位，agentic才能晋升的同时也在推动基模厂商晋升模型迭代效力，OpenAI的下一代冲破模型（GPT-6）很可能也在路上了。

总之，对通俗用户而言，GPT-5.5或许值得尝鲜，但不该视其为绝对靠得住的对象，对企业用户来说，在将其接入核心工作流前，则必须慎重，一旦出现那86%的“自负缺点”，该由谁来兜底？

点赞(0) 打赏

本文分类：互联网
本文标签：AI 人工智能 GPT-5.5实测：更聪明，也更爱“说谎”
浏览次数：217 次浏览
发布日期：2026-04-27 11:55:35
本文链接：https://www.fqpy.com/index.php/internet/13548

上一篇 > 配大年夜圆柱电池续航超900km 一图看懂国产宝马iX3加长版
下一篇 > DeepSeek V4适配华为升腾芯片黄仁勋预言的“灾害”降临

GPT-5.5实测：更聪慧，也更爱“撒谎”

评论列表共有 0 条评论

发表评论取消回复

GPT-5.5实测：更聪慧，也更爱“撒谎”

DeepSeek V4适配华为升腾芯片 黄仁勋预言的“灾害”降临

GPT-5.5实测：更聪慧，也更爱“撒谎”

DeepSeek API输入缓存降价 只有首发价格的1/10

DeepSeek V4 token价格暴降75% 百万token只要两毛五

评论列表 共有 0 条评论

发表评论 取消回复

DeepSeek V4适配华为升腾芯片黄仁勋预言的“灾害”降临

DeepSeek API输入缓存降价只有首发价格的1/10

评论列表共有 0 条评论

发表评论取消回复