GPT-5.2考赢人类 OpenAI警告：大年夜模型才能已多余，AGI天花板不是AI

305 阅读 0 评论 0 点赞

其核心理念并不是练习一个更大年夜的模型，而是经由过程软件层面的体系设计，主动构建“会调用模型的体系”。

此前OpenAI官方在介绍GPT-5时强调其在解决复杂跨学科问题上达到了专家级基准，后被外界引申为“博士级智能”。

这也是AGI评估范畴一个经久存在的难题——若何区分大年夜模型“真正的推理才能”与“刷题型才能”。

而ARC-AGI-2的出现正好打破了这一难题。

ARC-AGI-2的全称为“Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2”，是ARC系列基准的最新进级版本。

该基准由François Chollet（Keras之父、前Google Brain研究员）及其团队在2025年推出，其设计初志十分明白：

测试AI是否具备AGI所必须的抽象、归纳与迁徙推理才能，而非记忆或统计模式匹配。

它请求AI像人类一样具备真正的推理和触类旁通的才能。

Chollet曾多次公开表示，假如一个体系只能在见过的数据分布上表示优胜，那它并不具备AGI所需的才能。

是以，ARC基准测试刚好直击大年夜模型的“软肋”。

从“合格”到“优等生”

从这个角度上，它也验证了接下来OpenAI的一个断定——

一次关键跨越

新记载的刷新者，并非单一模型，而是一个名为Poetiq（GPT-5.2X-High）的体系。

Poetiq是一家专注于元体系（Meta-System）架构的AI公司。

OpenAI认为，将来AGI的进展将不再仅取决于模型本身的冲破，还将取决于：

Poetiq（GPT-5.2X-High）在ARC-AGI-2数据集上实现了75%精确率，每问题成本不到8美元，超出前SOTA 15个百分点。

在Poetiq（GPT-5.2X-High）体系出现之前，GPT-5.2(X-High)已经异常接近人类平均程度。

ARC-AGI-2榜单中，人类平均精确率约为60%，GPT-5.2X-High的成就与之几乎持平，代表了当时AI在该基准上的最强推理才能。

但Poetiq的参加，使GPT-5.2(X-High)的得分从60%直接拉升到了75%，从勉强合格（人类平均程度）迈入了优等生的行列（明显超出人类平均程度）。

在同一榜单上，还能看到Gemini 3 Deep Think（Preview）的身影。

该模型主打“深度思虑（Deep Think）”技巧，在ARC-AGI-2上的成就约为46%，明显落后于GPT-5.2系列，并且成本相对后者也略高。

也有网友提到，真正的挑衅在于若何将AI融入工作流程中：见过太多组织买了“AI”，却从未改变任何一个流程。

Poetiq表示，全部过程没有对GPT-5.2进行任何练习或者特定优化。

这恰是Poetiq元体系的初志，旨在主动构建完全的体系，经由过程调用任何现有的前沿模型来解决特定义务。

从15%的晋升数据来看，Poetiq对于基本模型机能的晋升幅度照样异常明显的。

它的存在证清楚明了不须要堆算力，经由过程优良的软件架构也能大年夜幅晋升AI机能。

当前大年夜模型，正逐渐进入“才能多余”阶段。

大年夜模型“才能多余”时代

就在同一天，OpenAI官方也在X平台宣布了一项关于2026年的猜测。

在这条推文中，OpenAI明白提到一个关键词：Capability Overhang（才能多余）。

核心意思是：

当前模型“可以或许做到的工作”，与人们“实际应用AI的方法”（产生后果）之间，存在巨大年夜的断层。

人们是否知道若何有效应用AI

AI是否真正融入实际工作与生活

体系是否能将模型才能转化为实际价值

是以，在2026年，OpenAI将持续前沿研究，同时重点投入于应用层、体系层、人机协同，尤其强调医疗、贸易和日常生活场景。

人机协同

AGI的另一半拼图

OpenAI这篇官方推文涉及一小我机协同的问题。

实现AGI，是须要模型和人协同发挥感化：AGI不只靠模型进级，更要“教人用AI”。

经由过程精确的应用AI，充分发挥出AI的潜能，如许才能让AI开端从“炫技”转向“普惠”，真正影响亿万人生活。

这一不雅点也获得了社区的强烈回应。

于是，乐不雅的网友称“直接把我整小我主动化吧”！

大年夜模型真的“才能多余”了吗？

那么，是不是真如OpenAI所说的，大年夜模型的才能已经多余了呢？

经由过程上面Poetiq所颁布的Poetiq（GPT-5.2X-High）在ARC-AGI-2上的表示，75%的得分跨越了人类平均程度（60%）15个百分点。

这解释GPT-5等大年夜模型在某些专业义务中表示类似于人类博士的专业程度。

ARC系列与传统NLP或多模态benchmark最大年夜的不合在于：它没有大年夜范围练习集，每道标题都是从未见过的新义务，是以不存在经由过程“刷数据”获得高分的可能。

从模型本身来说，也许并未完全多余，但从“未被充分释放的才能”角度来看，已经严重多余。

个中，有模型设计者方的原因，比如他们没有紧跟用户的应用处景，“不再与用户并肩同业了”。

也可能因为前沿模型在推理和立异上缺乏根本性的冲破。

还有模型本身迭代得太快，用户不得不在日常生活中赓续弃用已经“成功上手”的模型。

Poetiq 的出现，以及OpenAI对“才能多余”的断定，合营指向了将来AI范畴的一个新偏向：

下一阶段的AI竞争，不再只是模型参数之争，而是体系、流程与人机协同的竞争。

点赞(0) 打赏

本文分类：互联网
本文标签：AI 人工智能 GPT-5.2考赢人类 OpenAI警告：大模型能力已过剩，AGI天花板不是AI
浏览次数：305 次浏览
发布日期：2026-01-12 10:11:04
本文链接：https://www.fqpy.com/internet/5761

GPT-5.2考赢人类 OpenAI警告：大年夜模型才能已多余，AGI天花板不是AI

评论列表共有 0 条评论

发表评论取消回复

GPT-5.2考赢人类 OpenAI警告：大年夜模型才能已多余，AGI天花板不是AI

黄仁勋：环绕人工智能的“末日论”正在伤害社会

GPT-5.2考赢人类 OpenAI警告：大年夜模型才能已多余，AGI天花板不是AI

xAI员工竟用Claude写代码？这回Anthropic反手拔了马斯克的网线

AI大年夜模型算力潮重塑美国核电疆土

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复