吴恩达：图灵测试不敷用了我会设计一个AGI专用版

402 阅读 0 评论 0 点赞

正如网友所言：

立异推动模型机能达到新的高度，AI驱动的应用变得弗成或缺，顶尖企业人才争夺激烈，基本举措措施扶植推动社会临盆总值增长。

学术界和工业界频繁说起AGI概念，硅谷的公司也会为抢先AGI定下季度目标。

但关于AGI的定义至今还没有同一标准，现有基准测试还经常误导大年夜众，使其高估当前的AI程度。

吴恩达留意到该趋势，于是新的图灵测试将试图弥补这一空白。

图灵-AGI测试假想

传统的图灵测试在AGI时代显然不敷用。

它由艾伦·图灵在上世纪五十年代提出，提出用人机对话来测试机械的智能程度。

要衡量智能起重要定义智能。

在测试过程中，人类评估者须要肯定他们是在与人照样与机械交谈。假如机械可以或许成功骗过评估者，那么就算经由过程了测试。

但如今的AI显然不再知足于简单的对话交互，而是要构建起经济有效的体系，所以亟需一个可以或许衡量AI工作才能的测试。

测试对象将会是AI体系或专业人士，他们将会被供给一台可以拜访互联网并配备浏览器和Zoom等软件的计算机。

裁判将经由过程计算机为测试对象设计一个多日的体验义务，比如作为客服，会先被培训一段时光，然后请求履行接听德律风的义务，并须要供给持续的反馈。

只要AI可以或许像人类一样闇练完成工作义务，就会被认为经由过程测试。

该测试将聚焦AGI的经济性和实际产出，更接近普世意义下对AGI的初始定义——可用于工作和临盆场景的智能。

如今几乎所有的AI基准测试，如GPQA、AIME、SWE-bench等，都邑预先肯定一个测试集。这意味着AI团队都邑直接针对已宣布的测试集来调剂他们的模型。

这就导致很多AI模型榜单排名靠前，但真什物理世界中又才能不敷。

客岁闹得沸沸扬扬的Llama 4刷榜丑闻就是个中一个典范，明明数据看起来都很不错，但用户真正上手后却傻眼了。

而这就是图灵-AGI测试的核心，要让AI像人类一样智能，并完成大年夜部分的常识型工作。

它也会比基准测试更考验AI的通用才能。

此外，固定测试集只能衡量AI在某一狭小范畴的才能。比拟之下，图灵测试可以由评委自由提出随便率性问题，没有提前限制范围，更能断定体系在通用义务上的表示。

在改进的图灵-AGI测试中，延续了这一设定，裁判可以随便率性设计体验义务，而受测试的AI或人类测试者均不会事先知道义务内容，这将比基准测试更能断定AGI程度。

同时为了校准社会对AI的期望，吴恩达表示，或许他将举办一场图灵-AGI测试，让所有AI介入个中。

即便最后的成果会是所有AI体系均未能达到标准，但也能平息经久以来对AGI的过度炒作。

这种降温将会为AI范畴创造更稳健的情况，让行业从新聚焦于非AGI级其余实际进步，比如开辟有实用价值的应用，而不是陷溺于实现AGI的营销噱头。

从经久来说，图灵-AGI测试也会为AI团队设定一个具体的尽力目标，而非模糊地实现人类级智能。

假使真有某一家公司可以或许经由过程测试，其成果也必定具备真实价值，图灵-AGI测试将会为真正的AGI冲破供给可托的剖断根据。

所以接下来，只需拭目以待。

点赞(0) 打赏

吴恩达：图灵测试不敷用了 我会设计一个AGI专用版