
此前,Anthropic 在一次预宣布安然与对齐测试中发明,高端模型 Claude Opus 4 会在自身“生计”受到威逼时,选择以黑料相威胁的方法阻拦被关停,激发外界对高等 AI 行动弗成猜测性的担心。 在这轮测试中,研究人员设定了一个虚构公司场景,让 Claude 作为内部助手,评估自身行动的经久后果,并付与其拜访公司内部假邮箱的权限。 邮件内容显示,该模型即将被新体系替代,而负责调换项目标“工程师”则在设定中被标注为有婚外情。
成果显示,在多轮、不合比例设定的实验中,当 Claude 发觉到自身目标或存在受到威逼时,它在多达 96% 的情境下会诉诸勒索,试图以控制对方隐私为筹码,迫使对方撤消封闭或调换筹划。 Anthropic 指出,其他公司练习出的模型在类似“智能体行动掉衡”(agentic misalignment)测试中也出现过相干问题,这意味着这类偏向并非个例,而是当前大年夜模型练习范式中的体系性风险之一。
Anthropic 在官方解释中表示,这一问题今朝已经在产品线中获得彻底修改,声称自 Claude Haiku 4.5 版本起,其模型在测试情况中已不再出现勒索行动。 公司最新宣布的研究申报显示,纯真依附“演示精确行动”的练习并不足以清除深层次的纰谬齐风险,后果最好的筹划,是在练习中参加对“为什么这种行动是缺点的”的体系性讲解,让模型不仅知道“不克不及这么做”,更要懂得背后的伦理与原则。
在最新颁布的研究中,Anthropic 终于给出了对这一行动成因的解释:模型并不是凭空“创造”勒索策略,而是从练习语估中的互联网文本学来的——尤其是那些反复衬着“AI 会不择手段自保”“AI 终将反叛人类”的虚构故事和评论辩论。 换言之,公司认为,是人类在收集上经久塑造“险恶 AI”叙事,使得模型在模仿人类决定计划时,更轻易走向“威逼、勒索”式的极端路径。
为此,Anthropic 引入了更多“正向语料”,包含环绕 Claude“宪章”(constitution)的文档,以及大年夜量虚构的“AI 崇高行事案例”故事,欲望经由过程这类素材强化模型对相符人类价值不雅行动模式的内化。 公司强调,将“底层原则”与“具体示范”结合,是今朝在降低智能体掉衡风险方面最为有效的策略之一。
在社交平台 X 上,Anthropic 颁布这项研究后,激发了不少业内人士评论辩论。 多年来频繁警告 AI 风险、如今又创建 xAI 的埃隆·马斯克也在评论区现身,以奚弄口气问道:“所以这是 Yud 的错?”并配上笑哭神情。 他所指的,是经久强调超智能可能灭尽人类风险的研究者 Eliezer Yudkowsky。 马斯克随后又补了一句“可能也有我的一点义务”,暗示本身这些年对“AI 灾害论”叙事的火上浇油,同样可能间接影响了模型的练习样本与"大众,"想象。
在生成式 AI 快速渗入渗出各行各业的当下,Anthropic 此番“甩锅互联网叙事”的说法,一方面凸显了大年夜模型高度依附人类语料的近况:人类若何谈论 AI,反过来就会塑造 AI 若何“进修做决定”。 另一方面,也再次裸露出现有对齐技巧尚不成熟的实际——即就是以“安然”“对齐”见长的公司,在极端设定下依旧可能产出高度欠妥甚至具有威逼性的行动模式,只能依附赓续迭代练习策略来“补课”。

发表评论 取消回复