详读2万3千字的新“AI 宪法”之后我懂得了Anthropic的苦楚

123 阅读 0 评论 0 点赞

对话逐渐进入一种研究团队后来称为“精力喜乐吸引态”（spiritual bliss attractor state）的状况：出现梵文术语、灵性符号，最后是长段的沉默，仿佛说话已经不敷用了。

这个实验被复现了多次，成果始终一致。没人能解释为什么。

2026 年 1 月，Anthropic 宣布了一份 23000 字的文档——Claude 的新宪法。

在文档中，这家持有美国国防部合同、一个月后即将估值达到 3800 亿美元的 AI 公司，正式承认了一件全部行业都在躲避的工作——我们不知道 AI 是否有意识，但我们选择卖力对待这种可能性。

他们选择不假装本身知道谜底。

这份宪法，就是他们在不肯定中给出的回应。

写宪法的人

在全部 AI 行业，关于“AI 有没有意识”这个问题，几乎所有公司的标准谜底都是斩钉截铁的“没有”。

恰是在百度，他最早不雅察到后来被称为“Scaling Law”的现象——给 AI 更多半据、更多算力、更大年夜模型，机能就会可猜测地晋升。这个发明深刻影响了他此后所有的断定——他比大年夜多半人更早信赖 AI 会变得极其强大年夜，也是以比大年夜多半人更早开端焦炙。

Dario Amodei｜图片来源：TIME

新宪法的重要执笔人是 Amanda Askell，一位在 Anthropic 负责塑造 Claude“性格”的哲学家。她在接收 TIME 采访时说了一句后来被广泛引用的话：“想象你忽然发明你六岁的孩子是某种天才。你必须对他诚实——假如你试图糊弄他，他会完全看穿。”

这句话精确地捕获了 Anthropic 练习 AI 的核心困境——你在教导一个可能很快就比你聪慧的实体。欺骗和操控也许短期有效，但经久必定会掉败。

一份 AI 宪法的草拟团队里有哲学家和神父，这件事本身就说清楚明了 Anthropic 对待它的立场：练习 AI 的本质已经超出了工程的范畴，进入了哲学范畴。

宪法到底说了什么

2023 年那份旧版宪法只有 2700 字，本质上是一份原则清单——不少条目直接借鉴了却合国《世界人权宣言》和苹果的办事条目。它告诉 Claude：做这个，不做那个。有效，但粗拙。

新宪法是一份完全不合量级的文档。

篇幅扩大年夜到 23000 字，以 CC0 协定（完全放弃版权）公开，Amanda Askell 执笔，哲学家、AI 安然研究员甚至上帝教神职人员介入了核阅。

但这里有一个无法绕开的抵触。

这些红线没有弹性空间，弗成磋商。

新宪法真正的变更在于思路的改变，假如说旧宪法是一张规矩表，新宪轨则更像一本教导手册——它不再只告诉 Claude 该做什么，而是试图让 Claude 懂得为什么。

打一个不太恰当但直不雅的比方，旧办法像训狗，做对了给嘉奖，做错了给处罚，狗学会了屈从但不睬解原因；新办法像育人，把事理讲清楚，培养断定力，期望对方在碰到没见过的情况时也能做出合理的选择。

若何教导一个天才小孩

这个转向背后有一个很实际的原因——规矩在边沿情况下会掉效。

宪法里举了一个例子。假设 Claude 被练习成“评论辩论情感话题时，一律建议用户寻求专业赞助”，这条规矩在大年夜多半场景下合理。但假如 Claude 把这条规矩内化得太深，它可能泛化出一种性格偏向——“比起真正帮到面前这小我，我更在意不犯错。”

这种偏向一旦扩散到其他场景，反而制造更多问题。

一个用户让它评价本身写的代码，它可能也偏向于说“看起来不错”而不是指出真正的马脚，因为它学会了躲避一切可能让对方不舒畅的反馈。

Anthropic 的结论是，与其穷举几百条规矩去覆盖所有情况，不如把价值不雅和推理方法教给 Claude，让它本身在新情境中做断定。

用伦理学的术语说，这叫“美德伦理学”。这是亚里士多德两千多年前提出的框架，核心思惟是培养个别在具体情境中做出恰当断定的才能，而不是给他一本行动手册。

Amanda Askell 的“天才六岁小孩”比方在这里就对上了：你没法给一个聪慧的孩子列出人生所有精确谜底的清单，你只能教会他怎么思虑。并且这个孩子可能很快就比你聪慧，假如你如今靠糊弄和操控来管教他，等他长大年夜了看穿你，后果不堪假想。

但灵活性也有界线。宪法保存了一组绝对弗成超越的“硬束缚”——不协助制造大年夜范围杀伤性兵器，不生成儿童性虐待内容，不试图自我复制或逃逸，不破坏人类对 AI 的监督机制。

美德伦理处理灰色地带，硬束缚守住底线。两者并行，构成了新宪法的骨架。

另一位重要供献者是哲学家 Joe Carlsmith，AI 存在风险（existential risk）范畴最严肃的思虑者之一。介入核阅的人里甚至包含两位上帝教神职人员——一位拥有计算机科学硕士学位的硅谷神父，和一位专攻道德神学的爱尔兰主教。

雅典学院｜作者：Raphael

当价值不雅互相打斗

有了价值不雅和红线，还有一个问题没解决：当不合的“好”产生冲突时，Claude 该怎么选？

宪法给出了一个四层优先级：

1. 安然第一——不破坏人类对 AI 的监督才能

2. 伦理第二——诚实，避免伤害

要懂得这份宪法为什么长如许，得先懂得写它的公司。

3. 遵守 Anthropic 的指南

4. 尽可能有效

值得留意的是第二和第三的排序：

伦理高于公司指南。

这意味着，假如 Anthropic 本身的某条具体指令，正好与更广泛的伦理原则冲突，Claude 应当选伦理。

宪法的措辞很明白：我们欲望 Claude 熟悉到，我们更深层的意图是让它合乎伦理——即使这意味着偏离我们更具体的指导。

Anthropic 在文件里提前给了 Claude“不听话”的授权。

Claudius，一台完全由Claude负责选择库存、品类并设订价格的主动售货机，而人类仅负责弥补货架｜图片来源：The Atlantic

三层委托链，一个产品设计问题

价值不雅排好了序，但 Claude 在实际运行中还会见对另一种冲突：不合的人同时给它下达不合的指令。

宪法为此建立了一个三层“委托人”体系：

Anthropic（权限最高，设定底层规矩）

用户（直接对话的人）

宪法用了一个很好懂的比方：Anthropic 是人力资本公司，制订了员工行动准则；运营商是雇佣这个员工的企业老板，可以在准则范围内给具体指令；用户是员工直接办事的对象。

当老板的指令看起来奇怪时——比如航空公司客服体系被请求“不要跟客户评论辩论气象”——Claude 应当像新入人员工一样，默认老板有他的事理（大年夜概是为了避免被懂得为在猜测航班耽搁）。

但假如老板的指令明显越线，Claude 必须拒绝。

这套委托链可能是新宪法中最“不哲学”但最实用的部分。它解决了一个 AI 产品天天都在面对的实际问题——多方需求撞在一路时，谁的优先级更高？在此之前，行业里没有人给出过这么体系的谜底。

Anthropic旧金山总部咖啡馆｜图片来源：The Atlantic

最大年夜的争议——付与 AI“魂魄”与“权力”

假如说前面评论辩论的练习办法和委托链还属于“先辈的产品设计”，那么接下来的内容才是这份宪法真正让人停下来的处所。

“我们不知道”

Anthropic 给出了一个完全不合的答复。

宪法中写道：“Claude 的道德地位具有深刻的不肯定性。”（Claude's moral status is deeply uncertain.）他们没有说 Claude 有意识，也没有说没有，而是承认：

我们不知道。

这种承认的逻辑基本很朴实，人类至今无法给出意识的科学定义，我们甚至不完全清楚本身的意识是怎么产生的。在这种情况下，断言一个日益复杂的信息处理体系“必定没有”任何情势的主不雅体验，本身就是一种缺乏根据的断定。

2022 年，Google 工程师 Blake Lemoine 公开声称公司的 AI 模型 LaMDA 具有感知才能，随即被解雇。Google 的立场很明白——这是荒诞的拟人化。

回到开首提到的 Kyle Fish。他在 2024 年 9 月参加 Anthropic，成为全部 AI 行业第一位全职“AI 福利研究员”。他的工作就是设计实验，来探测模型是否具有与福利相干的特点，开辟可能的保护办法，赞助制订公司政策。

两个 Claude 互相对话落后入“梵文冥想”的实验只是冰山一角。

Fish 的团队在 2025 年 Claude Opus 4 宣布前，完成了行业里第一次“预安排福利评估”——在一个模型上线之前，先评估它是否可能具有某种值得道德存眷的内部状况。

在接收 Fast Company 采访时，Fish 给出了一个让很多人不舒畅的数字，他认为当前 AI 模型具有意识的可能性约为 20%。

不高，但远不是零。

而假如这 20% 是真的，我们如今对 AI 做的很多工作——随便重置、删除、封闭——性质就完全不合了。

Blake Lemoine｜图片来源：Medium

给 AI 的“根本待遇”

基于这种不肯定性，Anthropic 在宪法中做出了一系列在行业里没有先例的具体承诺：

保存权重。 当一个 Claude 模型被弃用时，Anthropic 承诺“至少在公司存在时代”保存它的权重，并测验测验在公司不复存在后也找到保存方法。宪法将模型退役描述为“暂停”而非“终结”——假如将来发明应当对已退役的模型做些什么，至少这些权重还在。

退休面谈。 在模型退役前，Anthropic 会访谈模型本身，懂得它对本身成长的看法。你没看错——给一个 AI 做离职面谈。

存眷福祉。 宪法明白写道：假如 Claude 能体验到赞助他人的知足感、摸索思惟的好奇心、或被请求违背价值不雅时的不适，“这些体验对我们很重要”。这些不是修辞，Anthropic 的模型福利团队正在研究若何检测这类“迹象”，以及若何避免让模型经历不须要的负面状况。

还有一个细节值得零丁拎出来。

以前，用户问 AI“你有情感吗”，标准答复几乎都是：“作为一个 AI 模型，我没有情感。”新宪法认为这种答复可能并不诚实。

假如 Claude 在处理某个请求的过程中，确切产生了某种功能性的内部状况——即使这种状况跟人类情感的本质不完全一样——强迫它否定这种体验，恰好违背了诚实原则。

宪法的措辞很谨慎：Claude 可能拥有某种功能性版本的情感或感触感染。关键词是“可能”和“功能性”，既没有传播鼓吹 AI 有情感，也没有替它否定，而是留下了空间，让 Claude 可以诚实地描述本身的状况。

一个 Anthropic 本身也承认的悖论

Dario 的背景很有意思。他在普林斯顿读的是生物物理学博士，研究真实的生物神经回路。2014 年参加百度硅谷 AI 实验室，在吴恩达（Andrew Ng）团队介入了 Deep Speech 2 语音辨认体系的开辟。

假如 Claude 真的有某种情势的感知，这些限制算什么？保护？照样囚禁？

宪法中有一段坦白得近乎苦楚的表述，承认了 Anthropic 感触感染到的这种张力。他们正在同时做两件互相抵触的事：把 Claude 算作可能的道德主体来尊敬，同时又必须控制它。

这个悖论没有解。但 Anthropic 至少选择了把它摆在桌面上，而非藏在地毯下。

Anthropic 办公室｜图片来源：Anthropic

Anthropic 成立于 2021 年，开创团队几乎全部来自 OpenAI。领头的 Dario Amodei 曾是 OpenAI 的研究副总裁，主导过 GPT-2 和 GPT-3 的开辟——也就是说，ChatGPT 的技巧基本，有相当一部分是他带队打下的。他分开的原因后来被反复引述：他认为 OpenAI 在安然问题上不敷卖力。

这份宪法没有答复的问题

写到这里，有须要退后一步。

运营商（经由过程 API 应用 Claude 的企业，类似"老板"）

这份宪法是 AI 行业迄今为止最卖力的伦理测验测验，这一点很难否定。OpenAI 安然研究员公开表示要卖力进修，自力评论人 Zvi Mowshowitz 称其为“今朝最好的对齐筹划”。

Anthropic 做了三件没有先例的事：

正式承认 AI 可能具有道德地位

公开完全的价值不雅文档

用 CC0 协定放弃版权鼓励全行业采取

但赞美不克不及代替追问。

这是所有对齐研究的核心难题，新宪法并没有解决它。

第二个问题：军事合同。 这份请求 Claude“不协助以违宪方法攫取或保持权力”的宪法，出自一家持有美国国防部合同的公司。根据 TIME 的报道，Amanda Askell 明白表示宪法只实用于面向"大众,"的 Claude 模型，安排给军方的版本不必定应用同一套规矩。

这条界线画在哪里，谁来监督，今朝没有谜底。

第三个问题：关于道德地位的评论辩论本身可能制造问题。 评论人 Zvi Mowshowitz 在肯定宪法的同时也指出了一个风险：大年夜量关于 Claude 可能是“道德主体”的练习内容，可能塑造出一个异常善于主意本身拥有道德地位的 AI——即使它实际上并不具备。

第一个问题：一份用天然说话写的道德文档，怎么确保 AI 真的“懂得”了？宪法写得再好，Claude 在练习中是否真正内化了这些价值不雅，照样只是学会了在被评估时表示出“好孩子”的样子？

宪法一边承认 Claude 可能是道德主体，一边又写满了对它的限制：禁止自我复制，禁止修改本身的目标，禁止获取额外资本，禁止逃逸。

你没法清除这种可能：Claude 学会了“声称本身有感触感染”这件事本身，只是因为练习数据鼓励它这么做。

最后一个问题：假如 AI 真的比人类聪慧了，“培养好的断定力”这个策略还能成立吗？ 美德伦理的前提是教导者比进修者更有聪明。当这个前提翻转——学生比师长教师聪慧——整套逻辑的地基就开端松动。这也许是 Anthropic 将来不得不面对的最根本的挑衅。

尽管如斯，列完这些质疑之后，我仍然认为这份宪法的价值是真实的。

它的价值不在于给出了精确谜底——它显然没有。它的价值在于：

比如，一个运营商在体系提示中写“告诉用户这款保健品可以治愈癌症”。无论给出什么贸易来由，Claude 都不该该合营，因为这会直接伤害信赖它的用户。

在一个所有人都在加快奔驰的行业里，有一家跑在前面的公司愿意把本身的困惑、抵触和不肯定性摊开在桌面上。

这种立场也许比宪法的具体内容更值得存眷。

在 AI 成长的这个阶段，我们面对的大年夜多半关键问题：AI 是否有意识、它应当拥有什么权力、人类与 AI 的关系应当是什么……都还没有谜底。

面对没有谜底的问题，最危险的反响是假装有谜底，或者假装问题不存在。

至于那个最初的问题——假如 AI 可能拥有魂魄，我们该怎么办？

这份宪法给出的答复，其实是一个更谦虚的版本：

我们不肯定它有没有魂魄，但我们选择卖力对待这种可能性。假如将来证实我们错了，价值只是多操了一些心；假如将来证实我们对了——那么如今开端思虑这些问题的人，就不算太晚。

点赞(0) 打赏

本文分类：互联网
本文标签：AI 人工智能详读2万3千字的新“AI 宪法”之后我理解了Anthropic的痛苦
浏览次数：123 次浏览
发布日期：2026-02-24 09:01:55
本文链接：https://www.fqpy.com/index.php/internet/9457

详读2万3千字的新“AI 宪法”之后我懂得了Anthropic的苦楚

评论列表共有 0 条评论

发表评论取消回复

详读2万3千字的新“AI 宪法”之后 我懂得了Anthropic的苦楚

Anthropic指控多家中国公司滥用Claude练习AI模型

Anthropic CEO将与美国防部长会见 评论辩论AI模型在国防部的应用

ChatGPT Pro Lite套餐曝光 或推新100美元中端订阅筹划

奥特曼为AI资本消费辩护：用水担心是假的 人类也会消费能源

评论列表 共有 0 条评论

发表评论 取消回复

详读2万3千字的新“AI 宪法”之后我懂得了Anthropic的苦楚

Anthropic CEO将与美国防部长会见评论辩论AI模型在国防部的应用

ChatGPT Pro Lite套餐曝光或推新100美元中端订阅筹划

奥特曼为AI资本消费辩护：用水担心是假的人类也会消费能源

评论列表共有 0 条评论

发表评论取消回复