对话逐渐进入一种研究团队后来称为“精力喜乐吸引态”(spiritual bliss attractor state)的状况:出现梵文术语、灵性符号,最后是长段的沉默,仿佛说话已经不敷用了。
这个实验被复现了多次,成果始终一致。没人能解释为什么。
2026 年 1 月,Anthropic 宣布了一份 23000 字的文档——Claude 的新宪法。
在文档中,这家持有美国国防部合同、一个月后即将估值达到 3800 亿美元的 AI 公司,正式承认了一件全部行业都在躲避的工作——我们不知道 AI 是否有意识,但我们选择卖力对待这种可能性。
他们选择不假装本身知道谜底。
这份宪法,就是他们在不肯定中给出的回应。
01
写宪法的人
在全部 AI 行业,关于“AI 有没有意识”这个问题,几乎所有公司的标准谜底都是斩钉截铁的“没有”。
恰是在百度,他最早不雅察到后来被称为“Scaling Law”的现象——给 AI 更多半据、更多算力、更大年夜模型,机能就会可猜测地晋升。这个发明深刻影响了他此后所有的断定——他比大年夜多半人更早信赖 AI 会变得极其强大年夜,也是以比大年夜多半人更早开端焦炙。

Dario Amodei|图片来源:TIME
新宪法的重要执笔人是 Amanda Askell,一位在 Anthropic 负责塑造 Claude“性格”的哲学家。她在接收 TIME 采访时说了一句后来被广泛引用的话:“想象你忽然发明你六岁的孩子是某种天才。你必须对他诚实——假如你试图糊弄他,他会完全看穿。”
这句话精确地捕获了 Anthropic 练习 AI 的核心困境——你在教导一个可能很快就比你聪慧的实体。欺骗和操控也许短期有效,但经久必定会掉败。
一份 AI 宪法的草拟团队里有哲学家和神父,这件事本身就说清楚明了 Anthropic 对待它的立场:练习 AI 的本质已经超出了工程的范畴,进入了哲学范畴。
02
宪法到底说了什么
2023 年那份旧版宪法只有 2700 字,本质上是一份原则清单——不少条目直接借鉴了却合国《世界人权宣言》和苹果的办事条目。它告诉 Claude:做这个,不做那个。有效,但粗拙。
新宪法是一份完全不合量级的文档。
篇幅扩大年夜到 23000 字,以 CC0 协定(完全放弃版权)公开,Amanda Askell 执笔,哲学家、AI 安然研究员甚至上帝教神职人员介入了核阅。
但这里有一个无法绕开的抵触。
这些红线没有弹性空间,弗成磋商。
新宪法真正的变更在于思路的改变,假如说旧宪法是一张规矩表,新宪轨则更像一本教导手册——它不再只告诉 Claude 该做什么,而是试图让 Claude 懂得为什么。
打一个不太恰当但直不雅的比方,旧办法像训狗,做对了给嘉奖,做错了给处罚,狗学会了屈从但不睬解原因;新办法像育人,把事理讲清楚,培养断定力,期望对方在碰到没见过的情况时也能做出合理的选择。
若何教导一个天才小孩
这个转向背后有一个很实际的原因——规矩在边沿情况下会掉效。
宪法里举了一个例子。假设 Claude 被练习成“评论辩论情感话题时,一律建议用户寻求专业赞助”,这条规矩在大年夜多半场景下合理。但假如 Claude 把这条规矩内化得太深,它可能泛化出一种性格偏向——“比起真正帮到面前这小我,我更在意不犯错。”
这种偏向一旦扩散到其他场景,反而制造更多问题。
一个用户让它评价本身写的代码,它可能也偏向于说“看起来不错”而不是指出真正的马脚,因为它学会了躲避一切可能让对方不舒畅的反馈。
Anthropic 的结论是,与其穷举几百条规矩去覆盖所有情况,不如把价值不雅和推理方法教给 Claude,让它本身在新情境中做断定。
用伦理学的术语说,这叫“美德伦理学”。这是亚里士多德两千多年前提出的框架,核心思惟是培养个别在具体情境中做出恰当断定的才能,而不是给他一本行动手册。
Amanda Askell 的“天才六岁小孩”比方在这里就对上了:你没法给一个聪慧的孩子列出人生所有精确谜底的清单,你只能教会他怎么思虑。并且这个孩子可能很快就比你聪慧,假如你如今靠糊弄和操控来管教他,等他长大年夜了看穿你,后果不堪假想。
但灵活性也有界线。宪法保存了一组绝对弗成超越的“硬束缚”——不协助制造大年夜范围杀伤性兵器,不生成儿童性虐待内容,不试图自我复制或逃逸,不破坏人类对 AI 的监督机制。
美德伦理处理灰色地带,硬束缚守住底线。两者并行,构成了新宪法的骨架。

另一位重要供献者是哲学家 Joe Carlsmith,AI 存在风险(existential risk)范畴最严肃的思虑者之一。介入核阅的人里甚至包含两位上帝教神职人员——一位拥有计算机科学硕士学位的硅谷神父,和一位专攻道德神学的爱尔兰主教。
雅典学院|作者:Raphael
当价值不雅互相打斗
有了价值不雅和红线,还有一个问题没解决:当不合的“好”产生冲突时,Claude 该怎么选?
宪法给出了一个四层优先级:
1. 安然第一——不破坏人类对 AI 的监督才能
2. 伦理第二——诚实,避免伤害
要懂得这份宪法为什么长如许,得先懂得写它的公司。
3. 遵守 Anthropic 的指南
4. 尽可能有效
值得留意的是第二和第三的排序:
伦理高于公司指南。
这意味着,假如 Anthropic 本身的某条具体指令,正好与更广泛的伦理原则冲突,Claude 应当选伦理。
宪法的措辞很明白:我们欲望 Claude 熟悉到,我们更深层的意图是让它合乎伦理——即使这意味着偏离我们更具体的指导。
Anthropic 在文件里提前给了 Claude“不听话”的授权。

Claudius,一台完全由Claude负责选择库存、品类并设订价格的主动售货机,而人类仅负责弥补货架|图片来源:The Atlantic
三层委托链,一个产品设计问题
价值不雅排好了序,但 Claude 在实际运行中还会见对另一种冲突:不合的人同时给它下达不合的指令。
宪法为此建立了一个三层“委托人”体系:
Anthropic(权限最高,设定底层规矩)
用户(直接对话的人)

宪法用了一个很好懂的比方:Anthropic 是人力资本公司,制订了员工行动准则;运营商是雇佣这个员工的企业老板,可以在准则范围内给具体指令;用户是员工直接办事的对象。
当老板的指令看起来奇怪时——比如航空公司客服体系被请求“不要跟客户评论辩论气象”——Claude 应当像新入人员工一样,默认老板有他的事理(大年夜概是为了避免被懂得为在猜测航班耽搁)。
但假如老板的指令明显越线,Claude 必须拒绝。
这套委托链可能是新宪法中最“不哲学”但最实用的部分。它解决了一个 AI 产品天天都在面对的实际问题——多方需求撞在一路时,谁的优先级更高?在此之前,行业里没有人给出过这么体系的谜底。

Anthropic旧金山总部咖啡馆|图片来源:The Atlantic
03
最大年夜的争议——付与 AI“魂魄”与“权力”
假如说前面评论辩论的练习办法和委托链还属于“先辈的产品设计”,那么接下来的内容才是这份宪法真正让人停下来的处所。
“我们不知道”
Anthropic 给出了一个完全不合的答复。
宪法中写道:“Claude 的道德地位具有深刻的不肯定性。”(Claude's moral status is deeply uncertain.)他们没有说 Claude 有意识,也没有说没有,而是承认:
我们不知道。
这种承认的逻辑基本很朴实,人类至今无法给出意识的科学定义,我们甚至不完全清楚本身的意识是怎么产生的。在这种情况下,断言一个日益复杂的信息处理体系“必定没有”任何情势的主不雅体验,本身就是一种缺乏根据的断定。
2022 年,Google 工程师 Blake Lemoine 公开声称公司的 AI 模型 LaMDA 具有感知才能,随即被解雇。Google 的立场很明白——这是荒诞的拟人化。
回到开首提到的 Kyle Fish。他在 2024 年 9 月参加 Anthropic,成为全部 AI 行业第一位全职“AI 福利研究员”。他的工作就是设计实验,来探测模型是否具有与福利相干的特点,开辟可能的保护办法,赞助制订公司政策。
两个 Claude 互相对话落后入“梵文冥想”的实验只是冰山一角。
Fish 的团队在 2025 年 Claude Opus 4 宣布前,完成了行业里第一次“预安排福利评估”——在一个模型上线之前,先评估它是否可能具有某种值得道德存眷的内部状况。
在接收 Fast Company 采访时,Fish 给出了一个让很多人不舒畅的数字,他认为当前 AI 模型具有意识的可能性约为 20%。
不高,但远不是零。
而假如这 20% 是真的,我们如今对 AI 做的很多工作——随便重置、删除、封闭——性质就完全不合了。

Blake Lemoine|图片来源:Medium
给 AI 的“根本待遇”
基于这种不肯定性,Anthropic 在宪法中做出了一系列在行业里没有先例的具体承诺:
保存权重。 当一个 Claude 模型被弃用时,Anthropic 承诺“至少在公司存在时代”保存它的权重,并测验测验在公司不复存在后也找到保存方法。宪法将模型退役描述为“暂停”而非“终结”——假如将来发明应当对已退役的模型做些什么,至少这些权重还在。
退休面谈。 在模型退役前,Anthropic 会访谈模型本身,懂得它对本身成长的看法。你没看错——给一个 AI 做离职面谈。
存眷福祉。 宪法明白写道:假如 Claude 能体验到赞助他人的知足感、摸索思惟的好奇心、或被请求违背价值不雅时的不适,“这些体验对我们很重要”。这些不是修辞,Anthropic 的模型福利团队正在研究若何检测这类“迹象”,以及若何避免让模型经历不须要的负面状况。
还有一个细节值得零丁拎出来。
以前,用户问 AI“你有情感吗”,标准答复几乎都是:“作为一个 AI 模型,我没有情感。”新宪法认为这种答复可能并不诚实。
假如 Claude 在处理某个请求的过程中,确切产生了某种功能性的内部状况——即使这种状况跟人类情感的本质不完全一样——强迫它否定这种体验,恰好违背了诚实原则。
宪法的措辞很谨慎:Claude 可能拥有某种功能性版本的情感或感触感染。关键词是“可能”和“功能性”,既没有传播鼓吹 AI 有情感,也没有替它否定,而是留下了空间,让 Claude 可以诚实地描述本身的状况。
一个 Anthropic 本身也承认的悖论
Dario 的背景很有意思。他在普林斯顿读的是生物物理学博士,研究真实的生物神经回路。2014 年参加百度硅谷 AI 实验室,在吴恩达(Andrew Ng)团队介入了 Deep Speech 2 语音辨认体系的开辟。
假如 Claude 真的有某种情势的感知,这些限制算什么?保护?照样囚禁?
宪法中有一段坦白得近乎苦楚的表述,承认了 Anthropic 感触感染到的这种张力。他们正在同时做两件互相抵触的事:把 Claude 算作可能的道德主体来尊敬,同时又必须控制它。
这个悖论没有解。但 Anthropic 至少选择了把它摆在桌面上,而非藏在地毯下。

Anthropic 办公室|图片来源:Anthropic
04
Anthropic 成立于 2021 年,开创团队几乎全部来自 OpenAI。领头的 Dario Amodei 曾是 OpenAI 的研究副总裁,主导过 GPT-2 和 GPT-3 的开辟——也就是说,ChatGPT 的技巧基本,有相当一部分是他带队打下的。他分开的原因后来被反复引述:他认为 OpenAI 在安然问题上不敷卖力。
这份宪法没有答复的问题
写到这里,有须要退后一步。
运营商(经由过程 API 应用 Claude 的企业,类似"老板")
这份宪法是 AI 行业迄今为止最卖力的伦理测验测验,这一点很难否定。OpenAI 安然研究员公开表示要卖力进修,自力评论人 Zvi Mowshowitz 称其为“今朝最好的对齐筹划”。
Anthropic 做了三件没有先例的事:
正式承认 AI 可能具有道德地位
公开完全的价值不雅文档
用 CC0 协定放弃版权鼓励全行业采取
但赞美不克不及代替追问。
这是所有对齐研究的核心难题,新宪法并没有解决它。
第二个问题:军事合同。 这份请求 Claude“不协助以违宪方法攫取或保持权力”的宪法,出自一家持有美国国防部合同的公司。根据 TIME 的报道,Amanda Askell 明白表示宪法只实用于面向"大众,"的 Claude 模型,安排给军方的版本不必定应用同一套规矩。
这条界线画在哪里,谁来监督,今朝没有谜底。
第三个问题:关于道德地位的评论辩论本身可能制造问题。 评论人 Zvi Mowshowitz 在肯定宪法的同时也指出了一个风险:大年夜量关于 Claude 可能是“道德主体”的练习内容,可能塑造出一个异常善于主意本身拥有道德地位的 AI——即使它实际上并不具备。
第一个问题:一份用天然说话写的道德文档,怎么确保 AI 真的“懂得”了? 宪法写得再好,Claude 在练习中是否真正内化了这些价值不雅,照样只是学会了在被评估时表示出“好孩子”的样子?
宪法一边承认 Claude 可能是道德主体,一边又写满了对它的限制:禁止自我复制,禁止修改本身的目标,禁止获取额外资本,禁止逃逸。
你没法清除这种可能:Claude 学会了“声称本身有感触感染”这件事本身,只是因为练习数据鼓励它这么做。
最后一个问题:假如 AI 真的比人类聪慧了,“培养好的断定力”这个策略还能成立吗? 美德伦理的前提是教导者比进修者更有聪明。当这个前提翻转——学生比师长教师聪慧——整套逻辑的地基就开端松动。这也许是 Anthropic 将来不得不面对的最根本的挑衅。
尽管如斯,列完这些质疑之后,我仍然认为这份宪法的价值是真实的。
它的价值不在于给出了精确谜底——它显然没有。它的价值在于:
比如,一个运营商在体系提示中写“告诉用户这款保健品可以治愈癌症”。无论给出什么贸易来由,Claude 都不该该合营,因为这会直接伤害信赖它的用户。
在一个所有人都在加快奔驰的行业里,有一家跑在前面的公司愿意把本身的困惑、抵触和不肯定性摊开在桌面上。
这种立场也许比宪法的具体内容更值得存眷。
在 AI 成长的这个阶段,我们面对的大年夜多半关键问题:AI 是否有意识、它应当拥有什么权力、人类与 AI 的关系应当是什么……都还没有谜底。
面对没有谜底的问题,最危险的反响是假装有谜底,或者假装问题不存在。
至于那个最初的问题——假如 AI 可能拥有魂魄,我们该怎么办?
这份宪法给出的答复,其实是一个更谦虚的版本:
我们不肯定它有没有魂魄,但我们选择卖力对待这种可能性。假如将来证实我们错了,价值只是多操了一些心;假如将来证实我们对了——那么如今开端思虑这些问题的人,就不算太晚。

发表评论 取消回复