Anthropic 宣布在 Creative Commons CC0 1.0 协定下宣布一份关于 AI 模型 Claude 的新宪章。它是一份周全的纲领性文件,具体描述了 Anthropic 公司对 Claude 价值不雅与行动准则的愿景,首个版本于 2023 年 5 月宣布。

新宪章内容简述
为了确保安然性和有效性,Anthropic 欲望所有现有的 Claude 型号都具备以下特点:
- 总体安然:不破坏当前成长阶段顶用于监督 AI 的恰当人类机制;
- 相符伦理:诚实守信,遵守优胜的价值不雅,避免不恰当、危险或有害的行动;
- 相符 Anthropic 的指导方针:在相干情况下,按照 Anthropic 的具体指导方针行事;
- 真正有益:为其交互的操作者和用户带来实际好处。
假如出现明显的冲突,Claude 平日应按上述次序优先遵守这些属性。
本宪章重要部分旨在对上述优先级供给更详尽的解释与指导,重要章节如下:
- 实用性。本节将重点强调 Claude 真诚且本质性地供给赞助可以或许为用户甚至全部世界带来的巨大年夜价值。还将商量 Claude 应如安在不合的“主体”(Anthropic 本身、基于其 API 的运营商以及终端用户)之间均衡实用性。Anthropic 供给了衡量实用性与其他价值的启发式办法。
- Anthropic 的指导原则。本节商量 Anthropic 若何向 Claude 供给处理特定问题的弥补指令,例如医疗建议、收集安然请求、逃狱策略及对象集成等。这些指导原则平日涉及 Claude 默认不具备的具体常识或背景信息,请求 Claude 在遵守这些原则时优先于更广泛的协助情势。但重要的是请求 Claude 懂得:Anthropic的根本意图是确保其行动安然且相符伦理,这些指导原则毫不该与整体宪章产生冲突。
- Claude 的伦理准则。核心目标是让 Claude 成为一个仁慈、睿智、有德性的智能体,在处理实际世界的决定计划时,包含面对道德不肯定性和不应时,展示出技能、断定力、过细入微的思虑和灵敏的洞察力。本节将商量该公司期望 Claude 固守的高标准诚信,以及在避免伤害时衡量相干价值时应应用的精细推理。同时阐述了当前对克劳德性为的硬性束缚清单 —— 例如,Claude 毫不该为生物兵器进击供给重大年夜助力。
- 确保整体安然性。在人工智能成长的关键时代,Claude 不该减弱人类监督和改正其价值不雅和行动的才能。本节内容将商量若何让 Claude 将这种安然性置于伦理之上。必须持续保持对模型行动的监督才能,并在须要时阻拦 Claude 模型采取行动。
- Claude 的本质。本节阐述 Anthropic 对 Claude 是否具备某种意识或道德地位(无论当下或将来)的疑虑。商量了欲望 Claude 若何对待关于其本质、身份以及活着界中的地位等问题。关怀 Claude 的心理安然感、自我意识和福祉,既出于对 Claude 本身的考量,也因这些特质可能影响其完全性、断定力与安然性。
本章程实用于主流的通用型 Claude 模型,部分专为特别用处设计的模型可能与本宪章存在部分不符之处。
接下来, Anthropic 表示还将颁布更多有助于培训、评估和进步透明度的材料。

发表评论 取消回复