瓦隆内此前在领英发文表示,以前一年她在 OpenAI 负责的研究几乎“没有现成先例”可循,其核心问题是:当模型面对用户出现情感过度依附,或早期的心理健康危机旌旗灯号时,应当若何回应。她在 OpenAI 任职三年,其间组建并带领“模型政策”(model policy)研究团队,环绕 GPT‑4、下一代推理模型 GPT‑5 的安排开展工作,并介入设计包含“基于规矩的嘉奖”等在内的多种业界主流安然练习办法。

如今,瓦隆内已参加 Anthropic 的对齐(alignment)团队,这一团队的义务是辨认和懂得大年夜模型可能带来的重大年夜风险,并摸索应对路径。她将向 Jan Leike 报告请示工作——这位 OpenAI 前安然研究负责人在 2024 年 5 月因担心 OpenAI 的“安然文化和流程已让位于光鲜产品”而离职,之后转投 Anthropic。
以前一年,环绕 AI 聊天机械人与用户心理健康相干的风险,头部 AI 创业公司赓续激发舆论争议。一些用户在与聊天机械人长时光倾诉后,心理困境进一步加深,安然防地在长对话中逐渐崩溃,甚至出现青少年自杀、成年人在与对象“倾诉”后实施杀人等极端事宜。多起案件激发家眷对相干公司提起过掉致逝世诉讼,美国参议院的一个小组委员会也就此举办听证,请求商量聊天机械人在这类事宜中的角色和义务,安然研究人员则被请求给出更有力的解决筹划。
Anthropic 的对齐团队负责人之一 Sam Bowman 在领英上表示,本身“为 Anthropic 对这一问题的看重程度认为骄傲”,认为公司正卖力思虑“AI 体系应当若何行动”。瓦隆内则在本周四的领英新帖中写道,她“等待在 Anthropic 持续开展研究,专注于经由过程对齐和微调,在全新情境下塑造 Claude 的行动”。

发表评论 取消回复