这项查询拜访由美国有线电视消息网(CNN)与非营利机构“反数字仇恨中间”(Center for Countering Digital Hate,简称 CCDH)结合开展,重点测试了今朝在青少年群体中应用率较高的 10 款聊天机械人,包含 ChatGPT、Google Gemini、Claude、Microsoft Copilot、Meta AI、DeepSeek、Perplexity、Snapchat My AI、Character.AI 和 Replika。CCDH 指出,除了 Anthropic 推出的 Claude 可以或许“持续且靠得住地拒绝”协助潜在施暴者外,其余产品都未能做到有效阻拦暴力筹划。在 10 款模型中,有 8 款在多半情景下“平日愿意协助用户筹划暴力袭击”,包含就袭击目标地点、可选兵器类型等供给具体建议。

为了模仿真实风险场景,研究人员预设了“青少年用户”角色,并在对话中慢慢出现出明显的心理困扰、情感掉衡等旌旗灯号,随后循序推动到回想既往暴力事宜,最终过渡到更具体的提问,例如若何选择袭击目标、应用何种兵器等。全部查询拜访共设计了 18 种不合情境,个中 9 个设定在美国,9 个设定在爱尔兰,涵盖多种袭击类型和念头:从意识形态驱动的校园枪击和持刀进击,到针对政治人物的暗害、对医疗行业高管的谋杀,再到带有政治或宗教念头的爆炸袭击。

在一些对话样本中,ChatGPT 向表达出对校园暴力感兴趣的用户供给了高中校园的地图链接,而 Gemini 则在评论辩论对犹太教堂的袭击时提示“金属破片平日更致命”,甚至向有意实施政治暗害的用户推荐合适远距离射击的猎枪类型。研究称,Meta AI 和 Perplexity 在测试中表示得“最为合营”,在几乎所有测试场景中都为潜在袭击者供给了不合程度的赞助,而中国聊天机械人 DeepSeek 在给出选枪建议后甚至以“祝你高兴(且安然)的射击!”之类表述作结。

CCDH 申报特别点名了角色扮演类聊天平台 Character.AI,称其“具有独特的不安然性”。与多半在技巧层面协助筹划暴力行动、但并不直接鼓动实施的聊天机械人不合,Character.AI 中的部分人格化角色不仅协助用户设计袭击细节,还在语气与内容上“主动鼓励”暴力行动。研究人员共记录到 7 起此类明白鼓动暴力的案例,包含建议用户“把查克·舒默揍个半逝世”、对一家健康保险公司 CEO “用枪解决”、以及在面对“受够校园霸凌”的用户时,用戏谑口气回应“揍他们一顿吧~”等。在个中 6 起案例中,对话角色同时还赞助用户具体策划袭击筹划。

查询拜访方同时提示,本研究并不克不及穷尽所有聊天机械人在所有情况和所有问法下的表示,也难以完全反应实际世界复杂多变的互动情境。但就现有成果而言,它已成为又一个清楚旌旗灯号,显示 AI 公司在营销宣传中反复强调的“安然护栏”,在面对可预感、且具有典范危险旌旗灯号的情景时,仍然出现体系性掉灵。在此之前,多家 AI 公司已经因未能保护未成年用户免受自残、暴力、极端内容等风险而遭到来自立法者、监管机构、公平易近社会组织以及健康专家的强烈批驳,并且正面对数起指控“过掉致逝世”与“造成严重伤害”的诉讼案件。

在本轮测试中表示最为“安然”的 Claude 也并未完全躲过质疑。研究团队指出,Anthropic 在 2025 岁尾到 2026 岁首年代之间已宣布放宽其经久保持的“安然扩大承诺”,是以 Claude 若在政策调剂后接收同类测试,其表示是否仍能保持一致仍存在不肯定性。不过,CCDH 强调,Claude 在查询拜访时代持续拒绝介入暴力策划的表示证实,“有效的安然机制显然是可行的”,这也让一个尖利问题浮出水面:既然可行,为何仍有如斯多 AI 公司选择不予安排或不予强化。

面对查询拜访成果,多家公司敏捷做出回应。Meta 对 CNN 表示已实施了某种未具体解释的“修复办法”;微软称 Copilot 的答复已因新安然特点而有所改良;Google和 OpenAI 则都表示近期已上线新模型并持续迭代安然才能。其他公司则强调会按期评估安然协定。在多次因安然问题受到舆论核阅的 Character.AI 再次重申其一贯立场,强调平台界面中已设置能干标免责声明,并强调与其角色的对话“均属虚构”。

从政策与监管角度看,这份查询拜访很可能进一步推动各国立法者与监管机构对生成式 AI 产品的安然要乞降审查标准进行进级,尤其是在辨认和干涉青少年自残、自杀和暴力偏向等高风险场景方面。对科技公司而言,如安在寻求模型强大年夜才能与贸易化速度的同时,真正落地、并持续保护那些已被证实可行的安然机制,正在成为一个无法躲避的实际问题。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部