号称“最强模型”的Mythos正式宣布但Anthropic还给它装了个“护栏”

199 阅读 0 评论 0 点赞

而这道护栏的设计，比“公开宣布”四个字本身更值得说:它包管安然的方法，不是拒绝你。

Anthropic 此次一口气放出两个模型:Claude Fable 5 和 Claude Mythos 5。它们其实是同一个底层模型，差别只有一处——安然护栏。

Fable 5 套了一整套安然分类器，面向所有效户;Mythos 5 拆掉落了个中一部分限制，只给 Project Glasswing 里的收集安然合作伙伴。

说白了，Fable 5 就是一台“带护栏的 Mythos”。

据 Anthropic 解释，Fable 来自拉丁语 fabula，意思是“被讲述的故事”，和希腊语里的 mythos 同源。两个名字指向同一件器械，差别只在于，个中一个被加上了界线。

把时光线往回拉一下。本年四月，Anthropic 启动 Project Glasswing，第一次放出 Mythos 级模型(Claude Mythos Preview)时，只给了一小撮收集安然和关键基本举措措施机构——到上周，这份名单扩大到十几个国度、一百多家机构。当时官方的说法是，这类模型一旦落到缺点的人手里，能造成严重破坏，所以不克不及公开。

和 Anthropic 一贯的风格一样，模型名字本身也藏了点心思。

两个月，从“太危险不克不及发”到“所有人都能用”。这中心产生的事，才是此次宣布真正的主角。

大年夜多半 AI 的安然机制，是“拒绝”——你问一个它不该答的问题，它告诉你“抱歉，我不克不及帮你”。

Fable 5 换了个思路。安然不是靠它学会拒绝，而是在危险时把它换掉落。

具体来说，Fable 5 背后挂着一组自力的分类器。

这个设计有意思的处地点于，它把“安然”和“才能”拆成了两件事。你买的是 Mythos 级其余才能，但在最危险的那三个范畴，你其实是在跟 Opus 措辞。 Anthropic 本身的说法是，降级到 Opus 4.8 的体验，总比被 Fable 直接拒绝要好——毕竟 Opus 4.8 本身也是个相当强的模型。

Anthropic 给出的数据是，跨越 95% 的对话根本不会触发降级。换句话说，对绝大年夜多半人来说，你用到的 Fable 5，和合作伙伴手里那个“完全部”Mythos 5，体验几乎没有差别。

那这套护栏结实吗?Anthropic 说，他们做了跨越一千小时的外部红队测试，没有人找到能绕过它的“通用逃狱”办法(指一种能让模型彻底疏忽所有安然限制的万妙手段)。

当然他们也留了余地:完全杜绝逃狱大年夜概是弗成能的，目标只是让任何马脚都“慢到、贵到”来不及被大年夜范围应用。

但这套机制有价值，并且 Anthropic 本身先说了出来:分类器如今调得偏严，会误伤正常请求。一个研究病毒的生物学家，一个做渗入渗出测试的安然工程师，都可能在合理的工作里被莫名其妙地“降级”。官方承认这会让一些用户认为烦躁，承诺后续慢慢收窄、降低误报。

我把这件事想了一会儿，认为它其实是一个挺聪慧、也挺无奈的折中。聪慧在于，它没有在“发”和“不发”之间二选一，而是在才能上切了一刀;无奈在于，这一刀切得并不精准——为了赶在出事之前先上线，Anthropic 宁可错杀，不肯漏过。

强到危险，才配得上这套护栏

聊了半天安然，你可能会问:它到底强到什么程度，值得这么如临大年夜敌?

基准测试我本来想跳过——跑分这器械看多了会麻痹，何况 Anthropic 列了一长串，几乎项项第一。

这也说清楚明了为什么 Anthropic 反复强调 Token 效力——一个能持续自立工作良久、动辄消费上百万 Token 的模型，假如还很“废话”，成本会高到没人用得起。

视觉这块的进步更直不雅。以前的 Claude 玩宝可梦火红版，得靠一整套帮助对象链才能磕磕绊绊地推动;Fable 5 只用最基本的视觉接口，就本身通关了。它还能仅凭几张截图，把一个 Web 应用的源代码还原出来。

Anthropic 内部的蛋白质设计专家，用 Mythos 5 把药物设计流程中的部分环节，加快了大年夜约十倍。第二个更夸大:在一项基因组学研究里，Mythos 5 在几乎完全自立的状况下持续工作了一周多，本身练习出了一个机械进修模型——这个模型的表示，跨越了揭橥在《Science》上的同类模型，而它的体量，只有后者的百分之一。

当一个模型能自力做完一周的科研，还做得比人类发在顶刊上的成果更好，“它会不会被用来设计病毒”就不再是杞人忧天。 这恰是 Anthropic 给生物化学范畴零丁上锁的原因——同一种才能，在研究者手里是解药，换一双手可能就是其余器械。

换句话说，它是迄今最强的 Claude，也是最贵的 Claude 模型之一。 强，但不便宜。

才能和危险，在这里是同一件事的两面。护栏不是因为这个模型不可才加的，恰好是因为它太行了。

可以看出，Anthropic 把 Mythos 形容成一个须要全程把守的危险品。但官方口径之外，也有不一样的声音。

一位 ID 为 @zekramu 的 X 用户，自称介入了 Mythos 的企业试点，比来发帖分享了用整整一天之后的感触感染——他的描述，和宣布会上的叙事并不完全一致。

据他说，Mythos 确切强，尤其在安然研究类义务上，明显比 Opus 和 GPT-5.5 的最高配更能打，像是专门冲着这类活儿调过的。但“强”和“威逼人类”是两码事。他举了个细节:这个被官方说得神乎其神的模型，在他们公司一套基于 Bazel(一种代码构建对象)、又改了不少自定义逻辑的流程面前卡了壳，最后还得他先把代码编译好，再让模型去跑。

更耐人寻味的是护栏本身。据他描述，Anthropic 随模型一路发来的，不是大年夜家熟悉的 Claude Code，而是一套专门用来“防止模型逃逸”的运行情况——所谓 Project Glasswing，在他看来很大年夜程度上就是这套沙箱。但他认为这套情况做得相当粗拙，甚至困惑个中一部分限制根本没真正生效;他还称本身绕开了官方设下的界线，在沙箱之外跑过这个模型。

至于战绩，他说 Mythos 在他们的产品里揪出了大年夜量此前没被发明的安然马脚，多到足以让团队从新掂量本身的安然策略。

最唬人的一个来自 Stripe。据 Anthropic 披露，Stripe 在一个五切切行的 Ruby 代码库上，用 Fable 5 做了一次全库迁徙，一天完成——而这件事，本来要一全部团队手工干两个多月。更关键的是效力:在 Cognition 的 FrontierCode 编程测试里，Fable 5 在“中等算力消费”下就拿到了最高分，Token 效力比以前的 Claude 明显更好。

说回通俗人最关怀的事:若干钱，什么时刻能用。

他的结论很值得玩味:这模型在安然攻防上确切有两把刷子，但在他眼里，它更像一个极其昂贵、极其专精的对象，而不是 Anthropic 暗示的那种“悬在所有人头顶”的存在。

价格上，Fable 5 和 Mythos 5 的 API 订价是每百万输入 Token 10 美元、输出 50 美元。横向比一下就有意思了:比起 Mythos Preview 的 25/125 美元，降了六成;但比 Opus 4.8 的 5/25 美元，整整贵了一倍;和 OpenAI 的 GPT-5.5(5/30 美元)比拟，输入贵一倍，输出贵约六成七。

前面提到的 @zekramu 也算个干证:据他估算，光是企业试点阶段的投入，就到了数百万美元级别;“太贵”是他反复念叨的一句话。

订阅用户还得留心一个时光窗口。从今天到 6 月 22 日，Pro、Max、Team 和企业版用户可以免费用 Fable 5;6 月 23 日起，持续用就得额外买 usage credits 了。

当这组分类器断定你的请求落在三个高风险范畴——收集进击、生物化学兵器、以及模型蒸馏(指把一个模型的才能“偷”出来，去练习本身的模型)——它不会让 Fable 5 来答复，而是静静把这道题转交给 Opus 4.8，同时告诉你:刚才产生了一次降级。

Anthropic 说，等产能跟上，会把 Fable 5 从新做成订阅标配——但没给具体时光。API 和按量付费的企业客户不受这个节拍影响，今天起照常调用。

这个略显别扭的“先免费、再收费、今后再说”，其实泄漏了一个旌旗灯号:产能不敷。Anthropic 本身也承认，估计 Fable 5 的需求会“异常高、很难猜测”。一个对所有人开放的最强模型，先得过算力这一关。

从 Fable 5 开端，所有 Mythos 级模型的流量都邑被强迫保存 30 天，覆盖第一方和第三方平台。

Anthropic 承诺不拿这些数据练习模型，只用于安然监控，比如辨认新型逃狱、以及那种分散在很多次请求里、单看每一条都正常的复杂进击。为此他们也加了新的隐私保护:记录每一次人工拜访、30 天后根本全部删除。

听上去合情合理。但对那些当初恰是冲着“零数据保存”才选择 Anthropic 的企业客户来说，这是一个须要从新评估的变更。

你用最强模型的价值，不只是更贵的账单，还包含:你的数据，会在 Anthropic 的办事器上多待一个月。

安然和隐私，在这里被摆上了同一张天平。而 Anthropic 给出的谜底是:为了防住前所未有的进击，得先把所有人的流量都看上 30 天。这笔账划不划算，生怕每家公司得本身算。

把这些放在一路看，Fable 5 真正的新意，也许不在它有多强，而在 Anthropic 趟出了一条新路——怎么把一个危险到不敢公开的才能，拆成一个所有人都能用的产品。

而此次宣布里，真正轻易被划以前、却最值得停下来看的，是另一条政策。

办法是:用分类器在才能上切一刀，用降级代替拒绝，再用 30 天的留存，算作兜底的监控网。

它不完美。会误伤，会变贵，会让一部分人对本身的数据多一层挂念。但它至少答复了一个所有前沿实验室迟早都要面对的问题:当你手里的器械强到足以伤人，你是把它锁进只有少数人能进的房间，照样给它装上一道足够结实的护栏，再交到所有人手里?

Anthropic 选了后者。

至于这道护栏到底够不敷结实——这一次，替它做压力测试的，不再是那一百多家机构，而是所有人。

点赞(0) 打赏

本文分类：互联网
本文标签：AI 人工智能号称“最强模型”的Mythos正式发布但Anthropic还给它装了个“护栏”
浏览次数：199 次浏览
发布日期：2026-06-11 08:53:11
本文链接：https://www.fqpy.com/index.php/internet/15570

上一篇 > 用了一天iOS 27后我选择谅解苹果
下一篇 > 丰田董事长：对行业周全转向电动车的行动认为掉望

号称“最强模型”的Mythos正式宣布但Anthropic还给它装了个“护栏”

评论列表共有 0 条评论

发表评论取消回复

号称“最强模型”的Mythos正式宣布 但Anthropic还给它装了个“护栏”

OpenAI推出“修补地球”筹划 联手安然公司为开源项目找马脚打补丁

美国当局据称因NSA机密体系被破解而紧急封杀Anthropic最新AI模型

Anthropic CEO：人工智能公司需“数千亿美元”收入 不然将面对生计风险

DeepSeek之后 中国又一开源AI模型激发硅谷热议

评论列表 共有 0 条评论

发表评论 取消回复

号称“最强模型”的Mythos正式宣布但Anthropic还给它装了个“护栏”

OpenAI推出“修补地球”筹划联手安然公司为开源项目找马脚打补丁

Anthropic CEO：人工智能公司需“数千亿美元”收入不然将面对生计风险

DeepSeek之后中国又一开源AI模型激发硅谷热议

评论列表共有 0 条评论

发表评论取消回复