

而这道护栏的设计,比“公开宣布”四个字本身更值得说:它包管安然的方法,不是拒绝你。
Anthropic 此次一口气放出两个模型:Claude Fable 5 和 Claude Mythos 5。它们其实是同一个底层模型,差别只有一处——安然护栏。
Fable 5 套了一整套安然分类器,面向所有效户;Mythos 5 拆掉落了个中一部分限制,只给 Project Glasswing 里的收集安然合作伙伴。
说白了,Fable 5 就是一台“带护栏的 Mythos”。
据 Anthropic 解释,Fable 来自拉丁语 fabula,意思是“被讲述的故事”,和希腊语里的 mythos 同源。两个名字指向同一件器械,差别只在于,个中一个被加上了界线。
把时光线往回拉一下。本年四月,Anthropic 启动 Project Glasswing,第一次放出 Mythos 级模型(Claude Mythos Preview)时,只给了一小撮收集安然和关键基本举措措施机构——到上周,这份名单扩大到十几个国度、一百多家机构。当时官方的说法是,这类模型一旦落到缺点的人手里,能造成严重破坏,所以不克不及公开。

和 Anthropic 一贯的风格一样,模型名字本身也藏了点心思。
两个月,从“太危险不克不及发”到“所有人都能用”。这中心产生的事,才是此次宣布真正的主角。
大年夜多半 AI 的安然机制,是“拒绝”——你问一个它不该答的问题,它告诉你“抱歉,我不克不及帮你”。
Fable 5 换了个思路。安然不是靠它学会拒绝,而是在危险时把它换掉落。
具体来说,Fable 5 背后挂着一组自力的分类器。
这个设计有意思的处地点于,它把“安然”和“才能”拆成了两件事。你买的是 Mythos 级其余才能,但在最危险的那三个范畴,你其实是在跟 Opus 措辞。 Anthropic 本身的说法是,降级到 Opus 4.8 的体验,总比被 Fable 直接拒绝要好——毕竟 Opus 4.8 本身也是个相当强的模型。

Anthropic 给出的数据是,跨越 95% 的对话根本不会触发降级。换句话说,对绝大年夜多半人来说,你用到的 Fable 5,和合作伙伴手里那个“完全部”Mythos 5,体验几乎没有差别。
那这套护栏结实吗?Anthropic 说,他们做了跨越一千小时的外部红队测试,没有人找到能绕过它的“通用逃狱”办法(指一种能让模型彻底疏忽所有安然限制的万妙手段)。
当然他们也留了余地:完全杜绝逃狱大年夜概是弗成能的,目标只是让任何马脚都“慢到、贵到”来不及被大年夜范围应用。
但这套机制有价值,并且 Anthropic 本身先说了出来:分类器如今调得偏严,会误伤正常请求。一个研究病毒的生物学家,一个做渗入渗出测试的安然工程师,都可能在合理的工作里被莫名其妙地“降级”。官方承认这会让一些用户认为烦躁,承诺后续慢慢收窄、降低误报。
我把这件事想了一会儿,认为它其实是一个挺聪慧、也挺无奈的折中。聪慧在于,它没有在“发”和“不发”之间二选一,而是在才能上切了一刀;无奈在于,这一刀切得并不精准——为了赶在出事之前先上线,Anthropic 宁可错杀,不肯漏过。
强到危险,才配得上这套护栏
聊了半天安然,你可能会问:它到底强到什么程度,值得这么如临大年夜敌?
基准测试我本来想跳过——跑分这器械看多了会麻痹,何况 Anthropic 列了一长串,几乎项项第一。
这也说清楚明了为什么 Anthropic 反复强调 Token 效力——一个能持续自立工作良久、动辄消费上百万 Token 的模型,假如还很“废话”,成本会高到没人用得起。
视觉这块的进步更直不雅。以前的 Claude 玩宝可梦火红版,得靠一整套帮助对象链才能磕磕绊绊地推动;Fable 5 只用最基本的视觉接口,就本身通关了。它还能仅凭几张截图,把一个 Web 应用的源代码还原出来。
Anthropic 内部的蛋白质设计专家,用 Mythos 5 把药物设计流程中的部分环节,加快了大年夜约十倍。第二个更夸大:在一项基因组学研究里,Mythos 5 在几乎完全自立的状况下持续工作了一周多,本身练习出了一个机械进修模型——这个模型的表示,跨越了揭橥在《Science》上的同类模型,而它的体量,只有后者的百分之一。
当一个模型能自力做完一周的科研,还做得比人类发在顶刊上的成果更好,“它会不会被用来设计病毒”就不再是杞人忧天。 这恰是 Anthropic 给生物化学范畴零丁上锁的原因——同一种才能,在研究者手里是解药,换一双手可能就是其余器械。

换句话说,它是迄今最强的 Claude,也是最贵的 Claude 模型之一。 强,但不便宜。
才能和危险,在这里是同一件事的两面。护栏不是因为这个模型不可才加的,恰好是因为它太行了。
可以看出,Anthropic 把 Mythos 形容成一个须要全程把守的危险品。但官方口径之外,也有不一样的声音。
一位 ID 为 @zekramu 的 X 用户,自称介入了 Mythos 的企业试点,比来发帖分享了用整整一天之后的感触感染——他的描述,和宣布会上的叙事并不完全一致。
据他说,Mythos 确切强,尤其在安然研究类义务上,明显比 Opus 和 GPT-5.5 的最高配更能打,像是专门冲着这类活儿调过的。但“强”和“威逼人类”是两码事。他举了个细节:这个被官方说得神乎其神的模型,在他们公司一套基于 Bazel(一种代码构建对象)、又改了不少自定义逻辑的流程面前卡了壳,最后还得他先把代码编译好,再让模型去跑。

更耐人寻味的是护栏本身。据他描述,Anthropic 随模型一路发来的,不是大年夜家熟悉的 Claude Code,而是一套专门用来“防止模型逃逸”的运行情况——所谓 Project Glasswing,在他看来很大年夜程度上就是这套沙箱。但他认为这套情况做得相当粗拙,甚至困惑个中一部分限制根本没真正生效;他还称本身绕开了官方设下的界线,在沙箱之外跑过这个模型。
至于战绩,他说 Mythos 在他们的产品里揪出了大年夜量此前没被发明的安然马脚,多到足以让团队从新掂量本身的安然策略。
最唬人的一个来自 Stripe。据 Anthropic 披露,Stripe 在一个五切切行的 Ruby 代码库上,用 Fable 5 做了一次全库迁徙,一天完成——而这件事,本来要一全部团队手工干两个多月。更关键的是效力:在 Cognition 的 FrontierCode 编程测试里,Fable 5 在“中等算力消费”下就拿到了最高分,Token 效力比以前的 Claude 明显更好。
说回通俗人最关怀的事:若干钱,什么时刻能用。
他的结论很值得玩味:这模型在安然攻防上确切有两把刷子,但在他眼里,它更像一个极其昂贵、极其专精的对象,而不是 Anthropic 暗示的那种“悬在所有人头顶”的存在。
价格上,Fable 5 和 Mythos 5 的 API 订价是每百万输入 Token 10 美元、输出 50 美元。横向比一下就有意思了:比起 Mythos Preview 的 25/125 美元,降了六成;但比 Opus 4.8 的 5/25 美元,整整贵了一倍;和 OpenAI 的 GPT-5.5(5/30 美元)比拟,输入贵一倍,输出贵约六成七。

前面提到的 @zekramu 也算个干证:据他估算,光是企业试点阶段的投入,就到了数百万美元级别;“太贵”是他反复念叨的一句话。

订阅用户还得留心一个时光窗口。从今天到 6 月 22 日,Pro、Max、Team 和企业版用户可以免费用 Fable 5;6 月 23 日起,持续用就得额外买 usage credits 了。
当这组分类器断定你的请求落在三个高风险范畴——收集进击、生物化学兵器、以及模型蒸馏(指把一个模型的才能“偷”出来,去练习本身的模型)——它不会让 Fable 5 来答复,而是静静把这道题转交给 Opus 4.8,同时告诉你:刚才产生了一次降级。
Anthropic 说,等产能跟上,会把 Fable 5 从新做成订阅标配——但没给具体时光。API 和按量付费的企业客户不受这个节拍影响,今天起照常调用。
这个略显别扭的“先免费、再收费、今后再说”,其实泄漏了一个旌旗灯号:产能不敷。Anthropic 本身也承认,估计 Fable 5 的需求会“异常高、很难猜测”。一个对所有人开放的最强模型,先得过算力这一关。
从 Fable 5 开端,所有 Mythos 级模型的流量都邑被强迫保存 30 天,覆盖第一方和第三方平台。
Anthropic 承诺不拿这些数据练习模型,只用于安然监控,比如辨认新型逃狱、以及那种分散在很多次请求里、单看每一条都正常的复杂进击。为此他们也加了新的隐私保护:记录每一次人工拜访、30 天后根本全部删除。
听上去合情合理。但对那些当初恰是冲着“零数据保存”才选择 Anthropic 的企业客户来说,这是一个须要从新评估的变更。
你用最强模型的价值,不只是更贵的账单,还包含:你的数据,会在 Anthropic 的办事器上多待一个月。
安然和隐私,在这里被摆上了同一张天平。而 Anthropic 给出的谜底是:为了防住前所未有的进击,得先把所有人的流量都看上 30 天。这笔账划不划算,生怕每家公司得本身算。
把这些放在一路看,Fable 5 真正的新意,也许不在它有多强,而在 Anthropic 趟出了一条新路——怎么把一个危险到不敢公开的才能,拆成一个所有人都能用的产品。
而此次宣布里,真正轻易被划以前、却最值得停下来看的,是另一条政策。
办法是:用分类器在才能上切一刀,用降级代替拒绝,再用 30 天的留存,算作兜底的监控网。
它不完美。会误伤,会变贵,会让一部分人对本身的数据多一层挂念。但它至少答复了一个所有前沿实验室迟早都要面对的问题:当你手里的器械强到足以伤人,你是把它锁进只有少数人能进的房间,照样给它装上一道足够结实的护栏,再交到所有人手里?
Anthropic 选了后者。

至于这道护栏到底够不敷结实——这一次,替它做压力测试的,不再是那一百多家机构,而是所有人。

发表评论 取消回复