从Haiku(俳句)到Sonnet(十四行诗)再到Opus(艺术巨著),Anthropic一向在用文学和艺术概念给模型分层,到了Mythos,名字已经从文学作品膨胀到“神话”本身。

Fable来自拉丁语fabula,意思是“被讲述之物”,和希腊语mythos同源,直译过来的话一般被称为“寓言”。这个名字正如新模型的定位,一个“Mythos级”的模型,一个“公开的神话”。

按照Anthropic的描述,Fable 5和Mythos 5共享同一个底层模型,只是被装进了更合适公开分发的安然壳里。在官方给出的模型才能上,它们两个被放在同一个地位。

在《屠戮尖塔》这类须要持续决定计划和经久策略的游戏里,假如给Fable 5接入持久文件记忆,让它能记录前面的选择和经验,它的表示会明显晋升。晋升幅度是Opus 4.8的三倍,达到最终关卡的次数也进步了三倍。


但跑分归跑分,假如Fable和Mythos的表示完全一样,我想应当也不消分成两个名字了。

被改写的“神话”

神话被改写、被紧缩、被加上训诫之后,变成了寓言。

按照官方文档,Fable 5是公开版本。它面向通俗用户和开辟者开放,但在收集安然、生物、化学以及模型蒸馏等高风险范畴,会由额外的安然分类器介入。一旦体系断定请求可能涉及这些敏感偏向,答复就不会由Fable 5持续完成,而是主动回退到Claude Opus 4.8。

软件工程是最凸起的场景之一,根据表格,Fable/Mythos 5在SWE-Bench Pro上达到80.3%,明显高于Opus 4.8的69.2%;在更难的FrontierCode Diamond上,它拿到29.3%,而Opus 4.8只有13.4%,GPT-5.5只有5.7%。

Mythos 5基于同样的底层模型,但在部分范畴解除了Fable 5的护栏。Anthropic称,Project Glasswing里的收集安然合作伙伴可以应用“满血版”Mythos 5;将来,部分生命科学研究者也可能经由过程受信赖拜访筹划,应用解除生物和化学限制的版本。

用不到的Mythos我们临时不提,先看点其实的器械。

起首是订价,一个字,贵。

Fable 5的订价是输入10美元/百万token,输出50美元/百万token。开辟者如今就可以经由过程Claude API调用claude-fable-5(模型名)。

这个价格刚好是Opus 4.8的两倍,和Opus 4.8的fast mode雷同,Anthropic显然把它放在了比Opus更高一档的价格层级里。

不过Anthropic称,这一价格不到此前Claude Mythos Preview的一半——但因为Mythos Preview并非公开API模型,官方并未给出面向"大众,"的标准价,这句话也无从验证。

订阅用户也须要留意,Fable 5不必定会经久直接包含在基本订阅包里。

Anthropic在官方解释中提到,6月23日今后,即应用户已经订阅Claude,Fable 5也可能根据算力情况按量供给,不必定会直接包含在基本订阅办事中。

这公司越来越吝啬了,不过好歹还留了小半个月试用期。官方也留了一点余地:假如6月23日今后算力资本足够,Anthropic会尽量把Fable 5持续包含在Pro、Max等订阅办事里。


订价高本身并训斥以懂得,但它最好包管它的才能配得上它的价格。

从跑分上看,Fable 5/Mythos 5根本是Anthropic今朝公开表里最强的一档。

不过官方表格有一个解释,Claude Fable 5和Claude Mythos 5的分数一般只差1–3个百分点(除了带星号的收集安然、生物相干测试),所以表里显示的是两者更高的分数。这一点很难不让人想要吐槽。

这个demo的重点在于Fable 5完成了一个闭环:先创造对象,再应用对象,最后完成一个实体设计义务。

Anthropic称,Mythos 5在一周多的时光里,几乎自立完成了一项新的基因组学研究。它整顿了横跨138种动物、数百万个细胞的单细胞数据,并设计、练习了一个定制机械进修模型,用来辨认不合物种中履行雷同角色的细胞。


Anthropic把Fable 5的重点放在几个偏向:软件工程、常识工作、视觉、长高低文记忆和生命科学研究。


常识工作和视觉义务上,Anthropic给出了两类证据。

一类是标准化benchmark。官方表格显示,Fable/Mythos 5在GDPval-AA上得分1932,高于Opus 4.8、GPT-5.5和Gemini 3.1 Pro;在GDP.pdf这种带视觉懂得的文档义务上,它达到29.8%,也跨越其他重要模型。

另一类是早期客户测试。Anthropic称,Fable 5在Hebbia的高等金融推理基准上取得最高分,优势集中在文档推理、图表和表格懂得、问题求解;IMC也反馈,它在交易分析评估中几乎周全经由过程。

为了展示Fable 5的视觉才能,Anthropic举的例子是:此前Claude模型须要复杂帮助对象才能玩《宝可梦 火红》,而Fable 5只靠视觉输入就可以通关。


长义务和记忆才能上,Anthropic称,Fable 5可以在数百万token的经久义务中保持专注,并应用本身的笔记改进输出。

趁便一提,Fable也是一款经典RPG游戏的名字,中文译作《神鬼寓言》——或许某天我们能看到Fable玩《Fable》。

别的,收集安然才能方面,Fable/Mythos 5在ExploitBench Cap%上达到78.0%,跨越Claude Mythos Preview的69.0%,接近Opus 4.8的两倍。

这里用的应当是Mythos 5的得分,因为Fable 5在高风险峻求上会回退到Opus 4.8。

强大年夜的模型必须分层

Anthropic此次把模型才能的直不雅展示放到了一个类似”作品集“的滑页里,并且每个demo只给了一小段注释。


比如,Fable 5写了一个太阳系模仿,从物理第一性道理推导行星轨道活动,并用它猜测日食。



又比如,它可以自立玩《异星工厂》。这是一款工程师很爱的工厂主动化游戏,玩家要采集资本、筹划临盆线、搭建物流和能源体系。

Anthropic用这个例子解释,Fable 5可以在一个开放情况里制订策略,并持续推动一个复杂体系的扶植。


在另一个demo里,Fable 5先做了一个基于浏览器的CAD编辑器,然后又应用这个由本身开辟的CAD对象,设计了一个可以3D打印的完全模型。这个编辑器里还内置了AI copilot,用来帮助建模。



最后一个demo,Anthropic展示了一个由Fable 5写出来的流体模仿,活动节拍和一段古典音乐EDM remix同步。官方还特意提到,音乐也是Fable 5用代码生成的。

这些案例看起来挺花哨,但意思是一样的:Fable 5很善于把代码、视觉、物理、设计和经久筹划混在一路做义务。

假如说这部分展示的照样Fable 5在开辟者手里能做到什么程度,后面的部分辩的就是Mythos 5在研究者手里能做什么——以及Anthropic为什么要把Fable和Mythos分开。

Anthropic称,在内部蛋白设计专家的评估中,Mythos 5把药物设计流程中的部分环节加快了大年夜约10倍。个中一个案例里,Mythos 5接入蛋白设计和生物信息学对象、没有人类赞助,就可以匹配甚至跨越闇练人类操作员。

在该义务中,Mythos 5做的不是简单问答,而是完成一整套科学工作流:选择结合位点,选择并运行蛋白设计对象,在掉败后本身恢复。官方称,在这项研究的14个蛋白靶点中,有9个产生了强候选分子,今朝正在进一步研究。


Anthropic还提到,Mythos 5可以稳定提出新鲜、有吸引力的分子生物学假设。在和Opus级模型的盲测比较中,内部科学家大年夜约80%的时刻更偏好Mythos提出的假设,个中一些已经进入实验评估。

与此同时,Mythos 5的一个关于大年夜肠杆菌蛋白的新机制的假设,在另一家自力研究同一问题的实验室的研究中获得了证实。

它甚至还做了一项基因组学研究。

更夸大的是,Anthropic称,Mythos 5练习出的模型机能跨越了近期揭橥在《Science》上的一个模型,尽管它的范围只有后者的百分之一。Anthropic表示,筹划在将来几个月揭橥这些成果。

当然,这部分还须要等待论文和外部复核。但假如只看Anthropic官方给出的信息,Mythos 5在生命科学里展示的才能已经接近科研Agent:能读问题、用对象、处理数据、练习模型、提出假设,并把一项研究推动到可以揭橥的程度。

而一旦模型可以在药物设计、病毒载体、蛋白设计、基因组学研究这些偏向里真正推动义务,它就天然具备双重用处。

可以认为,生命科学这部分不是Fable 5的通俗功能演示,而是Mythos 5的才能上限展示。

但它被展示出来,是为了解释Anthropic手里的这套底层模型,已经强到了必须经由过程受信赖拜访来分发。

有意思的是,以前的模型宣布更像是一件技巧产品的事:参数、跑分、价格、高低文长度、API名称。强就是强,宣布就是宣布。

但到了Mythos这里,工作开端变得复杂。同一个底层模型被分为两个版本,通俗用户拿到的是Fable 5,安然研究者和部分生命科学研究者拿到的是Mythos 5;前者被装进更严格的护栏里,后者则须要受信赖拜访。

模型才能不再只有高低之分,也开端有权限、场景和义务之分。

某种意义上来讲,可以看作前沿模型贸易化进入新阶段的旌旗灯号——越强的模型,越弗成能直接扔给所有人。它们会被拆成不合版本,放进不合安然界线,再交给不合类型的用户。

Anthropic先这么做了,因为它们的模型“强到不克不及完全公开”。将来其它想要讲故事的公司,想要证实本身的模型也很强,或许也会效仿这种方法。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部