无论是高难度的人类最后的测验(Humanity's Last Exam),照样侧重真实软件工程才能的SWE-Bench Pro,以及评估Agent检索才能的DeepSearchQA,成就均达到行业领先程度,持平或优于GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等闭源模型。

作为Kimi迄今最强代码模型,Kimi K2.6长程编码才能大年夜幅晋升。

在测试中可以不间断编码13小时,编写或修改跨越4000行代码,完成复杂体系的开辟和优化。

在内部代码评测Kimi Code Bench中,K2.6成就较上一代K2.5晋升约20%。

同时,经由过程将代码与视觉才能的深度融合,Kimi K2.6可以交付极具设计创意的专业级Web应用。

值得一提的是,其泛化才能同样凸起。

实测显示,Kimi K2.6可在Mac本地安排模型,并经由过程Zig说话优化推理流程,在4000余次对象调用、12小时持续运行中,将吞吐量从约15tokens/s晋升至约193tokens/s,最终实现比LM Studio快约20%的推理效力。

在Agent才能方面,Kimi K2.6支撑多Agent协同,可调剂不合特长的Agent组合完成复杂义务,将搜刮、深度研究、文档分析和长文生成等才能整合,整体义务质量明显晋升。

同时,其Agent集群架构也迎来进级,最多支撑300个子Agent并交运行、履行约4000个协作步调,可一次性完成从文档到网页、再到PPT和表格的多产品端到端交付。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部