
文 丨《BUG》栏目 周文猛

据官方颁布基准测评,在高低文长度、常识、推理及Agent等才能上,DeepSeek V4机能比肩国际顶级闭源模型,达到国际开源模型一流程度。《BUG》栏目比较发明,在API调用价格上,客岁以一己之力撬动国内大年夜模型行业降价的DeepSeek,V4版本再次开出了行业“最低价”。
“固然每百万Tokens调用价格国内模型均未降低太多,但超长高低文长度及不俗的机能,让其极具竞争优势!”有业内人士在与《BUG》栏目沟通中感慨:“那个大年夜模型价格屠夫,又回来了!”
机能比肩顶级闭源模型,常识、推理才能领先
据DeepSeek披露的基准测试数据,在常识与推理类测试中,DeepSeek-V4-Pro-Max在Apex Shortlist和Codeforces两项测试中取得了最优机能,超出Claude-Opus-4.6-Max、GPT-5.4-xHigh、Gemin-3.1-Pro-Hight等国际模型,展示了极强的逻辑与算法才能;在SimpleQA Verified测试中较Gemini-3.1-Pro-High略有差距但领先于Claude和GPT。

在API价格调用上,相较于今朝GLM-5.1输入单价1.3元-2元/百万Tokens(缓存射中),以及Kimi-K2.6 1.1元/百万tokens(缓存射中),DeepSeek-v4 -pro及flash两个版本,输入单价分别为1元/百万tokens及0.2元/百万tokens,固然价格降幅不大年夜但均为最低,且高低文长度扩大了数倍。
在Agentic才能测评中,V4、Opus-4.6、Gemin-3.1-pro三款模型在SWE Verified义务上打成平局,且DeepSeek在Toolathlon义务上取得了仅次于GPT-5.4-xHigh的程度,在Terminal Bench 2.0上取得了优于Opus-4.6的程度,表现了在复杂指令履行与对象调用处景下的优势。
今朝DeepSeek-V4已成为公司内部员工应用的Agentic Coding模型,根据评测反馈应用体验优于Sonnet 4.5,交付质量接近Opus 4.6 非思虑模式。
在数学、STEM、比赛型代码的测评中,DeepSeek-V4-Pro 超出当前已公开评测的绝大年夜多半开源模型,取得了比肩世界顶级闭源模型的成就。

根据DeepSeek的官方介绍,V4系列共包含两个版本模型:DeepSeek-V4-Pro总参数1.6T、激活参数49B,预练习数据33T;DeepSeek-V4-Flash总参数284B、激活参数13B,预练习数据32T;两者均原生支撑100万token高低文。
综合来看,在常识处理及推理才能上,DeepSeek-v4取得了较国内开源模型全方位领先,比肩国际的测评才能。但在Agentic才能方面,固然最新的DeepSeek-v4有了不错的晋升,但较国内及国际第一梯队的才能并未拉开差距,彼此各有领先。
“标配”100万高低文,价格屠夫“回来了”
比拟于各项基准测试中表现的机能优势,本次V4宣布最大年夜的特点,莫过于长文本才能的冲破以及API调用价格的进一步下探。
得益于DeepSeek-V4开创的全新留意力机制,V4经由过程在token维度进行紧缩并结合DSA稀少留意力(DeepSeek Sparse Attention),实现了全球领先的长高低文才能,且比拟传统办法大年夜幅降低了对计算和显存的需求,将1M(一百万)高低文变成了DeepSeek所有官方办事的标配。

一年前,100万高低文照样Gemini的独家王牌,即使是近期宣布的多半主流国产开源模型中,模型高低文的长度也多位于128K—200K区间,而DeepSeek直接把百万高低文从“高端闭源功能”,做成了开源标配。

(DeepSeek-v4系列模型API调用价格)

(Kimi-k2.6模型API调用价格)

(GLM-5.1模型API调用价格)
“DeepSeek-v4此次宣布带来的机能冲破,较DeepSeek-R1宣布时带给外界的冲击要小了一些,各项机能依然处于第一梯队,但领先优势并未完全拉开。”在业内人士看来,“此次V4模型的宣布,更多的在于长文本才能的晋升及价格的进一步下探。”
“下半年批量上华为算力,Pro价格会大年夜幅下调”
值得留意的是,在DeepSeek-v4颁布API价格的信息的最基层地位,官方特别标注指出:“受限于高端算力,今朝Pro的办事吞吐量十分有限,估计下半年昇腾950超节点批量上市后,Pro的价格会大年夜幅下调。”
该人士感慨道:“此前DeepSeek-V3及R1模型宣布后,其经由过程底层技巧立异带来的机能优势,直接推动全部国内大年夜模型行业集体降价,固然此次V4版本每百万Tokens调用价格较国内同业并未降低太多,但依然具有竞争力,那个大年夜模型价格屠夫又回来了!”。

这意味着,此次宣布的v4系列模型,已经针对华为昇腾950超节点完成适配,只要昇腾950上市,广大年夜用户便可基于国产算力用上比肩国际顶级闭源模型的DeepSeek-v4。
在官方开源的技巧文档中,DeepSeek也说起了这一点,直言v4已在NVIDIA GPU和HUAWEI Ascend NPUs平台上验证了精细粒度的EP(专家并行)筹划,相较于强大年夜的非融合基线,其在通用推理义务上可实现1.50-1.73倍的加快后果,而在对时延敏感的场景(如RL推演和高速代理办事)中则可达到1.96倍的加快后果。

而在V4宣布后,华为昇腾也同步宣布“超节点全系列产品支撑DeepSeek V4系列模型”。据悉,昇腾950经由过程融合kernel和多流并行技巧降低Attention计算和访存开销,大年夜幅晋升推理机能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理安排。
本月上旬,英伟达开创人黄仁勋在接收Dwarkesh Patel专访时曾言:“假如DeepSeek先在华为平台上宣布,那对我们国度(美国)来说将是灾害性的。”在黄仁勋看来,固然DeepSeek是一款开源模型,同样可被用于英伟达产品上,但假如DeepSeek专门针对华为算力进行优化,在高端算力采购受限等局限下,英伟达将处于劣势。
如今看来,固然DeepSeek也针对英伟达算力进行了EP筹划验证,但黄仁勋担心的工作照样产生了。在业内人士看来,“V4是算力博弈逼出来的产品,在将来一年,国产大年夜模型跑在国产卡上,将逐渐成熟。”
多模态才能仍未出现
比较遗憾的是,DeepSeek V4固然宣布了,但该版本依然是一款纯文本模型,没有太多的文生图、文生视频等多模态才能。这也让通俗用户快速体验评测一款模型,平添了不少难度。

毕竟,在大年夜说话模型才能赓续晋升、幻觉率逐渐降低的当下,惯例、单一的常识问答,已很难客不雅反应一款模型的综合才能。对于多半用户而言,想要直不雅感触感染V4模型的才能,还得下载并亲自用上一阵子。
V4系列模型宣布的同时,近期DeepSeek还曝出了筹划融资500亿元的消息,有接近DeepSeek的知恋人士泄漏,DeepSeek融前估值为3000亿元,约合440亿美元,今朝腾讯控股、阿里巴巴集团均正在洽商投资DeepSeek。不过,对于融资相干事宜,DeepSeek方面至今未正面回应媒体问询。
或许,对于DeepSeek开创人梁文锋而言,在全球大年夜模型“智力”增长放缓,行业人才竞争加剧、行业多模态化、Agentic化趋势赓续凸显的情况下,借V4宣布合时融资强大年夜实力,也不掉为一个明智之举。

发表评论 取消回复