此次宣布的时光点也颇具象征意义。DeepSeek 筹划在中国一年一度的全国“两会”召开前夕推出 V4,而本年“两会”将于 3 月 4 日揭幕。 这一高规格政治会议为该公司供给了重要的曝光窗口,或将进一步巩固其“国度级 AI 冠军”形象。

据两名懂得内幕的人士泄漏,DeepSeek 总部位于杭州,此次推出的 V4 将是一款具备图像、视频与文本生成才能的多模态模型。 多名知恋人士称,DeepSeek 已与中国本土 AI 芯片厂商华为和寒武纪展开合作,对 V4 进行定制优化,以适配两边最新一代芯片产品,从而在算力层面形成更慎密的协同。 这一动作被视为中国科技企业加快摆脱对英伟达高端 AI 芯片依附的又一旌旗灯号,而这些芯片今朝正受到美国出口管束限制,相干办法旨在遏制中国的技巧崛起。
这是 DeepSeek 自 2025 年 1 月宣布 R1 推理模型以来的初次大年夜版本迭代。 当时公司传播鼓吹,仅凭远低于硅谷头部公司应用的算力范围,就练习出在才能上可比肩领先模型的体系。 这一消息一度在美国科技股市场激发震动,有分析人士将其形容为标记中国在人工智能范畴快速追赶、甚至改写格局的“斯普特尼克时刻”。 自那今后,DeepSeek 更多推出的是渐进式更新,而非完全新架构,这也让包含阿里巴巴、月之暗面(Moonshot)在内的国内竞争敌手在低成本、开源中文模型市场上获得了额外的成长空间。
多名知恋人士估计,DeepSeek 此次专门针对国产 AI 芯片优化 V4,将有助于提振本土芯片的市场需求,并加快在模型推理阶段(即应用已练习模型生成答复的过程)向华为、寒武纪等中国厂商转移,降低对英伟达和 AMD 芯片的依附。 路透社此前曾率先报道 DeepSeek 与华为、寒武纪的合作进展。 另一名懂得情况的人士则表示,DeepSeek 并未与英伟达就 V4 的优化进行合作。
不过,在模型练习范畴,英伟达仍占据主导地位,尤其是在须要巨量算力支撑的预练习阶段,其 GPU 仍是行业标准。 《金融时报》此前报道称,DeepSeek 曾测验测验在华为硬件上完成这一初始练习,但过程中碰到技巧难题。 该公司客岁在宣布 R1 模型时,同时公开了一份详尽的技巧申报,阐述如安在英伟达芯片上更高效地练习和运行模型,相干工程办法受到广泛存眷与赞誉。 有业内人士认为,DeepSeek 分享其构建“推理模型”的练习办法,实际上为其他实验室供给了可复用的工程路径,赞助后者在有限算力前提下晋升模型推理才能。
所谓“推理模型”,是指专门针对复杂问题求解进行优化的模型范式,其核心思路是将难题拆分为多个可慢慢求解的子问题,再经由过程多步推理得出最终结论。 有接近 DeepSeek 筹划的人士泄漏,公司估计将鄙人周宣布 V4 的同时附上一份篇幅较短的技巧解释文档,重点介绍关键改进点,并在大年夜约一个月后推出更为详尽的技巧申报,以体系性披露模型架构和练习办法。
与此同时,环绕常识产权与模型“借训”的争议也在升温。就在本周早些时刻,美国 AI 公司 Anthropic 指控 DeepSeek 及别的两家中国 AI 实验室对其模型实施所谓“蒸馏进击”,即应用更强大年夜模型的输出对小型模型进行练习,使后者在不直接应用一致级算力资本的情况下接近前者机能。 对此,华为、DeepSeek 和寒武纪均未对置评请求作出回应。

发表评论 取消回复