大年夜模型不再只是生成：智象将来CTO姚霆谈AI若何开端“完成”一个“创作”

258 阅读 0 评论 0 点赞

第二，产品认知也必须持续更新。今天做产品和以前不一样了。你一只眼要盯着当下正在做的产品，另一只眼必定要看六个月今后产品形态会不会变。比如从客岁事尾开端，我们雇用产品经理时，已经把会不会用vibe-coding算作考察项，因为这已经成为新的工作方法。全部团队认知都必须更新。

以前一年，AI行业一个越来越清楚的变更是，真正拉开差距的，已经不再只是某个模型单项才能是否更强，而是谁能把“才能”组织成“义务”，再把“义务”沉淀为“体系”。

文生图、图生视频、视频生成、3D生成、动作生成，这些曾经被分别评论辩论的技巧模块，正在被从新放回同一个问题之下：假如将来的模型不只是答复问题、生成内容，而是可以或许懂得复杂意图、调动多种才能、完成端到端创作，那么大年夜模型竞争的核心，就会从模型本身，转向模型、Agent、skills与应用处景之间的整体协同。

也恰是以，“世界模型”之争的真正分野，或许并不只在于谁更接近物理规律、谁更像实际世界的复刻，而在于谁能率先搭建出一套可运行、可调用、可贸易化的全模态临盆体系。

在如许的背景下，智象将来结合开创人兼CTO姚霆对“世界模型”“全模态”“Agent平台”的懂得，供给了一个很有前瞻性的不雅察样本。比拟纯真评论辩论视频生成才能的好坏，他更在意的是，模型若何从单点才能跃迁为创作底座，skills若何被高效而安然地治理、编排和组合，应用又若何反过来塑造下一轮模型迭代。

这使得这场对话的意义，已经不只是评论辩论一家AI视频公司的产品路径，而是在更深层面上回应一个行业合营面对的问题：当技巧红利从“能不克不及生成”进入“能不克不及真正完成义务”的阶段之后，下一轮竞争的护城河，毕竟会建在模型里，建在体系里，照样建在对将来工作与创作方法智能体的从新定义里。

大年夜模型不再只是生成：智象将来CTO姚霆谈AI若何开端“完成”一个“创作” 全球开创文生视频：智象将来的技巧原点与家当积淀

Q：请先介绍一下你们团队过往的经历，以及智象将来是怎么走到今天的。
姚霆：智象将来的核心团队最早来自微软亚洲研究院，那时刻，我们跟着梅涛师长教师（智象将来开创人），做了全球第一个从文生成视频的工作研究，算是中国比较早一批做视觉、多媒体、视频相干研究的人。当时我们做得更偏懂得，包含视频内容懂得、动作辨认、图像和视频搜刮等，也做了很多和搜刮引擎相干的工作，比如Bing的视频搜刮，以及后来小冰相干的一些项目。那时刻也做过一些可以算作生成的工作，比如根据图像、视频生成描述，从而驱动用户和小冰之间的聊天。

到了2022年，看到GPT、ChatGPT，以及Midjourney如许的图像生成模型出现，让我们这个团队看到了很大年夜的场景想象空间，这个场景与我们的技巧背景和家当实践高度相干，是以，2023年，梅师长教师带着我们一路创建了智象将来，正式投入做自研多模态大年夜模型和相干产品应用。

我们比较早就定下了“1+3+N”的构造。这里的“1”是一个底层全模态世界模型底座，支撑上层的3个智能体出口：第一条是偏专业创作者的视频创尴尬刁难象，海外就是vivago，国内的应用叫智小象；第二条是和互动营销场景的应用；第三条就是和AI影视创作相干。将来还会拓展出更多的智能体应用。

从2023年开端，我们重点做图像生成；我们也开源了HiDream-I1模型，经由过程开源去撬动更多声量，今朝，智象将来ARR（年度经常性收入）已达数切切美金级别。整体来说，我们一路走到今天，既是在保持模型研发，也是在赓续拓展贸易化落地。

超出单项生成才能：全模态架构若何驱动端到端的义务交付

Q：如今大年夜家对世界模型的定义并不同一。在你看来，一个合格的世界模型应当若何定义，它的标准或维度是什么？

后来我们在分开微软参加京东，在京东平台上做了很多贸易化落地的项目工作。比如大年夜家如今熟悉的京东 APP 首页的以图搜图、摄影购这些应用，背后做的是十亿级图像垂域搜刮。我们也做了图像、视频审核，包含敏动人物、政治内容、成人内容等辨认和处理技巧。再往后，也介入了商品3D化、数字商城等相干工作，把商品做成3D资产。后期还研发了与物流分拣相干的机械臂视觉筹划，这实际上是具身智能的前身形态：我们在京东物流仓里安排了两套7×24小时稳态运营体系，练习机械臂实现商品辨认、抓取和tracking等。

姚霆：智象将来对世界模型的懂得，起首是承认它的定义确切异常广，并且不合阶段差别很大年夜。早期我认为大年夜致可以分成三类。第一类是以说话模型为主的世界模型，它更像是高层常识、世界常识的提炼和紧缩，所以它是high level的世界模型。第二类是中层表达进修，例如Yan LeCun做的JEPA，更偏懂得，懂得之后可能还会做动作猜测。第三类则是和我们更相干的底层像素生成，或者说视频生成模型，这一类我也认为属于世界模型的一种可能性。

但到了近期，世界模型的定义其实开端慢慢收敛了。我认为收敛之后大年夜概也可以分成三类。第一类，是在现有视频生成模型中参加因果关系和物理规律，它本质上照样视频生成模型，只是因为具备这些才能，所以更接近世界模型。第二类，是根据用户的指令，比如高低阁下，去及时生成响应场景，以视频情势出现，像Genie-3这一类。第三类，是比来大年夜家评论辩论很多的World Action Model，它和具身智能更相干，核心是根据用户输入同时生成视频和动作，包含英伟达在内，比来很多工作都和这个偏向有关。

从我们本身的角度来看，我们如今固然照样做视频生成更多，但也会把它放活着界模型范畴下去懂得。我们更存眷两个延长偏向。第一个是模型侧，我们认为将来更重要的是用一个神经收集同时懂得和生成文本、图像、视频、3D以及动作。也就是说，它必定是端到端的全模态架构，而不是以前那种多模态拼接式方法。它们之间不该该各自自力编码，而是同一编码、同一tokenization。第二个是产品和体系侧。比来大年夜家在谈Agent，我们会认为Agentic app其实可以懂得为一个平台或载体，这个载体可能是PC，也可能是手机，再乘上一个Harness，也就是对底层skills的治理、适配和组合才能，再加上一组skills。底层也许是OS，也许是OpenClaw，但它会是一种新的计谋形态。

假如真有一个很强大年夜的全模态世界模型，那么用户的输入可所以随便率性模态，单一也可以多个模态同时输入，下流的skills也可所以各类模态，而中心这个Harness对模态的治理、描述和编排，也应当是全模态的。如许才能真正端到端地完成用户想创作的义务。

关于世界模型的标准，我的懂得有以下几个维度。第一个是模型维度，我更看重世界模型的底座必定是全模态的。第二个是后果维度，它当然要支撑生成质量、精确度等惯例标准。第三个是产品形态维度，我会更在意它是否能经由过程一个很好的Agentic方法去实现全模态创作需求。

从春晚“合肥七分钟”到机械人练习：AI技巧立异的更大年夜可能

Q：假如如许一套世界模型成立，它在具身智能、游戏或者数字孪生范畴的实际价值和潜在价值会有多大年夜？
姚霆：以具身智能为例，大年夜家如今评论辩论很多的是视频模型和具身智能之间的关系。假如今天这个模型真的是全模态模型，那么它既可以作为视频生成的底座，也可以作为具身智能的底座。它的核心在于，输入和输出都不再被限制。假如输入是动作，输出既可所以Video，也可所以动作；假如输入是文本，输出也可所以Video。如许的话，全部模型就可以或许支撑多样性的输入和输出。

假如放到具身场景里，它既可以用来生成数据，也可以支撑VLA模型预练习，甚至当精度达到毫米级其余时刻，也可以进一步做后练习，甚至直接去做VLA或者action production。我认为这会是一个异常好的基本。

Q：这两天有个消息是Sora关停了。你先怎么看这件事？别的，国内和海外在AI视频模型上走法不太一样，国内更爱好做完全平台，海外更侧重模型才能。你认为哪种路线的壁垒会更长久？

游戏偏向会加倍天然。因为一旦你给模型一个动作，它就可以衬着出新的画面，生成新的场景和视频，这本质上就是游戏和影视结合的互动影游。互动影游里面大年夜量需求就是，你给它一个新义务，它会持续延展新的内容和新的可能性，所以不管是作为游戏，照样作为影视出现，它都很有成长应用的空间。

Q：如今关于AI漫改和影视落地的话题很热。你们在影视和漫改方面的贸易化客户占比大年夜概若何？从你们接触的客户来看，今朝AI最有价值的场景是什么？
姚霆：今朝，我们照样更重视“创作”这个工作。以前大年夜家谈生成，不管是图像照样视频，更多是把它算作一种单点才能去看，所以经常会陷入一个问题，就是到底终局是文生视频更重要，照样图生视频更重要。比如Sora更强调文生视频，早期的可灵则更强调图生视频，很多时刻大年夜家都在纠结到底谁代表终局。

在我看来，假如把“创作”算作一个完全义务来懂得，那么就不该该只盯着底层才能到底是文生照样图生，而应当看这个体系能不克不及端到端地把用户的创作义务完成。假如它能真正完成创作，这才是重要目标。

当然，除了创作，别的一个重要范畴就是具身智能，具身智能的迭代高度依附于高质量、多维度的练习数据。比来，智象将来与具身智能数据基本举措措施企业诺亦腾机械人已杀青计谋合作，欲望合营霸占行业广泛面对的高精度练习数据供给难题。两边将诺亦腾积聚的真实活动捕获数据与智象多模态大年夜模型生成的仿真数据进行深度融合。为具身智能本体厂商供给范围化、标准化的 VLA（视觉-说话-动作）模型预练习资本。

在巨擘格局下快跑：技巧预判、架构立异与本钱的承认

在这个平台上，我们正在打造多个偏向的“创作”智能体，包含小我创作、营销相干创作，以及影视相干创作。如今的思维模式和以前不太一样。以前是分而治之，不合创作场景用不合对象；但接下来更可能变成“并而治之”，也就是底座同一，底层由Agent体系承接，上层再针对不合场景去实例化。

Q：如今看，字节和快手既有模型又有流量，自力创业公司在这种格局下若何避免被边沿化？你们真正的护城河是什么？
姚霆：这是一个特别好的问题。切实其实，大年夜厂无论在本钱、人才、算力，照样进口级才能上，都有天然优势。但我也认为，大年夜厂在某些前提下束缚会更多。因为它要兼顾主营营业、股东预期和估值逻辑，团队架构平日也会加倍宏大年夜，不会像创业公司如许灵活。

我反而认为，在今天这个阶段做AI，机会并不是完全不平等的。始创公司假如想抓住机会，我认为至少有几点要做好。第一，认知必定要新。为什么我一向强调技巧和产品迭代，本质上是因为必须对趋势有预判。不克不及比及大年夜厂把某种架构做成熟了，我们再去复制，那样根本不会有机会。

是以，智象将来一向在做架构立异，从2023年Unet开端，到DiT，到后来我们做到扩散自回归架构Diffusion + Auto-Regressive，今天我们正在做走向全模态的全新架构，我们每次照样精准地踩住了全部 AI技巧迭代的冲破口，有时刻甚至会领先国内国际大年夜厂三个月、六个月。

第三，速度异常关键。AI产品只要形成一个根本可用的稳定版本，就应当尽快推向市场。在我的定义里，一个版本假如用户测验测验两次能成功一次，或者三次能成功一次，我就认为它已经可以上线。因为生成式产品天然会有幻觉和误差，所以不克不及比及它像传统软件一样完全稳定才去发。上线今后，要靠用户赓续地应用和反馈去迭代，如许才有可能形成本身的优势。很多场景其实不是拍脑筋就能想出来的，只有效户用起来，你才知道真实需求在哪里。

第四，组织架构要异常灵活。今天在始创公司里，技巧和产品的界线已经越来越模糊。很多产品本身也可以经由过程vibe coding去实现前端。组织不克不及按旧打法去运转，而要像打牌一样，根据敌手和市场变更去调剂出牌次序、组合方法，甚至要把本来认为是“王炸”的牌拆开来打。

但我认为最大年夜的好消息是，这个时代变更其实太快，没人能包管今天做出来的产品三个月后依然有价值。在如许一个高度内卷、快速演变的情况里，每小我都有机会，而不是只有大年夜厂有机会。

在影视创作这一块，我们核心做两类工作。第一类是协同临盆对象。第二类是内容交付。智象的技巧交付才能已在国度级舞台上获得验证。在 2026 年央视马年春晚合肥分会场 7 分钟视频，虚实融合视觉等出现由智象大年夜模型供给了 AI 才能支撑。此外，我们很早就在AI影视方面构造，如2024年和亦庄合作过AIGC短剧《意向将来》，属于国内首批AIGC短剧之一。2025年我们又和安徽电视台合作了一个项目，叫《量子湖传说》，是12集偏漫剧。在AI漫改和影视落处所面，据不完全统计今朝智象将来，已经协助完成跨越5000分钟的AI短剧创作。工业级的 AI 短剧平台帧赞已经在内测招募中，立时就要正式上线。

姚霆：从我的角度看，第一，Sora 本来的设法主意照样做一个异常通用的视频生成模型，但它和垂直范畴应用之间，在今朝阶段照样相对离开的。再加上它天然也没有和自身营业深度耦合的生态，所以产生了如今的大年夜调剂。

第二，我认为成本肯定是很大年夜的原因。今天和互联网时代不一样，如今所有办事上线，背后其实都在持续跑大年夜量GPU，烧 Token，成本是异常昂贵的。我们本身在做模型迭代的时刻，一个异常重要的推敲身分就是最终推理成本。

这也是智象将来保持架构立异的原因之一，经由过程架构立异，如自回归模型预先懂得，DiT 仅需 5 步即可杀青传统百步生成的精细度。我们可以将单位视频的推理成本大年夜幅紧缩至本来的 1/10。每个版本的迭代，我们都邑环绕推理成本做大年夜量工作，因为假如不在架构阶段推敲这些问题，后面办事根本没法大年夜范围跑起来。

你提到国表里路线的问题，我认为国外很多团队对架构立异的信念更高，国内则会更强调贸易化应用。对我们来说，架构立异是异常重要的底层才能，因为我们本来就是技巧出身。梅师长教师带着我和潘博士在微软的时刻，就一向欲望做世界上最好的模型。固然当时做的是懂得，但竞争敌手就是谷歌、Facebook、CMU、伯克利这些团队，所以在我们的技巧基因里，一向就有很强的模型架构立异寻求，我们从来没有放弃模型上的立异。每次迭代，架构立异始终是第一重要的工作。

Q：公司已经成立快四年了，这些年AI行业成长异常快。如今回头看，全部行业的竞争格局和你们最初的预想差距大年夜吗？有哪些处所是超出筹划、和团队假想不一样的？
姚霆：我认为第一，很多工作其实是在预期之内的。比如全部生成赛道、多模态大年夜模型赛道的成长上限和成长速度，根本都在我们的断定范围内。从早期的MidJourney，到Sora、Runway、可灵等，一路走下来，整体趋势没有偏离预判。包含技巧路线，从Unet到DiT，再到自回归与DiT融合，再到今天做全模态，也都在我们的断定之内，甚至有些时刻我们还会处在相对领先的地位。

但也有一些超出预期的处所，我认为更多是在产品层面的冲破。比如以前大年夜家会评论辩论，我是不是应当做偏写作的对象，或者做OpenClaw、OPC如许的器械。比来我们也会反过来思虑，像OpenClaw这种模式的成长速度，以及它所代表的可能性，可能比很多人预想得都快。它会给我一些启发，让我从新思虑今天应当如何去做一个创作型Agent。

比如如今大年夜家都知道这类产品有安然问题，但我比来会想，为什么它会有安然问题？一个很核心的原因是，它和我共用一个载体。假设它是我的助理，它其实不该该用我的手机替我发微信，它应当有本身的“手机”，也就是本身的载体。假如它有本身的载体，也许没有屏幕都没紧要，那么很多安然问题就会产生变更。也就是说，假如给OpenClaw如许的系同一个合适它发展的新载体，它也许就能从co-worker走向co-creator。这个可能性，是超出我本来预期的。

Q：智象将来2026年最优先级的计谋是什么？经由四年成长，融资也到了新的轮次，投资人对智象将来的成长等待是什么？
姚霆：这是一个很大年夜的问题。我认为很多场景的爆发其实是带有随机性的，爆款本身也有随机性。但从我的角度看，最优先级的工作异常明白，就是建立一个端到端的创作智能体Agent平台。

它的技巧核心，就是一个全模态生成模型作为底座。这很像昔时做搜刮引擎，你底下有海量网页，而今天这些网页变成了skills。关键问题变成，怎么在海量skills里找到最须要的信息，并把这些信息组合编排成好的Agent，再供给给上层办事。为什么我们引入“全模态”这个概念，就是因为假如模型天然把文本、图像、视频等模态打通了，那我只须要建一套索引，就可以处理所有模态的问题，也才能支撑真正的端到端创作。不管用户输入什么，想获得什么，体系理论上都可以或许完成。

1. 关于融资的问题，我们一向很顺利，问题之后会有更多好消息与大年夜家分享。对于定位和估值，我们更看重估值背后的底层逻辑。支撑我们融资顺利的核心逻辑有三点：1. 技巧的持续领先与立异：不是好景不常，而是具备经久的立异后劲。2. 产品价值的传递：可否真正为用户创造价值，解决实际问题。3. 贸易化验证：在当前阶段，贸易化成果是硬指标；而到了将来的C轮、D轮，则会进一步考验范围化才能。

总的来说，投资人看重的是智象将来在全模态技巧上的深度积淀以及在临盆力场景中的落地潜力，我们异常珍爱并看重投资人对我们的这种经久承认.

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

本文分类：互联网
本文标签：智象未来 AI生成 HiDream
浏览次数：258 次浏览
发布日期：2026-04-13 09:19:06
本文链接：https://www.fqpy.com/internet/12540

大年夜模型不再只是生成：智象将来CTO姚霆谈AI若何开端“完成”一个“创作”

超出单项生成才能：全模态架构若何驱动端到端的义务交付

从春晚“合肥七分钟”到机械人练习：AI技巧立异的更大年夜可能

在巨擘格局下快跑：技巧预判、架构立异与本钱的承认

评论列表共有 0 条评论

发表评论取消回复

大年夜模型不再只是生成：智象将来CTO姚霆谈AI若何开端“完成”一个“创作”

超出单项生成才能：全模态架构若何驱动端到端的义务交付

从春晚“合肥七分钟”到机械人练习：AI技巧立异的更大年夜可能

在巨擘格局下快跑：技巧预判、架构立异与本钱的承认

智象将来完成新一轮融资，全力打造下一代原生全模态世界模型

大年夜模型不再只是生成：智象将来CTO姚霆谈AI若何开端“完成”一个“创作”

智象将来联袂诺亦腾机械人，共创具身智能数据新范式

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复