3月27日,CFMS|MemoryS 2026 峰会以“穿越周期,释放价值”为主题在深圳举办。本届峰会汇聚存储、CPU/GPU、AI大年夜模型、汽车等全球核心家当链生态企业,摸索AI时代下,存储厂商、应用终端与平台厂商将若何融合新技巧、新产品,协同构建高效生态。高通公司AI产品技巧中国区负责人万卫星受邀出席本次峰会并揭橥主题演讲,商量了在智能体AI立异海潮下,端侧将若何引领构建小我AI的将来。
万卫星指出,小我AI将始于端侧,我们正在迈向以AI和用户为中间的多终端体验,终端侧智能体将可以或许供给更低时延、更好的个性化以及持续无感的用户体验。高通公司经由过程同一的技巧路线,可以或许跨广泛产品组合供给高机能、高能效的软硬件技巧底座,为赋能小我AI供给跨终端、跨场景的平台级才能。
此外,为表扬家当链内的出色企业与领军人士,彰显行业标杆力量,MemoryS大年夜奖也在本次峰会时代颁布,经由过程将营业从智妙手机扩大至小我AI与智能可穿戴设备、PC、汽车、边沿收集以及工业物联网等广泛边沿范畴,引领构建“边沿智能生态”,推动AI在万物互联终端上真正实现低延迟、高安然的本地化落地,高通公司荣获“年度AI生态出色供献奖”。
以下为万卫星演讲全文:
各位嘉宾,现场的同伙,大年夜家上午好。今天我分享的主题是“引领智能体AI立异,在端侧构建小我AI将来”。我们起首来看一下AI在行业应用的几个演进阶段,第一个阶段我们可以把它叫做感知AI,感知AI并不陌生,它包含多媒体旌旗灯号、比如语音旌旗灯号的懂得,对图像的分类辨认,以及智能降噪等传统范畴的用例。这类感知AI在大年夜多半的终端侧平台已经获得了贸易化落地,一个很典范的例子就是在手机范畴的计算摄影,其实就得益于感知AI的落地。
以上就是我今天所有的分享,异常感激大年夜家。
第二个阶段就是生成式AI,这个阶段的特点是在基于大年夜量数据预练习的情况下,AI可以在有监督的情况下去解决一些具体的问题,比如说OpenAI的ChatGPT模型,以及文生图模型等等。第三个阶段我们叫做智能体AI。智能体AI跟生成式AI有个很重要的差别就是,它根本上可以在无监督的情况下,自立的去懂得用户意图,进行行动和决定计划,帮我们解决稍微复杂的义务。第四阶段我们叫做物理AI,AI可以真正去懂得我们的物理世界,根据真什物理世界的物理规定,对输入进行反馈和输出。这一技巧还在早期应用阶段。假如大年夜家存眷本年在巴塞罗那的MWC世界移动通信大年夜会,应当也看到了大年夜量行业关于物理AI的摸索进展。
今朝我们看到行业内的存眷重点重要在第二阶段和第三阶段。接下来我们先看一下生成式AI的成长趋势。我们看到很重要的一点是,可以或许在端侧运行的生成式AI模型,它的智能正在快速的晋升。起首,端侧设备可以或许支撑的模型参数量正在变得越来越大年夜,比如在手机上我们已经可以运行10亿到100亿参数级其余大年夜模型,在PC上可以运行130亿到200亿参数量的大年夜模型。在车上,我们可以支撑的模型参数量可能会更大年夜,达到200~600亿的级别。
从模型本身的才能来看,我们不雅察到两点。起首,客岁我们已成功将具备推理才能的大年夜模型安排到了端侧。第二,在端侧大年夜模型所对应的各类场景中,其支撑的高低文长度也在晋升。大年夜概在三年前,端侧高低文长度广泛仅限于1k-2k;两年前,大年夜部分场景的高低文已经扩大到2k-4k;而客岁,高通在与合作伙伴的场景摸索中,这个区间已晋升到4k-8k。在一些特定的场景中,我们甚至已经可以支撑32k-128k的高低文长度。
更长的高低文需求在端侧安排其实是具有挑衅性的,高低文越来越长,意味着对KV缓存(Key-Value Cache)的需求会越来越大年夜。这直接导致将模型整体安排到端侧时,所需的内存容量会增长,同时对内存带宽的请求也会越来越高。在模态演进方面,我们同样看到端侧模型正从单一的“文生文”、“文生图”、“图生图”向更丰富的多模态偏向成长,包含语音、文字、照片、视觉以及传感器等多种输入,甚至正在向全模态的偏向迈进。在客岁9月的骁龙峰会上,高通也展示了与合作伙伴合营将50亿参数的全模态模型完全运行在端侧,用户可以经由过程天然说话进行交互。
介绍完趋势,下面我们来分享生成式AI在端侧安排的优势与挑衅。我认为端侧运行生成式AI的最大年夜优势在于个性化。因为小我所有的数据都在端侧,而新数据的产生泉源也是在端侧。在数据产生的泉源直接进行推理是一件异常天然的工作,同时也可以更好保护用户的隐私。此外,端侧生成式AI还有更高的成本优势,且无需收集连接,这让用户可以或许随时随地享受生成式AI带来的办事。在挑衅方面,我这里重点强调几点。第一点是端侧内存范围的限制。固然我们有很多技巧手段可以或许紧缩模型体积,但有限的内存毕竟会对可运行的模型大年夜小设置上限,而模型大年夜小的上限也意味着端侧AI才能的上限。
在更小型的设备上,比如AR眼镜和低功耗设备,我们也实现了让参数范围在10亿-40亿之间的模型完全在端侧运行。固然相较于云端大年夜模型,端侧模型的参数量仍然相对较小,但行业内的各类技巧正在推动端侧大年夜模型支撑体量的晋升,比如内存带宽晋升,量化位宽技巧的优化可以进一步紧缩模型尺寸,这都意味着终端设备可以承载更丰富的模型。
第二点,端侧的内存带宽也是有限制的。大年夜家知道,自回归收集的一个明显特点就是受内存带宽限制,有限的带宽会影响大年夜模型输出token(词元)的速度,进而影响到具体场景里面的用户体验。第三点,我想重点强调在很多终端设备上,尤其是在手机这种集成度比较高的设备上,能效异常重要。我们要避免AI推理在运行时触发温控限制,避免引起设备发烧。是以,如安在内存大年夜小、带宽以及机能和能效之间杀青均衡,是我们和业内伙伴一向在测验测验解决的问题。
下面我们来看一下智能体AI的趋势,最重要的一点就是怎么让终端侧智能体和用户实现深度适配。第一个明显趋势就是终端侧智能体,其核心在于可以或许供给更低时延、更好的个性化以及持续无感的用户体验。第二是智能体专业化。最开端人们是想让同一的模型去解决大年夜多半问题,如今我们在走向义务专业化,经由过程专业化智能体和多智能体框架来解决问题。第三个趋势,也是我认为对用户体验最重要的趋势,就是高度个性化。终端侧智能体不再是以前那种简单的对话类语音助手,而是变成可以或许充分懂得用户意图、懂得高低文、懂得用户感知信息的真正懂你的AI助手。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
我们再来具体看一下智能体AI的基本模块。大年夜家可以简单把智能体懂得为一个持续运行的闭环体系,这一体系里包含多个基本模块,比如感知模块、懂得模块和推理模块,还有记忆体系、对象体系甚至履行体系。这些模块整合在一路,让智能体可以或许懂得用户的意图,处理用户输入的信息,经由过程对信息的懂得来拆分成多个义务并自力完成目标。更重要的是,终端侧智能体可以供给持续感知、持续思虑并且持续行动的用户体验。
智能体AI其实为我们面向新数字世界的交互范式带来很大年夜改变。高通在以前两年一向在讲“AI是新的UI”——AI是新的用户交互界面。将来,用户不再是环绕某个单一的APP或者某个单一功能去做交互,只须要用语音或文本和智能体去天然交互,智能体就能经由过程懂得用户的输入信息去懂得用户意图,分化并筹划义务。再结合运行在骁龙平台上的端侧大年夜模型,可以解决我们的义务,也可以经由过程云端的通用大年夜模型,让AI赋能娱乐、临盆力对象、行业应用等广泛的场景。
在以前,小我AI更多是以手机为中间,耳机、眼镜、手表等其他设备是作为从属与手机连接。将来,我们正在迈向以AI和用户为中间的多终端体验。也就是说AI不再绑定某一个具体的设备,假如是经由过程小我AI或者智能体去懂得用户的意图,再去履行用户的义务,这些义务是经由过程多个设备之间的灵活协同来完成的。AI设备它只是AI的载体,将来小我AI体验必定是朝着打造更持续、更无感的用户体验偏向去演进。从我们的视角去看小我AI,它必定是始于终端侧的,因为终端侧离用户比来,终端侧拥有效户的所有信息,是以可以或许在第一时光感知到用户小我的意图、高低文和偏好。
然则小我AI它不是孤立运行的,它可以经由过程混淆AI的架构,在终端侧、本地边沿、收集边沿和中心云协同工作。高通在客岁也宣布了多款可以供给充分算力去支撑小我AI场景的产品,包含第五代骁龙8至尊版移动平台、骁龙X2 Elite计算平台等。大年夜家已经可以在市场上看到异常多搭载上述骁龙平台的商用终端。
刚才我们聊了终端侧,那么在数据中间范畴,我们也是在本年MWC宣布了基于Qualcomm® AI200和AI250芯片的加快卡和机架体系。我们以行业领先的总体拥有成本(TCO)为高速数据中间生成式AI推理供给机架级机能与卓越内存容量。尤其是AI250,它引入了一个立异的内存架构,为AI处理工作负载带来效力的跨时代跃升。
最后,我想给大年夜家总结一下高通在AI方面的整体构造。从手机、耳机、可穿戴设备、PC等花费电子产品,再到汽车、机械人,甚至到下一代的数据中间,我们都在用同一的AI架构去赋能所有的产品,核心就在于我们可以或许经由过程同一的技巧路线,供给高机能、高能效的软硬件技巧底座,让高通的AI才能得以从单个产品或者单颗芯片扩大成为范围化的跨终端、跨场景的平台级才能。

发表评论 取消回复