在2025年,全球移动终端行业正经历一次深刻的变革。人工智能的快速迭代让智能手机、平板电脑等设备不再仅仅是通讯和多媒体的载体,而是逐渐演变为真正的“AI伴侣”。过去,用户对于移动设备的期待主要集中在性能和功能的堆叠,而如今,他们希望设备能够实时理解语境、预测需求,并以智能化的方式做出回应。这种趋势意味着,端侧AI的地位正在快速提升,它不仅是提升体验的关键,更是未来移动计算的基础能力。
这一变化背后,是AI模型规模的爆发式增长。从百万级到数万亿级参数,模型的复杂性与多模态特征不断提升,对计算能力和内存带宽的需求空前高涨。即便是最先进的数据中心,也在能耗与散热方面面临瓶颈。而对于受制于电池和体积的移动终端来说,这种压力更为突出。如何在有限功耗中承载快速发展的AI应用,成为整个行业亟待解决的问题。
正是在这样的背景下,Arm在上海的Arm Unlocked 2025 AI技术峰会上,带来了他们面向AI优先时代的回答——全新的Lumex计算子系统(Compute Subsystem, CSS)。这一平台不仅是硬件的升级,更是对行业趋势的回应。
Arm高级副总裁兼终端事业部总经理Chris Bergey
“如今的AI不再是噱头,它切切实实影响着工作的推进方式和人们的生活体验。用户很快就会期待每一台设备都能听懂自然语言,预测需求,并实时做出智能回应。”Arm高级副总裁兼终端事业部总经理Chris Bergey日前在接受笔者的采访时表示,Arm Lumex CSS平台的意义就在于为这一趋势提供坚实的计算底座:它承载了Armv9.3架构的最新成果,通过CPU、GPU及系统IP的深度结合,重新定义了移动端的旗舰级性能。在其核心组件中,Arm C1 CPU与Mali G1-Ultra GPU成为最引人关注的亮点,它们的创新不仅关乎算力的提升,更是对端侧AI落地路径的一次系统性重塑。
具体来看,C1 CPU系列是Arm首个基于Armv9.3架构的CPU集群,同时C1 CPU还搭载了第二代Arm可伸缩矩阵扩展(SME2),这项技术让CPU在面对语音识别、大语言模型推理、音频生成等AI任务时,能够直接发挥矩阵加速能力。
Arm 终端事业部产品管理副总裁James McNiven
“启用SME2的Arm C1 CPU集群能带来五倍的AI性能提升,以及三倍的能效优化。在实际应用中,比如基于Whisper Base的语音识别延迟降低了4.7倍,在Stability AI Stable Audio 模型上生成音频的速度提升了2.8倍。” Arm 终端事业部产品管理副总裁James McNiven介绍说,如果单从数字上看,SME2 提供的 2 到 6 TOPS 算力似乎并不亮眼,尤其是在一些 NPU 已经突破 100 TOPS 的当下。但真正决定体验的,并不仅仅是算力峰值,而是任务执行的效率与延迟。对于图像预处理、语音识别、实时助手等小规模、频繁触发的任务,SME2 的优势在于能够直接依托 CPU 的缓存与系统内存完成计算,避免了数据传输瓶颈,从而实现低延迟和高响应速度。
在这些场景下,少量而精准的算力往往比庞大的峰值更有价值。更重要的是,SME2 保留了 CPU 的可编程性,不像专用 NPU 那样受限于特定模型或功能,这使其能够灵活适配未来不断演进的 AI 用例。从这个角度来看,SME2 的意义不在于“数字有多大”,而在于它为端侧 AI 提供了一种更敏捷、更适应未来的计算方式。
在C1 CPU的设计中,Arm不仅追求峰值性能,还为不同层级的设备提供了灵活的选择:C1-Ultra代表着旗舰级的极致性能,相较上一代Arm Cortex-X925 CPU,C1-Ultra在单线程峰值性能上提升了25%,并保持了Arm连续六年实现两位数IPC增长的势头,这得益于更宽的微架构、更高效的前端设计和优化的预取器;与此同时,Arm C1-Premium在面积上较C1-Ultra缩小了35%,却能保持接近的性能水平,展现了次旗舰的平衡优势;Arm C1-Pro则侧重持续能效,相比Cortex-A725,在游戏等高负载任务中表现出色,相同主频下持续性能提升16%,在视频播放、网页浏览及社交媒体等用例中能效提高多达12%,优势更为突出;针对空间受限的可穿戴设备,Arm C1-Nano以极小的面积实现了比Cortex-A520更高的能效,是轻量级场景的理想选择。配合全新的DSU,整个CPU集群在能效、带宽和扩展性上全面进化,为从旗舰智能手机到中端设备、再到可穿戴产品提供了统一而灵活的计算基座。
换句话说,当新一代智能手机上市时,用户会自然发现自己的语音助手更灵敏、相机处理更智能,而这一切的底层驱动力,来自Arm C1 CPU内建的AI加速能力。
如果说CPU为AI提供了通用的灵活性,那么GPU则是另一块关键拼图。Mali G1-Ultra是Arm Lumex CSS平台中的图形核心,它不仅是Arm GPU的新旗舰,也是一款将AI与游戏体验深度融合的处理器。与上一代 Arm Immortalis-G925 GPU相比,G1-Ultra在AI与机器学习网络上的推理性能上提升了20%,在光线追踪性能上更是提升了两倍。James McNiven强调:“Mali G1-Ultra重新定义了移动GPU的边界。它通过全新的Arm 光线追踪单元RTUv2,实现了桌面级别的光照与反射效果,同时在能效上保持优势。”
在手游玩家达到全球83%游戏人口、年均时长突破3,900亿小时的背景下,图形体验的重要性不言而喻。而如今,用户不仅希望获得更高的帧率与更逼真的画面,还希望在使用AI驱动的应用时同样流畅。Mali G1-Ultra在这方面进行了并行优化。新的FP16矩阵计算路径让GPU可以同时承担图形渲染和AI推理,大幅减少内存瓶颈,实现实时的响应。例如,在热门游戏《原神》中,G1-Ultra带来17%的性能提升,而在语义分割、深度估计、语音识别等AI任务中,其性能提升高达104%。
这意味着,未来的智能手机不再需要在游戏体验与AI功能之间做取舍。用户可以在运行大型游戏的同时,享受到AI相机实时优化画质,或是后台运行智能语音助手,而设备依旧保持流畅。这种无缝体验,正是Arm Lumex CSS平台追求的方向。
值得注意的是,Arm并不仅仅停留在CPU与GPU的单点突破上,而是从系统层面做了全盘优化。Arm Lumex CSS引入了新的系统互连SI L1和系统内存管理单元MMU L1,以消除计算与推理任务中的带宽瓶颈。通过面积效率更高的系统级缓存设计,泄漏功耗降低了71%,大幅减少了待机功耗,为设备续航释放更多空间。在制程上,Arm Lumex CSS平台的CPU与GPU已经针对3纳米节点做了物理实现优化,确保合作伙伴能够在先进工艺上快速流片成功。
对开发者而言,Arm Lumex CSS平台同样是一份“即插即用”的答卷。Arm为其配套了完整的Android16就绪软件栈,以及KleidiAI库和全新遥测工具,方便开发者在设备上市前就进行应用优化。James McNiven解释道:“我们的目标是让开发者无论在使用Google、Meta或阿里的AI框架时,都能直接调用SME2与Mali G1-Ultra的性能优势。这不仅提升了开发效率,也让创新成果更快触达用户。”
从产业的视角看,Arm Lumex CSS 平台的推出正是对当前移动终端AI发展趋势的呼应。用户对于智能化、个性化体验的期待正急速上升,而OEM厂商和应用开发者则承受着更短的产品周期与更严苛的性能要求。通过将CPU与GPU的创新,与系统级的优化、软件栈的支持结合,Arm试图提供一个完整的解决方案,而不是零散的硬件拼图。这种思路也正契合整个行业的走向:AI已经成为基础设施,平台的开放性与生态的成熟度,才是真正的竞争力所在。
写在最后
Chris Bergey 在演讲中用了一个形象的比喻:孩子第一次接触屏幕时,会本能地去触摸,因为他们理所当然地认为屏幕应该会有回应。AI 也正在走向这样的轨迹——今天看起来神奇的功能,很快就会成为人们最基本的期待。换句话说,未来用户不会再问手机能不能做 AI,而是理所当然地认为它必须能做到,而且要做到快速、自然、无缝。
这正是未来十年移动终端发展的关键逻辑。AI 不再是点缀,而会像触摸屏一样成为“标配”。在这种趋势下,谁能为端侧 AI 打造更高效、更强大的计算基础,谁就能在下一轮竞争中占据先机。
Lumex CSS平台的推出,就是 Arm 提前给出的答案。Arm C1 CPU 通过 SME2 加速,让 AI 运算渗透到语音助手、相机处理、实时交互等每一个细节;Mali G1-Ultra 则把图形与智能体验结合起来,让用户不必在游戏性能和 AI 功能之间做选择。从底层架构到能效优化,从开发工具到生态支持,Arm Lumex CSS平台提供的是一整套面向未来的解决方案。
随着基于Arm Lumex CSS 平台的设备陆续上市,用户将更直观地感受到端侧 AI 的力量。手机不再只是通讯和娱乐的工具,而会成为真正的“智能伙伴”——能理解语境,能主动提供帮助,也能在关键时刻给出即时响应。而这,正是 AI 优先时代最具想象力的图景。