在 AI phone 成为智能手机行业的下一个主流方向后,端侧 AI 成为了从 「通信工具」 向 「智能体」 迭代的关键底座。
简单来说,端侧 AI 就是指将 AI 模型与算力集成到智能手机本地 (如 NPU、CPU+GPU 异构计算单元),实现数据的本地采集、处理与决策,而非依赖云端服务器。
其核心特征可概括为四点:低延迟(本地处理无需网络传输,响应速度达毫秒级)、高隐私(数据存储与计算均在设备端,杜绝泄露风险)、离线可用(无网络环境下仍能执行智能任务)、个性化(通过本地学习适应用户习惯,提供定制化服务)。
而作为整个智能手机芯片的最上游供应商——Arm,也开始将 Arm 架构的升级方向聚焦到端侧 AI。目前全球 99% 的智能手机都采用 Arm 架构,基于 Arm 架构的芯片出货量迄今已累计超过 3100 亿颗。
Arm Unlocked AI 技术峰会上海站期间,Arm 推出了全新的 Arm Lumex 计算子系统 (Compute Subsystem,CSS) 平台。Arm 方面称,这是一套专为旗舰级智能手机及下一代个人电脑加速其人工智能 (AI) 体验的计算平台。
搭载 SME2 技术的 CPU,AI 性能提升五倍
新的 CPU 架构中,Arm 发布了搭载 SME2(第二代可伸缩矩阵扩展技术) 的 Arm C1 CPU 集群。
「SME2 是 SME 的新一代版本。第一,它新增了更多指令集,可进一步提升性能和能效。第二,它支持更小的数据类型——具体而言是 2 bit 和 4 bit。」
Arm 终端事业部产品管理副总裁 James McNiven 表示,随着每年高度量化模型的不断增多,这类小数据类型在移动生态系统中的重要性正日益凸显。这也是我们重点将 SME2 整合到 Arm Lumex 平台中的原因所在。
Arm C1 CPU 集群为实际场景中的 AI 驱动型任务带来了显著的 AI 性能提升,包括:AI 性能提升高达五倍,语音类工作负载延迟降低 4.7 倍,音频生成速度提升 2.8 倍。
此外,通过 Arm、支付宝与 vivo 的三方合作下,将大语言模型 (LLM) 的交互响应时间缩短了多达 40%,证明了 SME2 可为终端设备带来更快速的实时生成式 AI 体验。
除了速度的提升,在搭载 SME2 的单个核心上运行神经摄像头降噪功能,可以在 1080P 分辨率下实现帧率超 120 帧/秒 (fps),或在 4K 分辨率下实现帧率达 30fps。这使得智能手机用户即使身处光线最暗的场景,也能捕捉到更锐利、清晰的图像。
「我想强调的是,由于 SME2 直接集成到了 CPU 当中,在工作负载的支持上能起到高度可扩展性。这意味着,SME2 带来的 AI 功能不仅能应用于 4000 元以上的高端手机,还能下沉到 2000 元等不同价位段的手机中,最大幅度地推广 AI 技术落地。」Arm 高级副总裁兼终端事业部总经理 Chris Bergey 表示。
Mali GPU,让 AI 推理性能提升最高 20%
CPU 之外,全新的 Arm Mali G1-Ultra GPU 则搭载了新一代光线追踪单元 RTUv2。
与前一代 Arm Immortalis-G925 GPU 相比,Mali G1-Ultra 的光线追踪性能提升高达两倍,并在主流图形基准测试中,性能表现提升 20%。在 AI 方面,通过新的 FP16 矩阵计算路径,该 GPU 在 AI 与机器学习网络上的推理速度比 Immortalis-G925 快 20%。
在边缘计算方面,Mali G1-Ultra 引入新的矩阵乘法单元 (MMUL) FP16 指令,可加速如语义分割、去噪、深度估计、物体检测、语音识别和图像增强等端侧关键 AI 工作负载。与上一代 Immortalis-G925 相比,其性能提升高达 104%。
Arm 提供的数据显示,目前搭载 Arm GPU 的芯片累计出货量突破 120 亿颗。
「AI 已不再仅仅是一项技术功能,它已成为下一代移动与消费技术的支撑底座。依托 Arm Lumex 平台,我们持续提升端侧 AI 体验,以满足用户日益增长的需求与期待。」
Arm 高级副总裁兼终端事业部总经理 Chris Bergey 表示,从出货量角度来看,手机行业的增长已趋于平缓。但是,我们仍处于 AI 发展的初期阶段,尤其是在手机领域,AI 正推动着更高的计算需求,并创造全新的价值。
此外,Chris Bergey 还强调领先的手机厂商——无论是苹果还是三星——都已不同程度地朝着自研芯片的方向发展。这实际上是整个泛半导体行业所面临的趋势,Arm CSS 平台正是顺应这一趋势而生。
「我们提供一个经过验证的计算基础,让客户能够以相对较低的成本实现自身所需的定制化。」
Chris Bergey 称,Arm CSS 平台真正的价值并非是 「做出比 Arm 工程师设计的更优秀的 Arm CPU」,而是客户通过在 Arm 平台基础上构建自己的 SoC,额外创造更大的商业价值。(本文首发于钛媒体 APP,作者 | 饶翔宇 编辑 | 钟毅)