年内出货 10 万台眼镜,聚焦商旅出海,李未可先 AI 再硬件

Chris Bergey:从云端到边缘,Arm 推动端侧 AI 规模化落地
2025 年,Arm 架构将占据超过 40% 的 PC 和平板整体出货量和 50% 头部超大规模云服务提供商算力。
在 2025 年台北 COMPUTEX 展会前夕,Arm 高级副总裁兼终端事业部总经理 Chris Bergey 做了题为《从云端到边缘:在 Arm 计算平台上共筑 AI》的主题演讲。
Chris Bergey 指出,人工智能正以前所未有的速度重塑科技,成为人们日常生活中不可或缺的一部分。Arm 计算平台正处于这场变革的核心。基于 Arm 架构的芯片出货量迄今已累计超过 3,100 亿颗,广泛应用于消费电子设备、AI 汽车以及 AI 优先的数据中心。AI 正从云端加速向边缘终端渗透,Arm 正在推动端侧 AI 规模化落地,通过三大核心优势布局全域 AI 生态:
技术平台:构建云端到边缘的统一架构,支持 AI 负载无缝迁移。代号 Travis 的新一代 Armv9 旗舰 CPU 将实现两位数 IPC 提升,并首次集成可伸缩矩阵扩展(SME),专为 AI 加速设计。
能效优先:AI 算力需求爆发式增长使「每瓦性能」成为关键指标。在数据中心,基于 Arm 技术的 Graviton 带来了超过 40% 的能效提升。预计 Arm 架构将占据半数 2025 年出货到头部云服务提供商的算力。
生态协同:超 2200 万人、也是全球最大的开发者生态,安装量超过 80 亿的软件库 Kleidi(一套面向 AI 框架开发者的计算内核,可以让开发者能在各种设备上轻松获得 Arm CPU 上的最佳性能)形成飞轮效应,覆盖手机(2025年占PC/平板出货40%+)、汽车、IoT等场景。Arm 目前拥有全球最大的开发者生态,汇聚了超过 2,200 万名软件开发者。去年推出了 Arm Kleidi 已累计超过 80 亿次安装。预估在 2025 年,Arm 架构将占据超过 40% 的 PC 与平板整体出货量。开发者仅需一次开发,就能在整个半导体生态系统中众多采用 Arm CPU 的 SoC 上运行。

Chris Bergey 不仅在主题演讲中精彩呈现了这场快速发展的 AI 变革,还与两家关键合作伙伴——联发科技与 NVIDIA 的高层主管进行了深入对话。会后,Chris Bergey 还前往北京,与媒体记者做了一番交流,深圳湾也参与了这场交流活动。
以下是 Chris Bergey 的演讲和交流内容精华,根据阅读需要,略有整理和标注。
Chris Bergey:人工智能 (AI) 的发展无处不在,这正是我们所观察到的趋势。AI 将渗透到我们生活中的方方面面、渗透进众多不同行业与经济体。仅回顾过去一年中所发生的变化,其发展速度之快令人惊叹。
正因如此,AI 模型正变得更加智能。并且它们的规模也在各个方面变得更小且能力更强。这是由于所需计算量的变化以及模型本身的演进,正在真正推动端侧 AI 的发展。而且,这一趋势已经远远超出了智能手机的范畴。

一年前经常会被问及的一个问题是:端侧 AI 真的会实现吗?现在已经基本没有这样的疑问了,因为我们正在亲眼见证计算量的增长,以及在各个场景中部署 AI 所带来的巨大机遇。
此外,我们还开始看到 AI 智能体的出现,以及由实体 AI 衍生的新机遇。具体而言,在 AI 智能体方面,已经出现了一些非常有趣的应用场景和非常成功的商业项目或初创公司。其中两个颇受关注的领域是:第一,利用 AI 进行编程、代码审查和修改;第二,利用 AI 提升客户支持与客户服务。在这两个领域中,一些初创公司正迅速成长,在员工人数不到 100 人的情况下快速实现一亿美元的营收。
显然,实体 AI 也蕴藏着巨大的机会。我们已经看到机器人技术开始在多个领域得到应用,比如机器狗、配送机器人、扫地机器人等。这些设备在某种程度上已经实现了自主运行,但很难说它们已经达到了与人类操作相当的智能水平。不过,在接下来的一到三年内,我们很快就会迎来这样的转变:当这些设备处于自主模式运行时,其表现将能够媲美人类操作。这将带来巨大的发展机遇。
从构建 AI 系统的基础要素来看,我们认为有三个关键因素:首先,从云端到边缘打造一个无处不在的平台将具有极大的价值。因为很多时候 AI 是在端侧运行的,但在某些情况下,又希望能够将工作负载转移到云端。因此,拥有一个高度且可移植的平台,对于推动先进技术及产品的实现,以及为现有产品增加新功能,都是非常有价值的。
第二个关键点是电力和每瓦性能。AI 催生了巨大的机遇,但同时也极为耗电。在数据中心,我们已经看到其能耗从兆瓦级 (MW) 跃升至吉瓦 (GW) 级,而其中超过 50% 实际上来自于机架和半导体设备。因此,在 AI 赋能的世界里,虽然存在巨大的发展潜力,但也需要海量的计算能力,这意味着「每瓦性能」可能是最关键的衡量指标。
虽然为 AI 构建硬件颇具挑战性,但软件同样至关重要。Arm 目前拥有全球最大的开发者生态,汇聚了超过 2,200 万名软件开发者。与此同时,基于 Arm 架构的芯片出货量迄今已累计超过 3,100 亿颗。这种规模带来了一个良性循环:大量的基于 Arm 技术的设备推动了丰富的 Arm 软件生态,而强大的软件生态又进一步催生了更多硬件的发展机会。


我们在去年推出了 Arm Kleidi,旨在提供一个 AI 软件库,能够让 AI 工作负载在最新的 Arm CPU——也就是 Armv9 架构上加速运行,同时也具备面向未来的可持续性。目前我们已经看到 Kleidi 在多个市场中得到了广泛应用:迄今为止,Kleidi 已累计超过 80 亿次安装,且仍在持续增长中。Kleidi 也与许多全球主流的 AI 框架进行集成,包括国内的腾讯混元的 Angel 机器学习框架。

Arm 在终端设备和边缘侧的应用已为大家所熟知。与此同时,我们也一直强调在数据中心领域布局,并已在这个领域深耕十多年之久。因此,不仅仅是边缘侧的 AI 软件运行在 Arm 架构之上,数据中心中的 AI 也将基于 Arm 架构运行。
譬如,全球最大的云服务提供商亚马逊云科技 (AWS) 去年秋季就曾分享,他们有相当一部分自身的工作负载是运行在基于 Arm 架构的 AWS Graviton 处理器上。
而这不局限于 AWS 的内部工作负载。AWS 还曾分享,其超过 90% 的重要客户(不包括 Amazon)也在使用 Arm 的先进架构,并受益于 Arm 技术的卓越能效。这些客户都是业界耳熟能详的企业。这意味着,过去两年,AWS 新部署的 CPU 算力中,有超过 50% 是基于 Arm 技术的 Graviton。

最初,云服务提供商自身的第一方工作负载迁移至 Arm 平台,随后,第三方工作负载也纷纷转向 Arm 平台,这为头部云服务提供商带来了超过 40% 的能效提升 。基于这样的发展势头,我们预计 Arm 架构将占据半数 2025 年出货到头部云服务提供商的算力。
回到边缘侧,Arm CPU 在该领域占据举足轻重的地位,被广泛应用于各种主流操作系统 (OS) 的边缘计算设备中。得益于此,近年来,Arm 架构在 PC 与平板市场的需求也大幅增长,因此我们预估,在 2025 年,Arm 架构将占据超过 40% 的 PC 与平板整体出货量。

回顾近期市场上推出的一系列平台,这些平台都是基于我们在去年此时发布的 IP 所打造的。其中有一个产品我想重点介绍一下,那就是 NVIDIA DGX Spark,它搭载了 10 个 Arm Cortex-X925 核心和 10 个 Cortex-A725 核心,并配备了可实现高达 1 PetaFLOPs(即每秒 10^15 次浮点运算) AI 性能的 GPU。这是一种将数据中心级别的计算能力带到了桌面级产品。

作为 AI 领域的领导者,NVIDIA 不仅在边缘侧通过 Arm技术进行 AI 计算,同时也将其数据中心产品转向 Arm 架构。比如在 Grace Blackwell 等产品中,NVIDIA 将基于 Arm 架构的 CPU 与 GPU 紧密耦合,针对 AI 所需的带宽和 I/O 密度进行了深度优化,从而实现了更高效的计算性能。
在中国手机市场,Arm 正在为众多的生态合作伙伴(如 MediaTek)提供最前沿的 CPU 和 GPU 技术,并且这些合作伙伴正与众多一线手机厂商携手,将搭载 Arm 技术的优秀手机产品推向市场。
而这些获得高度认可的手机产品,均是基于我们一年前发布的计算平台打造而成,其中包括 Arm Cortex-X925。我们曾强调,Cortex-X925 具备业内最高水平的 IPC 性能。这一点至关重要,因为 IPC(每时钟周期指令数)与频率的乘积决定了整个平台的性能。相较于单纯依赖提高频率来提升性能,提升 IPC 可以更高效地实现性能的增强,同时还能显著改善能耗表现。对于移动终端设备而言,控制功耗无疑是一个关键考量因素。

虽然我们今天不是要发布新产品,但我可以提前透露的是,我们将在今年晚些时候推出新的 Armv9 旗舰 CPU(代号Travis)。届时,在目前业内 IPC 性能最高的 Arm 处理器基础上,再次实现两位数的 IPC 性能提升。

此外,这也将是第一代引入 Armv9 可伸缩矩阵扩展 (Scalable Matrix Extensions) 的处理器。该扩展功能是专门为加速 AI 工作负载而设计的,并将成为安卓生态系统中最先进的可伸缩矢量扩展实现。
Arm 在 GPU 方面也持续进行大量投入,并迅速被中国生态系统视为手机高性能 GPU 的领先提供商。今年我们还在此基础上加入了 Arm 精锐超级分辨率技术 (ASR),使用户能够在移动设备上实现游戏主机级画质和游戏体验。
从云端到边缘,Arm 正在处于一个非常令人振奋的发展时期。Arm 的生态系统合作伙伴亦是如此。尤其是那些基于 Arm 架构、将最先进产品推向市场的中国合作伙伴,他们正迎来一个激动人心的新时代。
我们相信 AI 的未来前景广阔,而这个未来将由 Arm 及其合作伙伴共同打造,包括我们在中国市场的重要合作伙伴。
媒体问答
提问:AI 推理功能在今年会加快落地,目前已有手机厂商提出在手机中嵌入复杂的智能体。从智能手机的角度,这些更旺盛、复杂的端侧 AI 推理需求会给 Arm 提出什么新挑战?
Chris Bergey:AI 能力的确将持续提升。这对 Arm 而言意味着更大的机遇。当前的很多讨论都集中在模型的构建和训练上。但现实情况是,在构建好模型之后,推理才是实现 AI 商业价值的唯一方式。因为正是推理赋予了 AI 智能性,包括让机器人做出正确决策,让手机比预想得更智能。事实上,训练当今世界上最大规模模型所需的计算量,大约是推理所需的10 的 11 次方倍。举例来说,全球每天的网页搜索次数大约是 10 的 10 次方。也就是说,需要把全球十天内的所有搜索量加起来,才能抵得上训练一个这样的模型所需的计算量。由此可以想象,我们需要运行多少推理,才能让投入训练的计算资源实现商业回报。
提问:近期有 140 美元以内价位且带有 AI 功能的智能手机进入市场,Arm 如何看待将 AI 能力下沉到更低价的手机中,这对 Arm 来说会带来什么新需求?
Chris Bergey:毋庸置疑,AI 会越来越多地应用到入门级产品中,主要原因如下:第一,AI 在 Arm CPU 和 GPU 上都能很好地运行,而这些硬件覆盖了各个价格区间。第二,AI 将为这些用户带来巨大的价值。设想在新兴市场,一部能运行大语言模型 (LLM) 的手机,将能让从未接触过专家指导的人群获得教育机会。这将带来巨大的经济潜力,不仅有助于抵消本地部署 AI 的成本,还会激发用户对更强大 AI 的需求。
提问:Arm 预计在 2025 年,出货到头部超大规模云服务提供商的算力中,有近 50% 是基于 Arm 架构,同时在 PC 与平板方面,预估在 2025 年将占整体出货量的 40%。这一成绩是否在 Arm 的预期之内?在这个过程中,相比目前的竞争对手(比如 x86),您认为 Arm 的哪些优势推动了这一进程?
Chris Bergey:数据中心和 PC 此前是 Arm 架构普及程度相对较低的领域。x86 架构过去长期在数据中心占主导地位,如今我们预测在 2025 年,出货到头部超大规模云服务提供商的算力中,有近 50% 是基于 Arm 架构,这将是一个巨大的成就,我们对此深感自豪,这也确实让行业感到惊讶。而推动这一增长的,正是云计算的发展,如今 AI 计算也成为强劲驱动力。

我们对在 PC 和平板领域这些过去由 x86 主导的市场所取得的进展也感到满意。Arm 架构在 PC 与平板市场的需求大幅成长,预估在 2025 年将占整体出货量的 40% 以上。而在智能手机、物联网和汽车等其他市场,Arm 的普及程度显然要高得多。Arm 的真正优势在于我们在全球范围内有超过 2,200 万名的软件开发者。几乎所有重要的软件开发不仅能在 Arm 架构上运行,而且都针对 Arm 架构进行了优化。再加上 Arm 架构本身的设计及商业模式,开发者仅需一次开发,就能在整个半导体生态系统中众多采用 Arm CPU 的 SoC 上运行。
提问:关于刚才提到的近 50% 这一数据,是否其中绝大部分还是 NVIDIA Grace Hopper 或其下一代架构使用 Arm 的 CPU?
Chris Bergey:AWS 此前表示,在他们去年部署的 CPU 中,超过 50% 是基于 Arm 处理器的。此外,几乎所有主要的云服务提供商都已经打造了基于 Arm 架构的自研芯片,这实际上是推动 Arm 出货量快速增长的主要动力。
与此同时,数据中心的发展正逐步从通用计算向 AI 计算转型,领先的 AI 平台也正基于 Arm 架构优化,比如 NVIDIA Grace Blackwell 和Vera Rubin 以及许多云服务提供商的自研加速器。这些加速器无论是用于训练还是推理,通常都会与 Arm 处理器配合使用,因为在芯粒层级,它们之间可以实现紧密耦合,从而带来卓越的计算密度、I/O 密度和带宽表现。
提问:在 COMPUTEX 上,NVIDIA 发布了 NVLink Fusion,这对 Arm 有何影响?另外,Arm 在 ASIC 芯片方面有什么计划和进展?
Chris Bergey:我想强调的是,数据中心的未来将是 Arm 计算与加速器的紧密耦合。而这一趋势在很大程度上是建立在 Arm 生态系统之上的。整个行业在不断推动 Arm CPU 与加速器的紧密耦合,这正代表了未来的发展方向。
事实上,在今年的 COMPUTEX 演讲中,我提及了 NVIDIA CEO 黄仁勋早在 2021 年的 GTC 大会上就已经提出的观点——他指出,传统的 x86 架构及其 I/O 设计并不适配 AI 计算,这也是他们转向 Grace 架构的原因。这俨然成为一种趋势——NVIDIA 及云服务提供商都在基于 Arm 架构运行 AI。
提问:当我们提到移动端 AI 时,更多谈论的是 GPU 和 NPU,请您介绍一下 Arm 怎么看 CPU 在终端 AI 方面扮演的角色和作用?
Chris Bergey:我们通常以异构计算的角度去思考边缘 AI 计算,这包括 CPU、GPU 和 NPU 之间的协同运作。目前 NPU 较受关注,主要因为它是新兴技术,并且在每瓦特算力方面具有显著优势。但与此同时,NPU 在软件开发生态和灵活性方面也面临不小的挑战。我们实际观察到,开发者在进行 AI 开发时,会根据具体需求来决定是在 CPU、GPU 还是 NPU 上运行。大多数第三方应用实际上都是在 CPU 上进行 AI 开发的,其中有 70% 会始终运行在 CPU 上,而不会迁移到 GPU 或 NPU,当然也有不少应用借助 GPU 进行加速。
这一切都在不断演进中,我们坚信异构计算是未来的发展方向,因为 AI 工作负载本身也在持续变化。我们之前也谈到过对 AI 的预期,实现这些预期需要多种计算单元的协同。因此我们才会在 CPU 和 GPU 的研发上投入如此之多,确保它们在 AI 任务中具备强大的性能,包括在软件层面 Kleidi 上的投入,以及现在在可伸缩矩阵扩展 (SME) 方面的推进。
提问:请问大模型部署在云、边缘以及在手机移动终端上,对于硬件的要求有何不同?
Chris Bergey:对于大语言模型而言,有两个关键考量。一方面是算力,另一方面是内存占用和内存带宽。我认为这两方面是云端与终端设备之间最大的区别之一,因为大语言模型对内存(特别是 DRAM)造成了很大压力。
提问:有看到 Arm 和云服务提供商合作研发定制处理器,请问 Arm 会给芯片设计公司具体提供哪些支持来应对现在的 AI 计算新趋势?
Chris Bergey:Arm 的大部分业务实际上是向整个行业提供标准化产品和平台解决方案,比如标准化 IP 模块,这些模块被集成到各种不同的 SoC 中,应用于各个细分市场。正是通过这种方式,Arm 技术才能在半导体行业得以广泛采用。
当前,随着AI 的快速演进,芯片设计变得越来越具有技术挑战性,成本也越来越高;产品的上市时间变得愈发关键,其重要性甚至与技术本身相当。此外,由于摩尔定律放缓,设计过程中对工艺的定制化需求也持续增长。这也是 Arm 推出计算子系统 (CSS) 的原因之一。通过 CSS,我们为从云端、汽车到终端等不同细分市场的合作伙伴提供计算子系统,帮助合作伙伴有效提升性能、降低成本,并加快产品上市周期。但 CSS 仍然是标准化产品,而非定制化业务。Arm 的主要业务仍然是提供标准化的平台解决方案。
提问:之前我们看到 Arm 在 GPU 方面的进展更多是在端侧,目前有计划扩展到数据中心吗?
Chris Bergey:目前,我们关注的重点是在边缘侧的 GPU,Arm 针对物联网和终端市场中都有相应的 GPU 产品,我们在这方面投入了大量资源。同时,我们也在汽车领域的 GPU 进行了大量投入。但目前,我们尚未针对数据中心中的 GPU 进行投入的计划。
提问:在端侧 AI 中,如果要在降低功耗的同时更好地平衡算力和能效,需要在芯片设计方面做好哪些准备?
Chris Bergey:有以下几个关键因素:第一是内存带宽;第二是确保我们在平台中集成的是最强大、最具灵活性的硬件。因为 AI 的发展速度非常快,从开始设计到产品上市往往需要一到两年时间,而这期间 AI 模型可能已经发生了巨大变化。正因如此,CPU 和 GPU 有时反而能优于一些专用硬件加速器,因为它们在应对变化需求方面更具灵活性。所以,核心要素在于内存、内存带宽,以及设计上的灵活性。第三个关键因素是软件。AI 软件开发非常具有挑战性。比如,一些初创公司一开始可能是 50 名硬件工程师与 50 名软件工程师一起开发 AI 加速器。十八个月后,硬件工程师人数依然是 50 人,但软件工程师已经增长到了 300 人。如果没有成熟的软件及其生态系统,要跟上所有行业标准和各种 AI 框架,将会是一项非常繁重且具有挑战性的工作。
附:Chris Bergey 简介

△ Chris Bergey:Arm 高级副总裁兼终端事业部总经理
Chris Bergey 现为 Arm 高级副总裁兼终端事业部总经理,他负责带领终端事业部定义计算平台,为智能手机、元宇宙、游戏以及笔记本/平板电脑等市场塑造用户体验。此前,他曾负责 Arm 基础设施事业部。
在加入 Arm 之前,Chris 在西部数据公司 (Western Digital) 担任设备产品高级副总裁,负责该公司在数据中心、终端、移动、车用与 IoT 领域的硬盘与闪存等营收超 100 亿美元的产品管理与产品市场营销。
Chris 拥有美国德雷克塞尔大学 (Drexel University) 电子和计算机工程理学学士学位以及马里兰大学史密斯商学院的 MBA 学位。
编辑:晓月 / 深圳湾