5T 算力 BPU x 14 亿参数 LLM，地平线旭日 3 成功部署大语言模型

Uploads%2farticles%2f16184%2f%e5%9b%be%e7%89%871

最新动态 |

2023-09-12

5T 算力 BPU x 14 亿参数 LLM，地平线旭日 3 成功部署大语言模型

为大模型在端侧实现产品级应用拓展了更广阔的想象空间。

达达

近日，地平线成功在旭日 3 中的 BPU®️计算单元上，部署运行参数规模高达 14 亿的大语言模型（Large Language Model , LLM）。

这不仅是业界在端侧成功部署大模型的一次突破性实践，更验证了 BPU®️对先进神经网络算法的高效支持，为大模型在端侧实现产品级应用拓展了更广阔的想象空间。

大模型端侧部署的技术实践对加速智能化产业变革具有重要意义。

端侧部署具备实时性、低时延优势，能够灵活支持弱网或无网等丰富场景，为终端用户提供更流畅、稳定的交互体验；同时端侧支持信息本地化处理，可有效保护用户数据与隐私安全；端侧计算还将大幅缓解云端算力压力，端云协同更会驱动产业降本提效，加速实现大模型技术的应用普惠。

然而，大模型端侧推理部署仍面临巨大挑战。

区别于云端推理部署计算资源应用尽用，端侧部署大模型并实现产品级应用，则需综合考量不同应用间的计算资源分配，以及计算效率、带宽占用与功耗等各项指标。如何在众多约束条件下最大程度地提高大模型端侧推理效率是面临的首要技术挑战。此外，推理过程将大量占用内存带宽，如何在不影响推理结果的前提下减少内存访问，降低带宽依赖，进而减少推理耗时，则需要在软件工程层面进行系统优化。

作为软硬协同技术路径的坚定践行者，地平线通过硬件资源的最大化利用和软件工程的极致优化，并成功在 5 TOPS 算力的边缘计算芯片上部署高达 14 亿级参数的大语言模型。

这源于旭日 3 所搭载的双核 BPU®️伯努利计算单元对神经网络计算的原生性支持，能够在处理大语言模型方面提供高性能、低功耗的计算处理能力。另一方面，地平线通过软硬协同编译，采用算子重写、算子重排、算子融合和 KV-Cache 等技术，进一步优化了模型结构，实现推理速度的成倍提升。

从资源占用情况看，该大语言模型在旭日 3 上的应用效果表现优异，CPU 占用单核 60%、BPU 占用单核 50%，为后续其他应用预留充足的算力资源；同时在 5GB/s 内存带宽基础上实现了约 4~5 字/秒的生成速度，可充分满足实时性需求；在最能体现真实效能的 FPS/Watt 指标上，该模型的运行效能相较于 LLaMA.cpp 等纯 CPU 方案提升了 2.5 倍。这也意味着，旭日 3 对此大预言模型的支持性可达到产品级应用水平。

地平线现已通过 GitHub 开放该模型的推理代码，开发者可通过 RDK X3 系列开发者套件，即刻前往「NodeHub 全开源机器人应用中心」推荐项目（https://developer.horizon.cc/nodehubdetail/181982806623334400），尝鲜体验大语言模型在旭日 3 上的实际运行效果，更期待各位开发者参与「星光之路」活动，一同探索大模型在旭日 3 的上层应用落地！

编辑：达达 / 深圳湾

地平线