Uploads%2farticles%2f11766%2fai chips teaser

深度特稿 |

2017-09-01

从 GPU、FPGA 到 ASIC，后摩尔定律时代下 AI 芯片领域会产生哪些独角兽公司？

虽然 IC 产业整体落后于美国，但在 AI 领域国内仍有弯道超车的机会。

孔令双

AI 芯片作为上游产业以及人工智能的硬件基础，有着很高的技术壁垒，同时也有着巨大的产业价值和战略地位。从近期 IC 行业新闻中可看出，不少科技公司已经开始暗自布局 AI 芯片产业，甚至已经取得了一定的成果。

两周前，孵化自中科院计算所的 AI 芯片创业公司寒武纪完成一亿美元 A 轮融资，由国投创业（A轮领投方），阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点（天使轮领投方）、涌铧投资（天使轮投资方）联合投资。

8 月 29 日，英特尔推出新一代视觉处理芯片（VPU） Myriad X 。Myriad X 是全球第一个配备专用神经网络计算引擎的芯片上系统芯片（SoC），据悉，该芯片可能会用于无人机、机器人、自动驾驶等新兴领域上。

从华为官方 Twitter 放出的消息来看，华为很可能在 AI 芯片上有所动作

华为也将于 9 月 2 日，在 IFA 2017 展会上推出 AI 芯片，据说这块 AI 芯片就是打算在九月底发布的麒麟 970，并且该芯片会用在华为 Mate 10 手机中。

另外，据知名数码博主孙昌旭爆料，目前高通骁龙 800 与 600 平台可以通过软件升级支持神经网络计算。

......

在传统冯诺依曼结构中，CPU 每执行一条指令就需要从存储器中读取数据。在人工智能环境下，数据爆炸式增长，而内存读取速度有限的情况下，CPU 大量的功耗就将花费在数据的读取上，从而限制住处理器的性能。

所以在人工智能场景下，芯片应该具有更加有效且庞大的计算能力，以应对人工神经网络运算所带来的海量数据，所以才会有如此多的科技公司热衷于研发 AI 芯片。

为了应对不同 AI 应用场景下的需求，目前 AI 芯片领域分为几个流派，主要有以下几种：

并行计算能力和功耗一样高的 GPU

GPU 通常用在 PC、工作站、游戏机、智能手机等数码设备上，用于做视频或者图形的处理。在进行图像处理时，每个像素点都需要被运算，这是一个相当大的数据，而 GPU 强大的并行计算能力能很好地满足计算需求。

通常来讲，神经系统网络的深度越深，需要的训练时间就越长，若采用传统串行运算的 CPU 来训练的话，可能要花数月，甚至数年的时间。而 GPU 的控制相对简单，内部大部分的晶体管可以组成各类专用电路、多条流水线，使得 GPU 的计算速度远高于 CPU，并拥有了更加强大的浮点运算能力，从而可以缓解深度学习算法的训练难题，释放人工智能的潜能。这也是为什么 GPU 成为最流行的 AI 芯片的原因。

从 CPU 和 GPU 内部结构来看，CPU 结构复杂，GPU 结构相对简单，没有 Cache，运算单元众多

英伟达作为 GPU 巨头，占据了七成的 GPU 市场份额。过去一年里英伟达已经参与了超过 4 万家公司和 50 万名开发者对神经网络应用的研究，这也让英伟达的股价在过去一年的时间里疯涨了 300%。在今年的 GTC 上，英伟达 CEO 黄仁勋没有一句提到游戏，满嘴都是「AI」和「深度学习」，他表示：「我们要在后摩尔定律时代找到出路，而 GPU 的快速崛起可以驱动人工智能的革命。」

为了让自家的 GPU 更加满足 AI 计算需求，黄仁勋宣布推出了一款专为 AI 和高性能计算打造的 GPU 架构 Volta。除了加强 GPU 架构，Volta 还增加了 640 个新的 Tensor 单元，与标准 CUDA 核心配合使用，峰值性能达到 120TFLOPS/s。黄仁勋说，英伟达动用了超过 7000 名工程师，并花费了 3 年的时间，才打造出了 Volta，足以显示英伟达深耕 AI 领域的决心。

但问题是，GPU 方案的功耗长期居高不下，英伟达高端显卡的功耗动辄 200W +，一旦大量开启，在散热一事上就会产生很多问题，黄仁勋「核弹教父」的「美誉」也是这样来的。另外，GPU 的价格问题，也是限制其在 AI 领域发展的重要因素。

「核弹教父」黄仁勋

可重新定义内部电路连接的 FPGA

GPU 能够并行处理海量的数据，因此其内部架构必须十分通用，这也就是说，它很难针对某个领域进行特殊优化。而日新月异的行业要求芯片能够处理新类型的计算任务。此时沉寂许久，硬件体系可以重构的 FPGA 重新回归人们的视线。

FPGA 芯片内部集成大量的基本的门电路，开发者可通 Verilog、VHDL 等硬件描述语言按照自己的需求重新定义内部门电路的连接，用更加通俗的话来讲，FPGA 像是一种「万能芯片」。

不同于 GPU 的运行原理，FPGA 是以门电路直接进行运算，硬件描述语言在执行时会被翻译成电路，所以在运算速度和功耗上，FPGA 具有很大的优势。由于 FPGA 低延迟、低功耗的特性，近年来，微软、百度等公司在自家的数据中心里大量部署 FPGA，详细信息可参考深圳湾的文章『CPU + GPU 搞不定的机器学习问题，微软用 FPGA 解决』，本文不再赘述。

FPGA 行业 90% 的市场份额都被赛灵思 Altera 所占领（后者已被英特尔以 167 亿美金的价格收购），总体来讲国内 FPGA 水平较弱，FPGA 从硬件到软件的研发流程需要长期的积累，但已有国内的初创公司用 FPGA 搭建神经网络深度学习方案，比如深鉴科技。

深鉴科技的主要团队

深鉴科技（DeePhi Tech）的团队成员主要来自清华大学和斯坦福大学，专注于深度学习处理器与编译器技术。旗下研发的 ESE 语音能识别引擎技术在 FPGA 领域顶级会议 FPGA 2017 上获得了最佳论文奖。该方案聚焦于使用 LSTM 进行语音识别的场景，结合独家的深度压缩（Deep Compression）技术、专用编辑器以及 ESE 专用处理架构，在中端的 FPGA 上可以取得 Pascal Titan X GPU 高 3 倍的性能，并将功耗降低 3.5 倍。

据悉，零度智控已经在其无人机产品 —— DOBBY 上采用深鉴科技的神经网络机器学习技术，能够实现物体以及行人的检测和实时跟踪拍摄、手势识别和人脸识别等功能。另外，深鉴科技还着眼于机器人、安防监控、数据中心领域，正在将技术全面应用于实际产品。

深度定制的 ASIC

不过，FPGA 依旧有它的局限性。首先，在延迟和功耗上 FPGA 要优于 GPU，但 FPGA 的峰值性能却不如 GPU。第二，FPGA 的编程难度很高，开发者不仅要有软件开发的能力，还要掌握数字电路的设计理论，两种技能都需要长时间的打磨和积累。基于上述原因，部分芯片公司将目光转向可以深度定制的专用集成电路 ASIC。

去年谷歌的 AlphaGo 和李世石的人机大战将人工智能带到了一个高潮，其中 AlphaGo 采用了 Google 自研的第二代 TPU，而 TPU 就是以 ASIC 的方式实现。

ASIC 全称为专用集成电路 (Application-Specific Integrated Circuit)，和 FPGA 不一样的是，FPGA 写完代码后就能够使用厂商提供的工具实现硬件加速，而设计 ASIC 还需要做大量的验证和物理设计，需要花更多的时间和资金。如果针对特殊场合（如军事和工业），ASIC 还需要更多时间进行特别的设计以满足需求。虽然设计的时间比较长，但 ASIC 加速器的速度会比用同样工艺 FPGA 加速器速度快 5 ~ 10 倍，在功耗上也远远优于 GPU，而且一旦量产后，ASIC 的成本会远远低于 FPGA 方案。

AlphaGo 中就采用了 Google 研发的 TPU

也正是因为其研发周期长，门槛高，导致做 ASIC 的风险太大，同时也可能因为赶不上市场的变化速度而陷入尴尬的境地。所以，很多业内人士知道 ASIC 的性能要高于 FPGA，却不敢轻易采用。

尽管研发 ASIC 需要承担很大的风险，但仍然有不少芯片公司不遗余力地推进 ASIC 的研究。

上文提到的寒武纪就是个中翘楚。寒武纪科技由创始人陈天石教授带领中科院团队成立于 2016 年，致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。公司研制了国际首个深度学习专用处理器芯片，不同于 Google 采用的通用处理器，寒武纪芯片专门面向深度学习技术。模拟实验表明，寒武纪芯片相对于传统执行 x86 指令集的芯片，有两个数量级的性能提升。

有消息称，华为 Mate 10 所搭载的麒麟 970 芯片，将嵌入寒武纪的人工智能 IP。

另外，2015 年创立的企业地平线机器人（Horizon Robotics）致力于打造基于深度神经网络的人工智能「大脑」平台，包括软件和芯片。软件方面，地平线机器人做了一套基于神经网络的 OS，已经研发出面向自动驾驶的「雨果」平台和面向智能家居的「安徒生」平台。在芯片方面，未来地平线机器人还会为这个平台设计一个芯片 —— NPU（Neural Processing Unit），支撑自家的 OS，到那时效能会提升 2-3 个数量级。

后摩尔定律时代，AI 芯片拥有更加广阔的想象空间

近些年，摩尔定律似乎已经发展到了极限，粗暴地缩小特征尺寸将变得非常困难。对于未来摩尔定律的发展，业界和学界给出了以下三个方案：

● More Moore（深度摩尔）：想办法沿着摩尔定律的道路继续向前推进。

● More than Moore（超越摩尔）：由应用需求驱动，侧重于功能的多样化。

● Beyond CMOS：使用 CMOS 以外的新器件。

「More Moore」和「More than Moore」的区别

其中，「More than Moore」是目前主流的行业趋势，其具体含义是，芯片设计者可以电路设计、系统算法优化，或者封装技术实现模块集成，以达到优化芯片的目的，同时芯片也可以拥有一些新的功能。这就意味着 AI 芯片有更加广阔的想象空间，同时也说明 AI 芯片领域也蕴藏着巨大的商机。

AI 不是用一块简单的芯片就能实现，也没有哪个单一的 AI 系统能够在任何场景完美地工作。AI 在不同场景中的应用，都需要针对场景的需求，在功耗、延迟、数据吞吐量、加速器方案的选择上做出调整和优化，这也会刺激从工具和 IP 供应商一直到包装和流程开发等环节的巨大发展。

AI 芯片领域的创新涉及到人工智能算法、编程语言、计算机体系结构、集成电路、半导体工艺等多方面，绝不是一蹴而就的事情。虽然在整个 IC 产业结构上，美国处于领先地位，在 GPU 领域，国内几乎处于空白，但是仍然有一批创业公司有弯道超车的机会，比如上述的寒武纪科技、深鉴科技、地平线机器人，以及已经具有一定规模的中微星，他们的技术在某些特定场景取得了相当不错的成绩。

在 PC 时代，微软和英特尔形成的 WINTEL 联盟牢不可破，但在移动互联网时代，却被 ARM 和高通迎头赶上。而 AI 产业刚刚开始发展，市场空间巨大，机会也开始显露，国内 AI 风头正盛，势必会产生像英特尔和英伟达这样世界级的企业。