Uploads%2farticles%2f11766%2fai chips teaser
|
2017-09-01

从 GPU、FPGA 到 ASIC,后摩尔定律时代下 AI 芯片领域会产生哪些独角兽公司?

虽然 IC 产业整体落后于美国,但在 AI 领域国内仍有弯道超车的机会。

AI 芯片作为上游产业以及人工智能的硬件基础,有着很高的技术壁垒,同时也有着巨大的产业价值和战略地位。从近期 IC 行业新闻中可看出,不少科技公司已经开始暗自布局 AI 芯片产业,甚至已经取得了一定的成果。

两周前,孵化自中科院计算所的 AI 芯片创业公司寒武纪完成一亿美元 A 轮融资,由国投创业(A轮领投方),阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点(天使轮领投方)、涌铧投资(天使轮投资方)联合投资。

8 月 29 日,英特尔推出新一代视觉处理芯片(VPU) Myriad X 。Myriad X 是全球第一个配备专用神经网络计算引擎的芯片上系统芯片(SoC),据悉,该芯片可能会用于无人机、机器人、自动驾驶等新兴领域上。

从华为官方 Twitter 放出的消息来看,华为很可能在 AI 芯片上有所动作

华为也将于 9 月 2 日,在 IFA 2017 展会上推出 AI 芯片,据说这块 AI 芯片就是打算在九月底发布的麒麟 970,并且该芯片会用在华为 Mate 10 手机中。

另外,据知名数码博主孙昌旭爆料,目前高通骁龙 800 与 600 平台可以通过软件升级支持神经网络计算。

......

在传统冯诺依曼结构中,CPU 每执行一条指令就需要从存储器中读取数据。在人工智能环境下,数据爆炸式增长,而内存读取速度有限的情况下,CPU 大量的功耗就将花费在数据的读取上,从而限制住处理器的性能。

所以在人工智能场景下,芯片应该具有更加有效且庞大的计算能力,以应对人工神经网络运算所带来的海量数据,所以才会有如此多的科技公司热衷于研发 AI 芯片。

为了应对不同 AI 应用场景下的需求,目前 AI 芯片领域分为几个流派,主要有以下几种:

并行计算能力和功耗一样高的 GPU

GPU 通常用在 PC、工作站、游戏机、智能手机等数码设备上,用于做视频或者图形的处理。在进行图像处理时,每个像素点都需要被运算,这是一个相当大的数据,而 GPU 强大的并行计算能力能很好地满足计算需求。

通常来讲,神经系统网络的深度越深,需要的训练时间就越长,若采用传统串行运算的 CPU 来训练的话,可能要花数月,甚至数年的时间。而 GPU 的控制相对简单,内部大部分的晶体管可以组成各类专用电路、多条流水线,使得 GPU 的计算速度远高于 CPU,并拥有了更加强大的浮点运算能力,从而可以缓解深度学习算法的训练难题,释放人工智能的潜能。这也是为什么 GPU 成为最流行的 AI 芯片的原因。

从 CPU 和 GPU 内部结构来看,CPU 结构复杂,GPU 结构相对简单,没有 Cache,运算单元众多

英伟达作为 GPU 巨头,占据了七成的 GPU 市场份额。过去一年里英伟达已经参与了超过 4 万家公司和 50 万名开发者对神经网络应用的研究,这也让英伟达的股价在过去一年的时间里疯涨了 300%。在今年的 GTC 上,英伟达 CEO 黄仁勋没有一句提到游戏,满嘴都是「AI」和「深度学习」,他表示:「我们要在后摩尔定律时代找到出路,而 GPU 的快速崛起可以驱动人工智能的革命。」

为了让自家的 GPU 更加满足 AI 计算需求,黄仁勋宣布推出了一款专为 AI 和高性能计算打造的 GPU 架构 Volta。除了加强 GPU 架构,Volta 还增加了 640 个新的 Tensor 单元,与标准 CUDA 核心配合使用,峰值性能达到 120TFLOPS/s。黄仁勋说,英伟达动用了超过 7000 名工程师,并花费了 3 年的时间,才打造出了 Volta,足以显示英伟达深耕 AI 领域的决心。

但问题是,GPU 方案的功耗长期居高不下,英伟达高端显卡的功耗动辄 200W +,一旦大量开启,在散热一事上就会产生很多问题 ,黄仁勋「核弹教父」的「美誉」也是这样来的。另外,GPU 的价格问题,也是限制其在 AI 领域发展的重要因素。

「核弹教父」黄仁勋

可重新定义内部电路连接的 FPGA

GPU 能够并行处理海量的数据,因此其内部架构必须十分通用,这也就是说,它很难针对某个领域进行特殊优化。而日新月异的行业要求芯片能够处理新类型的计算任务。此时沉寂许久,硬件体系可以重构的 FPGA 重新回归人们的视线。

FPGA 芯片内部集成大量的基本的门电路,开发者可通 Verilog、VHDL 等硬件描述语言按照自己的需求重新定义内部门电路的连接,用更加通俗的话来讲,FPGA 像是一种「万能芯片」。

不同于 GPU 的运行原理,FPGA 是以门电路直接进行运算,硬件描述语言在执行时会被翻译成电路,所以在运算速度和功耗上,FPGA 具有很大的优势。由于 FPGA 低延迟、低功耗的特性,近年来,微软、百度等公司在自家的数据中心里大量部署 FPGA,详细信息可参考深圳湾的文章『CPU + GPU 搞不定的机器学习问题,微软用 FPGA 解决』,本文不再赘述。

FPGA 行业 90% 的市场份额都被赛灵思  Altera 所占领(后者已被英特尔以 167 亿美金的价格收购),总体来讲国内 FPGA 水平较弱,FPGA 从硬件到软件的研发流程需要长期的积累,但已有国内的初创公司用 FPGA 搭建神经网络深度学习方案,比如深鉴科技。

深鉴科技的主要团队

深鉴科技(DeePhi Tech)的团队成员主要来自清华大学和斯坦福大学,专注于深度学习处理器与编译器技术。旗下研发的 ESE 语音能识别引擎技术在 FPGA 领域顶级会议 FPGA 2017 上获得了最佳论文奖。该方案聚焦于使用 LSTM 进行语音识别的场景,结合独家的深度压缩(Deep Compression)技术、专用编辑器以及 ESE 专用处理架构,在中端的 FPGA 上可以取得 Pascal Titan X GPU 高 3 倍的性能,并将功耗降低 3.5 倍。

据悉,零度智控已经在其无人机产品 —— DOBBY 上采用深鉴科技的神经网络机器学习技术,能够实现物体以及行人的检测和实时跟踪拍摄、手势识别和人脸识别等功能。另外,深鉴科技还着眼于机器人、安防监控、数据中心领域,正在将技术全面应用于实际产品。

深度定制的 ASIC

不过,FPGA 依旧有它的局限性。首先,在延迟和功耗上 FPGA 要优于 GPU,但 FPGA 的峰值性能却不如 GPU。第二,FPGA 的编程难度很高,开发者不仅要有软件开发的能力,还要掌握数字电路的设计理论,两种技能都需要长时间的打磨和积累。基于上述原因,部分芯片公司将目光转向可以深度定制的专用集成电路 ASIC。

去年谷歌的 AlphaGo 和李世石的人机大战将人工智能带到了一个高潮,其中 AlphaGo 采用了 Google 自研的第二代 TPU,而 TPU 就是以 ASIC 的方式实现。

ASIC 全称为专用集成电路 (Application-Specific Integrated Circuit),和 FPGA 不一样的是,FPGA 写完代码后就能够使用厂商提供的工具实现硬件加速,而设计 ASIC 还需要做大量的验证和物理设计,需要花更多的时间和资金。如果针对特殊场合(如军事和工业),ASIC 还需要更多时间进行特别的设计以满足需求。虽然设计的时间比较长,但 ASIC 加速器的速度会比用同样工艺 FPGA 加速器速度快 5 ~ 10 倍,在功耗上也远远优于 GPU,而且一旦量产后,ASIC 的成本会远远低于 FPGA 方案。

AlphaGo 中就采用了 Google 研发的 TPU

也正是因为其研发周期长,门槛高,导致做 ASIC 的风险太大,同时也可能因为赶不上市场的变化速度而陷入尴尬的境地。所以,很多业内人士知道 ASIC 的性能要高于 FPGA,却不敢轻易采用。

尽管研发 ASIC 需要承担很大的风险,但仍然有不少芯片公司不遗余力地推进 ASIC 的研究。

上文提到的寒武纪就是个中翘楚。寒武纪科技由创始人陈天石教授带领中科院团队成立于 2016 年,致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。公司研制了国际首个深度学习专用处理器芯片,不同于 Google 采用的通用处理器,寒武纪芯片专门面向深度学习技术。模拟实验表明,寒武纪芯片相对于传统执行 x86 指令集的芯片,有两个数量级的性能提升。

有消息称,华为 Mate 10 所搭载的麒麟 970 芯片,将嵌入寒武纪的人工智能 IP。

另外,2015 年创立的企业地平线机器人(Horizon Robotics)致力于打造基于深度神经网络的人工智能「大脑」平台,包括软件和芯片。软件方面,地平线机器人做了一套基于神经网络的 OS,已经研发出面向自动驾驶的「雨果」平台和面向智能家居的「安徒生」平台。在芯片方面,未来地平线机器人还会为这个平台设计一个芯片 —— NPU(Neural Processing Unit),支撑自家的 OS,到那时效能会提升 2-3 个数量级。

后摩尔定律时代,AI 芯片拥有更加广阔的想象空间

近些年,摩尔定律似乎已经发展到了极限,粗暴地缩小特征尺寸将变得非常困难。对于未来摩尔定律的发展,业界和学界给出了以下三个方案:

● More Moore(深度摩尔):想办法沿着摩尔定律的道路继续向前推进。

● More than Moore(超越摩尔):由应用需求驱动,侧重于功能的多样化。

● Beyond CMOS:使用 CMOS 以外的新器件。

「More Moore」和「More than Moore」的区别

其中,「More than Moore」是目前主流的行业趋势,其具体含义是,芯片设计者可以电路设计、系统算法优化,或者封装技术实现模块集成,以达到优化芯片的目的,同时芯片也可以拥有一些新的功能。这就意味着 AI 芯片有更加广阔的想象空间,同时也说明 AI 芯片领域也蕴藏着巨大的商机。

AI 不是用一块简单的芯片就能实现,也没有哪个单一的 AI 系统能够在任何场景完美地工作。AI 在不同场景中的应用,都需要针对场景的需求,在功耗、延迟、数据吞吐量、加速器方案的选择上做出调整和优化,这也会刺激从工具和 IP 供应商一直到包装和流程开发等环节的巨大发展。

AI 芯片领域的创新涉及到人工智能算法、编程语言、计算机体系结构、集成电路、半导体工艺等多方面,绝不是一蹴而就的事情。虽然在整个 IC 产业结构上,美国处于领先地位,在 GPU 领域,国内几乎处于空白,但是仍然有一批创业公司有弯道超车的机会,比如上述的寒武纪科技、深鉴科技、地平线机器人,以及已经具有一定规模的中微星,他们的技术在某些特定场景取得了相当不错的成绩。

在 PC 时代, 微软和英特尔形成的 WINTEL 联盟牢不可破,但在移动互联网时代,却被 ARM 和高通迎头赶上。而 AI 产业刚刚开始发展,市场空间巨大,机会也开始显露,国内 AI 风头正盛,势必会产生像英特尔和英伟达这样世界级的企业。

>>
Back to top btn