人工智能要崛起，从芯片设计开始！-广州星海集成电路基地有限公司官方网站

本文内容来自网络。

作为典型的前瞻性基础研究领域，人工智能得到了我国基础研究最主要的支持渠道——国家自然科学基金委的持续关注和重视。自然科学基金较早地做出了前瞻部署，聚焦重点问题，资助了大批探索性研究项目，培养了一批基础研究队伍。

1956年在美国举行的达特茅斯会议，探讨了人工智能的发展。在这次会议中，人工智能（AI）的概念被正式提出：“让机器能像人那样认知、思考和学习，即用计算机模拟人的智能”。参加这次会议的科学家开始在科研领域致力于人工智能的发展，但受制于计算机技术的水平，当时人工智能的进展有限。

在20世纪60年代，美国科幻小说家阿西莫夫在《纽约时报》开设专栏，对人类半个世纪后的科技生活进行预测。他预言：“到2014年，机器人有了自己存在的意义：把人类从琐碎的家务中解放出来，人们只需头一天晚上对机器做出设置，第二天早上就可以直接享用现成的美味早餐。”

人工智能要崛起，从芯片设计开始！

我国计算机仿真与计算机集成制造专家、中国工程院院士李伯虎认为，人工智能最近60年发展可以分为三个阶段：20世纪50年代至70年代，人工智能力图模拟人类智慧，但是受过分简单的算法、匮乏得难以应对不确定环境的理论以及计算能力的限制，这一热潮逐渐冷却；20世纪80年代，人工智能的关键应用——基于规则的专家系统得以发展，但是数据较少，难以捕捉专家的隐性知识，加之计算能力依然有限，使得人工智能不被重视；进入20世纪90年代，神经网络、深度学习等人工智能算法以及大数据、云计算和高性能计算等信息通信技术快速发展，人工智能进入新的快速增长时期。

李伯虎说：“当前，正在发生重大变革的信息新环境和人类社会发展的新目标，催生人工智能技术与应用进入了一个新阶段。这一次人工智能新高潮的最大特点是企业引领。”

确实是这样，在国际上，谷歌、IBM、亚马逊等各自展开了对人工智能领域的研究。谷歌的人工智能程序阿尔法围棋（AlphaGo）在围棋领域的“人机大战”吸引了世界的目光。在我国，阿里巴巴、华为、百度等公司在人工智能方面也各有建树。比如，在中国，“人脸识别”这一人工智能技术已在多家公司的刷脸支付产品中被广泛应用。

人工智能产业技术创新战略联盟理事长、中国工程院院士高文表示，新一轮的人工智能浪潮由企业带动，目前多国已关注到人工智能巨大的发展潜力，加大了对人工智能研究的资助。

在中国，“人工智能”被写入我国“十三五”规划纲要。在2016年5月，国家发改委、科技部、工信部及中央网信办四部委联合下发《“互联网+”人工智能三年行动实施方案》，要“充分发挥人工智能技术创新的引领作用，支撑各行业领域‘互联网+’创业创新，培育经济发展新动能”。面向2030年的人工智能规划即将出台，中国的人工智能研究与开发将进入顶层设计后的系统推进阶段。

中国工程院院士潘云鹤表示，我国对智能城市、智能医疗、智能交通、智能制造、无人驾驶等领域的研究需求与日俱增，“我国已在这些领域实现了信息化，现在迫切需要智能化”。

人工智能有可能率先实现从跟跑到领跑

此前中国工程院根据人工智能60年的发展，结合中国发展的社会需求与信息环境，提出了人工智能2.0的理念。

中国工程院高文院士表示，人工智能2.0的一个鲜明特征是实现“机理类脑，性能超脑”的智能感知，进而实现跨媒体的学习和推理，比如人工智能AlphaGo就是通过视觉感知获得“棋感”：“它将围棋盘面视为图像，对16万局人类对弈进行‘深度学习’，获得根据局面迅速判断的‘棋感’，并采用强化学习方法进行自我对弈3000万盘，寻找对最后取胜的关键‘妙招’。”通过这种感知，AlphaGo实现了符号主义、连接主义、行为主义和统计学习“四剑合璧”，最终超越人类。

杨卫认为，在研发活动的全链条——从基础科学到技术及产品和市场中，基金委正是源头供给者。顺应时代发展要求深入探索人工智能，不仅造福于民，更可为国家在重大研究领域的突破作出贡献。

此外，为推动人工智能研究的拓展与丰富，科学基金将重点支持通信与电子学、计算机科学与技术、自动化科学与技术等分支学科之间的交叉研究，通过交叉研究孕育重大突破。

“中国人工智能的发展前景闪烁着希望的曙光，有望领跑世界。”杨卫指出，在科技发展过程中，一个国家从跟跑到领跑的历史性跨越既是华丽的，又是艰难的。它需要高瞻远瞩地把握创新规律，认识到领跑特有的表现形式，并审时度势选择正确的领跑方向，而人工智能作为人机网共融的重要组成部分，和智慧数据、新物理、合成生命、量子跃迁一道，有可能成为我国科技率先实现从跟跑到领跑的跨越的五个重要领域。

人工智能芯片设计

移动端的AI芯片在设计思路上有着本质的区别。首先，必须保证功耗控制在一定范围内，换言之，必须保证很高的计算能效；为了达到这个目标，移动端AI芯片的性能必然有所损失，允许一些计算精度损失，因此可以使用一些定点数运算以及网络压缩的办法来加速运算。

下面，将分别从服务器端芯片进行介绍。有的厂商同时具有这两类产品，则不做严格区分。

Nvidia

在云端服务器这个领域，Nvidia的GPU已经成为服务器不可或缺的一部分，称其为领跑者毫不为过。有报告显示，世界上目前约有3000多家AI初创公司，大部分都采用了Nvidia提供的硬件平台。

人工智能要崛起，从芯片设计开始！

资本市场对此给出了热烈的回应：在过去的一年中，曾经以游戏芯片见长的Nvidia股价从十几年的稳居30美元迅速飙升至120美元。2017年2月10日，英伟达发布2016年第四季度的财报显示，其营收同比增长55%，净利润达到了6.55亿美元，同比增长216%。

Intel

作为PC时代的绝对霸主，Intel已经错过了移动互联网时代，在已经到来的AI时代，也失掉了先机，但它并没有放弃，而是积极布局，准备逆袭。在云端，收购Altera之后推出了基于FPGA的专用深度学习加速卡，可以在云端使用；另外，收购Nervana，目标也是在云端。在移动端，则是收购了Movidius。下面先对Nervana进行介绍，对Movidius的介绍放在后面移动端。

Nervana创立于2014年，位于圣地亚哥的初创公司Nervana Systems已经从20家不同的投资机构那里获得了2440万美元资金，而其中一家是十分受人尊敬的德丰杰风险投资公司（Draper Fisher Jurvetson，DFJ）。

The Nervana Engine（将于2017年问世）是一个为深度学习专门定做和优化的ASIC芯片。这个方案的实现得益于一项叫做High Bandwidth Memory的新型内存技术，同时拥有高容量和高速度，提供32GB的片上储存和8TB每秒的内存访问速度。该公司目前提供一个人工智能服务“in the cloud”，他们声称这是世界上最快的且目前已被金融服务机构、医疗保健提供者和政府机构所使用的服务，他们的新型芯片将会保证Nervana云平台在未来的几年内仍保持最快的速度。

IBM

IBM很早以前就发布过watson，早就投入了很多的实际应用中去。除此之外，还启动了对类人脑芯片的研发，那就是TrueNorth。

TrueNorth是IBM参与DARPA的研究项目SyNapse的最新成果。SyNapse全称是Systems of Neuromorphic AdapTIve PlasTIc Scalable Electronics（自适应可塑可伸缩电子神经系统，而SyNapse正好是突触的意思），其终极目标是开发出打破冯•诺依曼体系的硬件。

这种芯片把数字处理器当作神经元，把内存作为突触，跟传统冯诺依曼结构不一样，它的内存、CPU和通信部件是完全集成在一起。因此信息的处理完全在本地进行，而且由于本地处理的数据量并不大，传统计算机内存与CPU之间的瓶颈不复存在了。同时神经元之间可以方便快捷地相互沟通，只要接收到其他神经元发过来的脉冲（动作电位），这些神经元就会同时做动作。

2011年的时候，IBM首先推出了单核含256 个神经元，256&TImes;256 个突触和 256 个轴突的芯片原型。当时的原型已经可以处理像玩Pong游戏这样复杂的任务。不过相对来说还是比较简单，从规模上来说，这样的单核脑容量仅相当于虫脑的水平。

不过，经过3年的努力，IBM终于在复杂性和使用性方面取得了突破。4096个内核，100万个“神经元”、2.56亿个“突触”集成在直径只有几厘米的方寸（是2011年原型大小的1/16）之间，而且能耗只有不到70毫瓦。

人工智能要崛起，从芯片设计开始！

这样的芯片能够做什么事情呢？IBM研究小组曾经利用做过DARPA 的NeoVision2 Tower数据集做过演示。它能够实时识别出用30帧每秒的正常速度拍摄自斯坦福大学胡佛塔的十字路口视频中的人、自行车、公交车、卡车等，准确率达到了80%。相比之下，一台笔记本编程完成同样的任务用时要慢100倍，能耗却是IBM芯片的1万倍。

寒武纪

Google将TPU加速器芯片嵌入电路板中，利用已有的硬盘PCI-E接口接入数据中心服务器中。

终于有中国公司了，中文名“寒武纪”，是北京中科寒武纪科技有限公司的简称。这家公司有中科院背景，面向深度学习等人工智能关键技术进行专用芯片的研发，可用于云服务器和智能终端上的图像识别、语音识别、人脸识别等应用。

寒武纪深度学习处理器采用的指令集DianNaoYu由中国科学院计算技术研究所陈云霁、陈天石课题组提出。模拟实验表明，采用DianNaoYu指令集的寒武纪深度学习处理器相对于x86指令集的CPU有两个数量级的性能提升。

目前，寒武纪系列已包含三种原型处理器结构：

寒武纪1号（英文名DianNao，面向神经网络的原型处理器结构）；

寒武纪2号（英文名DaDianNao，面向大规模神经网络）；

寒武纪3号（英文名PuDianNao，面向多种机器学习算法）。

2016年推出的寒武纪1A处理器（Cambricon-1A）是世界首款商用深度学习专用处理器，面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备

CEVA

CEVA是专注于DSP的IP供应商，拥有为数众多的产品线。其中，图像和计算机视觉 DSP 产品 CEVA-XM4 是第一个支持深度学习的可编程 DSP，而其发布的新一代型号 CEVA-XM6，具有更优的性能、更强大的计算能力，以及更低的耗能。

XM6 的两大新硬件功能，将帮助大多数图像处理和机器学习算法。第一个是分散-聚集，或者说是阅读一个周期中，L1 缓存到向量寄存器中的 32 地址值的能力。CDNN2 编译工具识别串行代码加载，并实现矢量化来允许这一功能，当所需的数据通过记忆结构分布时，分散-聚集提高了数据加载时间。由于 XM6 是可配置的 IP，L1 数据储存的大小/相关性在硅设计水平是可调节的，CEVA 表示，这项功能对于任意尺寸的 L1 都有效。此级用于处理的向量寄存器是宽度为 8 的 VLIW 实现器，这样的配置才能满足要求。

第二功能称为“滑动-窗口”数据处理，这项视觉处理的特定技术已被 CEVA 申请专利。有许多方法可以处理过程或智能中的图像，通常算法将立刻使用平台所需一块或大片像素。对于智能部分，这些块的数量将重叠，导致不同区域的图像被不同的计算区域重用。CEVA 的方法是保留这些数据，从而使下一步分析所需信息量更少。

CEVA 指出，智能手机、汽车、安全和商业应用，如无人机、自动化将是主要目标

ARM

ARM刚推出全新芯片架构DynamIQ，通过这项技术，AI的性能有望在未来三到五年内提升50倍。

ARM的新CPU架构将会通过为不同部分配置软件的方式将多个处理核心集聚在一起，这其中包括一个专门为AI算法设计的处理器。芯片厂商将可以为新处理器配置最多8个核心。同时为了能让主流AI在自己的处理器上更好地运行，ARM还将放出一系列软件库。

人工智能要崛起，从芯片设计开始！

DynamIQ是在ARM上一代革新架构big.LITTLE基础上的一次演进，这种架构能够对同一运算设备中的大小两个核进行适当配置，以减少电池消耗。目前big.LITTLE架构已经被应用到了几乎所有智能手机的芯片上，包括用于安卓系统的高通骁龙处理器以及苹果最新一代的A10芯片。

接下来ARM推出的每一款Cortex-A系列芯片都将采用这种新技术。ARM称，与在现有芯片架构上开发出的处理器（即Cortex-A73）相比，基于DynamIQ架构开发的全新处理器有望在三到五年内使人工智能的表现增强50倍。

人工智能时代已经来临，在这个史无前例的巨大浪潮面前，有哪些公司能脱颖而出，成为新一代弄潮儿？让我们拭目以待。