在可预见的未来几年,人工智能将在国家和国际安全中发挥主要浸染。因此,美国政府正在考虑如何掌握人工智能干系信息和技能的传播。由于难以对通用人工智能软件、数据集和算法进行有效管控,当代智能系统所需的打算机硬件自然成为关注重点。领先的、专业的“人工智能芯片”对付经济、高效地大规模运用人工智能至关主要。对此,美国乔治敦大学安全与新兴技能中央(Center for Security and Emerging Technology,CSET) 发布报告《人工智能芯片:观点内涵及其主要性》,重点先容作甚人工智能芯片,为什么其对付大规模开拓和支配人工智能不可或缺,并剖析人工智能对国家竞争力的影响。
一、家当发展青睐人工智能芯片而非
通用芯片
(一)芯片创新的规律
包括通用的中心处理器(Central Processing Unit,CPU)、专用芯片(如人工智能芯片)在内的所有打算机芯片的发展都得益于较小的晶体管,比较于较大的晶体管,前者运行更快,功耗更少。不过,至少在21世纪头10年,只管晶体管的尺寸紧缩速率很快,并带来了巨大的速率和效率提升,专用芯片的设计代价仍旧很低,通用CPU霸占主导位置。
随着缩小晶体管的技能不断发展,芯片中的晶体管密度持续增加。20世纪60年代,摩尔定律指出,芯片中的晶体管数量大约每两年翻一番。屈服该定律,CPU速率得到了极大的提高。晶体管密度增加对速率的提升紧张通过“频率缩放”(frequency scaling)来实现,即晶体管在开(1)和关(0)状态之间切换得更快,从而许可给定的实行单元在每秒进行更多打算。此外,晶体管尺寸的减小降落了每个晶体管的功耗,使芯片的效率也得到了很大的提高。
随着晶体管的缩小和密度的增加,新的芯片设计成为可能,新的芯片运行效率和速率得到进一步提升。CPU可以集成更多不同类型的实行单元,这些实行单元能够针对不同功能进行优化。同时,更多的片上存储器可以减少对片外存储器的需求,从而提升访问速率。此外,CPU可以为实现并行而非串行打算的架构供应更多空间。与此干系的是,如果晶体管密度的增加使得CPU更小,那么单个设备可以容纳多个CPU,实现同时运行不同的打算。
(二)摩尔定律的减慢与通用芯片的衰落
随着晶体管缩小到只有几个原子大小,其尺寸正迅速靠近绝对下限,小尺寸下的各种物理问题也使得进一步紧缩晶体管尺寸在技能上更具寻衅性。这使得半导体行业的成本支出和人才本钱以不可持续的速率增长,新芯片制程技能节点的引入速率比过去更慢。因此,摩尔定律正在放缓,也便是说,晶体管密度翻倍所需的韶光越来越长。
在通用芯片占主导地位的时期,其本钱可分散在发卖的数百万个芯片中。而专用芯片虽然实现了针对特界说务的改进,但无法依赖足够的销量来填补高昂的设计本钱,其打算上风很快就被下一代CPU抹去了。如今,摩尔定律的放缓意味着CPU不再快速改进,通用芯片的规模经济效应遭到毁坏。与此同时,一方面,半导体能力的关键改进已经从制造驱动转向设计和软件驱动;另一方面,人工智能运用需求不断增长,须要依托专用芯片实现高度可并行、可预测的打算。
这些成分驱动芯片向人工智能专用化方向发展,匆匆使人工智能芯片攫取CPU的市场份额。
二、人工智能芯片的紧张特色
人工智能芯片是一种常见的专用芯片,具有一些共同的特点。一是与CPU比较,人工智能芯片可以并行实行更多打算;二是能够采取低精度打算模式成功实现人工智能算法,但同时减少相同打算所需的晶体管数量;三是通过将全体算法存储在单个人工智能芯片中来加速内存访问;四是利用专门的编程措辞来有效地翻译人工智能打算机代码,以便在人工智能芯片上实行。须要阐明的是,人工智能芯片是打算机芯片的特定类型,能够高效、高速实现人工智能打算,代价是在其他通用打算中只能以较低的效率和速率运行。
人工智能芯片包括三种类型:图形处理器(GPU)、现场可编程逻辑门阵列(FPGA)和专用集成电路(ASIC)。GPU最初用于图像处理。2012年,GPU开始越来越多地用于演习人工智能系统,这种运用从2017年起霸占主导地位。GPU有时也用于推理。然而,只管GPU可以供应比CPU更高程度的并行性,它仍旧是为通用打算而设计的。比较于GPU,专用FPGA和ASIC效率更高,在推理方面的运用变得愈发突出,ASIC还越来越多地被用于演习。FPGA包括很多逻辑块(即包含一组晶体管的模块),逻辑块之间的互连可以在芯片制造后由程序员重新配置以适应特定算法,而ASIC则包括为特定算法定制的硬连线电路。前沿的ASIC常日能比FPGA供应更高的效率,而FPGA则比ASIC更具定制化能力,能够随着算法的发展促进设计优化。比较之下,ASIC则只能随着算法的迭代变得越来超越时。
机器学习是一种实现人工智能的主要方法,紧张涉及到演习(Training)和推断(Inference)。大略来说,演习也便是搜索和求解模型最优参数的阶段。当模型参数已经求解出来,利用和支配模型,则称为推理。考虑到演习和推理中每项任务对芯片的哀求不同,二者可能采取不同的人工智能芯片。首先,演习与推理须要不同形式的数据并行和模型并行,在一些相同的打算步骤根本上,演习还须要一些额外的打算步骤。其次,演习实际上总是受益于数据并行,但推理并非如此,例如有时可能只须要对单个数据块实行一次推理。末了,根据运用处景的不同,效率和速率对付演习和推理的相对主要性可能会有所不同。
人工智能芯片的商业化取决于其通用能力的程度。GPU早已被广泛商业化,FPGA的商业化程度较低。同时,ASIC设计本钱高,专业化特色导致低销量,比较难以商业化。不过,人工智能芯片的估量市场规模增长可能会创造必要的规模经济效应,从而使运用更窄的ASIC盈利。
人工智能芯片依据性能的不同,可以分为不同的等级。在高性能领域,做事器级人工智能芯片常日用于高性能的数据中央,并且在封装后比其他人工智能芯片更大。中等性能的芯片是消费者常用的个人打算机人工智能芯片。在低性能领域,移动人工智能芯片常日用于推理,并集成到一个还包含CPU的芯片系统中。
三、为什么人工智能须要尖真个人工
智能芯片
人工智能芯片的效率和速率常日比CPU高10—1000倍。一个效率是CPU 1000倍的人工智能芯片供应的改进效果相称于26年摩尔定律驱动的CPU改进效果。
(一)从本钱—效益视角剖析利用尖端人工智能芯片是否有效
前沿人工智能系统须要的不仅是人工智能芯片,还是最前辈的人工智能芯片。普通芯片体积更大、运行更慢、耗能更高,导致人工智能模型演习过程中,功耗本钱将迅速膨胀到无法承受的水平。
通过比拟尖端人工智能芯片(7纳米或5纳米)与普通芯片(90纳米或65纳米)的本钱,可得出两大结论。在生产和运营本钱方面,利用尖端人工智能芯片会比普通芯片节约更多的经济本钱。由于普通芯片利用2年后耗费的电费本钱将会是芯片本身本钱的3—4倍,并且随着韶光推移还将逐年增加。而尖端人工智能芯片耗费的电费本钱刚刚超过芯片本身的本钱。其次,据估计,生产和运行5纳米芯片的本钱须要8.8年才能与7纳米的本钱持平。因此,在8.8年以下,7纳米芯片更便宜,而在8.8年以上,利用5纳米芯片更便宜。因此,只有当用户估量利用5纳米节点芯片8.8年时,他们才有动力改换现有的7纳米节点芯片。
常日来说,企业会在运营大约三年后改换做事器级芯片,但是如果购买5纳米芯片,他们可能会期望更长的利用韶光,以是市场需求的放缓也与摩尔定律正在放缓的规律相匹配。由此预测,3纳米芯片可能在很长一段韶光内都不会推出。
(二)芯片本钱和速率是打算密集型人工智能算法的瓶颈
企业在人工智能干系打算上花费的韶光和金钱已成为该技能进步的瓶颈。鉴于尖端人工智能芯片比旧版芯片或尖端CPU更具本钱效益和速率,人工智能企业或实验室须要此类芯片来连续推动智能技能进步。
首先,DeepMind开拓了一系列领先的人工智能运用(如AlphaGo),有的演习本钱乃至高达1亿美元。OpenAI报告称,其2017年总本钱为2800万美元,个中有800万美元用于云打算。如果用旧版人工智能芯片或尖端CPU来运行打算,则打算本钱会乘以30乃至更多,这将使此类人工智能演习或实验在经济上令人望而生畏。打算本钱增长如此之快,可能很快就会达到上限,因此须要最高效的人工智能芯片。
其次,领先的人工智能实验可能须要数天乃至一个月的演习韶光,而支配的关键人工智能系统常日须要快速或实时的推理。利用旧版人工智能芯片或尖端CPU将极大地增加这些韶光,使人工智能研发所需的迭代速率以及支配的关键人工智能系统的推理速率慢得令人无法接管。
以上剖析的一个局限是,最近的一些人工智能突