英伟达(NVIDIA)的图形处理器 GPU 是人工智能芯片领域的“王者”。但许多初创公司表示,这种局面应该变一变了。
原作 Nicole Kobie
翻译 周舒义
编辑 魏潇
1993 年,30 岁的黄仁勋(Jensen Huang)和合作者共同创立了图形和游戏硬件公司英伟达(NVIDIA)。直到今天,图形和游戏显卡依然是这家公司的主要收入来源。但早在 2019 年,四大云服务提供商 AWS、谷歌、阿里巴巴和 Azure 已有 97.4% 的人工智能(AI)加速器(用于提高处理速度的硬件)部署了英伟达的图形处理器(GPU)。Cambrian AI Research 的分析师 Karl Freund 表示,英伟达占据了 AI 算法训练市场“近乎 100%”的份额。超算 500 强中有近七成使用其 GPU。上个财年,英伟达在数据中心市场的 GPU 销售额攀升至了 67 亿美元。英伟达见证了人工智能领域几乎所有的里程碑:吴恩达领衔研发的 YouTube 寻猫程序、DeepMind 的围棋冠军 AlphaGo、OpenAI 的自回归语言模型 GPT-3 都在其硬件上运行。英伟达的硬件已经成为了人工智能领域的地基。
尽管取得了这样的成功,质疑英伟达从游戏转向 AI 是瞎猫碰见死耗子的声音仍然不绝于耳,在英伟达领导深度学习(deep learning)研究的 Bryan Catanzaro 对此相当恼火:“十年来,英伟达在进军 AI 市场的路上始终步步为营。”
关于英伟达如何从游戏和图形硬件公司转型为 AI 芯片“霸主”的故事,业内有这样一则八卦——它和“猫”有关。2010 年,现任英伟达首席科学家 Bill Dally 与他在美国斯坦福大学的前同事、计算机科学家吴恩达(Andrew Ng)共进早餐,彼时后者正在与谷歌合作开展一个项目,想要教会算法在互联网上“找猫”。
吴恩达当时构建的神经网络已经“观看”了 1000 万段 YouTube 视频,学会了认出人脸、身体和猫——但要准确做到这一点,整个系统需要数以千计的中央处理器(CPU)提供算力。Dally 和他打赌说,同样的事只要几块 GPU 就能做到。GPU 被专门用来处理像 3D 渲染这样的密集负载——这令它在驱动 AI 时的表现比 CPU 更出色。
为了实现这一目标,Dally 找到了 Catanzaro。他做到了—— 12 块 GPU,就在训练 吴恩达的识猫模型时展现出了比 CPU 更快、更有效率的并行处理能力。
但 Catanzaro 希望人们知道,英伟达在 AI 领域的发力并不是因为那次偶然的早餐。事实上,在 2008 年加入英伟达之前,他还在加州大学伯克利分校读研究生的时候就已经在为 AI 开发 GPU 了。“英伟达在这个市场上获得的地位并非偶然。”他说。
十年后,人工智能和芯片产业越来越成熟,变革将至。越来越多的企业开始利用 AI 来理解收集到的海量数据,而各国政府则向深度学习领域注入资金,以保持领先地位,中美之间的竞争尤为激烈。Deloitte 分析师 Costi Perricos 表示,人工智能将成为各国竞争“下一个超级大国”的焦点领域。与此同时,深度学习模型的规模和复杂度也在不断增加,需要更多的算力。
OpenAI 的 GPT-3就是一个极端的例子。它是一个可以写出通顺文本段落的深度学习系统,包含 1,750 亿个参数。GPT-3 的计算成本约为 460 万美元,此后被包含 1.6 万亿个参数的谷歌语言模型超越。高效能的硬件至关重要——为了处理更多的参数和数据进而提高模型准确率,也为了降低 AI 造成的环境影响。据丹麦研究人员计算,训练 GPT-3 所耗能量形成的碳足迹相当于驾车行驶 70 万公里。
我们需要更多的 AI 芯片,我们也需要更好的 AI 芯片。虽然英伟达是早起的鸟儿有虫吃,但后来的挑战者们正竞相追赶。谷歌 2015 年开始制造自己的芯片;亚马逊 2016 年收购了 Annapurna Labs,去年开始把 Alexa 智能大脑迁移到自己的 Inferentia 芯片上;百度旗下的昆仑芯片公司最近获得了 20 亿美元(130 亿人民币)的估值;高通推出了 Cloud AI 100 芯片;IBM 正致力于高能效设计。AMD 收购 Xilinx,发展 AI 数据中心业务;英特尔 2019 年在其 Xeon 数据中心的 CPU 中集成了 AI 加速,还在2016 年以 4.08 亿美元收购了 Nervana,2019 年以 20 亿美元收购了 Habana Labs。那些仍在待价而沽的初创公司也已推出了自己的硬件,在过去的几年里,Graphcore、SambaNova、Cerebras、Mythic AI 等公司陆续测试或者发布了 AI 芯片。
人工智能方兴未艾。识猫算法距今只有十年,这些初创公司也大多不过数年历史。智能物联网设备掀起了一场机器互联革命,更多的数据将会随之涌现,所有人的目光投向了同一件事:掌握 AI 芯片的未来。
GPU 和它的竞争者们
机器学习是一种与众不同的计算负载,需要在数字精度较低的条件下开展大量数学运算。传统的高性能计算(high-performance computing, HPC)靠多个系统互联构建超级计算机,以处理像科学仿真和金融建模这样的复杂工作负载,这需要使用至少 64 位的数字进行高精度运算。AI 计算也需要大规模的计算基础设施,但不需要那么精确的数学。它使用的数字是 16 位,甚至可以是 8 位——和 HPC 相比这有点像 80 年代的像素游戏碰上了次世代图形。AI 芯片初创公司 Cerebras 的首席执行官 Andrew Feldman 说:“大部分数学运算很简单,但计算量非常大。”
AI 芯片是经过编程框架(例如Google 的 TensorFlow 和 Facebook 的 PyTorch)优化,用以运行机器学习工作负载的处理器。在训练或者运行深度学习模型时,AI 芯片无需“事必躬亲”,而是作为加速器快速处理最密集的工作负载。例如,英伟达的盒装 AI 系统 DGX A100 使用 8 块自研的 A100 “Ampere” GPU 作为加速器,但也配备了 128 核的 AMD CPU。
AI 不是个新事物了,但我们以前的算力不足以支撑深度学习模型,研究人员只能等待硬件赶上他们的想法。“GPU 的出现打开了大门。”另一家制造 AI 芯片的初创公司 SambaNova 的联合创始人兼首席执行官 Rodrigo Liang 说。
2012 年,加拿大多伦多大学(University of Toronto)的研究人员 Alex Krizhevsky 在一年一度的 ImageNet 计算机视觉挑战赛中击败了其他竞争对手。这一比赛让研究人员相互竞争,开发可以识别图像或者物体的算法。Krizhevsky 首次使用由 GPU 驱动的深度学习算法击败了人类的手动编码。到了 2015 年,所有在 ImageNet 竞赛中名列前茅的成绩都用的是 GPU。
深度学习研究就此爆发了。英国初创芯片公司 Graphcore 联合创始人兼首席技术官 Simon Knowles 回忆起 2015 年前往加州寻求融资的经历时,表示一些投资人甚至不懂什么是 AI。但几个月后,也就是 2016 年初,局势彻底变了。“那时,人人都开始热衷人工智能,”Knowles 说,“然而,他们对芯片并不感冒。”英伟达的技术可以提供超过 20 倍的性能提升,它的表现是如此良好,以至于同行们根本拉不到投资。新的芯片架构被认为没有必要,英伟达已经覆盖了整个行业需求。
但是,在 2016 年 5 月,谷歌改变了这一切,他们宣布为人工智能应用开发了自己的芯片,Cerebras 的 Feldman 称之为“大胆的战略决定”。这些芯片被称为张量处理器(tensor processing unit, TPU),专门为谷歌自己的机器学习编程框架 TensorFlow 而设计。Knowles 表示,此举向投资者们传递了一个信号:设计新型处理器或许会有市场。“一夜之间,所有风投都在想:那些疯狂的英国人在哪儿?”他说。那之后,Graphcore 已经筹集到了 7.1 亿美元。
英伟达的竞争对手称,尽管 GPU 强大的处理能力令其在 AI 任务上的表现比 CPU 更胜一筹,但 GPU 的设计用途是图形处理而非机器学习。依靠着精心优化和复杂的软件层,GPU 的 AI 市场主导地位才能维持这么久。“英伟达把 GPU 的复杂性隐藏得非常好。”Graphcore 联合创始人兼首席执行官 Nigel Toon 说。“他们创建的软件库、各种框架和优化使复杂性得以隐藏。英伟达在这里下了很大功夫。”
不过即使抛开 GPU 不谈,关于芯片的争鸣还会继续。你可以从头设计一款全新架构的 AI 芯片,有很多技术路径可供选择:谷歌的TPU属于专用集成电路(ASIC),专为特定工作负载设计;Cerebras 制造了 “晶圆规模引擎”,这是一款比普通芯片大 56 倍的巨型芯片;IBM 和 BrainChip 模仿人脑来制造神经仿生芯片;Mythic 和 Graphcore 以不同的设计方式造出了智能处理单元(IPU)……如此等等,不一而足。
TPU 3.0 图片来源:Zinskauf,CC BY-SA 4.0,https://commons.wikimedia.org/w/index.php?curid=77299254
但英伟达的 Catanzaro 认为,这些形形色色的芯片不过是 AI 加速器的变体——任何能加速 AI 计算的硬件,都叫 AI 加速器。“我们谈论的可以是 GPU、TPU、IPU 或者其他任何东西,但人们对这些字母过于执着。”他说,“我们把产品称作 GPU 是出于历史原因……但 GPU 一直用于加速计算,只是人们关心的工作负载性质在不断变化。”
跑分竞争
谁能与英伟达争锋?核心基准测试 MLPerf 是衡量深度学习芯片的黄金标准,尽管这类基准测试是块“难啃的硬骨头”,但英伟达仍能在 MLPerf 中独领风骚。Cambrian AI Research 的分析师 Karl Freund 指出,学术机构和包括谷歌在内的业界玩家创建了基准测试工具 MLPerf,谷歌和英伟达在榜上一骑绝尘,但对初创公司来说,与其花费大量精力逐个通关,不如把资源集中到别处更划算。
但是英伟达不这么想,他们每年都要超越谷歌的 TPU。“谷歌创建了 MLPerf 来展示他们的 TPU 有多厉害。”英伟达解决方案架构和工程负责人 Marc Hamilton 表示,“黄仁勋说,要是我们的 GPU 总能在谷歌跑 MLPerf 基准测试的时候比他们的 TPU 快一点点,那就太好了。”
为了确保能在基准测试的某个版本中名列前茅,英伟达将一台公司内部的超级计算机从 36 个 DGX 模块升级到了惊人的 96 个。这需要将整个系统重新布线。为了尽快完工,他们干脆切断了这套价值约 100 万美元的设备的电缆,直接把新设备加了上去。这或许能凸显跑分驱动的行为有多么疯狂,但它也启发了英伟达对 DGX 的重新设计:当前款式的模块可以 20 个一组互联,无需重新布线。
更低的功耗
在基准测试和超级计算机上,你可以随时添加更多芯片。但在 AI 计算的另一方面——边缘推理(inference at the edge),就不是这么一回事了。
英伟达在 2020 年出价 400 亿美元收购了英国芯片设计公司 ARM。这家公司的芯片架构为全球 95% 的智能手机提供支持,让这次收购引起了全世界的关注。但反响并不都是积极的。卸任后保留股份的 ARM 联合创始人 Hermann Hauser 称这是一场“灾难”,可能会破坏 ARM 在市场上的中立性。欧盟、英国、中国和美国——世界各地的监管机构正在严密地关注着这笔交易。
ARM 设计芯片,将知识产权授权给其他公司供其使用。如果 AI 芯片制造商需要 CPU 来搭建系统,他们就可以从 ARM 那里获取芯片设计方案,然后自定规格来制造芯片。尽管黄仁勋“明确”表示英伟达会尊重 ARM 的开放模式,但竞争对手担心,英伟达对 ARM 的控制可能会限制这类合作关系。据报道,英国政府正在研判这桩收购案对国家安全可能产生的影响(ARM 被英伟达收购前归日本软银所有);而中国则担心在现有的贸易形势下,如果 ARM 落入美国公司手中,可能会导致一些中国公司因为限制而无法购买其设计方案。
搭载在松下多媒体设备上的 ARM 芯片。图片来源:Yaca2671,CC BY-SA 3.0,https://commons.wikimedia.org/w/index.php?curid=1661557
ARM 是边缘推理芯片的主要设计厂家,这类芯片可以把深度学习应用于现实世界。这意味着,这次收购可能会对市场产生巨大影响;在 ARM 加持下,英伟达可以凭借 GPU 和 ARM 在数据中心和边缘计算领域都占据主导地位。
何为边缘推理?英伟达强大的高性能系统通过处理数据来训练和应用模型,但还有另一种 AI 负载叫做推理,这种任务更轻量,使用经过训练的模型来诠释一些东西——例如无人驾驶汽车解读摄像头拍到的画面;智能手机应用可以识别面部轮廓,在自拍照中为你加上猫耳;或者是医学成像模型在扫描中发现癌症的迹象。训练过程需要大量的算力,要在数据中心完成,但推理可以在两处进行。
一处也是在数据中心:当你向 Alexa 或者 Siri 提问时,语音会被上传到亚马逊和苹果的服务器进行转录和回复。另一处则在终端用户设备,例如相机、汽车和智能手机——这被称为边缘计算(edge computing)。边缘计算对处理能力要求不高,但需要快速反应(没人希望无人驾驶汽车会在刹车前陷入沉思)。
英伟达目前在数据中心端执天下牛耳。它的 A100 芯片可以处理数据、训练模型,而推理任务则被虚拟化到更小的微型服务器上,同一硬件可以同时运行超过 50 个推理负载。这对像 AWS 这样提供 AI 服务的科技巨头很有帮助,因为多个客户可以使用同一硬件而没有数据泄露的风险。在边缘计算领域,英伟达有用于无人驾驶汽车的 DRIVE 和用于现场推理的 EGX,但低功耗芯片并非其传统强项——如果你用过游戏笔记本电脑,你会注意到它需要比谷歌的笔记本电脑 Chromebook 更频繁地充电。低功耗芯片研发是 ARM 的优势领域,这也是英伟达斥资 400 亿美元收购该公司的原因。
有了边缘 AI,语音助手不必将语音上传到 AWS 或者 Apple 服务器上处理,而是可以基于本地智能做出响应。ARM 的 IP 产品部总裁 Rene Haas 说:“这让信息可以在源头处就地处理,在很多层面都有助于提高效率。”他指出,本地向云端来回收发数据会加快电池电量的消耗。这一转变,正是英伟达收购 ARM 计划的核心。
超算布局
过去一年里,当其他人被困在家里,就着香蕉面包狂刷 Netflix 的时候,英伟达解决方案架构与工程部门主管 Marc Hamilton 大部分时间都在忙着在英国搭建一台价值 4000 万英镑的超级计算机 Cambridge-1,他克服了疫情带来的物资短缺,大体按时完成了组装工作。英伟达模块化的系统降低了搭建难度。八块 A100 芯片组成了被称为DGX 的计算系统核心——它和你笔记本电脑里面跑的那块 Intel 或者 AMD 芯片在角色上是类似的。DGX 成本高达 19.9 万美元,采用即插即用式设计,包含内存、网络以及其他所有功能。80 台 DGX 以每 20 台为一组的模块化形式,撑起了 Cambridge-1 的 “SuperPod”系统。
英伟达官网的 Cambridge-1 页面。https://www.nvidia.com/en-us/industries/healthcare-life-sciences/cambridge-1/
Hamilton 表示,Cambridge-1 将成为英国规模最大、算力最强的 AI 超级计算机,可以进入世界前 40(排名可能会发生变化)——但在英伟达自己的超算序列中它的规模将只能屈居第五。Cambridge-1 使用 80 个 DGX A100 盒子搭建,而英伟达的最强超算 Selene 使用了 560 个盒子。
英伟达把 Cambridge-1 建在英国,部分原因是他们收购了 ARM,这意味着 ARM 在英国的员工会加入英伟达。虽然整体来看,Cambridge-1 既不是最快的,也不是最大的,但它宣称创下了两个第一。Hamilton 称其为世界上第一台云原生(cloud-native)超级计算机,因为它具有类似于 AWS 的分区功能,可以让不同公司使用同一硬件而没有安全漏洞或者数据泄露的风险。这也让 Cambridge-1 创造了第二项第一:这将是英伟达唯一向外界合作伙伴开放的超级计算机,可以让大学和医疗保健巨头阿斯利康(AstraZeneca)、牛津纳米孔公司(Oxford Nanopore)和葛兰素史克(GSK)运行他们自己的深度学习模型。
为什么英伟达要建造自己的超级计算机?一个原因是,他们需要“玩具”来吸引最优秀的人才。2016 年的时候,英伟达还没有超算,Facebook 和谷歌将市面上最优秀的 AI 研究人员一扫而空。“这不是因为他们给的钱更多,” Hamilton 说,“而是因为谷歌和 Facebook 拥有数以千计的 GPU 来跑业务,并且他们的 AI 研究人员可以使用这些 GPU。”
现在,英伟达的 Selene 是世界第五大超级计算机,仅次于日本的“富岳”、中国的“神威·太湖之光”和美国的两台超算(编者注:在2021 年 6 月底发布的第 57 次世界超算 500 强排名中,Selene 被惠普公司制造的 Perlmutter 超过,排名世界第六)。Hamilton 说,这意味着如果你是一名想要使用速度最快的 AI 硬件的研究人员,你就要在中国、美国或者英伟达中选一个。中国的目标是在 2030 年成为 AI 领域的全球领导者,而美国则希望保持其在技术上的领先地位。AI 竞争前沿已经出现了紧张局势,作为一家美国公司,英伟达无法置身事外。
Catanzaro 领导的 40 人实验室开发用于英伟达自己计算系统的 AI,但该实验室还是系统架构师的“试验田”,可以一窥深度学习模型在未来的工作方式。“如果你想打造未来芯片,希望它将来还能一展拳脚,你就必须有能力预测未来最重要的工作负载是什么——它们在计算层面是什么样子。”Catanzaro 说,“如果预测错误,芯片开发就会步入歧途。” 芯片的设计制造需要数年时间,因此这种远见是必要的。
如果有朝一日开发出来的模型弃 GPU 而去,或者在 GPU 上跑得不那么好,会发生什么?英伟达的 Dally 承认存在这种可能性,但由于大多数研究人员都在研究 GPU,他认为可能性不大。“在新模型上线之前,我们通常就已听说过它,并有机会对其进行测试,确保它在我们的 GPU 上运行良好,”他说。
其他人表示反对——他们认为,GPU 可能会限制深度学习模型充分发挥潜力。“每个人在开发模型时都在为当前的硬件技术削足适履。”Cerebras 的 Feldman 说,“我们最高兴、也最兴奋的事情之一,就是一群客户正在编写全新的模型。” 他表示,今年 Cerebras 将展示所谓“GPU 不好使”的实例——这些工作压根无法用 GPU 完成。
AI 芯片的未来
Graphcore 的 Toon 表示,研究人员早就向他表达过为当前硬件所困的局面;他的搭档 Knowles 将其比作奥威尔的“新语”——简单的语言会阻止人们思考更复杂的问题。“有一些点子,例如概率机器学习,仍然窒碍难行,因为这些想法在像 GPU 这样的硬件上难以向前发展。”Toon 说,“竞争的焦点在于,英伟达能以多快的速度改良 GPU,还是会有新事物来实现这些想法?”
麻省理工学院计算机科学和人工智能实验室的研究员 Neil Thompson 则在 AI 会议上注意到这样一种趋势:研究人员暗示,计算方面的限制阻碍了他们的模型,限制了他们的选择和数据集,并让一些人不得不在工作中留下错误,因为他们无法负担重跑一遍模型的高昂成本,难以修复问题。“这真的很普遍,如果我们安常守故,对于深度学习的未来而言将会是一个非常大的问题。”他说。
Thompson 和同事一起分析了 1058 篇 AI 论文,发现机器学习算力需求的增长远远快于硬件改良或者训练效率提升。这样下去,我们迟早需要花费数亿甚至数十亿美元来训练模型——而且还有其他成本。“使用越来越多的 GPU 训练模型的问题在于,GPU 数量每增加一倍,成本就会翻番,环境足迹、碳排放和污染也会翻番。” Thompson 说。
他认为,无论是英伟达还是后起之秀,仅仅依靠硬件解决方案,都不足以帮助 AI 创新走出困境。相反,我们需要构建更高效的模型,同时更好地利用已有的模型。诸如稀疏化之类的想法(忽略数据集中的 0 以节约计算资源)可以精简数据,只保留关键参数,从而提供帮助。另一个想法是将模型提炼成更轻量的方程,抛开臃肿的通用模型,只运行需要的部分。
如果没有这些努力,我们将需要更大规模的数据中心。但人工智能不应该仅仅局限于那些用得起超算的人群。在那些从事最高级深度学习研究的大学里,“拥有较少算力的大学已然成为少数派。” Thompson 说,“深度学习俱乐部的玩家仍然为数不少,但是随着计算负担上升,参与者的数量会越来越少。一些人已经在出局的路上了。”
成本是可以削减的,这可能是初创公司赢得客户、对抗现有企业的一种方式。AWS 去年将 Habana Labs 的芯片添加到自己的云端,并称这家英特尔旗下的以色列设计公司将云端运营成本降低了 40%。Habana Labs 首席商务官 Eitan Medina 表示:“为了让 AI 惠及所有人,而不仅仅是富人,你确实需要提高性价比。”
AI 本就存在着不平衡的问题,而硬件的不平等使用加剧了这一点。“这意味着我们只会看到硬币的一面。”英伟达新兴领域负责人 Kate Kallot 说,“如果你不考虑世界上的大部分人口……我们将如何解决世界各地的挑战?” 她提到了联合国的可持续发展目标:许多 AI 研究人员正在将他们的工作转向应对贫困和气候危机等挑战,而这些议题将在很大程度上影响新兴市场。
还有许多其他挑战需要面对。疫情期间处理器的制造受到限制,而去年中美之间的贸易摩擦引发了人们对全球芯片工厂主要集中在亚洲的担忧。欧盟最近承诺,到 2030 年将会生产全球五分之一的高端芯片。虽然英特尔有自己的工厂,但芯片设计公司大都将制造外包——英伟达的芯片是由中国台湾的台积电公司制造的。2021 年 3 月,英特尔宣布计划在美国开设两家新工厂,首次为外部设计公司代工芯片,这或许将为美国的芯片制造带来更多控制权。
当这些障碍被克服,芯片不断发展,人工智能会将触角延伸到每一处角落,就像万物互联的浪潮,从面包机到冰箱的各种设备都加入了应用程序与 Wi-Fi 支持。但在未来,智能不仅意味着连入互联网,还意味着人工智能的嵌入。AI 将无处不在。
点个“在看”,分享给更多的小伙伴