书名:AI芯片:科技探索与AGI愿景
ISBN:978-7-115-66603-1
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 张臣雄
责任编辑 贺瑞君
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
本书旨在从创新的角度探讨AI芯片的现状和未来,共分9章。第1章为概论,介绍大模型浪潮下,AI芯片的需求与挑战。第2章、第3章分别介绍实现深度学习AI芯片的创新方法与架构,以及一些新兴的算法和思路。第4章全面介绍半导体芯片产业的前沿技术,包括新型晶体管、集成芯片、分子器件与分子忆阻器,以及打印类脑芯片等。第5章~第8章分别探讨用化学或生物方法实现AI、AI在科学发现中的创新应用、实现神经形态计算与类脑芯片的创新方法,以及具身智能芯片。第9章展望未来的AGI芯片,并探讨相关的发展和伦理话题。
本书可供AI和芯片领域的研究人员,工程技术人员,科技、产业决策和管理人员,以及创投从业者参考,也可供AI、集成电路、计算机等相关专业的本科生、研究生和教学工作者,以及所有对AI芯片感兴趣的读者阅读。
自2021年《AI芯片:前沿技术与创新未来》一书出版以来,它的发行量远超我的预期,人们在全世界的很多地方能看到这本书。短短4年间,世界发生了巨大的变化,AI领域和半导体芯片产业也发生了许多重要事件。这让我意识到,有必要撰写第二本关于AI芯片的书,以紧跟时代步伐、介绍新兴领域和最新动向,与第一本书相互补充。
在这4年中,最令人瞩目的事件之一便是ChatGPT的横空出世。作为一种生成式AI语言模型,它诞生后很快演进到能够生成文本、图像、视频、计算机代码等各种内容。生成式AI也迅速成为推动AI领域又一次飞跃的驱动力。这一驱动力的关键支柱是大语言模型(Large Language Model,LLM,简称大模型),而绝大多数的大模型是基于Transformer算法构建的。
与此同时,为了满足大模型和Transformer算法对算力的巨大需求,AI芯片的架构也在不断优化。通过采用新的工艺,传统的“集成电路”演变为“集成芯片”,即通过芯粒集成、3D堆叠、混合键合等先进的封装手段,大幅增加了单块芯片中的晶体管数量,增加幅度达几百甚至几千倍,从而极大地提高了芯片的算力和性能。
大模型的计算规模正以惊人的速度增长。OpenAI训练GPT-4所需的计算量达到约2×1025 FLOPS(Floating-point Operations per Second,每秒浮点操作数),训练成本约为1亿美元;而2024年谷歌发布的非常强大的模型——Gemini Ultra,训练成本比GPT-4翻了一倍。这种对算力、能耗和成本的巨大需求,已成为AI和AI芯片持续发展的严峻挑战。
应对这些变化和挑战的关键在于两个字——创新。唯有通过创新,才能引发新的技术变革、诞生新的产业并产生经济效益,从而推动AI进入可持续发展的轨道,进而推动人类文明的前进。创新不是一蹴而就的,而是需要前瞻的视野和勇于探索的精神,不仅要专注于技术开发,还要从基础科研出发,一步一个脚印地向前迈进。
本书旨在从创新的角度探讨AI芯片当前与未来的发展。从应用层,到最底层的器件和材料;从生成文本、图像和视频的AI应用,到由AI芯片组成的、能够自主完成重大科学发现的系统;从当前基于Transformer算法的大模型,到“后Transformer”以及未来的通用人工智能(Artificial General Intelligence,AGI)芯片架构;从能耗巨大的深度学习(Deep Learning),到能耗极低的神经形态计算和符号计算;从现有的硅基硬件,到未来的湿件,本书将带领读者深入探索这些前沿的创新领域。
本书各章的内容重点及其逻辑架构如图A.1所示,具体介绍如下。
图A.1 本书各章的内容重点及其逻辑架构
第1章简要介绍大模型浪潮下,AI芯片的需求与挑战,并介绍AI芯片的常见类型和架构,以及它们各自的计算能力和独特优势。全球各大科技公司和研究机构不断推出创新产品,为AI芯片领域注入新的活力。本章重点介绍当前备受关注的英伟达(NVIDIA)图形处理器(Graphics Processing Unit,GPU)的技术趋势、谷歌(Google)的张量处理器(Tensor Processing Unit,TPU),以及英特尔(Intel)、超威半导体(Advanced Micro Devices,AMD)芯片研发的新进展。另外,本章还介绍一些非常具有潜力、准备与大公司产品(尤其是GPU)竞争的新创公司产品。
第2章聚焦当今主流的深度学习领域,探讨一些创新方法与架构,尤其是针对大模型和Transformer算法的优化算法。由于大模型的计算成本高昂,且能耗巨大,如何改进现有的深度学习方法或开发全新的算法以取代它们,已经成为研究的重中之重。
第3章展望即将到来的“后Transformer”时代,探讨一些新兴的算法和思路,如超维计算、耦合振荡计算、神经符号计算等以“符号”作为核心单元的计算范式,并介绍使用新兴半导体器件来实现这些计算范式的方法。
第4章从半导体芯片技术的进步出发,全面介绍半导体芯片产业的前沿技术,如晶体管架构、晶背供电、光刻工艺、芯粒与异质集成,以及3D堆叠等。此外,本章还深入探讨两项颠覆性技术:分子器件与分子忆阻器,以及打印类脑芯片。这些前沿技术不仅推动了芯片性能的提升,还为未来的芯片设计提供了全新的思路。
第5章将视角转向更底层的技术创新,探讨使用化学或生物方法实现AI的可能性。这些技术创新颠覆了传统芯片的概念,可使AI芯片不再是坚固的硬件,而是柔软或液态的湿件。虽然这些技术目前仍处于实验室阶段,但研究人员对其寄予厚望。因为它们不仅摆脱了传统的用数学模型模拟智能的方式,更是通过化学物质或生物体模仿真实大脑的智能,有望创造出更接近生物大脑的AI,从而在效率和性能上取得重大突破。
第6章深入探讨AI在科学发现中的创新应用,介绍科学研究的核心流程,并基于此展望未来实现完全自主的“AI科学家”的可能性。如果这种“AI科学家”得以实现,将彻底改变当前“小作坊”式的科研模式,推动科研转向大规模“批量生产”的方式。这种方式甚至可能催生出诺贝尔奖级别的研究成果,为科学发现的效率和质量带来革命性改进。
与传统的深度学习加速芯片相比,类脑芯片的运行方式更接近人类的大脑,虽然目前已经有一些原型样片,但与商业化应用尚有距离。本书第7章与第8章探讨生成式AI兴起后,实现神经形态计算与类脑芯片的创新方法,并介绍具备感知和执行功能的具身智能芯片。目前,大多数训练AI模型的数据主要来自互联网,缺乏对周围物理环境的感知,而这样的智能是不完整的,尚不能被称为真正的智能。
在生成式AI热潮中,AGI是关注度最高的概念之一。本书第9章聚焦AGI芯片,展望未来可能的AGI芯片架构。不过,AGI的定义目前仍未明确且存在争议,AGI芯片在最终实现之前还需要经历漫长的研发过程。
本书旨在为AI和芯片领域的研究人员,工程技术人员,科技、产业决策和管理人员,创投从业者,AI、集成电路、计算机等相关专业的本科生、研究生和教学工作者,以及对AI芯片感兴趣的读者提供一本新颖、前沿且富有创新思维的专业读物。这既是我上一本作品《AI芯片:前沿技术与创新未来》的宗旨,也是我写作本书的指导思想。然而,本书并不适合完全的初学者,它的核心目标读者是已经在AI或芯片领域中有一定经验并具备基础知识的专业人士。
我非常感谢人民邮电出版社高级策划编辑贺瑞君对出版本书的热情支持与多方面的协助。同时,我也要感谢出版社的其他同仁,感谢他们在本书出版过程中所给予的支持与协助。
与AI和芯片相关的技术正在以惊人的速度进步,人类社会和文明也在随之不断向前发展。如今,图书出版的节奏已经难以跟上技术快速变化的步伐。本书正是在这种创新日新月异、信息与知识爆炸的时代背景下撰写和出版的,可以看作当前“指数发展”时代的一个“快照”。书中难免存在不足之处,恳请读者批评指正。
张臣雄
2024年12月
“大模型需要更强大的计算力,而AI芯片是驱动未来AI的引擎。”
——黄仁勋(Jensen Huang),英伟达创始人兼CEO
“我们正在逼近芯片功耗和散热的物理极限,创新已经不仅是必要,而是生存所需。”
——埃隆·马斯克(Elon Musk),特斯拉与SpaceX创始人
“AI芯片不仅要计算快,还要更智能地利用能源,这是支持大规模AI模型的关键。”
——吴恩达(Andrew Ng),人工智能专家
“AI模型越大,对芯片性能和效率的要求就越高。我们需要突破性创新来支持这一浪潮。”
——李飞飞(Fei-Fei Li),斯坦福大学教授
在当今的数字化时代,人工智能(Artificial Intelligence,AI)已经成为推动科技进步和社会变革的重要力量。从自动驾驶汽车到自动生成文本、图像和视频,从机器翻译到智能医疗诊断,AI正在渗透各个领域,并为人们的工作和生活带来了巨大的改变和便利。
然而,实现功能强大的AI系统并非易事。当前基于深度学习算法的AI,其核心是处理和分析大规模的数据,以从中提取有用的信息和模式。这就需要庞大而高效的计算资源来支持复杂的算法和模型。因此,作为基本组件的AI芯片受到了广泛关注。一些大公司正在推动AI芯片市场的高速发展,而大量科研机构和新创公司也纷纷投入资金和人力研发新的AI芯片。
当前主流的AI芯片也被称为深度学习AI加速器、AI引擎或神经网络处理器,是专门面向AI任务设计和优化的集成电路产品,以运行深度学习算法和模型为主要目标。它们采用冯·诺依曼体系结构,将存储和计算分离,用于图像识别、语音识别等判别式AI场景和文本、图像、视频等生成式AI场景。与传统的通用计算芯片——中央处理器(Central Processing Unit,CPU)相比,这些AI芯片针对目标领域具有更高的计算性能(就AI任务而言)、更低的功耗和更好的并行处理能力。这使得它们能够在更短的时间内处理更多的数据,从而完成更复杂的AI任务。
AI芯片的设计和制造涉及多个领域的知识,包括计算机体系结构、芯片设计、材料科学等。近年来,全球许多科技巨头和研究机构竞相推出自己的AI芯片产品,并在AI领域取得重要突破。例如,除了英伟达公司的GPU仍然一骑绝尘,谷歌的TPU和其他公司推出的智能处理器(Intelligence Processing Unit,IPU)、数据处理器(Data Processing Unit,DPU)等,都成为AI芯片领域的重要代表和AI芯片市场的参与者。
AI芯片的出现推动了AI技术的进步,使得AI在各个领域得到了更加广泛的应用。在文本和图像生成、自然语言处理(Natural Language Processing,NLP)、图像识别、语音识别、机器学习等任务中,AI芯片能够在很大程度上满足需求,使AI在某些场景下的处理能力甚至超过人类。它也使半导体芯片技术的发展大幅加速,因为当前AI日新月异的发展对芯片性能要求极高,只有采用最前沿的芯片设计和制造工艺才能满足需求。
本书将着重探讨近年来AI算法、芯片架构、芯片工艺、芯片材料等方面的发展状况,AI芯片的新应用领域与场景,以及它们在应用中的性能特点和优势。
虽然AI芯片已经出现多年,但是与传统芯片相比,它仍然属于新生事物。生成式AI热潮的兴起,对AI芯片的性能和能效提出了更高的要求,同时也显露出目前AI芯片的不足之处。如果AI模型的规模及其对算力的要求无止境地发展下去,将会对生态环境、自然资源造成严重影响,这样的发展是不可持续的。
因此,我们在为当前AI取得突破性进展感到欢欣鼓舞的同时,必须认真思考其未来的发展前景和技术方向,不仅要考虑未来3~5年的短期发展,还要考虑10年之后的长期发展。虽然有些新的思路属于基础研究范畴,刚刚萌芽,但经过长期的精心栽培,很可能在未来成为产业界的一棵大树,并诞生累累硕果。本书将和读者一起,对这些潜在的发展前景作比较深入的探索。
下面让我们开始这段旅程,一起探索AI芯片的无限潜力吧!
AI经过了从专家系统到神经网络的起起伏伏的发展历程。2017年Transformer模型的诞生和大模型的开发,促成了2022年11月ChatGPT的发布以及2023年3月GPT-4的横空出世。虽然AI的发展经历了多次起伏,但其智能水平和社会影响一直在提高(见图1.1)。现在,与生成式AI相关的应用服务如雨后春笋般涌现,很多国内公司(如百度、腾讯和阿里云等)都已经成功开发出大模型,为大模型的应用提供了有力支持。
当今典型的大模型已经初步具备了人类的通识和逻辑推断能力,这也是之前的AI所缺失的。多年前兴起的以深度学习技术为支撑的AI(与生成式AI对应,被称为判别式AI)已经相当成熟并得到了广泛的应用,而生成式AI把这一次AI热潮推向了新的高度。判别式AI主要在识别、翻译、预测等方面的判别能力较强,可以被称为某个领域的“专家”;而ChatGPT等大模型则可以被称为各个领域的通用专家,这引发了公众对AI的极大关注。
图1.1 AI经历了三次热潮和两次低谷
生成式AI的应用多种多样,如DALL-E2、Midjourney、Stable Diffusion、Mini-Omni、Github Copliot和Sora等,它们不仅包括对话功能,还包括生成图像、视频、语音和程序代码等功能。
在生成式AI基础上发展起来的下一波热潮将是代理式AI(Agentic AI[1])。生成式AI的核心是创建新的内容,比如文本、图像、音乐等,而AI智能体则进一步发展了这一理念,将其扩展到更自动化并具互动性的领域:智能体不仅可以生成内容,还能够自主执行复杂任务、做出决策并与外部环境或其他系统交互,同时不断学习和适应。
[1] 常被称为AI Agent、AI代理或AI智能体,本书统一称为AI智能体或简称智能体。
目前主流大模型的参数量都是千亿级、万亿级的水平,展现出了惊人的泛化能力、迁移能力,产出的内容质量也更高、更智能。同时,训练这些大模型需要海量数据。OpenAI为了让GPT-3的表现更接近人类,使用了45TB的数据、近1万亿个单词来训练它,这相当于约一千万本牛津高阶词典的词汇。
大模型的能力比以往的AI有了长足的进步,它可以根据人类的提示(Prompt)写出大量文字,其内容与人类写的经常无法区分。虽然目前的生成式AI仍不完美,并会出现错误,但它们已经可以回答棘手的技术问题,例如回答以往需要向律师和计算机程序员等专业人士提的问题。它们甚至可以帮助人们更好地训练其他AI。
AI能力的提升,依靠的是大量的计算机和服务器集群,而这些设备的核心器件就是AI芯片。因此,高性能的AI芯片成为最抢手的半导体器件之一,尤其是用于AI训练的高端GPU芯片,不仅价格飞涨,而且供不应求,甚至因为种种原因被限购。
为了能够满足日趋复杂、密集的AI运算需求,同时尽可能降低能耗,AI芯片必须使用最先进的半导体芯片设计和制造技术。这掀起了半导体行业的技术竞争热潮,也激发了产业界、学术界对半导体芯片的研发热情,从而促进了芯片技术的加速发展。
根据市场调研公司灼识咨询的预测,在生成式AI需求的推动下,AI芯片的全球市场规模正在迅速扩大:预计到2027年,AI芯片市场的销售额会比2023年翻一番还要多,达到约3089亿美元,复合年增长率为23%,其中中国AI芯片市场的销售额预计达到1150亿美元。这些销售额中的很大一部分将来自云端训练所使用的GPU。而边缘侧的AI推理芯片将在未来5年内迎来需求的高峰。
一般来说,目前的主流商业化AI芯片包含CPU、GPU、现场可编程门阵列(Field Programmable Gate Array,FPGA)和专用集成电路(Application Specific Integrated Circuit,ASIC)4种。由于高端CPU、GPU和FPGA的设计基本上被个别公司所垄断,近年来出现的大多数新创公司都在开发针对AI加速的ASIC,只有为数不多的新创公司取得了高端CPU、GPU研发的竞争优势。这个态势尤其体现在云端(数据中心)的AI训练芯片上,因为这些芯片需要极高的算力,因而开发芯片的主要目标是“高算力”。
2023—2024年,AI芯片市场上新一代的CPU和GPU仍然是最具竞争力的AI芯片。英特尔(Intel)公司的CPU已经针对AI计算任务做了许多改进,其最新公布的路线图显示,在接下来的两三年内将有更多用于AI处理的高性能CPU产品供数据中心使用。而英特尔的x86处理器早已被非常广泛地部署在全球各大数据中心里。英伟达的全新架构GPU芯片——英伟达H100和B100芯片具备了惊人的AI性能指标。AMD也推出了新一代的GPU。
在AI模型的开发、训练和推理中,不同AI芯片的使用比例取决于具体的应用场景、需求和资源预算。图1.2所示是各种AI芯片在不同处理场合中的应用情况。
图1.2 各种AI芯片在不同处理场合中的应用情况
(1)在AI模型的开发、训练和推理中,CPU通常作为整个系统的主要控制单元。近年来,很多CPU增加了AI处理单元,大多数AI任务中CPU的使用比例已经大大上升。
(2)GPU在深度学习中的应用非常广泛,由于具有强大的并行计算能力,通常被用于大规模数据集的训练和复杂模型的推理。在这些场景下,GPU的运算速度可以比CPU快100倍。GPU在AI模型开发和训练中的使用比例为60%~80%,具体取决于模型的大小和训练的规模。
(3)FPGA是一种灵活的可编程芯片,在AI模型的训练和推理中也有一定的应用。FPGA可以根据具体需求进行重新编程,适用于一些需要快速迭代和灵活处理的场景。然而,FPGA的配置和优化相对复杂,通常具有较高的技术要求和开发成本。因此,FPGA的使用比例相对较低,通常在10%以下。
(4)ASIC是为特定任务而设计的芯片。在一些高性能计算(High Performance Computing,HPC)需求较密集的场景(如云计算中心)中,一些大规模的AI模型可能会使用ASIC来加速训练和推理过程,效果非常显著。然而,ASIC的设计和生产成本较高,并且需要针对具体任务进行定制,因此一般情况下使用比例较低。
AI芯片使用的实际比例会根据具体任务、硬件配置和资源限制等因素而有所不同。此外,随着技术的发展和芯片的更新,使用比例也可能发生变化。同时,使用比例也会根据应用场景的不同而调整。例如,CPU经常被用于边缘设备的AI推理,如智能手机和自动驾驶汽车;而在需要高性能和低时延的数据中心,GPU经常被用于AI训练和推理;FPGA常被用于AI推理的专业应用,如医疗成像和金融交易;ASIC除了被用于一小部分AI训练,通常被用于对性能要求最高的场景下的AI推理,如自动驾驶和人脸识别等。
对AI推理来说,除了云端推理这类特别复杂的任务,一般的边缘推理并不需要高算力的AI芯片,而需要高能效(尽可能少耗电)的AI芯片。在这个领域,一些设计新颖、功耗极低的ASIC被不断开发出来。新创公司及研究机构在该领域有更大的优势空间。
图1.3所示为基于深度学习的生成式AI模型中各个层次的组成情况。如果没有像TensorFlow这样的框架来为AI算法编程,即使再好的芯片也不能发挥作用。AI芯片制造厂家为每个层次提供了适配的软件。软件优化往往可以很大程度地提升速度。
图1.3 基于深度学习的生成式AI模型中各个层次的组成情况
接下来,首先介绍近些年出现的一些CPU、GPU、FPGA和ASIC的情况,以及它们未来的发展路线图,其次介绍几家新创公司开发的AI加速器芯片。
经过近些年不断的架构改进,CPU已经不再是原来只能做数据流控制、不能有效进行大数据计算的传统计算机器件了。CPU研制历史悠久的公司(如英特尔和AMD)对其新一代CPU的AI功能做了强化和改进,新一代CPU完全可以胜任很多实际的AI计算任务。这些计算任务主要运行从较低复杂度到中等复杂度的深度学习算法。市场上现有的x86架构CPU,AI功能越来越丰富。
CPU最大的优点是高灵活性,因为它是通用处理器,可以通过软件编程对不断更新的AI算法进行处理。而且与GPU相比,CPU的成本低得多。CPU还有很重要的一个优势是普及性,主要体现在云端的广泛部署。
截至本书成稿之时,AI项目只是典型的数据中心中运行的一部分应用程序。大多数云端服务器还没有配备AI加速器,只有AMD或英特尔的x86架构CPU。因此,大部分AI应用程序仍然运行在x86架构的CPU上。
对AI计算来说,CPU有它本身的优势。虽然CPU进行AI计算的速度比不过GPU或者ASIC,但是它既能够进行深度学习算法,又能进行常规的计算,在这几类AI芯片中灵活性最高,而且在市场上容易找到,综合效率较高。对物联网设备、智能手机和可穿戴设备等对功耗和面积有严格限制的应用来说,一般无法放入专门用于语音和图像处理的AI加速器,这时就可以由CPU来处理。另外,在安全性要求极高的应用场景(如太空、国防和医疗)中,CPU有时是唯一的选择,例如航天用的芯片必须有极高的抗辐射性能,CPU对此已经有很成熟的设计,而GPU和属于ASIC的TPU等芯片都还没有这方面的认证。
严重依赖较大规模批处理(Batch Processing)的深度学习算法需要大量内存资源。数据中心中由CPU管理的主机拥有比AI加速器芯片大得多的内存容量,因此经常必须在CPU上运行深度学习算法。另外,尽管一些AI加速器芯片在大规模批处理时能够提供极高的吞吐率,但对于需要实时推理的应用,大规模批处理的效果并不理想。而在小规模批处理时,CPU的时延非常低,具备竞争力。总体来看,x86架构CPU可能会继续更多地用于AI推理,而非AI训练。下面介绍英特尔和AMD在研发CPU方面的动向和整体趋势。
2008年3月,英特尔为x86架构的处理器引入了高级向量扩展(Advanced Vector Extensions,AVX),到现在已经发展到适用于HPC的第3代指令集AVX-512,其中提供的一系列新指令可以对512位向量执行单指令多数据流(Single-instruction Multiple-data Stream,SIMD)操作。2019年,英特尔在AVX指令集中增加了向量神经网络指令(Vector Neural Network Instruction,VNNI)功能,并为16位脑浮点(BFloat16或BF16,谷歌提出的一种浮点数格式)和8位整数(INT8)等数据格式升级了AVX算术单元。
由于神经网络计算通常需要先对两个16位或两个8位的值进行矩阵乘法运算,然后进行32位精度的加法运算,因此,位宽较大的AVX-512单元非常适合多个精度较低的计算同时进行。如果有需要多次使用的操作数,还可以将它们放在CPU缓存中,从而减少内存空间的占用,降低内存系统的运行压力。
目前,英特尔正在构建新的计算单元,如在至强(Xeon)处理器中引入适用于AI的高级矩阵扩展(Advanced Matrix Extensions,AMX)和酷睿(Core)i系列处理器中的高斯与神经加速器(Gaussian and Neural Accelerator,GNA),用于数据加密和压缩的加速器QuickAssist,以及用于加快内存数据分析的存内加速器(Accelerator-in-Memory,AiM)。在最新的英特尔Xeon处理器的Max系列特殊版本中,封装有高达64GB的高带宽内存(High Bandwidth Memory,HBM),这给一些AI算法带来了显著的性能提升。
近年来,英特尔一直在想方设法创新并改进自己的CPU产品,尤其想在数据中心的CPU中加入AI功能,以便抢回已经被英伟达占领的大部分市场份额。表1.1所示的英特尔云端芯片产品发展路线能够体现这种思路。
表1.1 英特尔云端芯片产品发展路线
芯片种类 |
2023年 |
2024年 |
2025年 |
---|---|---|---|
P核CPU |
第4代Xeon Sapphire Rapids |
第5代Xeon Emerald Rapids |
第6代Xeon Granite Rapids |
E核CPU |
— |
Xeon Sierra Forest |
Xeon Clearwater Forest |
ASIC |
Habana Gaudi 2 |
Habana Gaudi 3 |
— |
HPC/AI GPU |
数据中心GPU Max系列 Ponte Vecchio |
— |
下一代数据中心GPU Falcon Shores |
虚拟云GPU |
数据中心GPU Flex系列 |
— |
数据中心GPU Flex系列 Melville Sound |
FPGA |
15款新FPGA |
— |
下一代FPGA |
注:源自英特尔,2023年5月更新,表中内容为当年的预估路线。
英特尔CPU的P核和E核是其第12代和第13代酷睿处理器中使用的两种不同类型的内核。P核是性能核,专门用于高性能的任务;E核是效率核,专门用于低功耗的任务。
表1.1中的GPU产品Ponte Vecchio芯片专注于HPC和AI计算,它的下一代被称为Falcon Shores,都基于开放的行业标准。ASIC产品是Habana Gaudi 2,下一代为Habana Gaudi 3。
英特尔在2023年12月发布了新一代CPU——Meteor Lake,希望开启全新的AI处理器时代。Meteor Lake采用英特尔的4nm工艺,是第一款采用Foveros 3D封装技术、首次在处理器中搭载专用神经处理单元(Neural Processing Unit,NPU)AI引擎Intel AI Boost的CPU。
Meteor Lake的AI单元用芯粒(Chiplet)实现,因此不依赖大型GPU内核阵列。Intel AI Boost的神经处理单元不是基于英特尔FPGA业务部门Altera的开发成果,而是基于2016年收购的Movidius的技术。NPU将被搭载至Meteor Lake的所有版本中。
通过AI图像生成器Stable Diffusion 1.5的应用场景,英特尔展示了在不同类型硬件(从CPU内核、集成GPU到专用NPU)上运行AI算法的优势。系统的平均功耗从40W降至10W,速度提高了近一倍。如果所有功能都在集成GPU上运行,速度会进一步加快30%,功耗为37W,这比只使用CPU内核经济得多。英特尔称,将对即将推出的AI个人计算机(Personal Computer,PC)中的Microsoft 365 Copilot、Windows Studio Effects等软件提供广泛支持。
按照英特尔在2023年5月的预测,2027年,英特尔的AI芯片(包含CPU、GPU、FPGA、ASIC等)市场规模将可达到400亿美元,其中CPU将占60%,其他占40%。然而,英特尔在2024年出现了巨额亏损,2024年10月发布的Arrow Lake CPU在基准测试中没有取得预期的性能进展。英特尔不得不再次做出许多妥协,如不再采用原计划的英特尔内部20A工艺,而是由代工业务竞争对手台积电制造;原计划的“全环绕栅极(GAA,详见4.1.1小节)晶体管”创新也因此被推迟。英特尔希望在2025年新的CEO上任后扭转局势。
在AMD的Ryzen 7040系列移动设备处理器中,Ryzen 5 7640U及以上的7个型号中运算速度最快的5个型号都配备了Ryzen AI。
AMD收购的赛灵思(Xilinx)的FPGA开发成果是Ryzen AI的基础。AMD将其背后的架构称为XDNA。XDNA由20个分片(Tile)组成,能够执行从8位整数到32位整数(INT32)和BF16等典型AI数据格式的计算。部分分片通过片上网络和直接内存访问单元连接计算节点。Ryzen AI最初处理4个并行AI数据流。得益于精细的时钟调整和关闭功能,XDNA在不运行时几乎不耗电。当XDNA全速运行时,可达每秒10万亿次(Tera Operations Per Second,TOPS)的运算速度。AMD的统一AI软件栈(Unified AI Software Stack)框架专为AI应用而设计,可在Ryzen 7040系列处理器上运行,但开始时只能在有限的范围内利用专用XDNA运行。
在很多只能承受低功耗的物联网或可穿戴设备中,用得较多的是微控制器单元(Microcontroller Unit,MCU),它的性能和功耗要比x86处理器低得多。一些MCU的功率只有几十毫瓦。相对简单的MCU内核(如ARM的Cortex-M0)没有浮点单元,甚至没有像ARM Neon那样的SIMD扩展,因此需要额外的单元来快速地处理AI算法。
目前,在有MCU的芯片中实现AI引擎,较简单的办法是直接从ARM、Cadence、Imagination Technologies或Synopsys等设计公司购买AI处理单元知识产权(Intellectual Property,IP)核作为功能模块。像ARM Ethos-U65或PowerVR 3NX这样的AI单元与同一芯片中的Cortex处理器核并行运行就是这种情形。另外,一些嵌入式图形内核(如ARM Mali-G710)的着色器(又称渲染器)内核可以作为AI计算单元使用。
所有芯片相关的公司都或多或少地从AI腾飞中受益。英特尔也不想在这一点上落后。英特尔的优势在于拥有满足中小型AI模型计算能力的处理器,并且也有相应的GPU产品。然而,截至本书成稿之时,英伟达在GPU市场上仍然占据主导地位,而AMD和英特尔的消息要少得多。
近年来,英特尔将业务重点放在为服务器CPU增加新的加速器单元(见图1.4)上。但如果在原有的CPU单片芯片中增加太多的加速器,会占用芯片面积,从而影响CPU的性能。因此,新的趋势是简化CPU内核,并减少加速器数量。随着芯粒技术的逐渐成熟,如果把AI加速器作为芯粒直接与CPU封装在一块芯片中,不仅可以提高性能,还可以降低功耗并缩小系统的体积。更重要的是,CPU具有高灵活性和与GPU相比的低成本优势,非常适用于不断更新的AI算法,可作为一种灵活的AI推理引擎使用。
图1.4 带有加速器单元的CPU芯片组成
有一些新创公司和研究机构也秉持这样的想法,直接将一个AI加速器核与CPU核合并,组成一块更适合AI计算的芯片;也有的在AI算法上下工夫,做出更适用于CPU的改进。
虽然CPU的通用硬件架构本质上并不适用于AI运算,但通过改进AI算法和软件,可使CPU胜任AI处理工作。而CPU的成本只有GPU的1/3,这就是优化算法利用CPU的好处。
美国莱斯大学(Rice University)的计算机科学家团队研发的一种AI软件可以在商用CPU处理器上运行,并且在训练深度神经网络时比基于GPU的平台快15倍。他们将深度神经网络(Deep Neural Network,DNN)训练并转化为一个可以用哈希表解决的搜索问题。他们的亚线性深度学习引擎(Sub-linear Deep Learning Engine,SLIDE)专为在商用CPU上运行而设计[1]。在2020年举行的第三届机器学习与系统年会(MLSys 2020)上,他们展示了这种引擎的使用方法。该引擎的运算速度可以胜过基于GPU的AI训练速度。这说明可以通过现代CPU中的向量化和内存优化加速器来提高CPU的性能。该团队成员Beidi Chen发表的博士论文介绍了这种学习引擎的核心算法:用随机哈希算法来解决计算难题(见图1.5),并作为大规模估计的自适应采样器,为局部敏感哈希(Locality Sensitive Hashing,LSH)算法提供新的改进方法。在训练期间,仅对每个训练数据点中极少的采样神经元执行前向传播和反向传播操作就足够了。其中,前向传播的计算过程为:首先从输入层得到哈希码H1,查询隐藏层1的哈希表而找出活动神经元;然后从活动神经元得到激活值;接着以同样的方法计算下一层,直到得到稀疏输出。LSH算法属于碰撞概率随相似性增加而单调增加的算法。该算法为自适应采样提供了一种更加自然的方法,因为它允许按权重对神经元进行采样,而无须计算激活值。这种采样方法使网络变得稀疏,从而使GPU的并行性对它失去优势,因此更适合在CPU上实现。这篇论文显示,LSH算法采样的功能大大减少了极大规模神经网络训练的计算量,并且在只有一块CPU芯片的情况下优于TensorFlow在目前GPU上的优化实现。
基于哈希表的加速性能使CPU运行LSH算法的性能超过了GPU。该团队没有把注意力放在矩阵的乘积累加(Multiply Accumulation,MAC)运算上面,而是利用这些创新进一步推动了AI计算的加速。与当时性能最高的GPU或者专业ASIC芯片产品相比,运行SLIDE的CPU能够以4~15倍的速度训练AI模型。
图1.5 用随机哈希算法来解决计算难题
近年来,深度学习模型无论是在算法还是在架构上都有了很多改进,出现了很多新的优化方法,包括充分利用高度稀疏性的稀疏DNN,目前已经有不少以此为基础的模型。然而,稀疏DNN在大规模并行处理器上的处理效率低下,因为它们对内存的访问不规则,并且无法利用诸如缓存分片和向量化之类的优化方法。
此外,由于运算步骤之间的依赖性,循环神经网络(Recurrent Neural Network,RNN)难以并行化。有些优化了的DNN的卷积核形状和大小不同,也会导致不规则的内存访问,使并行性在各个网络层都不一致。
因此,GPU和很多AI加速器的高度并行计算特性在上述类型网络中并不能充分发挥作用。由于CPU具有先进的内存管理技术,它们更适合并行性受限的此类应用。莱斯大学研究团队的工作表明,对于稀疏数据集(如Amazon-670K和Delicious-200K)上的全连接神经网络,用哈希表代替矩阵乘法运算可取得很好的处理效果。
要提高性能,选择与CPU架构更加匹配的AI优化算法是关键。SLIDE仅是众多改进方法中的一种,还有许多技术可用于进一步调整CPU上的深度学习应用。例如,硬件感知的修剪、向量化、缓存分片等,这些技术都属于AI算法的优化。
近似计算也是近年来发展迅速的一种计算范式,已经有大量相关的研究成果。这些成果表明,如果使用近似计算,即便不使用AI加速器而仅使用CPU,在运算性能上也可以有数量级的提高。
AI芯片的研究和产业发展还刚刚起步,部署AI时究竟使用CPU,还是GPU、FPGA或者ASIC,目前不能一概而论。这需要针对不同的应用场合、根据不同的指标和要求来衡量。SLIDE项目的研究人员表示,他们并不想以该成果引发辩论,而是想强调并体现CPU在AI计算上的优势。CPU的架构也在不断改进,它在AI领域的作用还将持续下去。在未来,AI加速器也可能被集成到CPU芯片上,成为异构计算的一个范例。
GPU本质上依然是先进的冯·诺依曼体系结构,专为加速图形处理而设计。GPU的特点是能够进行大规模并行处理。虽然CPU可以执行复杂的指令,但在大规模计算的情况下,处理是序列进行的,非常耗时。而GPU使用大量通用算术单元,根据CPU的指令并行处理计算任务。GPU中的计算单元被设计为SIMD架构。通过SIMD单元,GPU可以高效地并行执行大量线程,控制逻辑比一般的高性能CPU更简单:既无须估计或预取分支,也没有每个核内存的限制。这使得GPU能够在一块芯片中容纳远比CPU更多的核。
在2003年,通用图形处理器(General Purpose Graphic Processing Unit,GPGPU)的概念首次被引入,标志着GPU从专门用于图形处理向通用计算领域的扩展。如今,随着GPGPU的软件和硬件支持,GPU的应用领域已经扩展到各种高级应用,包括深度学习、区块链,以及天气预报、分子动力学等许多HPC应用,并被广泛用于各种边缘设备。英伟达最初只为处理3D图形数据而在GPU中设计了着色器算术单元,随着持续的迭代升级,GPU的应用更加灵活,并有了新的指令。英伟达用于AI计算的GPU产品,始于2007年推出的Tesla系列GPU,现在已经发展到B100和B200(B200由两块B100组成,并通过NVLink等互连技术进行数据传输)。表1.2以英伟达的GPU为例,展示了2010年以来GPU技术指标的演进。
从这些技术指标的演进过程可以看出,在十几年的时间内,GPU取得了巨大的进步。2017年,谷歌研究人员发布的Transformer深度学习模型开创了大模型时代。大模型拥有大量由权重和偏置值组成的参数,以提高输出的准确性。当时为了训练大模型,研究人员使用1000多块A100 GPU运行了一个多月,达到了预期效果。
随着模型参数数量的增加,训练所需要的GPU数量和天数也在增加。2022年,英伟达开始销售用于大模型的H100张量核GPU,H100的FP64、FP32、FP16和INT8计算性能均比上一代A100提高了3倍,从而在全球市场内造成疯抢及产品短缺。根据其最新的财务报告,英伟达在2024财年实现了总收入609亿美元,同比增长126%。其中,数据中心业务表现尤为突出,全年收入达到475亿美元,同比增长217%。在数据中心GPU领域,英伟达的市场份额更是达到98%,显示出其在该领域的绝对优势。
表1.2 2010年以来GPU技术指标的演进
技术 |
Fermi |
Kepler |
Maxwell |
Pascal |
Volta |
Turing |
Ampere |
Hopper |
Blackwell |
Blackwell |
---|---|---|---|---|---|---|---|---|---|---|
工艺(nm) |
40 |
28 |
28 |
16 |
12 |
12 |
7 |
4 |
4 |
4 |
裸片面积(mm2) |
529 |
561 |
601 |
610 |
815 |
754 |
826 |
814 |
800 |
800×2 |
晶体管数量(亿个) |
31 |
70 |
80 |
153 |
211 |
186 |
542 |
800 |
1040 |
1040×2 |
FP32 CUDA核数量(个) |
448 |
2880 |
3072 |
3584 |
5120 |
4608 |
6912 |
6896 |
未公开 |
未公开 |
FP32 TFLOPS |
1.00 |
5.20 |
6.80 |
10.60 |
15.70 |
16.30 |
19.50 |
24.08 |
60.00 |
80.00 |
内存接口 |
384位GDDR5 |
384位GDDR5 |
384位GDDR5 |
4096位HBM2 |
4096位HBM2 |
384位GDDR6 |
6144位HBM2e |
5120位HBM3 |
1024位×8 HBM3e |
1024位×8 HBM3e |
内存大小(GB) |
6 |
12 |
12 |
16 |
32/16 |
24 |
40 |
80 |
96 |
192 |
内存带宽(GB/s) |
144 |
288 |
317 |
720 |
900 |
672 |
1555 |
3000 |
8000 |
8000×2 |
热设计功率(W) |
225 |
225 |
250 |
300 |
300 |
260 |
400 |
700 |
700 |
1000 |
注:GDDR指图形双倍数据速率(Graphics Double Data Rate)。
来源:英伟达。
英伟达H100 GPU芯片(见图1.6)是台湾积体电路制造股份有限公司(简称台积电)用为英伟达定制的4nm工艺制造的,有800亿个晶体管,而基于7nm工艺的A100有542亿个晶体管。H100的裸片面积为814mm2,比A100小12mm2。此外,H100具有更高的时钟频率和更好的性能/功率比。H100是第一款支持第5代高速外设组件互连标准(Peripheral Component Interconnect Express,PCIe)的GPU,也是全球第一款采用4nm工艺和HBM3内存(3TB/s)的新一代AI芯片,每块芯片的市场销售价格超过30 000美元。
图1.6 英伟达H100 GPU芯片(来源:英伟达)
H100是基于英伟达2022年发布的GPU架构Hopper设计的,目标就是HPC和AI应用。整个Hopper架构由8个图形处理集群(Graphics Processing Cluster,GPC)“拼接”组成,每4个GPC共享25MB的L2缓存。H100还集成了纹理处理集群(Texture Processing Cluster,TPC)、流式多处理器(Streaming Multiprocessor,SM)、L2缓存和HBM3内存控制器等模块。Hopper架构的主要变化体现在新型线程块集群技术和新一代的流式多处理器,它取得显著性能提升的主要技术支撑如下。
(1)张量核(Tensor Core)。传统的SIMD处理器在进行深度学习的MAC运算时会出现性能下降的情况。这是因为SIMD计算单元本质上是为加速图形操作而开发的,并不适合需要大量MAC运算的大型神经网络的训练。因此,除了着色器核,英伟达在2017年随Volta架构推出了张量核,可以有效地进行通用矩阵-矩阵乘法计算。张量核是专门用于流式多处理器中MAC运算的组合逻辑,受益于高速连接的图形存储器。张量核经常被称为“AI处理单元”。第四代张量核支持FP8、FP16、FP32和INT8这4种精度的计算,并采用了新的混合精度计算技术,可大幅提高AI训练和推理的性能。
图1.7所示为GPU中流式多处理器处理块的框图,一对张量核与其他传统的GPU流水线组件共享处理块的调度资源,如寄存器文件和线程束调度器。一个张量核由四元素点积(Four-element Dot Product,FEDP)组成,共同执行4×4个MAC操作。执行四元素点积操作的张量核的吞吐率比英伟达传统的计算统一设备体系结构(Compute Unified Device Architecture,CUDA)核更高[2]。一个线程束(Warp)包含32个线程的基本调度单元,其中一个四线程小组被称为线程组,每个线程组利用张量核处理4行8列的数据块。两个线程组协力处理数据,共同生成一个8行8列的数据块。由于每个Warp包含4个8行8列的数据块,因此可以并行处理一个16行16列的矩阵,并利用矩阵乘积累加运算操作进行计算。
图1.7 GPU中流式多处理器处理块的框图[2]
(2)Transformer引擎。Transformer引擎是Hopper架构中专为AI训练而设计的新引擎。Transformer引擎采用了混合精度计算技术,支持FP8、FP16和FP32这3种精度。Transformer引擎可将Transformer模型的训练速度提高多达9倍,耗时从几周缩短到几天。新的Transformer引擎可以应用FP8(A100新引入)和FP16数据格式,以大大加快Transformer模型的AI计算速度。张量核的操作在FP8数据格式上的吞吐率是16位操作的两倍,也只需要后者一半的内存容量。Transformer引擎能够根据启发式程序在不同的格式之间进行动态切换,以显著提高Transformer模型的训练速度。
(3)NVLink Switch系统。NVLink Switch系统是Hopper架构中用于GPU间互连的新系统。NVLink Switch系统可为大规模GPU集群提供更高的性能和可扩展性。第三代NVLink Switch系统是为A100 GPU推出的,它提升了连接的数量、速度和带宽。英伟达在2022年正式将NVLink Switch改名为NVSwitch,它的结构和操作如图1.8所示。
图1.8 NVSwitch的结构和操作(来源:英伟达)[2]
[2] 图中,NIC指网络接口卡(Network Interface Card),PEX Switch指PCI高速交换机(PCI Express Switch),NVMe指非易失性存储器高速(Non-volatile Memory Express)传输协议。
用于GPU间直接连接的第四代NVLink配备了错误检测和重放机制等功能。与A100中的第三代NVSwitch相比,新一代NVLink的通信带宽提高了1.5倍。每块H100芯片配备了18组第四代NVLink,总带宽为900GB/s,大约是PCIe 5.0的7倍。
为了扩展数据中心,英伟达开发了带有第四代NVLink的NVSwitch。这是一种类似无限带宽技术(InfiniBand)和以太网的网络结构。每个NVSwitch模块拥有64个NVLink端口,并内置英伟达的可扩展分层聚合与归约协议(Scalable Hierarchical Aggregation and Reduction Protocol,SHARP)引擎,用于在网络中加速归约操作(Reduction)和组播(Multicast),以优化数据传输和计算效率。
NVLink网络可以连接多达256块H100芯片,总带宽可达57.6TB/s。英伟达打算在所有该公司的芯片[包括GPU、CPU和系统级芯片(System on Chip,SoC)]中使用NVLink,同时也将NVLink标准提供给客户和合作伙伴,用于开发配套芯片。
(4)机密计算。H100首次增加了机密计算的功能,用于防御硬件和软件攻击,保护用户数据。这种功能使得AI模型和客户数据在处理过程中得到保护。这意味着H100不仅可以在有敏感数据的行业(如医疗保健或金融服务)中实现分布式学习,也可以在共享的云基础设施中使用。H100以PCIe传输速率对数据传输进行加密和解密。它提供了一个由集成的硬件防火墙创建并可以物理隔离的可信执行环境(Trusted Execution Environment,TEE),能够确保整个工作负载的数据安全。这样就可以让多个机构合作训练AI模型,而不必分享各家机构的专有数据集。H100是产业界第一款原生机密计算GPU。
(5)HBM。HBM是一种3D堆叠的同步动态随机存储器(Synchronous Dynamic Random Access Memory,SDRAM),用于高速计算机内存接口,最初来自三星(SAMSUNG)、AMD和SK海力士(SK hynix)。使用HBM可以大幅提高内存带宽,这是近年来GPU的重大改进措施之一。GPU已经集成了更强大(体现在更快的访问速度和更高的通信带宽)的动态随机存储器(Dynamic Random Access Memory,DRAM)。英伟达在P100、A100、H100 GPU中分别集成了HBM2、HBM2e和HBM3内存。HBM3内存子系统提供的带宽是上一代的近2倍。
HBM的关键技术是3D堆叠,即把同一封装里的多个裸片堆叠在一起。这种技术不仅能减少芯片的功耗并缩小面积,还能够使芯片在一定成本范围内大大提高性能。在GPU、FPGA、ASIC等AI芯片中,HBM均发挥了重要作用。第一代HBM于2013年10月被固态技术协会(Joint Electron Device Engineering Council,JEDEC)采纳为行业标准,第一款HBM内存芯片由SK海力士于2013年生产。而第一款使用HBM的处理器芯片是AMD于2015年发布的代号为“Fiji”的GPU芯片。经过多年的不断改进,HBM标准的第三代——HBM3于2022年1月由JEDEC正式发布。H100中配备了5个可运行的HBM3内存堆栈(电路板上实际安装了6个堆栈)。这些堆栈提供了总计80GB的随机存储器(Random Access Memory,RAM)和3TB/s的内存带宽(每个堆栈包含16GB RAM,并具有600GB/s的带宽)。
英伟达已经在B100、B200中集成了HBM3e内存。这种内存不仅提供了更高的带宽和能效,每个堆栈的带宽超过1.2TB/s(HBM3为819GB/s),还支持更高的频率(达到9.2Gbit/s或更高)。另外,HBM4预计于2026年开始量产。
H100是第一款真正的异步GPU,它扩展了A100跨所有地址空间的全局到共享的异步传输,并增加了对张量内存访问模式的支持。H100使应用程序能够构建端到端的异步通道,将数据移入和移出芯片,并完全重叠和隐藏数据的移动与计算。
2024年4月,当基于Hopper架构的H100的市场需求还相当旺盛的时候,英伟达又推出了新一代的Blackwell架构及基于该架构的B100、B200芯片。英伟达公布的几项关键数据令人印象深刻:2080亿个晶体管;适用于AI的以FP8精度计算稀疏矩阵;可达每秒10万亿次浮点运算(10TFLOPS)的计算性能,这比上一代产品提高了2.5倍;8个堆叠的HBM3,内存容量为192GB;传输速率达8TB/s,这比上一代产品高出2/3。
与许多竞争对手一样,英伟达在Blackwell架构中也使用了芯粒技术(见第4章)。Blackwell B200结合了两个相同的硅基芯片(裸片面积约为800mm2)和8个HBM3e堆叠内存模块,通过被称为高带宽接口(High Bandwidth Interface,HBI)的接口技术连接两个芯片,总传输速率为10TB/s。第5代NVLink是Blackwell架构关键组件之一,它的传输速率比上一代提高了一倍,达到1.8TB/s。通过适当更新的NVSwitch,一个连接域中最多可连接576个GPU,并可以全速访问其他芯片的内存。总的来说,新一代NVLink可使AI超级计算机装载10万块GPU芯片。
英伟达新的GPU可以有选择性地将计算精度降至FP6甚至FP4,该过程由Blackwell计算单元进行处理。在理想情况下,FP4可以在相同的内存容量下容纳比FP8大两倍的AI模型,计算速度也是FP8的两倍。缩减后的数据格式只用于选定的操作,这意味着计算结果的精确度只是略有降低。
GPU并非英伟达的独家产品,这个领域中的第二大“玩家”是AMD。AMD的GPU在某种程度上比目前英伟达H100的性能更强大、浮点精度更高。越来越明显的是,AMD的Radeon Instinct系列产品可以成为英伟达深度学习GPU的替代品。
这两家制造商都提供专门为自家产品开发的软件库。CUDA为专用于英伟达GPU的并行运行应用程序。它由一个API和一个C语言库集合组成。在英伟达不断扩大其CUDA平台的同时,AMD则依靠开源框架Radeon开放计算平台(Radeon Open Compute Platform,ROCm)开发专业计算和机器学习应用。利用这些工具和库,开发者可以在AMD GPU上运行并行应用。ROCm目前只适用于Linux,并适用于基于AMD的GPU指令集架构——计算DNA(Compute DNA,CDNA)的AMD计算卡,也支持一些基于RDNA-2(Radeon DNA-2)微架构的模型。当前ROCm版本的TensorFlow和PyTorch在Linux上有接口。
英特尔目前只提供适合推理的GPU,但正在研究更强大的GPU。该公司的Max系列在F32计算中部分实现了与英伟达和AMD的GPU类似的性能。然而,该公司F16的产品性能尚无竞争力,与常见深度学习框架的兼容性也需要改进。
训练AI模型的效果不仅取决于GPU的特性,还取决于GPU的数量。如果使用多块GPU并行训练,性能几乎可以线性地提高。通常情况下,一台服务器中可能装有2块、4块或8块GPU。然而,由于空间限制及电源和散热要求,为确保最佳性能和稳定性,常常限制到4块GPU。
每台服务器的GPU数量也受到CPU及其PCIe控制器的限制。高端GPU需要16条PCIe通道,以便在GPU和CPU或主内存之间进行有效的数据交换。一台4U服务器机箱中的双CPU系统有足够的空间和PCIe通道来容纳多达8块GPU芯片。
目前,一台服务器中超过8块GPU芯片的扩展是不常见的。下一步扩展是将几台8块GPU芯片的服务器结合起来,这些服务器的节点通过100Gbit/s以太网连接,形成一个集群。目前的规模限制似乎仅是经济原因。举个例子,大模型LLaMA-65B是在一个有256台服务器的集群上训练的,每台服务器有8块GPU芯片,也就是说,总共有2048块GPU芯片。类似的设置也被用来训练GPT-3和GPT-4,即ChatGPT所基于的深度学习模型。
GPU扩展需要使用多块相同的GPU芯片,而不能混用不同的GPU芯片。这是因为最慢的GPU芯片会形成瓶颈,并决定每块GPU芯片在并行操作中可能实现的最大性能。几块便宜的GPU芯片加起来会比一块高一个性能级别的GPU芯片更加强大,而且价格可能比后者更便宜。
英伟达把H100、B100、B200等用于AI的GPU与其他各种芯片和组件组合成名为HGX的系统,并将其销售给运行超级计算机的大型IT公司。HGX H100由3.5万个组件组成,集成了1万亿个晶体管。英伟达还向数据中心销售名为DGX的GPU服务器(如DGX B200,每块GPU的液冷功率高达1000W)。英伟达还有一款由两块Blackwell GPU和一块Grace ARM处理器组成的三芯片组合服务器,被称为GB200,功耗高达2.7kW,其中每块Blackwell GPU分配1.2kW。可以看出,英伟达不仅开展独立的芯片业务,还销售组合而成的整个服务器。英特尔和AMD则仅开展独立芯片业务。
随着生成式AI的蓬勃发展,GPU服务器即将成为主角。它的内部结构与传统服务器截然不同。英伟达的DGX H100 GPU服务器由安装在8U机箱中的8块H100组成,从顶部看,GPU托盘上有8块H100,主板上有CPU和主内存,电源位置上有6台3.3kW电源。机箱前部的“前笼”有12个巨大的冷却风扇,每分钟可将约31m3的空气吸入机箱,并以热空气的形式排出。如果在数据中心安装大量这类新款GPU服务器,那么数据中心必须具备冷却如此多热空气的能力。
要训练以GPT-3为代表的千亿参数级的大模型,对GPU内存和GPU性能的要求极高,即使是拥有640GB GPU内存的单台DGX H100也无法达到要求,而需要将多台GPU服务器连接在一起。因此,一台DGX H100中的每块GPU可以通过400Gbit/s的InfiniBand高速网络连接到另一台DGX H100或其他机箱中的GPU。这用到了一项名为GPUDirect的创新技术,该技术可让GPU不通过服务器的CPU即可相互通信。
目前,英伟达的GPU在训练大型AI模型的市场中占据主导地位(有数据表明,截至2023年年底,该公司GPU的市场占有率超过92%)。AMD也在这类市场中获益不少。
Blackwell GPU的升级版——Blackwell Ultra已于2025年推出。Blackwell Ultra采用12层而非8层HBM3e内存,这将把直接连接到GPU的内存从192GB增加到288GB。随后,配备同名GPU和HBM4 RAM的Rubin架构以及ARM处理器Vera将于2026年推出。Rubin Ultra的升级版将于2027年推出,它的HBM4内存堆栈将从8个增加到12个。
除了用于大型AI模型训练,GPU也可以更广泛地用于大型AI模型推理。
使用GPU进行AI加速也有缺点。首先,为了确保高可编程性,与其他加速器相比,AI加速器的能效相对较低。在其他AI加速器中,为AI加速的控制逻辑得到了优化,架构做得较简单;而GPU不仅是为AI加速而设计的,还具有相当复杂的控制逻辑,用来支持各种并行处理和图形处理的架构。这导致GPU在进行AI加速时效率较低。因此,GPU在加速AI时需要消耗比其他器件更多的能量。其次,由于GPU是为通用目的而设计的,它并没有像其他加速器那样有特定的计算逻辑来加速AI功能。这一特点不仅降低了GPU的效率,而且使整个过程的吞吐率比其他加速器低。最后,GPU的单位面积计算能力低于其他加速器,而且外形尺寸也较大。正如上面所提及的,GPU的控制逻辑和架构要比其他AI加速器复杂得多,因此它所占用的面积及单位面积的计算能力不如其他加速器有竞争力。以上这些缺点使得GPU并不十分适用于那些对功耗和面积敏感的边缘设备。
由于拥有低能耗、可重构性和实时处理能力,FPGA被认为是一种很有前途的芯片。在AI刚兴起时,FPGA就迅速成为加速神经网络计算的可选芯片之一。FPGA本身是可编程的,因此可以加速特定神经网络的推理。FPGA还可以实现神经网络算法的数据路径优化,与传统的CPU和GPU中基于指令的流水线执行相比,它映射到可重构逻辑的综合设计提供了更高的功效和更低的时延。
FPGA可以把逻辑模块与多个模块组合,以预定顺序执行乘法和加法等功能。例如,对多个输入数据和权重相乘并累加的情况:如果使用GPU,就必须首先读取指令“输入数据和权重相乘”,然后在通用算术单元中执行;而使用FPGA,则可以通过放置乘法器和一个加法器来一次性执行乘法和加法运算,只需要在开始和结束时访问内存(见图1.9),这种方法被称为数据流类型。有的FPGA产品甚至预设了深度学习所需的处理电路。
图1.9 FPGA的乘积累加运算一步到位,不需要额外指令
FPGA架构的主要特点是可重构逻辑和路由,可以快速实现各种不同形式的神经网络加速。然而,尽管硬件支持编程,但与使用传统的通用处理方案相比,利用FPGA进行神经网络加速仍然需要更长的开发时间和更高的学习成本。另外,单块FPGA芯片没有足够的逻辑电路和存储空间[如寄存器和静态随机存取存储器(Static Random Access Memory,SRAM)]来容纳相当数量的神经网络数据。因此,FPGA一般用于实现快速AI推理,而不是为AI神经网络训练设计一个高吞吐率的计算环境。
随着DNN模型层的形状和大小日益多样化,学术界一直在研究灵活、可重新配置的加速器基本架构。这一研究方向有两个挑战:第一是确定加速器阵列需要什么程度的灵活性,以权衡性能优势与可重构性的面积开销;第二是要为当前的DNN模型确定正确的阵列配置,并在运行时重新配置加速器。
为应对上述挑战,2022年,美国佐治亚理工学院和英伟达联合开发了一种被称为自适应可重构阵列(Self-adaptive Reconfigurable Array,SARA)的架构。该架构引入了一类新的加速器,并包括一个可重新配置的阵列和一个能够在运行时为阵列确定优化配置的硬件单元。SARA架构中的加速器可以在运行时自适应调整目标工作负载的优化配置,而不需要在编译时进行分析。研究人员展示了SARA架构的一个实例:它引入了一个可重新配置的脉动阵列,该阵列可以被配置为各种尺寸的小阵列的分布式集合,或作为一个具有灵活长宽比的单一阵列,能够提供与作为分布式系统工作的1024个4×4阵列集合相同的映射灵活性,同时实现相当于后者3.5倍的能效和3.2倍的计算密度。与同等计算量的其他配置相比,该阵列的功耗减少了43%,面积缩小了30%[3]。
总之,FPGA有如下3个独特优势。
(1)FPGA已被证明是非常有效的低功耗解决方案。FPGA提供同等并行计算能力时,只需要GPU 1/4的功率预算,而且每个独立块可以并行地执行不同的功能,从而大大减少对能源的需求。
(2)FPGA最适合需要非常低时延的实时应用。FPGA可以绕过CPU运行,从而最小化时延,因此最适合低时延的应用模式。FPGA的低时延还可以缓解AI系统中的I/O瓶颈,从而提高性能。
(3)FPGA的可编程性有助于AI和HPC混合计算。
在AI热潮的早期,虽然FPGA得到了较多的使用,但在10余年前就在速度和效率上被为AI优化的专用芯片超越,除非涉及特殊应用。因此,著名的FPGA公司Xilinx开发的用于AI的芯片,并不是单独的FPGA,而是一个集成了FPGA逻辑电路、ARM处理器核及其他硬件加速器的可编程芯片,被称为Versal自适应计算加速平台(Adaptive Compute Acceleration Platform,ACAP),其中包含Versal AI Core系列。ACAP架构使得这些芯片具有强大的计算能力和适应性,可以通过编程来优化和定制处理任务的执行。它能够满足各种应用领域的需求,包括AI推理、数据中心、边缘计算、网络通信和汽车等。
类似这种组合的AI处理器芯片在未来可能会更频繁地出现,因为半导体行业已经开发出高效的大规模芯粒生产流程,可以把多个芯粒组装成芯片(详见第4章)。这些芯粒甚至可以来自不同的公司,采用不同的制造工艺。设计人员只需要花很短的时间,就可以任意地把小的逻辑电路组合成一块大芯片。这种模块化设计(而不是FPGA的可编程设计)的芯片,无论在面积、成本,还是在性能上都可能给FPGA带来强大的竞争压力。
虽然英特尔在CPU中不断增强AI功能,英伟达的GPU引领着AI训练市场的发展潮流,但ASIC AI芯片的开发也正在飞快加速。一些知名的大公司和世界各地的新创公司正计划用比GPU更快、更省电的ASIC来挑战英伟达GPU在AI训练领域的主导地位。
一些世界知名的非半导体制造大公司也在积极开发ASIC AI芯片。谷歌在2016年发布的TPU就是一个开创性的例子。该芯片最初是为谷歌自己的数据中心准备的,但在2018年,它开始以“云TPU”的形式在云端对外提供服务。美国Meta(原名Facebook)于2023年5月宣布推出Meta训练推理加速器(Meta Training Inference Accelerator,MTIA),该加速器增强了Facebook等网站对用户的推荐功能。而美国特斯拉则为自动驾驶开发了D1芯片。微软也在研发代号为“Athena”的AI芯片。亚马逊网络服务(Amazon Web Services,AWS)还集成了其自主研发的Trainium 2和Inferentia芯片,用于AI模型的训练和推理。甚至连以研发GPU著称的英伟达,也在2024年底宣布将成立新部门进行ASIC芯片设计,并进军ASIC市场。
英特尔的Gaudi 2和Gaudi 3芯片已经拥有价值10亿美元的订单。2024年4月发布的Gaudi 3凭借更强的计算能力、高出50%的内存传输速率,以及至少128GB的HBM超过了英伟达H100的训练性能,势必在AI芯片市场上分一杯羹。AMD也奋起直追,新款处理器MI300X是纯粹的计算加速器,吞吐率比英伟达的H100高出30%~140%。
ASIC的结构因不同的开发公司而异,但与FPGA一样,它们采用了数据流类型或缩短存储器与运算单元之间距离的方式,可以提高能效和计算速度。在21世纪10年代,深度学习被应用在大量小规模的密集矩阵运算中,GPU在这一领域表现出色。然而,从2019年开始爆发式增长的大模型的关键在于稀疏矩阵运算,这会导致GPU浪费大量计算资源。与原来用于图形处理的GPU相比,ASIC可以高效地处理推理与学习,这让许多产品具有较低的产品和计算成本。特别是在基于生成式AI的计算处理方面,目前以通用GPU为主流的格局将被ASIC的大规模部署取代。
在2021年第四季度,谷歌给客户提供了双核TPU v4芯片作为AI训练引擎,并将每个内核中的矩阵乘法单元(Matrix Multiply Unit,MXU)数量翻了一番。该芯片的面积约为780mm2,具有32GB的HBM。TPU v4体现了计算引擎的真正升级,工艺从上一代的16nm缩小到7nm,并且具有相当高的性能。谷歌还可以大规模扩展TPU v4 POD[3]。虽然英伟达声称可以将多达256块H100与NVSwitch结构紧密耦合,但TPU v4的新3D环形互连支持更高的带宽和性能,它可以紧密耦合4096块TPU v4芯片,实现总计可达1.126EFLOPS的BF16(谷歌为其TPU发明的数据格式)计算。在4096块TPU v4芯片上同时处理的AI工作负载并不多,这就是3D环形互连有用的原因。它允许将机器切成紧密耦合的块,这些块仍然相互连接,以共享工作。
[3] POD(Performance Optimized Datacenter,优化性能数据中心)是一种由多台服务器组成的模块化计算单元,通常包含数百或数千台服务器。多个POD可以形成一个能够容纳数万台服务器(包含数万块甚至更多芯片)的集群(Cluster),用于处理更大规模的任务。
2023年8月,谷歌推出了TPU v5e芯片,它适用于主流IT厂家,是为大规模、中等规模AI训练和推理打造的优化版芯片,用于在虚拟环境中大规模编排AI工作负载。TPU v5e将用于训练谷歌搜索、地图和在线生产力应用程序中使用的较新的PaLM和PaLM 2大模型。该芯片的INT8性能峰值为393TFLOPS,优于TPU v4的275TFLOPS。
TPU v5e支持8种不同的虚拟机配置,范围从1块芯片到单个实例中的250多块芯片。这一功能允许客户选择适合的配置,以满足各种大模型和生成式AI模型的需求。每块TPU v5e配备4个矩阵乘法单元,可以执行BF16乘法和FP32累加操作(有时根据模型需要进行INT8推理)。另外,TPU v5e还有1个向量处理单元和1个标量处理单元,它们都连接到HBM2内存(见图1.10)。TPU v4和TPU v4i(TPU v4的单核版)采用相同的台积电7nm工艺制造,TPU v5e采用5nm工艺制造。
图1.10 TPU v5e的张量核
为了应对稀疏矩阵处理,谷歌开发了专门的硬件加速器,被称为稀疏核(Sparse Core)。它被嵌入TPU v4i、TPU v4和TPU v5e中,用于稀疏矩阵中的发散(Scatter)和收集(Gather)操作。另外,该公司采用液冷方法帮助散热,可以最大限度地提高系统能效,从而提高经济效益。
在集群中连接时,TPU v5e的配置可以扩展到数百或数千块芯片,并处理更大的训练和推理模型。通过TPU v5e,该公司推出了一种名为Multislice的技术,允许用户轻松扩展AI模型,超越物理TPU集群的范围,最多可容纳数万块Cloud TPU v5e或TPU v4,最多可以在256个TPU v5e集群中部署64个虚拟机。这是一种将AI模型分配给数万块TPU的方法,已经被应用在谷歌公司最先进的PaLM模型的构建中。通过单个集群内的芯片间互连(Inter Chip Interconnect,ICI)或数据中心网络(Data Center Network,DCN)上的多个POD,可将工作负载扩展到多达数万块TPU芯片。芯片和集群连接都使用光交换机和光互连技术,允许每个机架独立运行并动态互连。该技术还允许谷歌根据应用快速重新配置网络拓扑。
谷歌正着力简化TPU的操作。TPU v5e可与谷歌Kubernetes引擎(GKE)、Vertex AI、PyTorch、JAX、TensorFlow等主流框架集成,并对各种主流开源工具提供内置支持,方便开发者使用熟悉的界面。
2024年5月,谷歌推出了第六代TPU,称为TPU Trillium。与上一代(TPU v5e)相比,这款TPU的性能提高了4.7倍以上,能效也大大提高,将为训练下一代高端AI大模型提供有力的帮助。
为了更快推出新的TPU,谷歌公司已经使用其AI增强型EDA工具来帮助设计TPU v4i和TPU v4芯片的逻辑块,很可能还用在了包括TPU v5e和TPU Trillium在内的设计中。目前,谷歌大约要花3年时间才能推出一款ASIC,其中6~12个月用于设计分析,1年用于设计实现,6个月用于晶圆厂流片,12个月用于投入生产、测试和改进。显然,芯片设计越接近最新的AI模型和算法越好,因此需要尽可能缩短上市时间。现在很多公司都在尝试“用AI设计AI”(如英伟达H100就是用AI设计的),有的甚至直接用基于大模型的自然语言来设计AI芯片。
近年来,希望打入AI芯片市场的新创公司不断涌现。这些新创公司要么拥有一些大型AI训练芯片,要么拥有一些超快速的小型AI推理芯片,或者可能是针对某个AI应用试图解决的特定问题的专门设计。其中一些新创公司资金充裕,投资资金在1亿美元以上,有的甚至有超过10亿美元资金支持。
Tachyum是一家兼有美国和欧盟背景的芯片新创公司,它于2018年创建,产品涵盖多个市场领域。2022年,该公司对原来的芯片设计版本做了大量改进,推出了Prodigy 2022芯片。这个“庞然大物”有128个处理器核、每核有两个1024位向量处理单元,时钟频率为5.7GHz,DRAM吞吐率为1TB/s,顶配功率可达950W。当时有新闻文章称Prodigy 2022是比AMD的64核Milan更快的通用CPU,有能与英特尔的Ponte Vecchio媲美的SIMD加速器,而且可以比英伟达H100更快地执行AI操作——所有这些都在一块芯片中!
Prodigy 2022的裸片面积约为500mm2。Tachyum发布的裸片平面图显示,Prodigy 2022中每个核的尺寸小于3mm2,内核面积小意味着热密度非常高。让一块几乎无所不能的芯片达到5.7GHz的时钟频率很难,尤其对一家小型新创公司。虽然它采用先进的台积电5nm工艺,但是通过巨大的向量处理单元、高内核数和相对较短的流水线来实现这个时钟频率有着巨大挑战。例如,Prodigy 2022需要极其强劲的冷却保障。因为它采用500mm2封装,而950W功率使得整块芯片上的功率密度接近2W/mm2,这是英伟达H100功率密度(0.875W/mm2)的两倍多。该芯片量产时能否解决上述挑战,仍有待观察。
Tachyum计划基于台积电的3nm工艺推出Prodigy 2。该芯片将支持更多内核,以及PCIe 6.0和计算高速互连(Compute Express Link,CXL)标准。即使时钟频率低于原定目标,Tachyum的Prodigy系列也很有可能成为市场上具有竞争力的AI芯片。需要高算力、高吞吐率的AI应用可以从Prodigy系列的向量处理单元中受益。
2019年,位于美国硅谷的新创公司Cerebras首次推出了一款名为“晶圆级引擎”的AI芯片,该芯片有1.2万亿个晶体管、40万个内核及18GB的片上存储器。这些数据是惊人的。2022年,Cerebras发布了“晶圆级引擎”芯片的下一代AI芯片——WSE-2,该芯片拥有2.6万亿个晶体管、85万个内核、40GB的片上存储器和20PB/s的内存带宽。
2024年3月,Cerebras推出了WSE-3。在相同的功耗和相同的价格下,WSE-3的性能是之前的纪录保持者WSE-2的两倍,从而保持了“最快的AI芯片”的世界纪录。基于5nm工艺、拥有4万亿个晶体管的WSE-3专为训练最大的生成式AI模型而构建,并为Cerebras CS-3 AI超级计算机提供动力。WSE-3可通过900 000个AI优化计算核提供峰值为125PFLOPS的AI性能。
Cerebras强调,完成AI计算需要“系统级思考”。该公司提供的系统解决方案CS-3包括3方面的创新:WSE-3、Cerebras系统及Cerebras软件平台。
CS-3拥有包括44GB片上SRAM、1.2PB外部存储器的巨大存储系统,旨在训练比GPT-4和Gemini的参数量大10倍的下一代大模型。在CS-3上,24万亿个参数的模型可以被存储在单个逻辑内存空间中,无须分区或重构,这极大地简化了训练工作流程,并提高了开发人员的工作效率。在CS-3上训练1万亿个参数的模型就像在GPU上训练10亿个参数的模型一样简单。
CS-3专为满足企业级和超大规模训练需求而打造,它紧凑的四系统配置可以在一天内微调700亿个参数的模型。若使用2048个系统进行全量微调,700亿个参数版本的LLaMA 3模型可以在一天内完成训练。对生成式AI来说,这是前所未有的壮举,是其他AI芯片(包括目前最新款的GPU)完全无法做到的事情。
新版本的Cerebras软件框架可为PyTorch 2.0和多模态模型、视觉Transformer模型、混合专家(Mixture of Experts,MoE)和扩散模型等最新的AI模型和技术提供原生支持。Cerebras也可以训练稀疏度超过90%的模型,并达到目前最先进的精度指标。
2022年11月,Cerebras推出了拥有1350万个内核的AI超级计算机——Andromeda,为大模型提供近乎完美的线性扩展能力。Andromeda是一款模块化的超级计算机,相当于由16个Cerebras CS-2系统组成的集群,可以提供超过1EFLOPS的AI计算性能和120PFLOPS的16位半精度密集计算性能。该计算机现已被应用于商业和学术研究工作。
随着以数据流处理为特征的应用(如自然语言处理和推荐引擎)的迅速发展,传统的指令集架构在性能和效率方面面临的挑战已显而易见。为了应对这个挑战并支持新的AI应用,新创公司SambaNova开发了可重构数据流架构(Reconfigurable Dataflow Architecture,RDA)。该架构是一个独特的垂直集成平台,从算法到芯片都经过了优化。SambaNova致力于开发这种新型的加速计算架构,有以下3个关键因素。
第一,多核处理器的代际性能提升已逐渐趋缓。因此,开发人员不能再依赖传统的性能提升来实现更复杂、更精密的应用。无论是CPU的“肥核”架构,还是GPU的“瘦核”架构,都是如此。如果基于当前的半导体芯片技术开发更多有用的功能,就需要一种新的方法。深度学习应用规模的爆炸式增长拉开了所需算力与可用算力之间的差距。根据OpenAI的一项研究,现在AI计算量每2个月就会翻一番,因此算力需求亟待满足。
第二,需要能够统一深度学习训练和推理的学习系统。当前,由于GPU和CPU的不同特性,它们通常被分别用于AI训练和推理。而许多现实生活中的AI系统都会发生持续变化,有时甚至是不可预测的变化,这意味着如果不频繁更新,模型的预测准确性就会下降。同时,有效支持AI训练和推理的架构可以实现持续学习,并提高预测的准确性,还能简化“开发-训练-部署”的深度学习生命周期。
第三,虽然深度学习面临着严峻的芯片性能挑战,但分析应用、科学应用,甚至SQL数据处理等其他工作负载也具有数据流特性,可以且需要加速。新方法应足够灵活,以支持更多种类的工作负载,并促进深度学习与HPC(或与业务应用)的融合。
SambaNova推出的SambaNova Suite是首个专门构建的全栈大模型平台,采用了基于可重构数据流单元(Reconfigurable Dataflow Unit,RDU)的AI芯片SN40L。SN40L是SambaNova的第四代AI芯片,使用台积电5nm工艺,包含了1040个RDU核、1020亿个晶体管,性能可达到638TFLOPS(BF16)。这款芯片专为要求最苛刻的大模型工作负载设计,既能进行密集计算,也能进行稀疏计算,还拥有大容量内存和HBM。
SambaNova Suite包括最新开源模型,能够提供多达5万亿个参数模型,训练的标记(token)序列长度超过256 000。之所以能做到这一点,是因为SambaNova提供了一个完全集成的堆栈,能以更低的总拥有成本提供更高质量的模型、更高的准确性,以及更快的推理和训练速度。
SambaNova是AI领域冉冉升起的新星,具有在各种行业产生重大影响的潜力。
Graphcore在2022年发布了自己的智能处理单元(IPU)——Bow,这是目前世界上第一款使用3D堆叠技术的IPU。Bow在性能和能效两方面都取得了重大突破。它是该公司新一代计算机Bow POD AI的处理器,与前一代芯片GC200相比,实现了高达40%的性能提升,能效也提高了16%。
Bow使用台积电的3D堆叠技术“晶圆堆叠”(Wafer on Wafer,WoW)。WoW是把两块晶圆堆叠并黏合在一起,以创建一块3D裸片。在Bow中,WoW中的一块晶圆专门用于AI处理,另一块则负责供电。
就结构而言,Bow与GC200兼容,拥有1472个独立的内核,每个内核有6个线程,并配备了超过0.9GB的内存,数据吞吐率为65TB/s。此外,该芯片还有10个IPU连接,数据传输速率为320GB/s,用于处理器之间的通信,供电的晶圆配备了深沟电容。凭借WoW技术,电源可以直接放在处理器和内存旁边,从而大幅提高了效率,这也是Bow的AI计算性能更高,能效却只提高了16%的原因。
基于Bow可以搭建Bow-2000机架单元,这是各种Bow POD计算机系统的基本组件,并且与Graphcore的IPU-M2000一样,该机架单元具有1U的机架格式。尽管架构和外形尺寸相同,但Bow-2000实现了明显更高的性能。这是因为Bow-2000包含4个Bow IPU(1.85GHz),共有5888个内核和35 328个线程。因此,一台1U刀片服务器可实现近1.4PFLOPS(FP16)的AI计算能力。此外,还有3.6GB的内存(带宽为260TB/s)、高达256GB的IPU流存储器,以及一个传输速率达2.8TB/s的IPU连线结构。
与10余年前惠普想建造一部采用光连接和忆阻器、以存储器为中心的“The Machine”相似,Graphcore希望开发出一台具备超级智能的AI计算机,名字为“Good Computer”(名字是为了纪念英国数学家Irving John Good)。这台全面创新的“Good Computer”据说会有以下特点。
① AI计算能力超过10EFLOPS(浮点格式)。
② 内存高达4PB,带宽超过10PB/s。
③ 可用于具有500万亿个参数的AI模型。
④ 使用3D晶圆上的逻辑堆栈,拥有8192个下一代IPU。
⑤ 完全由Graphcore的Poplar SDK支持。
⑥ 成本约为1.2亿美元,具体金额视配置而定。
作为一家新创公司,Esperanto开发了一款基于RISC-V指令集架构的AI芯片——ET-SoC-1。该芯片可以在单芯片上运行生成式AI模型,被称为“RISC-V片上的超级计算机”,主要特性如图1.11所示。Esperanto生产了一些原型样片供三星和其他合作伙伴评估。据报道,该芯片是1088核的RISC-V处理器,每个核都有一个AI张量加速器。Esperanto已经公布了该芯片的一些相对的性能指标,但没有披露任何峰值功率或峰值性能值。
图1.11 ET-SoC-1的主要特性
从2023年开始,Esperanto把研发重点放到适用于生成式AI(以大模型为代表)的低功耗RISC-V芯片上。2023年4月,该公司宣布在ET-SoC-1芯片上成功运行生成式AI模型,这成为RISC-V行业的里程碑。值得注意的是,Meta的开放式预训练Transformer模型的多个版本已可以在Esperanto的芯片上以多种精度级别和上下文大小运行,而且每块芯片的推理功率低至25W。Esperanto的机器学习软件开发套件可以在ET-SoC-1芯片上快速移植和启动预训练模型,该套件已被Esperanto的商业客户使用。
Groq由前谷歌资深工程师乔纳森·罗斯(Jonathan Ross)创立,他曾经是谷歌自研AI芯片TPU的设计者之一,被称为“TPU之父”。2024年,Groq推出了主力产品——针对大模型(如GPT和LLaMA)AI推理设计的语言处理单元(Language Processing Unit,LPU)ASIC芯片。
Groq的LPU在LLMPerf排行榜上超越了基于GPU的云服务提供商(如英伟达)。由该LPU驱动的Meta LLaMA 2模型的推理性能是其他顶级云计算模型的18倍。在大模型任务中,Groq的LPU的性能比英伟达的GPU高10倍,但价格和耗电量都仅为后者的1/10。这相当于性价比提高了100倍。在能耗方面,英伟达的GPU需要10~30J才能生成响应中的token,而Groq的LPU仅需1~3J。极高的token吞吐量、更低的时延、功耗和价格,使得Groq一跃成为有英伟达、AMD和英特尔等大公司参与的AI推理芯片市场的直接竞争者。
Groq的LPU拥有80TB/s的带宽和230MB的SRAM,提供了非常快的推理速度。它没有像英伟达的GPU那样使用HBM,而是使用SRAM,后者的速度比前者大约快20倍。它每秒可服务高达480个token。具体到不同的模型,LPU能够以每秒300个token的速度服务LLaMA 2-70B模型,以每秒750个token的速度服务较小的LLaMA 2-7B模型,后者的推理性能比前者翻了一番多。
LPU基于新的张量流处理器(Tensor Streaming Processor,TSP)架构,内存单元与向量处理单元和矩阵深度学习功能单元交错,可以利用深度学习工作负载固有的并行性对推理进行加速。在运算的同时,每个TSP都具有网络交换功能,可直接通过网络与其他TSP交换信息,无须依赖外部的网络设备,这种设计提高了系统的并行处理能力和效率。
LPU的运作方式与GPU不同,它使用的是时序指令集计算机(Temporal Instruction Set Computer,TISC)架构。与GPU使用的SIMD不同,TISC架构不仅可以让芯片更有效地利用每个时钟周期,并确保一致的时延和吞吐量,还降低了复杂调度电路的需求,而不必像GPU使用HBM那样频繁地从内存重载数据。另外,Groq的LPU还采用了完全确定的超长指令字(Very Long Instruction Word,VLIW)架构,即指令的执行顺序是确定的,并且可以在编译时确定。这使得该架构具有很高的效率和可预测性。
Groq的LPU采用格罗方德(GlobalFoundries,也称格芯)的14nm工艺,面积约为725mm2。它没有外部存储器,在处理过程中,权重、K矩阵与V矩阵的缓冲和激活等都保存在芯片中。由于每块LPU只有230MB的SRAM,因此单块芯片实际上无法容纳任何有用的模型,而必须利用许多芯片联网来适应模型规模。
由于结合了新设计的Dragonfly网络拓扑,Groq的LPU的跳数(经过的路由器数)减少、通信时延降低,传输效率进一步提高。同时,软件调度网络带来了精确的流量控制和最短的路径规划,从而提高了系统的整体性能。LPU可进行320×320融合点积矩阵乘法,具有5120个向量算术逻辑单元(Arithmetic Logic Unit,ALU),性能指标达到750TOPS(INT8)和188TFLOPS(FP16)。
新创公司Etched AI正在为大模型推理构建ASIC芯片Sohu,该公司的创始人将其称为“超级智能硬件”。Etched AI的雄心是与英伟达较量,为AI推理领域提供动力。
Etched AI认为,目前使用GPU或者TPU训练或推理大模型的成本都太高,解决这个问题需要重新设计大模型芯片。由于GPU或者TPU需要支持各种工作负载,因此它们的大部分电路对大模型来说没有用处,而由此造成的成本飙升需要用户来承担。
如果不改进芯片设计,那么成本问题只会变得更糟。未来几年,大模型将成为大多数产品架构的关键部分。推理所需的计算量与现在使用的计算量相比将增加数千倍,而现在已经处于临界点。Etched AI正在通过一种新颖的芯片设计方法来解决这个问题,该方法在运行大模型时牺牲GPU的灵活性,以获得更好的性能。通过这种折中的方法,该Etched AI芯片的性能是同等价位GPU集群的140倍以上。
Sohu采用台积电的4nm工艺,内部集成了144GB的HBM3e内存。该芯片集成了1680个CUDA核心,与同类产品相比,计算性能高出约30%。在机器学习和图像处理应用中,Sohu的功耗比其他竞争对手低20%。Sohu支持实时语音代理和多播推测解码等功能,能够在毫秒级别的时间内处理大量数据。在处理高清视频时,Sohu能够自动调节算法,以获得最佳画质与流畅度。
Etched AI将Transformer模型直接映射到了芯片架构中,这使得Sohu在运行Transformer模型时能够实现超过90%的FLOPS利用率。这种设计消除了大多数控制逻辑,从而提高了计算效率。该芯片能在LLaMA 70B模型上每秒处理超过500 000个token,其性能被认为比英伟达的Blackwell(B200)GPU高一个数量级。
总之,Etched AI的Sohu代表了AI芯片领域的一次重要创新,有望在未来改变AI计算的格局。
中科寒武纪科技股份有限公司(简称寒武纪)是中国AI芯片的龙头企业(按照2023年12月的数据,下同)。思元290是寒武纪首款云端训练智能芯片。思元370不仅是寒武纪第三代云端训练智能芯片,也是寒武纪首款采用芯粒技术的AI芯片。该芯片采用台积电7nm工艺,最高算力达256TOPS(INT8)。
长沙景嘉微电子股份有限公司(简称景嘉微)是中国GPU的龙头企业。该公司的第三代GPU产品JM9系列已成功流片,其中入门级芯片JM9231的内核频率不低于1.5GHz,配备8GB显存,性能约为1.5TFLOPS。该芯片对标英伟达GeForce GTX 1050,可以满足目标识别等部分AI领域的需求。
海光信息技术股份有限公司(简称海光信息)是中国深度计算单元(Deep Computing Unit,DCU)的龙头企业。该公司的AI芯片产品为深算一号和深算二号,这些芯片以GPU架构为基础,兼容通用的“类CUDA”环境,可用于AI大模型的训练。
上海复旦微电子集团股份有限公司(简称复旦微电)是中国FPGA的领军企业,成功研制出亿门级FPGA、异构融合可编程片上系统(Programmable System on a Chip,PSoC)芯片,以及面向AI应用、融合了FPGA和AI技术的现场可编程人工智能(Field Programmable Artificial Intelligence,FPAI)可重构芯片,相关产品已实现批量生产。复旦微电正在积极开展14nm/16nm工艺的十亿门级产品的开发。
上海壁仞科技股份有限公司(简称壁仞科技)成立于2019年,已逐步推出在AI训练和推理、图像渲染等多个领域具有先进性能的芯片。2022年12月,壁仞科技发布了首款AI芯片“云光”,该芯片采用了7nm工艺,具备强大的计算性能和较低的功耗。2023年,壁仞科技继续保持快速发展。2023年3月,壁仞科技发布了第二款AI芯片“云影”,该芯片采用了5nm工艺,性能和能效有了进一步提升。
上海燧原科技有限公司(简称燧原科技)成立于2018年3月,主要专注于AI云端算力的研发,以自主创新为目标,覆盖全栈。目前,燧原科技可以提供具有完整IP的通用AI训练和推理产品,包括云AI训练加速器“云燧i10”、云AI推理加速器“云燧i20”、云AI训练加速器“云燧T10”和“云燧T20”、计算和编程平台“驭算TOPSRider”,以及推理加速引擎“鉴算TOPSInference”。
上海天数智芯半导体有限公司(简称天数智芯)创立于2015年,于2018年正式推出7nm通用并行处理云计算芯片。2020年12月,天数智芯开发的中国首款用于云端AI训练的7nm GPU“天垓100”通过晶圆电学检测,并于次年3月正式发布。该公司的第二款产品是用于云端和边缘侧的7nm AI推理芯片“智铠100”,于2023年5月通过了晶圆电学检测。
墨芯人工智能科技(深圳)有限公司成立于2018年,专注于设计云端、终端AI芯片和加速解决方案。该公司的产品通过改进计算模型,与完全稀疏化的神经网络兼容。该公司的首款产品“Antoum”是一款高性能通用可编程逻辑器件(Programmable Logic Device,PLD),用于云端AI推理,稀疏化率达到32倍。它支持很多神经网络架构,如CNN、RNN、长短期记忆(Long Short-term Memory,LSTM)网络、Transformer、BERT,以及各种浮点和定点数据类型。
沐曦集成电路(上海)有限公司成立于2020年9月,为主要的GPU生态系统开发了高性能GPU IP和可互操作的软件堆栈“MXMACA”。该公司已经开发出用于AI推理的MXN系列(曦思)、用于科学计算和AI训练的MXC系列(曦云)、MXG系列(曦彩)等全栈高性能GPU。它们被广泛应用于AI、智慧城市、数据中心、云计算、自动驾驶、科学计算、数字孪生和图形处理等前沿领域。
其他国内AI芯片新创公司或品牌还包括摩尔线程、太初元碁、云天励飞、昆仑芯等。
开发一款ASIC AI芯片比开发一款手机的主要片上系统(System on Chip,SoC)芯片或x86处理器都要容易得多。因此,开发ASIC AI芯片的门槛比较低。一些原来不做芯片的公司(如亚马逊、谷歌、阿里巴巴、百度等)都成功开发了自己的AI芯片。2021年前,大量投资进入AI芯片开发领域,诞生了一批开发AI芯片的新创公司。然而,由于开发一款ASIC AI芯片需要几年时间,再加上新的AI算法不断涌现,不少芯片做出来后已经很难在市场上生存,不可能进入批量生产环节,所以很多新创公司也就随之消失了。
前文介绍的主要是云端数据中心AI芯片,主要用于训练大型、复杂的深度学习模型,是目前市场的主流产品。
基于深度学习模型的AI在许多领域的应用都取得了突破性进展。然而,将这些高精度模型应用于边缘用户的数据驱动、学习、推理解决方案仍然面临挑战。深度学习模型通常计算成本高、耗电量大,并且需要大量内存来处理数百万个参数的复杂迭代操作。因此,深度学习模型的训练和推理通常在云端的HPC集群上进行。
数据传输到云端会导致时延、安全和隐私问题,无法做出实时决策。如果在边缘设备上进行深度学习模型的训练和推理,就可以避免这些问题。边缘设备是最接近用户的设备,如汽车、无人机、手机、智能传感器、可穿戴设备、物联网设备等。这些设备的内存、计算资源和供电能力有限,因而人们开发了芯片和软件层面的优化技术,以便在边缘侧高效地实现AI模型的训练和推理。
在边缘计算领域,用于训练的AI芯片可以训练边缘设备上的AI模型,从而满足本地化AI应用的需求。同时,大量用于推理的AI芯片(以ASIC芯片为主)可以被应用于边缘设备中。
然而,就大模型而言,目前用于推理的ASIC AI芯片市场还很小,仍处于起步阶段。即使是GPU,许多人也希望将其用于训练而不是推理。无论是大公司还是新创公司,产业界都在等待边缘AI芯片市场开花、结果。大公司凭借雄厚的资金实力和技术优势,在边缘AI芯片、软件、解决方案等方面都进行了布局。大多新创公司则凭借灵活的机制和创新能力,努力在边缘AI芯片应用领域有所突破。
图1.12所示为云端AI与边缘AI的不同特点。边缘AI强调低能耗、与嵌入式技术的融合和实时数据,云端AI则强调大规模、高算力、高速处理和统计用大数据。边缘设备进行AI训练的能力有限,目前研发的重点是AI推理。边缘推理指模型经过预训练后部署到边缘设备上进行AI推理。云端AI则关注AI模型的优化和长期学习。
图1.12 云端AI和边缘AI的不同特点
边缘推理的优势主要体现在:可以提高数据处理速度和响应速度,满足实时性要求;可以缩短网络时延,降低成本;可以提高安全性和隐私性,保护用户数据。
目前,边缘推理的应用领域越来越广泛,包括智能制造(如检测产品质量、预测设备故障等)、智慧城市(如交通管理、安防监控、环境监测等)、智能家居(如人脸识别、语音控制、物联网等),以及医疗保健、自动驾驶等。许多新创公司在开发边缘AI推理芯片。因为GPU在云计算市场占据了压倒性的份额,云计算的电力也更容易得到保障;而边缘应用中资源有限,经常使用的是电池,电源效率至关重要。因此,极低功耗,甚至是自供电的ASIC芯片成为边缘AI芯片开发的目标。
根据国际数据集团(International Data Corporation,IDC)的预测,全球边缘推理市场规模将从2022年的131亿美元增长到2027年的896亿美元。从边缘AI芯片的市场来看,现在仍然没有一款像英伟达H100或B100这样具有代表性、占有大部分AI云计算市场份额的芯片,呈现出五花八门的产品“散落”在各个应用领域的情形。目前边缘AI芯片领域的主要公司及其产品如下。
(1)英伟达。该公司推出了Jetson系列边缘AI计算平台,还有针对工业、医疗等领域的定制边缘AI芯片。
(2)英特尔。该公司推出了Movidius神经计算棒(Neural Compute Stick,NCS)系列产品,用于无服务器端的边缘AI;还有Agilex FPGA系列产品等。
(3)百度。该公司推出了昆仑系列边缘AI处理器,被广泛应用于智能安防、智能出行等场景。
(4)高通。该公司推出的Snapdragon系列移动SoC芯片具备强大的AI运算能力,可广泛应用于移动和无线边缘设备。
(5)联发科。该公司推出了面向边缘设备的A系列AI处理单元(AI Processing Unit,APU)。
(6)寒武纪。该公司推出的思元220及相应的M.2加速卡是其首款边缘AI芯片产品,在1GHz的主频下,理论峰值性能为32TOPS(INT4)、16TOPS(INT8)、8TOPS(FP16),可支持边缘计算场景下的视觉、语音、自然语言处理,以及智能数据分析与建模等多样化的AI应用。
本书第2章将探讨实现深度学习AI芯片的一些新方法,也会介绍边缘AI芯片的架构和算法设计、边缘AI芯片优化等研究方向,以及一些前沿设计实例。
目前,边缘推理市场尚处于发展初期,有着巨大的发展潜力。与其他AI芯片相似,研发边缘推理的AI芯片还存在不少挑战,如能效和成本问题、软件的开发和部署问题,以及标准化问题等,而能效是最突出的问题之一。
OpenAI的一项研究揭示了1985年以来AI计算量的惊人增长[4],如图1.13所示。根据每个模型训练计算量翻番的时间,这项研究把AI的发展历程划分为3个时代:前深度学习时代(2012年前,训练计算量约每24个月翻一番),深度学习时代(2012—2017年,训练计算量每3~4个月翻一番),以及大模型时代(2018—2022年,模型规模提升了100~10 000倍,训练计算量接近每两个月翻一番[4],见图1.13右侧)。
图1.13 1985年以来AI计算量的增长情况
从图1.13可以看出,从BERT到GPT-3,在不到3年的时间里,模型大小增长了约100倍,计算量增长了约10 000倍。为了满足高速增长的计算量,就要有高性能的AI芯片。随着AI大模型无止境地增长(如参数规模、序列长度),AI芯片面临着巨大压力。
现在的单片芯片里虽然已经动辄包含几百亿个晶体管,但要满足大模型发展所需要的计算量要求还相差甚远。因此,现在训练大模型必须使用大型的集群,这些集群连接了成千上万块AI芯片进行并行计算。即使这样,仍然需要运行几个星期,甚至几个月才能取得让人满意的训练结果。因此,训练一个大模型,仅能源成本就可能高达1000万美元。
目前的芯片一般为硅基芯片,会消耗大量电能,同时产生大量热量。如何持续、有效地散热,对放置这些集群机架的数据中心来说也是一大挑战。因此,近年来不断出现新的散热技术。产业界已经在散热技术上取得共识,即液体散热要比气体散热效果好。因此,液体散热已逐渐成为数据中心的一个“标准配置”,不仅会在机架、服务器上采用液体散热,一些新款芯片也会在内部直接通过微细管用液体散热(第4章将会详细介绍)。而这又将产生对大量水资源的需求。据美国半导体行业协会估计,2020年全球芯片制造用水量约为156亿立方米。而据国际能源署估计,2020年全球数据中心用水量约为370亿立方米。数据中心用水量总体上比芯片制造用水量更多。随着数据中心散热方式“由气转水”,数据中心的用水量在未来还将大增。据英国《金融时报》引述科学界的看法,在2027年之前,数据中心的用水量将年增42亿~66亿立方米。
尽管芯片的散热问题可以得到很大程度的缓解,但是电力消耗带来的二氧化碳大量排放问题无法得到解决,而且散热还造成了更多的二氧化碳排放。这不仅会加剧全球气候变暖、海平面上升、海洋酸化,还会导致极端天气事件发生频率和强度的增加。
总之,不解决高能耗问题,AI驱动型社会的可持续发展就无从谈起。
除了严重的生态环境、自然资源问题,从技术角度来看,目前AI芯片的进一步发展还遇到了各种“墙”的阻碍:光刻墙、性能墙、传输墙、功耗墙、成本墙等,也包含可持续发展墙(见图1.14)。
图1.14 AI芯片进一步发展面临的6堵“墙”
(1)光刻墙。随着芯片工艺尺寸不断缩小,逐渐逼近光刻技术的极限,光刻机的微细化越来越困难,难以满足AI芯片对更高性能、更低功耗的需求。
(2)性能墙。一方面,随着晶体管尺寸接近物理极限,摩尔定律的效力逐渐减弱,同时晶体管密度越来越高带来了功耗和散热问题,芯片性能提升的速度开始放缓。另一方面,以深度学习为代表的AI算法需要训练大量数据,而数据处理和存储需要消耗大量计算资源,这限制了AI芯片性能的进一步提升。
(3)传输墙。AI芯片上处理器核与存储器之间的数据传输成了瓶颈,同时AI芯片对内存带宽和时延提出了更高的要求,传统的DRAM已经无法满足需求。目前,用存算一体化技术实现的芯片规模都比较小,需要扩大芯片规模。最近10多年以来,存储器性能的提升远远落后于处理器性能的提升,尤其是存储器带宽并没有太多进步。
(4)功耗墙。AI芯片功耗的不断增加给数据中心的散热和运营成本带来了巨大挑战。
(5)成本墙。由于设计和制造成本的不断增加,使AI芯片在更多应用场景的普及受到限制。
(6)可持续发展墙。AI芯片的制造与运行都会排放二氧化碳,随着芯片工艺的进步,二氧化碳排放量急剧增长。由于效率低下,即使是大公司,其AI体系也开始达到电力消费的极限,并且相关的能耗仍在呈指数级增长,不久将会达到需要专门核电站供电的程度[4],这种发展是不可持续的。
[4] 亚马逊、微软和谷歌都在为新型核电站的开发和建设提供资金。这些核电站使用小型核反应堆,将直接位于数据中心附近。
总之,目前的AI芯片发展模式,即基于深度学习算法和模型,使用硅材料、晶体管架构和制造工艺来制造AI芯片,是不可持续的。要解决这个问题,必须对算法、芯片和软件进行如下重大创新。
(1)算法/模型创新。算法/模型创新是AI芯片可持续发展的核心驱动力。深度学习算法及模型一直是这次AI热潮的主流技术。随着生成式AI模型无节制地扩展规模,对AI芯片的各种性能要求已经大大超出它们本身能够达到的程度。从短期来看,在设计基于深度学习的芯片时,需要用创新的方法加以改进,以提高性能、降低功耗;从长期来看,必须从源头上对AI算法进行重新思考,理想目标是找到一种既不需要大数据,也不需要大模型,还能达成高智力水平的AI算法。
(2)工艺/器件创新。晶体管、半导体芯片的设计和制造正在向着2nm、1nm及亚纳米级(埃米级)的先进工艺发展,这个目标需要各种创新技术配合来实现。目前,芯粒和异质集成等技术正在蓬勃发展,且有其他技术来取代极紫外(Extreme Ultraviolet,EUV)光刻技术。芯片正在走向立体:未来的芯片不会是芯“片”,而是芯“块”。
(3)材料创新。目前,基于摩尔定律发展的硅基芯片快接近终点,二维材料、固态离子材料等很有可能会成为硅的后续材料。从长期目标来看,需要有更适合仿脑功能的材料(包括化学和生物材料)来制造AI元件。在跨学科研究人员的协同努力下,用这些材料制作AI元件已经见到曙光,这类AI元件的形态与当前的芯片(硬件)不同,是呈液态的湿件。
(4)系统创新。目前在用的基于深度学习模型的AI系统只能较低程度地模仿人类大脑的功能。类脑芯片则迈进了一步:基本上按照人类大脑的功能和结构来设计。然而,仅模仿人类大脑是不够的,因为人类的智能除了认知功能,还包括感知功能。具身智能既包含了认知功能,又包含了感知功能,由此研发的芯片把AI的智能水平提升了一大步。AGI芯片是AI发展的终极目标,尽管目前AGI的定义以及它什么时候能够实现还存在巨大的争议。
(5)应用创新。应用创新是指针对特定AI应用场景进行优化,以便开发更高效的算法和芯片。这些场景与整个社会的未来发展紧密相关,例如人与人、人与机器、机器与机器之间的通信和沟通;AI自主控制的无人驾驶汽车、船舶、飞机等。那些对人类发展和进步起到巨大作用的科学发现、技术发明,如果有AI帮助人类来实现,或者完全由AI自主实现,将会对人类未来的生产和生活产生深远的影响。这将加速科学进步,提升技术水平,创造新的生活方式,从而使人类社会更加美好。
在生成式AI需求的推动下,AI芯片市场正在迅速扩张。目前,英伟达的GPU在AI大模型训练等需要高算力的应用中独占鳌头。它的内部架构专门针对Transformer模型做了优化,例如H100增加了Transformer核,B100、B200把数值精度降至FP6,甚至FP4,因此特别适用于大模型的训练。另外,这些大规模训练需要把成千上万块GPU连接起来组成分布式网络和计算集群,而非常成熟的英伟达CUDA系统和NVLink技术在互连中起到了十分关键的作用。
目前的CPU也不再是几年前用途单一的CPU。为了给特定AI应用提供优化后的系统和芯片,英伟达给原来的CPU加上了AI单元或模块,从而能够直接、有效地完成AI推理任务。这也为将要兴起的新型PC——AI PC(见第2章)做好了芯片开发的规划和准备。
ASIC有比GPU更低的产品成本和计算成本。与GPU相比,ASIC可以高效地处理训练和推理计算。目前,ASIC市场已经开始萌芽,一些大公司(如谷歌、微软、亚马逊等)也在争相开发ASIC AI芯片。Graphcore、Groq、Cerebras和Etched AI等新创公司开发的芯片因具有独特的架构和很高的性能,已经对英伟达的GPU构成挑战。
生成式AI所使用的大模型参数量极大,对其进行训练和运行都需要庞大的算力。根据微软提供的数据,OpenAI为ChatGPT提供了28.5万块CPU和1万块英伟达A100 GPU,按照ChatGPT-3的1750亿个参数来算,训练一次需要耗费1200万美元,每天需要支出的电费约为5万美元,初始投入就达8亿美元。
目前,不断增长的大数据、高算力、高耗能已经给AI芯片的发展带来了非常大的压力和挑战。要想解决这些问题和挑战,实现基于小语言模型(Small Language Model,SLM,简称小模型)、小数据、极低功耗,可持续发展的AI芯片,从而推动社会经济的AI转型升级,就需要有重大的创新,这正是本书第3~9章所要探讨的内容。其中,类脑芯片是AI芯片的一个类别。这种芯片模仿人脑神经网络的结构和功能,基于神经形态计算,采用存算一体化架构,具有超低功耗、高并行性等特点,在处理稀疏数据、实时响应等方面具有优势。目前,类脑芯片还处于研发阶段,未得到广泛应用,但很可能成为下一代AI芯片。本书第7章也将探讨类脑芯片的研发进展及未来趋势。
[1] DAGHAGHI S, MEISBURGER N, ZHAO M, et al. Accelerating slide deep learning on modern CPUs: vectorization, quantization, memory optimizations, and more[EB/OL]. (2021-03-06) [2024-08-20]. arXiv: 2103. 10891v1 [cs. LG].
[2] RAIHAN M, GOLI N, AAMODT T. Modeling deep learning accelerator enabled GPUs[C]// IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS), March 24-26, 2019, Madison, Wisconsin, USA. NJ: IEEE, 2019: 79-92.
[3] SAMAJDAR A, PELLAUER M, KRISHNA T. Self-adaptive reconfigurable arrays (SARA): using ML to assist scaling GEMM acceleration[EB/OL]. (2022-04-23) [2024-08-20]. arXiv: 2101. 04799v2 [cs. AR].
[4] MEHONIC A, KENYON A J. Brain-inspired computing: we need a master plan[J]. Nature, 2022, 604: 255-260.