MindSpore大语言模型实战

978-7-115-64440-4
作者: 陈雷
译者: 无
编辑: 邓昱洲

图书目录:

详情

随着ChatGPT等大语言模型的迅速发展,大语言模型已经成为人工智能领域发展的快车道,不同领域涌现出各种强大的新模型。开发者想要独立构建、部署符合自身需求的大语言模型,需要理解大语言模型的实现框架和基本原理。 本书梳理大语言模型的发展,首先介绍Transformer模型的基本原理、结构和模块及在NLP任务中的应用;然后介绍由只编码(Encoder-Only)到只解码(Decoder-Only)的技术路线发展过程中对应的 BERT、GPT等大语言模型;接下来介绍大语言模型在部署、训练、调优过程中涉及的各种关键技术,如自动并行、预训练与微调、RLHF等,并提供相应的实践指导;最后以开源大语言模型BLOOM和LLaMA为样例,介绍其架构和实现过程,帮助读者理解并构建、部署自己的大语言模型。本书还提供了基于MindSpore框架的丰富样例代码。 本书适合人工智能、智能科学与技术、计算机科学与技术、电子信息工程、自动化等专业的本科生和研究生阅读,同时也为从事大语言模型相关工作的软件开发工程师和科研人员提供翔实的参考资料。

图书摘要

版权信息

书名:MindSpore大语言模型实战

ISBN:978-7-115-64440-4

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

编  著 陈 雷

责任编辑 邓昱洲

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

随着ChatGPT等大语言模型的迅速发展,大语言模型已经成为人工智能领域发展的快车道,不同领域涌现出各种强大的新模型。开发者想要独立构建、部署符合自身需求的大语言模型,需要理解大语言模型的实现框架和基本原理。

本书梳理大语言模型的发展,首先介绍Transformer模型的基本原理、结构和模块及在NLP任务中的应用;然后介绍由只编码(Encoder-Only)到只解码(Decoder-Only)的技术路线发展过程中对应的 BERT、GPT等大语言模型;接下来介绍大语言模型在部署、训练、调优过程中涉及的各种关键技术,如自动并行、预训练与微调、RLHF等,并提供相应的实践指导;最后以开源大语言模型BLOOM和LLaMA为样例,介绍其架构和实现过程,帮助读者理解并构建、部署自己的大语言模型。本书还提供了基于MindSpore框架的丰富样例代码。

本书适合人工智能、智能科学与技术、计算机科学与技术、电子信息工程、自动化等专业的本科生和研究生阅读,同时也为从事大语言模型相关工作的软件开发工程师和科研人员提供翔实的参考资料。

专家推荐

在人工智能技术迅猛发展的今天,《MindSpore大语言模型实战》一书犹如一盏明灯,照亮了实践之路。这本书不仅深入解析了大语言模型的技术原理,还详尽阐述了MindSpore框架在大语言模型实战中的应用,内容全面、条理分明。无论是学术研究者还是企业工程师,都能从中汲取宝贵的知识和灵感。这本书结合理论与实践,回顾了大语言模型的发展历程,展示了成功案例,并特别强调了MindSpore在大语言模型实战中的独特优势,如自动并行和分布式训练解决方案等方面。

这本书强调实战应用,提供了丰富的实战案例和代码示例,助力读者在实践中掌握构建和优化大语言模型的关键技术。这些案例涵盖了自然语言处理、图像生成、语音识别等多个领域,为读者提供了全面而深入的技术指导。

阅读本书,读者将深刻理解并熟练掌握大语言模型的核心原理和应用方法,并能够运用MindSpore框架高效进行大语言模型训练和部署。对于从事人工智能、深度学习研究的学者、科研人员,以及工业界的大语言模型应用工程师和开发者来说,这本书是一份极具实用价值的参考资料。

清华大学讲席教授、基础模型研究中心主任,ACM/IEEE/AAAI/CCF会士 唐杰

《MindSpore大语言模型实战》深入探讨了大语言模型的实践应用,并详尽解析了MindSpore框架在大语言模型应用中的创新亮点,为读者提供了丰富的理论知识与实用的案例分析。本书结构清晰、代码示例详尽,为读者揭示了大语言模型背后的技术奥秘。在自然语言处理、图像生成和语音识别等领域的实践应用中,MindSpore框架展现出了卓越的自动并行能力和分布式训练特性,极大地提升了大语言模型实践的效率和便捷性。

本书不仅适合从事人工智能和深度学习研究的学者与科研人员阅读,也为工业界的大语言模型应用工程师和开发者提供了宝贵的参考。无论是初学者还是有经验的专业人士,都能从本书中获得启发,更好地应对大语言模型实践中的挑战。

我诚挚推荐这本书,它不仅是一部关于大语言模型的全面指南,更是激发创新思维和推动AI技术进步的重要资源。希望它能成为您探索和使用大语言模型的得力助手,共同推动人工智能领域的发展与创新。

北京大学计算机学院副院长,IEEE会士 崔斌

在大语言模型风起云涌的背景下,陈雷教授精心编著《MindSpore大语言模型实战》,展示了他在人工智能领域的深厚造诣和卓越的实践能力。这本书不仅深度探讨了大语言模型的技术奥秘,更详细地解析了MindSpore框架在大语言模型实践中的创新应用,为读者提供了宝贵的知识和实践指导。

无论是对大语言模型充满好奇的初学者,还是在相关领域深耕多年的研究人员和工程师,都能从本书中汲取知识、获得灵感。本书以其清晰的理论讲解、详尽的案例分析和实用的代码示例,帮助读者在大语言模型领域取得更为显著的成就。

中国科学技术大学计算机科学技术学院执行院长,ACM/IEEE会士 李向阳

丛 书 序

在当今信息时代,深度学习和大语言模型等人工智能技术正在对整个社会产生深远的影响,经济、科技到生活的方方面面都得以革新和提升。这种革新不仅是技术上的进步,更是对人类社会发展的重大推动。

其中,深度学习和大语言模型的兴起为社会带来了前所未有的智能化革命。

通过深度学习技术,计算机能够模仿人类的认知过程,从而完成图像识别、语音识别、自然语言处理等复杂任务。这使得各行各业都能够利用人工智能技术实现效率提升和创新突破。人工智能技术为社会的可持续发展提供了巨大的助力。

大语言模型的兴起正在改变人工智能领域的面貌和应用场景。随着大语言模型的不断成熟和发展,人工智能系统的处理能力和智能水平显著提升。这为自然语言处理、推荐系统、医疗健康等领域的应用带来了更广阔的前景和更深层次的变革,推动了人工智能技术的深度融合和广泛应用。

在经济领域,深度学习和大语言模型将推动产业结构优化和经济增长模式的转变,通过智能化的生产、管理和服务,提高资源利用效率和经济效益,助力经济发展进入新的增长阶段。在科技领域,深度学习和大语言模型将推动科学研究和技术创新的突破,通过挖掘大数据的潜力、提高智能算法的能力,推动科技领域的前沿研究和应用创新,为人类社会带来更多的科技成果和福祉。

正是在这样的背景下,“MindSpore计算与应用丛书”深入探讨了MindSpore框架在深度学习、大语言模型和科学计算领域的原理、方法及应用,为读者提供更加系统、全面的学习和实践指导,通过对数据处理、网络构建、分布式并行、性能优化等关键技术的详细介绍,帮助读者深入理解深度学习和大语言模型的核心思想和实现方法,从而将其更好地应用于实际项目和科学研究中。本丛书还整理了丰富的实例代码和案例分析,为读者提供丰富的实践经验和应用指导,帮助读者在人工智能领域取得更大的成就和发展。“MindSpore计算与应用丛书”的出版将有助于推动人工智能技术在各个领域的创新和应用,促进社会的智能化进程和科技发展,为构建智慧社会做出更大的贡献。

陈雷

2024年9月

前  言

在当今科技迅速发展的时代,以ChatGPT为代表的大语言模型(Large Language Model)在通用人工智能(Artificial General Intelligence,AGI)领域掀起了一股前所未有的浪潮。大语言模型不仅在学术界引起了广泛的关注,更在工业界掀起了“千模大战”的风暴。ChatGPT等大语言模型不仅令人印象深刻,更让人们对人工智能的未来充满了期待。但这也引发了一个问题:究竟是什么样的高级技术让这些大语言模型如此成功,不断刷新着人们对人工智能的认知?

正是在这一背景下,《MindSpore大语言模型实战》一书应运而生。本书致力于深度探讨大语言模型的实践,以及如何利用MindSpore在大语言模型的实践中取得显著的成就。本书基于大语言模型在人工智能领域的不断发展,为读者揭示大语言模型背后的技术和奥秘,以及MindSpore在大语言模型实践中的创新应用。

大语言模型:AGI的里程碑

近年来,以ChatGPT为代表的大语言模型如雨后春笋般涌现,成为人工智能领域的焦点。这些大语言模型通过深度学习技术,尤其是引入的Transformer模型,展现了其在自然语言处理任务上的卓越能力。在“千模大战”中,大语言模型可以完成对话、翻译、生成等任务,它们几乎无所不能,引发了广泛的讨论和关注。

这些大语言模型的成功标志着人工智能领域朝着实现AGI的目标迈出了重要一步。它们不仅在理解语言、生成文本等领域展现出了超越以往工具的能力,还推动整个人工智能领域进入了一个新的阶段。然而,这一切的背后究竟实现了怎样的技术突破和创新?这是工业界和学术界都关心的话题。

MindSpore:大语言模型实践的利器

在大语言模型实践中,框架的选择至关重要。MindSpore作为一款全场景人工智能框架,为大语言模型的构建和应用提供了全新的视角。它强大的自动并行能力、支持分布式训练范式的特性,使其在大语言模型实践中脱颖而出。

MindSpore不仅是一个用于训练大语言模型的工具,还是一个全方位的人工智能解决方案。它为大语言模型提供了灵活的构建和部署方式,同时充分发挥了分布式计算的优势,为用户提供了高效、便捷的大语言模型实践体验。本书将深入剖析MindSpore在大语言模型实践中的关键作用,揭示其独特之处,以及MindSpore如何与大语言模型相得益彰。

本书内容:深度挖掘大语言模型

本书旨在深度挖掘大语言模型。首先,本书追溯大语言模型的发展历程,剖析它们在各领域的成功案例,并深入解析它们背后的工作原理。通过理论介绍,读者将对大语言模型的演进和突破有更为清晰的认识。

其次,本书重点关注MindSpore,解析其在大语言模型实践中的独特之处。本书将深入探讨其自动并行能力、分布式训练解决方案,以及与大语言模型协同工作的关键技术。这将有助于读者全面了解MindSpore在大语言模型实践中的创新应用。

最后,本书聚焦大语言模型在不同领域(包括自然语言处理、图像生成、语音识别等)的实践。通过深入的案例分析,本书揭示了MindSpore如何为这些领域的大语言模型提供高效的支持,从而帮助读者更好地将大语言模型应用于实际问题中。

为了让读者更好地学习和理解相关内容,本书提供了基于MindSpore实现的大语言模型实践的样例代码。这些样例代码将帮助读者逐步掌握大语言模型的构建方法和MindSpore应用的核心技术。

读者对象:大语言模型的实践者

本书适用于广泛的读者群体,包括人工智能、智能科学与技术、计算机科学与技术、电子信息工程、自动化等专业的本科生和研究生,也适合从事大语言模型相关工作的软件开发工程师和科研人员阅读。无论是初学者还是经验丰富的专业人士,都能从本书中汲取丰富的知识,激发创新思维,更好地应对大语言模型实践中的挑战。

未来展望:共同构建人工智能的未来

欢迎更多有志之士一起走上大语言模型的实践和MindSpore的应用之路。随着人工智能技术的不断进步,大语言模型将继续引领人工智能的发展,而MindSpore作为其关键的技术支持,将在未来发挥更为重要的作用。通过阅读本书,读者不仅会对大语言模型的实践有更深刻的理解,而且能够更加熟练地运用MindSpore,参与构建人工智能的未来。让我们携手迈入这个充满创新与探索的时代,为人工智能的发展贡献我们的力量。

当前人工智能进入“大语言模型(Large Language Model)时代”,人工智能由重复、手工作坊式的开发,即“1000个应用场景就有1000个小模型”的零散、低效局面,走向工业化、集成化智能的全新路径。一个大语言模型“走天下”的模式为AGI带来曙光。手工作坊式的开发消耗大量资源,成本更高,且效率低下。未来人工智能在各垂直领域落地时,只需要基于一个大语言模型,对其参数进行微调即可,这样就打造出了AGI。大语言模型具备更强的泛化能力,可以适配多个场景,发展大语言模型也成为产、学、研各界的共识。

1.1 人工智能的发展阶段

人工智能从1956年被正式提出以来,经历了几十年的发展。在人工智能诞生初期,对其的研究主要分为3个流派,即逻辑演绎流派、类脑计算和归纳统计。其中,逻辑演绎方法局限性较强,难以对复杂的实际问题进行建模。类脑计算方法过多地依赖生命科学,而生命科学的发展难以满足人工智能的一般要求。进入21世纪,在大数据和大算力的支持下,归纳统计方法逐渐占据人工智能领域的主导地位,并且催生出一系列方法论和应用。

人工智能的主要发展阶段如下。

1. 孕育期(1943—1955年)

这个阶段的代表性成果主要包括Warren S. McCulloch和Walter Pitts提出的人工神经网络(Neural Network,NN)的视觉模型,以及Alan M. Turing设想的验证人工智能的思想实验(即图灵测试)。同时,1946年出现的通用计算机ENIAC也为人工智能的复杂演算提供了硬件支撑。

2. 第一次繁荣期(1956—1973年)

以1956年达特茅斯会议为标志,人工智能被正式提出并且其发展进入第一次繁荣期。基于逻辑演绎流派的人工智能算法解决了某些特定领域的问题(如证明数学定理),而基于亚符号系统的感知器算法也被提出并实现,甚至在1957年出现了专门用于模拟感知器的计算机MarkⅠ。此时的研究者对于人工智能抱有不切实际的乐观幻想,包括Marvin L. Minsky(1969年图灵奖得主)和Herbert A. Simon(1975年图灵奖得主)在内的多名研究者,均预测人工智能面临的问题将在20年内获得彻底解决。以美国国防高级研究计划局(Defence Advanced Research Projects Agency,DARPA)为代表的政府机构和大型企业,也为人工智能的研究注入了大量资金。

3. 第一次低谷期(1974—1980年)

研究者们很快意识到了第一代人工智能算法的极限。1969年, Marvin L. Minsky发表著作Perceptrons,几乎一手摧毁了联结主义(即人工神经网络)方面的研究;同时,基于逻辑演绎流派的人工智能算法也被证明需要指数级时间以解决大部分问题。随着DARPA等政府机构撤出大部分投资,人工智能领域也涌起一波反思浪潮,其中有代表性的是James Lighthill发表的《人工智能综述报告》和John R. Searle提出的“中文房间”问题。

4. 第二次繁荣期(1981—1987年)

随着专家系统的出现和盛行,人工智能算法开始在特定领域内解决实际问题。例如,1975年出现的MYCIN算法已经能够在医学领域完成血液传染病的诊断工作。同时,以Hopfield网络为代表的新型人工神经网络和由David E. Rumelhart发明的误差逆传播算法极大地扩大了人工神经网络的适用范围。1989年,Yann LeCun(2018年图灵奖得主)使用5层人工神经网络识别手写数字,该方法取得巨大成功并在20世纪90年代识别了美国超过10%的手写支票。以DARPA为代表的政府机构再次开展行动,使得20世纪80年代后半段在人工智能领域的投入资金比前半段增长了数倍。

5. 第二次低谷期(1988—1993年)

然而,专家系统很快遇到了新的困境。研究者们发现,在特定领域中,面对未知或未定义的问题时,即使问题十分简单,专家系统也无法对其进行预测和控制。随着支持人工智能研究的资金再度锐减,研究者们再次开始反思,并且将思路逐渐从符号系统(如归纳演绎方法)转向亚符号系统(如统计学习方法)。这个阶段,研究者们开始认识到感知和交互的重要性,其中产生影响较大的观点包括David Marr在其著作Vision中提出的视觉理解模型和Rodney A. Brooks提出的“模型可有可无,世界即是描述自身最好的模型”等。

6. 第三次繁荣期(1994年至今)

随着现代计算机的存储能力和算力不断增强,统计学习方法逐渐成为人工智能领域的绝对主流。在人工智能的各个领域,如计算机视觉、语音识别、自然语言处理等,手工设计的模型都逐渐被基于统计学习方法的模型所取代。从2011年开始,深度学习浪潮席卷人工智能领域,使人工智能终于在多个领域达到或超越了人类水平。人工智能发展的第三次繁荣期,也是历史上时间最长的一次繁荣期,至今仍未有结束的趋势。虽然许多本质问题尚未得到解决,但人工智能的诸多应用已经深刻地改变了人类社会。

1.2 从深度学习到大语言模型

值得一提的是,深度学习并未解决人工智能的本质问题。未来,业界很可能还要经历数次低潮与革新,方能实现真正的AGI。在此之前,虽然存在着关于强/弱人工智能的讨论和对科技奇异点的担忧,但业界的重心依然是人工智能算法的研发。

从早期阶段开始,人工智能就分为不同的流派。人工智能的先驱们不断探索和论证通向真正智能的崎岖道路。有趣的是,有影响力的三大流派(类脑计算流派、逻辑演绎流派、归纳统计流派)从人工智能创立之初便存在,时至今日人工智能也未由其中一派彻底统一。三大流派各有优劣势。类脑计算流派的目标最为宏远,但在未得到生命科学的支撑之前,难以取得实际应用。逻辑演绎流派的思考方式与人类相似,具有较强的可解释性。由于对数据和算力的依赖较少,逻辑演绎流派成为人工智能发展阶段中前两次繁荣期的主角。随着学术界对人工智能困难程度的理解逐渐加深,逻辑演绎流派的局限性被不断放大,并最终在第三次繁荣期中,逐渐让位于归纳统计流派的“暴力美学”。这种“抛弃人类先验,拥抱数据统计”的思想,在深度学习出现后被推向高峰。

值得强调的是,深度学习是时代的产物。如果没有大数据和大算力的支持,深度学习就不可能在3~5年占领人工智能的大部分领域。而随着人工智能模型的参数越来越多,训练所需的数据集规模也越来越大。为了适应巨大的参数量和数据集规模,研究者们提出了层次化建模和分散表示的思想,提升了复杂数据匹配的效率和精度,从而大大促进深度学习的发展。从技术的角度看,深度学习的核心是深度神经网络:通用的骨干网络配合具有特定目的的头部网络,使深度学习统一解决各个子领域内的不同问题。例如,在计算机视觉领域,彼此十分相似的深度神经网络已经成为图像分类、物体检测、实例分割、姿态估计等具体问题的通用框架;而在自然语言处理领域,一种被称为Transformer的模型也被大量使用,研究者们得以建立通用的语言模型。

然而,从本质上看,深度学习依然没有跳出统计学习的基本框架:特征抽取和模板匹配。相比于人类基于知识的推断,统计学习的方式无疑是低效的。在人工智能进入千行百业的大背景下,这种设计理念必将导致人工智能算法的通用性受限,因为对于任何新的概念乃至新的实体,算法都需要专门的训练数据来提供相关的信息,而在没有基础模型支撑的情况下,开发者们必须从头开始完成收集数据、训练模型、调试模型、优化部署等一系列操作。对于大部分人工智能开发者而言,这无疑是重大的挑战;同时,这也使得人工智能算法的开发成本居高不下,难以真正惠及细分行业和其中的企业,尤其是中小型企业。

预训练大语言模型是解决上述问题的有效手段。预训练大语言模型是深度学习时代的集大成者,其工作流程分为上游(模型预训练)和下游(模型微调)两个阶段。上游阶段主要负责收集大量数据,并且训练超大规模的神经网络,以高效地存储和理解这些数据;下游阶段则负责在不同场景中,利用相对较小的数据量和计算量,对模型进行微调,以达成特定的目的。

一方面,根据实践经验,在预训练大语言模型加持下的人工智能算法(包括计算机视觉、自然语言处理等领域的AI算法),相比于普通开发者从头搭建的算法,精度明显上升、数据量和计算成本明显下降,且开发难度大大降低。以计算机视觉领域的人工智能算法为例:在100张图像上训练基础物体检测算法,原本需要8块GPU运行5 h、1名开发者工作1周才能完成,而在预训练模型的加持下,只需要1块GPU运行2 h,而且几乎不需要人力干预。综合算力、人力开销研判,上述案例的开发成本节约至原先的10%甚至1%。

另一方面,对大语言模型的研究将有可能启发下一个通用计算模型。回顾历史,2011年前后正是传统统计学习方法的鼎盛时期,在计算机视觉领域甚至出现了参数量超过10亿的词袋分类模型——即使在2021年,参数量超过10亿的计算机视觉模型也足以被称为大语言模型。然而,在2012年左右,深度神经网络仅用6000万个参数就彻底击败了词袋分类模型,引领计算机视觉发展至今。深度神经网络相较于词袋分类模型,本质上是在特征匹配效率上产生了突破;研究者们猜测,在大语言模型发展到一定程度时,会产生另一个维度的突破,从而使统计学习方法“进化”至下一阶段。目前看来,这个突破有可能产生于大语言模型与知识的结合。

综上所述,预训练大语言模型是现阶段人工智能的集大成者,代表了统计学习流派的较高成就。在新一代技术未出现前,它将是研究和开发人工智能的最强武器之一。

相关图书

深度学习高手笔记 卷2:经典应用
深度学习高手笔记 卷2:经典应用
大语言模型:基础与前沿
大语言模型:基础与前沿
动手学自然语言处理
动手学自然语言处理
智能驾驶之激光雷达算法详解
智能驾驶之激光雷达算法详解
高级算法和数据结构
高级算法和数据结构
互联网大厂推荐算法实战
互联网大厂推荐算法实战

相关文章

相关课程