书名:超有趣的GPT : AI公子逆袭记
ISBN:978-7-115-63987-5
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 袁 雪 徐溪遥
责任编辑 赵祥妮
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
AI(Artificial Intelligence,人工智能)是如何拥有创造力的?图像和文本生成如何做到以假乱真?什么是ChatGPT?人工智能的未来会怎样?这些问题都会在这个有趣的故事中被一一解答。本书讲述了AI公子为了在心爱的千金小姐的招亲大会中获胜而努力学习的幽默故事。本书讨论了AI与人类学习的相似性,结合AI公子的学习过程讲述ChatGPT核心技术的发展脉络。
本书适合对ChatGPT感兴趣的人员阅读。
2002年的春天,我收到了国外导师发来的一篇关于神经网络的论文。神经网络是我的研究生课题。于是我这个成绩一般、无编程基础的笨女孩每天带着3本词典,翻译了千叶大学图书馆中关于神经网络的全部资料,开始了神经网络的苦学之旅。但3个月后,看着书上满篇的数学公式和前辈留下的几十万行代码,我还没能入门。千叶大学图书馆前的樱花树记录着勤学者的惆怅,我时常想象要是有一位良师益友能够用简单的语言带我入门这个略显抽象的领域该有多好。
如今20年过去了,神经网络已经成为我工作中重要的组成部分。人工智能技术也今非昔比,神经网络作为底层的技术将为人类社会带来历史性的变革,我在博士期间研究的人脸识别已经普及,人工智能已经成为热门的研究领域,ChatGPT的热潮席卷全球……
然而,我惊讶地发现,那位能用简单语言带领大家入门人工智能的良师益友没出现,市面上仍然没有一本足够通俗易懂的人工智能科普书。
或许因为被淋湿过才会想着为他人撑伞,我和一个与当年的我一样正在入门人工智能的平凡女孩一起想出了这个AI公子逆袭的小故事。本书不仅融合了关于生成式AI、深度学习、神经网络的理论知识,还用幽默的语言与漫画讲解人工智能的底层理论体系和数学模型。
无论是对人工智能有兴趣的初学者,还是想要深入学习却无从下手的大学生,抑或是想要用简洁的语言教会学生的老师,都能通过学习本书轻松地入门人工智能,开启人工智能领域的探索之旅。
袁雪
很久很久以前,京城里住着一位勤劳的商人艾老爷,他白手起家,每日起早贪黑,兢兢业业地做着生意,在50岁时终于发家致富。
艾老爷中年得一子,这个孩子(也就是我们故事的主人公)自然在备受宠爱的条件下无忧无虑地长大。
从小养尊处优的生活让艾公子养成了呆萌的性格,让所有试图恭维老爷的访客们看到艾公子,再看看旁边精明能干的老爷,不由得联想到扶不起的阿斗,进而发出叹息:“唉……艾公子!”
久而久之,他便得到了一个响亮绰号——唉艾(AI)公子。
AI公子成年后,全家开始为他的婚事担忧。恰逢马家温婉美丽的小姐在半年后举行招亲大赛,全家人为了帮助他从招亲大会中脱颖而出,制订了名为“人工开发公子智能的”独特养成计划。
AI公子经过多方打听,了解到马小姐最爱绘画艺术,于是他决定用自己“高超”的画技吸引她的目光。至于他的作品……好吧,看来他目前的水平也就只够做做白日梦了。
老爷决定支持他宝贝儿子的梦想,让这位看上去不聪明并且有点呆萌的AI公子在短时间内在这次招亲大赛中脱颖而出。
AI公子的成长之路其实就是人工智能学习的过程,所以让我们先了解一下机器学习的原理。
要想理解AI系统是如何学习和推理的,首先要知道什么是数字编码。
科学小常识
计算机的核心操作和存储都依赖两个数字——0和1,它们也被称为二进制位。可以认为,人们将计算机的中央处理器(Central Processing Unit,CPU)和内存设计成可以识别电压的两种状态,即高电压(通常表示为开或1)和低电压(通常表示为关或0)。
计算机内部采用二进制形式存储和处理数据、指令
因此,计算机只能直接理解和操作这些二进制数。为了使计算机能够处理类型更复杂的数据,如文本、图像和声音,我们需要先将这些数据转换为数字编码格式,再将它们表示为二进制格式。下面介绍常用的数字编码方法。
文本的数字编码
当你向聊天机器人发送消息时,这条消息中的每个字符都被转换成一串数字,即数组。这样,AI系统就可以根据这些数组回复你,尽管它并不真正“理解”文字的含义,但它知道如何对数字编码做出反应。
文本可以通过多种方式编码为数组。一种方式是将每个字符映射到唯一的数组,即字符编码;另一种方式是通过词嵌入的形式将单词转换为固定长度的向量[1],这些向量可以捕获词义关系和语义信息,即嵌入向量。
[1] 向量(vector)可以想象成从当前位置指向目标点的一个箭头。这个箭头有两个关键特征,即长度和方向。长度表示需要走多远,箭头越长,需要走的距离就越远。方向表示需要朝哪个方向走,如向北、向南、向东还是向西,或者与这些方向成某个角度。当你看到一个向量时,你可以认为它是一个指向特定目标的箭头,它会告诉你应该走多远以及应该朝哪个方向走。
图像的数字编码
当看到一张猫的图片时,你可以立即认出它是猫。但是,对于计算机来说,这张图片只是数百万像素(pixel)的集合,每像素用一个数字编码表示其颜色。AI系统通过这些数组“理解”图片中可能有什么。
对于黑白图像而言,每像素对应一个值。
而对于彩色图像而言,每像素都有红、绿和蓝(RGB)通道的值。图像中所有像素的颜色都是通过调节三原色的不同比例实现的。例如,红色像素的RGB值是(255,0,0),绿色像素的RGB值是(0,255,0),请你猜猜蓝色像素的RGB值。这些值通常为0~255。这样,我们就可以将一幅图像转换为一个数组(也就是矩阵[2])。
[2] 可以把矩阵(matrix)想象成一个表格。这个表格由行和列组成,每个单元格里都有一个数字,形态类似于Excel表格。矩阵就是这样的表格,它可以帮助我们描述数据,或者进行计算。
声音的数字编码
如果你对语音助手(如Siri或小度)说:“播放我最喜欢的歌曲”,它首先会将声音转换为向量,然后通过AI系统解读那串数字,并做出相应的反应。
声音信号是连续的波形。通过采样技术,我们可以在短的时间间隔内捕获这些波形的值,从而将声音转换为向量。对于复杂的AI任务(如语音识别),声音还可以进一步转换为更高级的特征,如梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)等。
综上所述,在输入AI系统前,所有的资料都要先转换为矩阵或向量。因此,AI系统可以被理解为数学模型,即从一个矩阵或向量转换成另一个矩阵或向量的函数。数字编码技术确保了AI系统可以有效地处理各种类型的信息。
当然,这位AI公子一点也不明白前面那些高端的计算机和数学常识。用通俗的话来说,他还什么也不会。不过,显然他自己并没有意识到这一点,依旧自信满满地憧憬着。
为了让AI公子接受更正规的培训,财主老爷在京城的大街小巷贴满了告示,为自家儿子重金聘请绘画老师。
不久后,4位能人前来揭榜,这些人都有着独特的教学方式。他们是传说中机器学习的“四大门派”的传人,虽然这“四大门派”的学习方法各不相同,但是它们都属于机器学习这一大分支。而机器学习便是通往人工智能的必经之路。
机器学习是人工智能的基础,让我们跟随AI公子了解机器学习的“四大门派”吧。
机器学习是人工智能的分支,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,不断改善自身的性能。在机器学习中,计算机可以对输入的数据进行识别、处理并做出决策。就像我们学习新东西一样,机器学习可以通过观察和分析数据提高自己的性能。可以说,机器学习是一种让计算机变得更智能的方法。
计算机系统处理数据的过程主要分为4个步骤。
(1)将原始数据转换成数字编码。
(2)根据任务要求设计出相应的机器学习算法。
(3)通过机器学习算法将输入的数字编码转换为同样是数字编码的推理结果。
(4)将推理结果翻译成我们最终想要的结果。
可以看出,机器学习算法的目的是将一组矩阵或向量转换成另一组矩阵或向量。
负责对AI公子进行教学的第一位先生是“无监督学习”门派的创始人吴先生。吴先生坚信“君子慎独”的道理,创建了一套自学体系,叫作“无监督学习”。用通俗的话来说,它就是埋头苦学。无监督学习是机器学习领域的一种重要方法,主要任务包括聚类、降维、异常检测等任务,在很多领域有广泛的应用。
不过,这种方法对AI公子是否有用就未尝可知了。
科学小常识
无监督学习
无监督学习的主要目标是从数据中找到隐藏的结构或模式,而不需要人工设置的标签或预先定义的输出。这里用一个简单的例子解释无监督学习。
假设有一些水果的照片,没有人告诉你每张照片上是什么水果。你的任务是观察并理解这些照片中是否存在某种模式或内在规律,从而将它们分成不同的组。聪明的你可能会发现:苹果是椭圆形的,并且顶部的中间有一点小小的凹陷;橘子也是椭圆形的,但顶部的中间有一点点凸起;香蕉是长的……在这种情况下,你使用的就是无监督学习的方法。当计算机被告知要将这些照片分成几组但没有被告诉如何分组时,计算机会分析照片之间的相似性,找到它们之间的共同特征,然后将它们分成不同的组。如果照片之间存在相似的颜色、形状、纹理等特征,AI系统就会将它们分成不同的簇,以便用户查看被分好的每个簇,并确定它们分别代表什么水果。
无监督学习的关键是发现数据中的模式或结构,而不需要规定明确的标签或目标输出。该方法在数据分析、自然语言处理和其他领域都有广泛的应用。
经过几天的学习,大家发现这种全靠自己努力的方法并不适合我们的AI公子。
第一位先生被淘汰后,半先生登场了。这位先生来自大名鼎鼎的“半监督学习”门派,他提前做好了研究,知道艾老爷对儿子寄予厚望,决定将重点放在培养AI公子的临摹技能上。
他坚信模仿加写实是绘画的基础,所以让AI公子一边照着世界名画学习临摹,一边到外面去采风,练习风景画,自己领悟绘画技巧。这种方法又被称作“半监督学习”。
科学小常识
半监督学习
半监督学习同时利用带标签的数据和无标签的数据进行训练(有标签的数据可以理解为带答案的数据,而无标签的数据就是不带答案的数据)。在半监督学习中,通常一小部分数据是有标签的,而大部分数据是无标签的。模型先尝试从这些带标签的数据中学习有用的信息,然后将这些信息应用于无标签的数据。半监督学习的目标是通过无标签的数据提高模型的性能,因为无标签数据通常更容易获取。
再假设要求计算机构建一个水果分类器,用于识别水果中的苹果、橘子和香蕉三个类别。用户提供了一些已标记的水果,但大多数样本没有明确的标签。半监督学习允许AI系统使用这些已标记的样本训练模型,并使用未标记的样本进一步提高模型的性能。
不过这位先生高估了AI公子的悟性。通过在名画与实景之间的反复切换,AI公子的绘画风格变得更加凌乱了……
不同于前两位不靠谱的老师,第三位先生师从强化学习门派,该门派曾培育了举世闻名的AlphaGo。其教育方式也很强悍,即在学生自学并不断尝试创作时,老师与学生互动,根据学生尝试的结果给予奖励与惩罚。例如,让AI公子自由作画,画得不好就让他面壁;画得好就给他一个大大的拥抱,这种方法名为“强化学习”。
这种教学方法过于激进,给AI公子造成很大的心理压力,在AI公子的强烈要求下,第三位先生也被淘汰。
科学小常识
强化学习
强化学习的思路是让计算机通过不断尝试不同的动作,从环境中得到奖励或惩罚,逐渐学会在特定情况下做出最好的选择。它就像一个自学的游戏玩家,通过不断练习提高自己的技能,最终成为高手。这种方法有许多应用,如自动驾驶汽车、机器人控制和许多需要智能决策的领域。强化学习的目标是使计算机在不断变化的环境中自我学习,从而能够做出最佳选择,以实现特定的目标。
假设需要训练一个AI系统,让它可以控制游戏中的角色小鸟飞越不同的障碍物。
在这个任务中,AI系统是智能体,游戏环境是虚拟的游戏屏幕。AI系统需要学会控制小鸟,使它不断地飞越障碍物,躲避障碍物碰撞,以获得尽可能高的分数。强化学习的过程如下。
(1)AI系统不知道如何玩游戏,因此它随机尝试不同的动作,比如单击屏幕使小鸟跳跃。
(2)游戏环境反馈AI系统的每个动作,告诉它当前的得分和是否发生了碰撞。
(3)AI系统根据反馈调整它的下一个动作,如果它成功飞过了一根管道,它就会记住这个动作有可能获得高分。
(4)AI系统在多次尝试后,逐渐学会了如何单击屏幕,以便在游戏中让小鸟不断飞行,最大限度地避免碰撞,并获得高分。
(5)通过不断尝试和学习,AI系统逐渐提高了控制小鸟实现飞越障碍的游戏表现能力。
这就是强化学习的基本思想:通过试错和奖励学会最优策略,从而在特定环境中取得最大的成功。这个过程类似于人类学习新技能的过程,只不过AI系统是通过算法来学习的。
前三位先生的方法都以失败告终。此时,“四大门派”之首——“监督学习”门派当家登场。他有着高超的绘画技巧,并总结了前三位先生的失败经验,给AI公子制订了严格的教学方案,并给这个方案命名为“监督学习”。
科学小常识
监督学习
监督学习旨在让AI模型从带标签的数据中学习,训练完成的AI模型用于对无标签的数据进行预测或分类。这种方法需要有大量训练数据和与之对应的标签,以便AI模型可以从正确的示例中学习并掌握规律。
这里用一个简单的例子进行讲解。
假设我们要构建一个将电子邮件自动分类为“垃圾邮件”或“非垃圾邮件”的系统。此时你有一个包含许多电子邮件的数据集,每封电子邮件都有一个标签,指示它是垃圾邮件还是非垃圾邮件。
在监督学习中,你会将这些电子邮件的内容作为训练数据,将“垃圾邮件”或“非垃圾邮件”作为标签,然后训练一个机器学习模型。模型会学习从电子邮件的内容中提取特征,以便在看到新的电子邮件时,能够预测它是垃圾邮件还是非垃圾邮件。
举例来说,垃圾邮件的内容通常包含一些特定的关键词(如“免费”“优惠”“赚钱快”等),监督学习模型可能会识别这些关键词,并将包含这些关键词的电子邮件标记为“垃圾邮件”。如果一封电子邮件的内容包含正常通信中经常出现的内容,那么模型可能会将其标记为非垃圾邮件。
监督学习的关键是有明确的训练数据和对应的标签,以帮助模型学习如何进行分类或预测。一旦模型经过训练并构建起来,它就可以处理新的、无标签的数据,例如,对新接收到的电子邮件进行分类。这种方法在实际应用(如文本分类、图像识别、语音识别等)中非常有效。
第四位先生来了之后,AI公子每天都要从早到晚地听课、背诵、训练、考试,先生拿出了他收集的成千上万张名画,从三庭五眼讲到透视画法,仔细备课,精选知识点,不断将知识灌入AI公子那并不聪明的大脑中。
在经过4位先生的轮流教导后,原本就不那么聪明的AI公子终于变成了更傻的公子!
4位先生的教学计划全部失败,4位先生也都被扫地出门了。
距离马小姐的招亲大赛只剩3个月了,而AI公子还什么都不会。
连大名鼎鼎的“四大门派”都无法教育好AI公子,看来AI公子在招亲大会上夺冠无望。就在老爷和AI公子陷入绝望之时,一位大侠揭下了招聘榜。
他认为自己超越几大门派,可以用一种方法打遍天下无敌手。无论你是平庸的还是出众的,无论你想学吟诗还是学作画,都能用他的秘诀学会。
这位神秘的大侠究竟是谁?他能否带领AI公子在招亲大赛上夺冠呢?
欲知后事如何,且看下回分解。
艾伦·图灵(Alan Turing)是20世纪最伟大的计算机科学家之一,他在数学、逻辑学、密码学和计算理论等领域取得了卓越的成就。他提出的“图灵机”概念对计算理论的发展起到了关键作用。
艾伦·图灵提出了著名的“图灵测试”,即如果一台计算机能够模仿人类对话,以至于人类无法辨别出它是人类还是机器,那么我们就可以说这台计算机具有智能。图灵测试强调了人工智能的核心问题——机器能否表现出与人类相似的智能行为。
在这个实验中,一个人类评判者与一台计算机、一位真人进行对话,评判者的任务是根据对话内容判断哪个是人类、哪个是计算机。如果一台计算机能够成功地欺骗评判者,使其无法分辨出哪个是计算机、哪个是人类,那么该计算机就通过了图灵测试。
为了纪念图灵在计算机领域的贡献,美国计算机协会(Association for Computing Mechinery,ACM)于1966年设立了图灵奖。这是计算机领域的最高奖项,旨在表彰在计算机科学领域做出卓越贡献的个人或团队。该奖项的获得者分布在算法设计、人工智能、计算理论、计算机体系结构、数据库、网络、编程语言等领域。