成为GPT高手

978-7-115-64943-0
作者: 梁成睿
译者:
编辑: 谢晓芳
分类: 其他

图书目录:

详情

  优化提示词是用好GPT的关键。本书基于GPT,讨论提示词的使用技巧和优化方法。本书不仅讨论如何让GPT不再“胡说八道”,如何用GPT解决各种问题,如何让GPT了解用户的需求,如何让GPT记忆力超群,还讲述如何应用GPT,如何让GPT自动运行,如何打造商业级别的GPT,如何辨别GPT生成的内容。   无论你是职场人士,还是在校大学生,通过阅读本书,都可以掌握用好GPT的关键,提升自己的工作或学习效率。

图书摘要

版权信息

书名:成为GPT高手

ISBN:978-7-115-64943-0

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


版  权

著    梁成睿

责任编辑 谢晓芳

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

优化提示词是用好GPT的关键。本书基于GPT,讨论提示词的使用技巧和优化方法。本书不仅讨论如何让GPT不再“胡说八道”,如何用GPT解决各种问题,如何让GPT了解用户的需求,如何让GPT记忆力超群,还讲述如何应用GPT,如何让GPT自动运行,如何打造商业级别的GPT,如何辨别GPT生成的内容。

无论你是职场人士,还是在校大学生,通过阅读本书,都可以掌握用好GPT的关键,提升自己的工作或学习效率。

前  言

目前,大众对GPT类人工智能有两极分化的观点:有些人惶惶不可终日,认为GPT明天就能改变世界,推翻一切旧秩序;而有些人则满不在乎,认为这不过是特殊的技巧,只是一个搜索引擎及数据库集合而已。

在通用人工智能(Artificial General Intelligence,AGI)时代,每个人需要以乐观的心态迎接各种新事物。

在第一次接触内容生成类的产品时,人们会好奇无所不在的Prompt是什么意思。有人把它叫作提示词,有人把它叫作命令,本书将其叫作提示词。

提示词指的是输入模型中的一段文字,用于引导模型生成特定类型的回应或输出。通常,用户或开发人员会提供一个或多个关键字、短语或问题作为提示词,然后人工智能(Artificial Intelligence,AI)模型会基于其训练数据和算法来理解输入的语境,并生成相应的回复或文本。在生成回复时,AI会尽可能地保持与所给提示词的相关性,同时力求使输出内容具备连贯性和可理解性。提示词在自然语言处理中起到了至关重要的作用,它帮助模型理解用户的意图,从而为用户提供更准确的结果。总而言之,提示词是人们与人工智能交流的媒介,人们提交给人工智能的内容就是提示词

目前的AI还不是真正的通用人工智能,并不能真正实现未来科幻片中那种察言观色甚至具有高情商与独特性格的AI。人们需要根据AI的“性格”(注意,AI并没有人们理解意义上的性格)组织问题,提高AI回复的质量,返回人们想要的内容。

本书重点介绍提示词工程,用通俗易懂的语言、深入浅出的讲解,使读者能了解GPT以及ChatGPT等产品。本书提供的所有提示词使用技巧、提示词优化方法等均以GPT的原理为基础。

本书提供了针对不同行业的实际操作例子和思路,读者可以根据自己所在的行业来了解人工智能现在以及未来对本行业的影响,也能直接应用本书中的例子,提升自己的工作效率。

如果你想抓住AGI时代中诞生的新机会,如新出现的提示词工程师岗位,本书也是一本不错的入门图书。

本书更像是乐高积木的说明书,它不会让读者知道怎么去造乐高积木,但它能让读者了解积木是什么,不同的零件为什么能够组合起来,哪些组合规则能满足自己的需求。

因为本书的内容都是基于GPT的原理的,所以本书既适用于任何以GPT模型为基础的产品,如ChatGPT、NewBing、文心一言、Gemini等,也适用于未来各种会出现的对话型GPT和衍生产品(包括多模态产品)。

随着新模型与新产品的不断发现,本书提到的某些方法会存在一定的时效性,推荐的项目、软件、工具也有可能会改变或者消失,读者可以通过关键词搜索最新的内容,也可以通过邮箱(fairyex@qq.com)向作者反馈,以便在将来的版本中添加或者补充。

本书会尽量推荐开源的项目和软件,在使用第三方项目时,请选择开源或有可靠性保证的项目,并避免在未知项目上填写自己的个人信息及相关密钥。

虽然目前GPT出现的时间还很短,但是它就是未来通用人工智能的雏形。本书会总结作者的经验,以便读者跟上AI飞速发展的步伐,理解GPT的原理,熟悉GPT的使用技巧。

为了节约篇幅,在本书中出现的比较长的对话示例以及演示效果,还有部分过长的图片会以章为单位,存放在GitHub网站中。读者可以通过在GitHub网站中搜索“fairyex”,查看项目对应的对话以及图片。

第1章 概述

ChatGPT或者说各种生成式预训练变换器(Generative Pre-trained Transformer,GPT)产品及其衍生应用如今非常火爆,无论在哪儿,都能看到各式各样关于GPT的讨论,有人说AGI是真正的时代革命,因为它正在影响每个人的工作和生活

随着广泛的讨论,我们已经可以在互联网上看到GPT很多有趣的用法,GPT产品也层出不穷。我们更应该看到这背后将要出现的各种改变和AGI对自己、对整个世界的影响,正视它,了解它,掌握它,使其变成自己生活和工作中更强的助力,让自己更加适应即将到来的新世界。

1.1 GPT

在继续讨论GPT的根本原理和机制前,我们先来热身一下。对于大部分没有接触过人工智能的读者而言,可以利用自己的生活经验来尝试理解下面这个例子,以快速对GPT有一个大致的理解。

想象GPT是一位语言天才,他擅长制作一种特殊的串联词语游戏。这种游戏的目标是在给定的起始词后,找到一系列相关的词,词之间都有一定的联系。GPT通过大量的阅读和学习,了解了词之间的各种关系和搭配。当用户向GPT提问时,它会像在进行串联词语游戏一样,从用户的问题出发,寻找与问题相关的词汇和信息。此后,GPT会按照逻辑顺序和语法规则,将这些词串联起来,形成一个完整的回答。

例如,用户问GPT:“蜜蜂是如何酿造蜂蜜的?”首先,GPT会从问题中提取关键词“蜜蜂”和“蜂蜜”,并根据自己的知识,找到与这些词相关的其他词,如“花粉”“蜜腺”和“蜂巢”。其次,GPT会按照正确的语法和逻辑关系,将这些词组织成一个完整的回答:“蜜蜂通过采集花蜜,将其存储在蜜腺中。在蜜腺内,花蜜逐渐变成蜂蜜。之后,蜜蜂将蜂蜜运回蜂巢,存储在蜂巢的蜜脾中。”

这个例子展示了GPT如何从输入的问题中提取关键信息,并根据自己的知识和经验生成相关的回答。想必现在大家有很多疑问,没关系。接下来,就让我们带着这些疑问来详细了解GPT是如何实现这些神奇效果的。

无论是AI还是其他领域的技术名词,一般从名称就可以看出其原理和技术。这对GPT同样适用。

G、P、T这3个字母所代表的含义如下。

G(Generative,生成式):一种机器学习模型,其目标是学习数据的分布,并能生成与训练数据相似的新数据。在自然语言处理(Natural Language Processing,NLP)领域,生成式模型可以生成类似于人类所写的文本。作为一种生成式模型,GPT模型能够根据给定的上下文生成连贯的文本。

P(Pre-trained,预训练):深度学习领域的一种常见方法,通过在大规模数据集上进行训练,模型学习到一般的知识和特征。这些预训练的模型可以作为基础模型,针对具体任务进行微调。GPT模型通过预训练,在无标签的大规模文本数据集上学习语言模式和结构,为后续的任务提供基础。

T(Transformer,变换器):一种在自然语言处理中广泛使用的神经网络结构。它通过自注意力机制有效地捕捉上下文信息,处理长距离依赖关系,并实现并行计算。GPT模型采用变换器结构作为基础,从而在处理文本任务时表现出优越性能。

是不是有点儿难理解?下面以一个形象的例子来说明GPT的原理。

1.1.1 G表示生成式

生成式模型就是通过学习对应内容的规则和形式,生成符合要求的内容。例如,GPT就通过学习大量的人类文本,了解什么样的文本内容对人类是合理的,并生成人类认为通顺且有意义的文本内容。

针对无基础的读者,这里稍微讲解得多一点,大家可以简单地把AI本身理解为人们应该都很熟悉的一次函数,只不过这个函数拥有很多参数:

y = (w1x1 + w2x2 + w3x3 + …wnxn) + b

其中,x1, x2, …, xn可以看作输入给AI的内容,w1, w2, …, wn是需要找到的参数,b是偏置值。

AI或者机器学习学习到某样东西,就是指AI通过参考数据集中的x1, x2, …, xny,经过无数次试错,得到w1, w2, …, wn合适的值和b合适的值,使输入x1, x2, …, xn后,能输出贴近最终要求的y

更形象一点来说,每一个参数都可以看作AI学习到了某一种规律或者规则,例如,学习到1后面的数字是2,狗是一种有毛的动物,参数越多, AI能够学习到的规律和规则自然也就越多。

GPT-3.5/GPT-4o mini模型拥有超过1750亿个参数,这使无论输入什么内容,AI都能匹配相应的规则和模式,输出(也许是)用户想要的y。当然,这只是非常简化的情况,实际情况下模型会用到很多其他技术,具体的原理也会十分复杂。

【打破误区】很多人认为,这种底层的数学逻辑使AI从根本上无法诞生意识,这其实是不全面的。按照目前的技术路线,这些模型本质上仍然是通过一系列复杂的数学函数和训练数据学习映射关系的,最多可能作为未来新技术路线的探索,由于人工神经网络与生物神经网络的结构及计算方式还存在着明显区别,人工神经网络在许多方面更简化,真实的生物神经网络会有更多复杂的特征和连接。但是人类的智能之所以诞生,很大程度上离不开人类大脑中神经元复杂的数量和信息传递,但神经活动本质上仍然是电信号的简单传递。后面我们会了解到AI的“涌现”特性,这说明了数学逻辑其实也有可能是另一种“神经活动”的基础,只不过之前的机器学习模型规模的限制导致无法产生自发的“涌现”。

1.1.2 P表示预训练

预训练其实也很好理解,就是前面AI“学习”到的w1, w2, w3, …, wnb,也就是总结一般规律的过程。

训练集就是用户收集并输入AI的大量数据,在这个过程中,数据的数量和质量同等重要。数量不够,AI便无法得出正确的参数值;质量不够,AI得到的参数值生成的内容可能和用户要求相差甚远。

GPT模型并不算一个很新的概念,而GPT-3.5/GPT-4o mini模型和GPT-4效果的突飞猛进离不开OpenAI在数据集上的投入。

首先,准备数据。在训练和微调GPT模型之前,需要收集大量的文本数据。这些数据可能有多种来源,如网页、书籍、新闻文章等。数据的质量和多样性对模型的表现至关重要。原始数据需要经过预处理,以消除噪声并使其适用于训练。预处理步骤可能包括去除特殊字符、分词、停用词等。这部分会决定最后的模型有多“通用”。

其次,使用一些数据集能够提升模型生成效果的手段。

感兴趣的读者可以搜索前面的关键词。

GPT本身训练用到的数据集数量庞大,只有一小部分是人工标注的(图1.1所示为常用的AI标注工具Labelbox),也是一种无标注训练。除此之外,还有很多不同的手段来保证最终的训练效果,GPT-4甚至混合了多种不同模型。

最后,根据各种评估方案,对结果进行评估,并根据评估内容进一步微调优化。

【打破误区】很多人认为AI的数据集都是由人类提供的,所以AI无法产生优质的内容。例如,Diffusion模型生成的图片不如顶级艺术家的作品就是大众比较广泛接受的观念。这也是一个目前正确但不全面的观念,其实我们可以参考AlphaGo,在AI产生的内容达到特定数量后,便会到达某种奇点,在此之后AI便可以用自己产生的数据来迭代训练自己,而不会影响甚至提高最终生成的结果的质量。

图1.1 常用的AI标注工具Labelbox

但值得注意的是,围棋这个特定领域的规则是明确且固定的,在其他更复杂或涉及主观审美的领域,AI用自己生成的数据训练自己会遇到更多的问题,所以在很多人工智能已经有明显优势的领域,依然会有机构和科学家研究“程序化”的方法。例如,以数学方式生成自然世界逼真的3D场景程序生成器infinigen(项目特别标注了No AI),主要将生成的数据用于AI训练,目前这种训练集的质量比AI自己生成的训练集好很多。

1.1.3 T表示变换器

大家应该能够发现,当在中文环境下使用ChatGPT或者NewBing等服务时,AI的回复都是一个字一个字出现的,网络不好时还会卡顿一下,然后蹦出多个字。另外,当生成内容过长的时候,AI往往会卡在某个词中间,而不是把这个词生成完成,如图1.2所示。但是当继续输入的时候,GPT又能很聪明地接上刚刚中断的词,甚至续写下一半代码。

图1.2 生成内容过长时的断点

背后的原因有些聪明的读者可能早就想到了。GPT生成是以字符为单位的,并没有严格的单词及句子的概念,OpenAI收费也不是以词而是以Token为单位的。也就是说,GPT其实根据之前的内容,结合自己学到的规律,“猜”下一个字符大概率是什么

但是猜也不能乱猜,必须是有依据的。而无论有多少个参数,前面提到的简单模型都很难解决现实世界中理解自然语言的无数问题:不同语言的语法差别,一词多义,错别字,语序混置,词义挪用甚至自造词句(如Emoji),等等。

这时就轮到T(即变换器)出场了。它是一种神经网络结构,利用了自注意力机制和多层编码器/解码器层,从而能有效地处理长距离依赖关系并捕获不同层次的文本信息。变换器解决的问题是AI如何以通用、简洁的方式快速准确地理解上下文。而“自注意力机制”就是解决这个问题的关键。

自注意力是一种计算文本中不同位置之间关系的方法。它为文本中的每个词分配一个权值,以确定该词与其他词的关联程度。通过这种方式,模型可以了解上下文信息,以便在处理一词多义和上下文推理问题时做出合适的决策。

例如,GPT利用这种机制解决了一词多义的问题。举个例子,在中文中,“球”可以表示很多含义,如篮球、足球等体育项目中使用的球,也可以表示球形物体。为了理解“球”在特定语境中的具体含义,GPT需要根据周围的词语来加以判断。假设有以下两句话。

小明喜欢踢球,他每天都和朋友们在操场上玩。

地球是一个巨大的物体,我们生活在它的表面。

在第一句话中,与“球”相关的词语有“踢”“操场”和“玩”,这些词语表明这里的“球”指的是体育项目中使用的球。而在第二句话中,与“球”相关的词语有“地球”“物体”和“表面”,这些词语表明这里的“球”指的是一个球形物体。

自注意力机制通过计算这些词语之间的关系来为每个词分配权重。在第一句话中,它会为与体育相关的词语分配较高的权重;在第二句话中,它会为与球形物体相关的词语分配较高的权重。此后,它会根据这些权重生成新的词表示,从而使模型能够根据上下文理解“球”的具体含义。

其他自然语言中传统编程很难处理的问题也能通过自注意力机制很好地解决。

这就是GPT在单个问答中展现出理解能力的原理,但是GPT-3.5+之所以能够被称为改变世界的产品,优秀的长期记忆能力和多模态数据理解是重要的原因,而“跨注意力机制”就是这种能力的原理。

跨注意力是一种计算两个不同文本序列中位置之间关系的方法。它为一个序列中的每个词分配权重,以确定该词与另一个序列中的词的关联程度。通过这种方式,模型可以捕捉到两个序列的相互关系,以便在处理多模态数据、文本对齐和多任务学习等问题时做出正确的决策。

跨注意力机制可以理解为一个智能“筛子”,在处理AI对话中长期记忆时,它能有效地从海量信息中筛选出关键内容,从而快速优雅地实现“读取相关记忆”。在多个内容中,跨注意力机制可以通过权重来区分不同信息的重要性。

这里以一个在线客服的例子来解释这个过程。假设某人(这里以A代称)是一家电子商务网站的在线客服,需要为顾客解答各种问题,每个顾客的问题和需求都有所不同。跨注意力机制就像是其智能助手,帮助其区分并快速定位关键信息。

当一位顾客询问“我购买的这款手机可以在多长时间内退货”时,跨注意力机制会从A与顾客之前的对话中筛选与“手机型号”相关的信息。为了实现这个过程,跨注意力机制会为每个对话片段分配一个权重。这个权重表示了该对话片段对当前问题的重要性。

在这个例子中,与退货政策相关的对话片段将被赋予较高的权重,而与其他话题(如商品详情、支付方式等)相关的对话片段会被赋予较低的权重。跨注意力机制会根据这些权重来筛选出与当前问题最相关的信息,并将这些信息整合起来,以便A能够为顾客提供准确的回答。

同样地,在接下来的对话中,当顾客提出了其他问题(如关于优惠券使用或者配送时间等问题)时,跨注意力机制会根据问题的关键词调整权重,帮助A找到与这些问题相关的信息,并提供给A。

通过在用户对话中使用权重,跨注意力机制可以更好地理解和捕捉上下文信息,从而使GPT具有读取长期记忆的能力。

单层注意力机制的效果还不够,所以实际应用中GPT都是通过嵌套多层注意力机制来实现复杂理解效果的。但是注意力机制的权重算法原本就消耗巨大的算力,再加上几层嵌套会使计算难度(即算力)指数型增加,长对话会明显增加算力要求。这也是为什么明明模型已经训练好了,OpenAI和微软还要多次限制用户的使用量(且越新的GPT版本的运行速率越慢)。

利用这两种注意力机制的动态结合,加上庞大的基础训练集,以及大成本的人工微调,才有了GPT-3.5/GPT 4o mini模型和GPT-4的跨时代效果。

【打破误区】很多人对GPT的另一个常见认识误区是GPT只是智能搜索引擎,它只是对数据库中的内容按照一定的规律进行拼接。但其实GPT训练的与其说是内容的规律,不如说是一种复杂到人类无法理解的对内容切分Token进行权重计算的“算法”。与内容分离才是GPT现在能做到生成这个世界上完全不存在的文本的根本原因。

GPT容易“胡说八道”,因为它根本不知道自己想要说的是什么,它只是根据注意力机制不断猜出下一个Token,直到权重表示内容生成完成。这种内容分离的方式也让OpenAI以及其他现在训练相关模型的公司对AI“胡说八道”,这个问题没有很好的解决办法,只能通过人工微调和扩展训练集来缓解。不过这种“胡说八道”也不全是坏处,至少GPT能够表现出创造力在很大程度上也归功于这种特性。

现在人们总结出来的各种各样的AI使用技巧、AI“心理学”之类的理论和方法其实都基于前面介绍的原理,甚至Stable Diffusion等其他领域的AI、各种奇妙的方法也是根据对应模型的原理总结出来的。

GPT的原理是本书中所有使用方法和技巧的理论基础,大家了解前面的内容之后,会更加容易理解之后介绍的一些方法和技巧。

1.2 GPT的上限和下限

作为目前首屈一指的AI模型,GPT给大家的直观印象是“多才多艺”,也就是所有人都在追求的“通用”。很多人说它就是人类通往通用型AI道路的开端,但目前GPT的能力距离真正的AGI还有很长的路要走。接下来,简单介绍目前GPT的上限和下限,让大家对GPT的能力范围有一个大概的了解,并介绍大语言模型(Large Language Model,LLM)的“涌现”能力

1.2.1 GPT的上限

对比之前出现的各种模型,GPT存在以下显而易见的优势。

1.超长文本理解生成能力

超长文本理解生成能力是GPT模型最直观的优势。之前的模型大多是简单的文本处理模型,拥有基础的分词能力,专注于单个问题的对答,如大家手机上的智能助手。而GPT通过注意力机制将理解和生成连贯文本的篇幅提升到之前模型难以望其项背的程度。

注意,现在使用的服务通常有单条对话长度限制,以及对话数量的限制。这不是模型本身的限制,而是注意力机制使然(当然,也可以说是模型本身的限制),随着GPT理解和生成的文本数量变长,它的算力要求是直线增长的。

验证这个说法最典型的方式就是输入一本长篇小说的内容,可以发现不是所有的数据都能被输入进去,而是在达到模型上限以后丢弃了部分数据。

2.多样性和创造力

GPT理解和生成的过程是与内容无关的,这使模型能够生成多种风格和主题的全新内容,具有一定的创造力。

人们能够在一定程度上控制这种创造性,如NewBing可以使人们选择生成的内容是有创造力的还是偏精确的;ChatGPT的开发API使用Temperature参数来控制AI的“脑洞”,Temperature参数的值越高,AI生成的内容就会越倾向于脱离参考内容。

更加令人震撼的是,GPT的创造力足以进行零样本学习,即GPT之前没有学习过不要紧,只要用户以一两段对话让其学习即可。无论是属于个人的写作风格,还是行业最新的处理方法,只要举几个例子,之后就可以将同类问题交给GPT解决了,如图1.3所示。

图1.3 一个GPT学习的例子

3.知识转义

GPT模型的原理造就了语言无关特性,可以将输入文本转换为语义表示,也就是说,AI不再拘泥于具体语言、文本符号等表面的意义。这种特性使GPT呈现了另一种令人惊叹的实用能力——与语言无关。也就是说,无论是什么语言的资料,在GPT眼里都是一样的,且GPT不用特殊教育,天生就掌握所有语言,包括人类都不会的语言。

此外,这不是GPT的上限,前面提到人类不会的语言GPT也会,一个具体的例子就是“Emoji抽象话生成”。Emoji是互联网中出现的新符号,根本不算一门语言,更不用说语法了,但是GPT能够非常流利地使用Emoji和用户交流,除了Emoji,火星文、抽象文学、字母缩写也难不住GPT。

4.人格模拟和情感

大部分人其实知道AI实现人格、语气、情感等拟人化的原理与人类大不相同。但文本是由人创造的,难免带有创作者的个人烙印,而GPT在吸收了海量的文本后足可自称“没有人比我更懂人类”,如果说之前AI模型拟人化只能称为拙劣的模仿、数字算法的“东施效颦”,那么GPT足够让人们感觉它已经达到了真正“扮演”不同人物的水平,如图1.4所示。

图1.4 GPT “扮演”不同人物

不仅如此,人们甚至可以通过让GPT改变不同的人格和身份生成相应内容,这一切会让人们感觉不到对面是一个AI。

1.2.2 大语言模型“可怕”的能力:涌现

所有AI模型都是人造物,但即使是最简单的文字识别AI,它的训练过程在人类眼中也是一个“黑箱”,也就是说,人们能把AI训练出来,但是不知道为什么AI就被训练出来了。而大语言模型让大家更困惑了,现在人类不仅搞不懂AI的训练过程,还搞不懂大语言模型为什么会自己突然出现新能力。

“涌现”也就是突然出现,是指LLM在达到一定规模后自发表现出一些新的能力,如零样本学习、上下文学习、多步推理等。这些能力在较小的模型中不出现,而在较大的模型中出现。涌现能力反映了LLM对自然语言数据中的规律和模式的学习及理解,也为LLM领域的发展提供了新的视角和挑战。

前面提到的GPT的各种模拟、生成、创造、转义等基本上是涌现的结果,其实人们(包括其创造者)根本不知道它们是怎么来的,只知道当训练集大到一定程度的时候就会发生涌现现象

涌现是AGI能够出现的前提,之前人类针对不同的需求要训练不同的AI模型,识别英文需要一个AI模型,识别中文又需要一个AI模型,语音助手更是无数模型的叠加,加上之前没有办法收集这么庞大的训练集,所以其他模型大部分没有展现出涌现现象,而LLM的涌现突出一个,只要数据集够大,什么都可能出现。

1.2.3 GPT的下限

当然,理想和现实是两回事,即使GPT有着很高的上限和巨大无比的潜力,它也是个“婴儿”(人类从发明计算机到现在也只有不到100年的时间),目前还是有比较明显的缺陷与下限的,具体如下。

首先,大家都知道GPT模型产品容易“胡说八道”,常见的主要是以下3种错误。

常识和事实错误:GPT模型可能会生成一些与现实不符或包含错误的信息。

不完整和模糊的回答:GPT模型在回答复杂问题时,可能会提供不完整或模糊的答案。

知识储备限制:GPT模型的知识储备来自它的训练数据,对于一些特殊领域或特殊主题的问题,如果相关的知识不在训练数据中,则模型可能无法正确回答。

这些缺点其实可以用一句话来形容,即模型与训练集的内容高度耦合。从前面的原理可以知道,GPT巨量的参数都是通过训练集训练出来的,且生成的机制与内容本身无关,所以有时候内容就不是人们想要的—— GPT只能保证生成的内容流畅通顺,且与提问相关,但它本身也不清楚生成的是什么。

训练集的内容能够很明显地影响最终模型的效果,假设训练GPT的时候训练集中没有古诗,那么它就完全不会知道古诗这种文体的规律;假设训练GPT的时候训练集中充斥着虚假内容,那么它也会充满虚假内容;训练集中不同领域数据的大小也决定了GPT执行特定任务的能力的大小。

其次,根据注意力机制的层数算力要求,GPT目前无法进行很深入的推理:对于需要深入理解和推理的问题,GPT模型可能无法给出准确的答案。

1.3 GPT给人们带来的好处

现在我们已经掌握了GPT的原理,也了解了其上限和下限。下面介绍GPT目前以及将来能够给人类带来的好处。

从文明诞生开始,全知全能一直是人类追求的终极梦想。大部分科学幻想中未来什么都能缺,甚至人类都可以不存在,但基本上会有一个强大的人工智能。GPT从某种程度上实现了人类从古至今的梦想:拥有一个上知天文、下知地理、拥有全人类知识且随时随地待命的助手。

随着科技的发展,根据人类文明诞生的海量知识与语言的隔阂正在成为一个越来越麻烦的问题。这意味着普通人穷尽一生也只取得了沧海一粟,某些领域的前置知识已经多到学到中年才能入门的程度。知识的包袱加上语言隔阂导致的知识隔离垄断以及重复实践已有知识导致的浪费,已经成为必须解决的问题。

因此,通用型LLM(目前指的是GPT)给人类带来的最大好处之一是消除了语言的隔阂。即使随便做点小事情,人们也能通过GPT轻松搜索并参考全球多种语言的内容。

另一个好处是,普通人可以借助GPT无缝地在各行各业快速入门。GPT可以轻松扮演任何行业的“领航员”。GPT和各行各业都能很好地结合,产生各种意想不到的好处,对各行各业都有所提升。总之,GPT和计算机一样真正解放了整个人类的生产力。

此外,GPT会重构人类目前的教育模式。就像大部分人不会学习如何骑马一样,以后在GPT能够轻松超越人类的领域,人类不用再学习这些知识,可以更加专注于更高端领域的学习和应用,使人类能够在更年轻的时候就将前置知识学完,有更长的时间去探索顶尖的领域。

人类文明的每次跨越性进步,都离不开知识门槛的降低与获取知识方式的改变,而这次是人类在最近几十年来第一次体验到这种跨越性的进步,而且是最直接、最剧烈的一次进步。

1.4 本书用到的GPT服务

本书将会采用GPT-3.5/GPT-4o mini模型与NewBing作为提示词效果展示的服务。注意,人工智能LLM多样性的输出,以及服务提供商频繁的更新修复,都会让相同的提示词生成不同的内容,甚至出现生成失败的情况。

本书中的大多数提示词及方法经过GPT-3.5/GPT 4o/GPT 4o mini/GPT 4与NewBing检测,并且从原理得出的方法通常具有长效性。如果某个提示词在读者使用的时候生成了不同的内容,则可以将提示词改成类似的样式或者多试几次。

建议大家有条件时尽量使用最新的模型,如GPT-4与NewBing,下一代模型各个方面的能力与上一代模型相比都会有一个实质性的飞跃,如GPT-4基本上要优于GPT-3.5/GPT 4o mini模型,一个好的模型比起任何优化方法都要更有效。

相关图书

Joy RL:强化学习实践教程
Joy RL:强化学习实践教程
计算机组成原理(基于x86-64架构)
计算机组成原理(基于x86-64架构)
高并发系统:设计原理与实践
高并发系统:设计原理与实践
DeepSeek极速上手 :高效做事不内耗
DeepSeek极速上手 :高效做事不内耗
AI设计:Midjourney绘画设计教程
AI设计:Midjourney绘画设计教程
AI高手速成 DeepSeek让你工作变轻松
AI高手速成 DeepSeek让你工作变轻松

相关文章

相关课程