AI大模型助你轻松搞定数据分析

978-7-115-57570-8
作者: 吴昙
译者:
编辑: 张涛

图书目录:

详情

内 容 提 要   本书旨在帮助读者掌握数据分析的专业技能,并详细讲解大模型(如DeepSeek、ChatGPT)在数据分析中的应用。全书分9章,内容从基础的指标体系建设、数据获取、数据处理,逐步深入常用的数据分析方法、商业分析方法、统计学模型、A/B实验、数据分析报告等,并特别强调大模型在数据分析中的应用。本书不仅系统地讲解数据分析的专业知识,还从提出关键问题、培养结构化思维等多方面入手,全方位激发读者的创造力,帮助读者提升数据思维能力,构建完善的数据分析知识体系。   此外,本书也是实用的职场宝典,不仅详细介绍数据分析不同岗位的职责,帮助读者根据自身兴趣和能力选择合适的职业发展方向,而且提供应对笔试和面试的策略,帮助读者在职场竞争中脱颖而出。   本书使用生动的对话体形式写作,融入大量真实工作场景案例,注重实际操作与应用,让读者仿佛置身于实际的工作场景中,适合数据分析初学者、高等学校相关专业的学生、职场中需要使用数据分析来支持决策的各类专业人士阅读。

图书摘要

版权信息

书名:AI大模型助你轻松搞定数据分析

ISBN:978-7-115-57570-8

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


版  权

编  著 吴 昙

责任编辑 张 涛

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

本书旨在帮助读者掌握数据分析的专业技能,并详细讲解大模型(如DeepSeek、ChatGPT)在数据分析中的应用。全书分9章,内容从基础的指标体系建设、数据获取、数据处理,逐步深入常用的数据分析方法、商业分析方法、统计学模型、A/B实验、数据分析报告等,并特别强调大模型在数据分析中的应用。本书不仅系统地讲解数据分析的专业知识,还从提出关键问题、培养结构化思维等多方面入手,全方位激发读者的创造力,帮助读者提升数据思维能力,构建完善的数据分析知识体系。

此外,本书也是实用的职场宝典,不仅详细介绍数据分析不同岗位的职责,帮助读者根据自身兴趣和能力选择合适的职业发展方向,而且提供应对笔试和面试的策略,帮助读者在职场竞争中脱颖而出。

本书使用生动的对话体形式写作,融入大量真实工作场景案例,注重实际操作与应用,让读者仿佛置身于实际的工作场景中,适合数据分析初学者、高等学校相关专业的学生、职场中需要使用数据分析来支持决策的各类专业人士阅读。

前  言

数据分析能够帮助企业挖掘潜在商机,提升决策效率,优化资源配置,推动企业的创新发展。无论是在商业、科研、政府管理还是日常生活中,数据分析都扮演着越来越重要的角色。

如今,人工智能(Artificial Intelligence,AI)大模型(如以DeepSeek、ChatGPT为代表的大模型)开始盛行,如何驾驭AI大模型这个工具,让它更好地为我们服务,成为数据分析人员需要思考的问题。

通过本书能学到什么

首先,能学到专业的数据分析知识,学会使用大模型工具提升数据分析的效率。

本书为数据分析初学者提供了一条清晰的学习路径:从数据分析的基础知识出发,逐步引入各种数据分析方法,还讲解数据分析报告书写的基本方法、技巧等。

本书每一章都有大模型工具在数据分析中的应用,教读者利用DeepSeek、ChatGPT等工具高效地完成信息获取、数据处理、分析和预测等任务。

其次,能建立数据思维,提升思维能力。

某部电影中有一句经典的台词:花半秒钟就看透事物本质的人,和花一辈子都看不清事物本质的人,注定具有截然不同的命运。

本书会从提出关键问题、培养结构化思维等多个方面激发读者的创造性,并帮助读者提升数据思维能力,构建完善的数据分析知识体系。

最后,帮助读者应对面试,找到适合自己的岗位。

很多人能力很强,但是一到面试就发挥不好,错失好的机会。本书也是职场宝典,会告诉读者面试官都是怎么想的,他们如何筛选人才、如何提问,读者应怎样应对才能顺利通过面试;同时,在职业发展路径的选择上,本书会给读者中肯的建议与指导,帮助读者在职场中克服困难,实现终身成长。

本书适合谁阅读使用

首先,适合数据分析初学者。针对刚刚踏入数据分析领域的新手,以及那些渴望了解数据分析的基础概念、核心方法和实用技能的读者,本书提供了系统的学习路线和丰富的入门知识,可助其稳健起步。

其次,适合职场中需要使用数据分析来支持决策的各类专业人士。本书通过丰富的案例分析讲解实战技术,将成为读者提升数据分析技能的得力助手。

最后,适合高等学校的学生。本书不仅能够加深读者对数据分析理论和实践的理解,还能帮助读者在激烈的竞争中脱颖而出,开启职业生涯的成功之门。

本书讲了什么内容

首先,本书全面覆盖了数据分析人员所需的基础知识和技能。本书从读者的实际需求出发,为读者提供了贴近实际工作的知识和案例。

其次,本书探讨了如何利用AI大模型工具高效地进行数据分析。本书由浅入深地引导读者如何使用这些工具,确保自己紧跟技术的发展步伐,不被时代淘汰。

再次,本书融入大量真实的工作场景案例。本书中的案例生动有趣,通过这些案例,读者可以迅速把握工作要点,快速融入职场环境。

最后,本书深入讲解了面试中可能遇到的问题。

本书不仅致力于帮助读者在面试中脱颖而出,更重要的是,本书旨在全方位培养读者的数据敏感度、逻辑思维能力、创新意识及决策能力,从而提升读者的数据分析能力。

怎么使用本书

首先,本书创新性地采取对话体形式,精心构建了两个互动角色:职场新人小红、资深导师吴老师。小红善于提出专业性疑问;吴老师则担任答疑解惑的专家角色。读者在学习过程中,要密切关注吴老师的答案和逻辑推理,同时也不可忽视小红的提问,因为优质的问题是深入学习、激发创新思维的关键。

其次,各章内容既独立又相互衔接,共同构建起完整的知识体系。读者可以按照个人兴趣和需要自主选择阅读顺序。每章内容都巧妙结合了生动的案例分析和AI大模型工具的实际应用,旨在通过实践提升读者的技能,确保读者能够掌握数据分析的关键技术。

最后,我们要知道,知识与行动之间存在一种被称为“缄默知识”的隐性桥梁。如果只是停留在阅读层面而不付诸实践,就无法真正掌握这些知识。因此,本书鼓励读者在学习本书知识的同时积极动手实践,确保所学知识能够转化为解决实际问题的能力。

在迎接未来的挑战与机遇时,要勇敢地拥抱变革,才能在激烈的竞争中立于不败之地,为个人和社会创造更大的价值。人生的历程中充满了挑战,希望我以自己踩过的“坑”、走过的弯路换来的经验和智慧,可以帮助到读者,这是我编写本书的初心。

注:文中GPT、GPT大模型、大语言模型都指的是大模型。

吴 昙

1.1 什么是大模型

1.1.1 大模型概述

小红刚刚毕业,带着对数据分析的浓厚兴趣和热情,加入了一家互联网公司。尽管在大学期间已经接触过一些数据分析知识,并通过实际项目运用这些知识解决过问题,但她对于在公司里如何开展数据分析工作仍感到有些困惑。

今天是小红第一天上班,她走进公司,看着陌生的环境,心中有些忐忑。吴老师热情地迎接了她,吴老师是公司里的数据分析专家,也是小红的指导老师。吴老师帮小红准备好了办公用品,开通了她所需的数据和文档权限。

吴老师:我们从现在开始要学习一个工具,这个工具可能会伴随你的整个职业生涯,是你工作中的得力助手。让我们想象一下,如果有一个智能助手,它几乎掌握了世界上所有的知识,你可以随时和它对话,它可以帮你实时搜索信息,进行多语言编程、翻译和写作,进行逻辑推理、共同创作,甚至还能调用其他软件帮你完成任务。听起来是不是很神奇?

小红眼睛一亮:太棒了,这简直就像发现了新宝藏!

吴老师:现实中真有这么一个宝藏,它就是大模型。它可以成为你的助手、翻译官、程序员、咨询顾问、搜索引擎等。让我们一起深入了解它,让它助力你的数据分析之旅。

小红好奇地瞪大了眼睛。

吴老师:在数据分析方面,我们常使用GPT大模型,市面上有很多GPT大模型产品,比如深度求索的DeepSeek、OpenAI的ChatGPT、月之暗面的Kimi、百度的文心一言、字节跳动的豆包、阿里巴巴的通义千问、智谱清言等。

小红:这么多GPT产品,我应该选择哪种呢?

吴老师:选任何一种或者同时用几种都可以,先找到自己与GPT互动的方式。这分别是ChatGPT(见图1-1)与DeepSeek(见图1-2)的界面,我们在文本框中输入问题,等待它的回答即可。我们可以先让GPT介绍一下自己。

图1-1

图1-2

提问:

介绍一下GPT是什么,能做什么。

GPT(Generative Pre-trained Transformer)是一种基于变换器(Transformer)架构的大语言模型(Large Language Model,LLM),由人工智能研究实验室OpenAI开发。GPT模型的核心是利用Transformer架构来处理和生成自然语言文本。

主要特点

(1)大规模参数:GPT模型拥有数亿甚至数千亿的参数,这使得它能够捕捉到语言的细微差别和复杂关系。

(2)Transformer架构:GPT基于Transformer模型,这是一种特别擅长处理序列数据(如文本)的深度学习模型。

(3)预训练和微调:GPT通常首先在大规模的文本数据集上进行预训练,学习语言的通用模式,然后针对特定任务进行微调。

(4)上下文感知:GPT能够理解文本的上下文信息,这使得它在生成文本或回答问题时更加准确。

能做的事情

(1)文本生成:生成文章、故事、诗歌等文本内容。

(2)对话:与用户进行自然语言对话,回答问题、提供信息、进行闲聊等。

(3)文本摘要:提取文本的主要内容,生成摘要。

(4)翻译:将一种语言的文本翻译成另一种语言。

(5)编程辅助:提供编程相关的帮助,如代码示例、调试建议等。

(6)教育辅助:帮助学习者理解复杂概念,提供教学资料等。

(7)创意写作:协助用户进行创意写作,提供灵感和建议。

(8)数据分析:帮助分析数据,提供数据处理和可视化建议。

小红:GPT回答的时候好像打字一样,一个字一个字地出来的呢。

吴老师:这是因为GPT是基于Transformer的,我一点点来展开讲。首先,先搞清楚什么是GPT。

小红:好的。

吴老师:GPT的全称是Generative Pre-trained Transformer。Generative是生成式,表示它能够生成文本;Pre-trained是预训练,意味着它在大量的文本数据上进行了预训练;Transformer是一种深度学习模型的架构。GPT是一种基于Transformer架构的大语言模型。

小红:什么又是大语言模型呀?

吴老师:这个问题非常好,要想了解GPT,就要先了解大语言模型。大语言模型(简称“大模型”)是深度学习的一种应用,专门用于进行自然语言处理任务。关于机器学习、深度学习等的知识,后续用到再详细说明。

小红:我有一个问题,大语言模型“大”在哪里呢?是指训练数据量巨大吗?

吴老师:大语言模型的“大”指的不仅仅是训练数据量巨大,还有参数数量巨大。什么是参数呢?参数是模型内部的变量,可以理解为模型在训练过程中学到的知识。简单来说,参数就像是模型的“脑细胞”。你可以这么想,参数越多,模型的“大脑”能学习到的东西越多,变得越来越聪明。这就像要模型学习做蛋糕,只允许模型调整面粉、糖和鸡蛋的量,以及允许模型调整面粉、糖、鸡蛋、奶油、黄油、牛奶、小苏打粉、可可粉的量及烤制的时长和温度,后者由于可以调整的变量更多,更能让模型做出好吃的蛋糕。当然,对模型来说这不是绝对的,但按照GPT这种模型的逻辑,参数越多能够让它越智能。

小红:那GPT有多少个参数呀?

吴老师:这是一个好问题。以OpenAI的第一个大模型GPT-1为例,它有1.17亿个参数,到了GPT-2,参数有15亿个,而 GPT-3的参数又增长到了1750亿个。这让大模型不像小模型那样局限于单项或某几项任务,它的功能十分强大。

小红惊讶地说:竟然有千亿个参数,怪不得这么聪明。

吴老师:AI突然变聪明,在技术上有一个词叫作“涌现”,涌现是一个很有意思的概念。想象一下,当AI系统能分析与处理海量的数据后,突然有一天,它就像穿越了一个魔法门,变得超级聪明,拥有了和人一样的高级智慧。这个过程就好比它从一个只会做简单计算的小助手,变成了能和你辩论哲学的大师。这种变化就是我们说的“涌现”。GPT系列大模型的发布,开创了AI技术共享和应用的新纪元。

小红:原来GPT是技术涌现的成果。这真是太神奇了,我们用数据和算法构建了一个可以理解和预测的世界,就仿佛人类的智慧有了延伸。

1.1.2 Transformer架构

吴老师:GPT是一种基于Transformer架构的大语言模型,介绍完了大语言模型,再让我们看看什么是Transformer。Transformer技术的发展要回溯到2017年6月谷歌团队发表的论文Attention is all you need,这篇论文中首次提出了Transformer架构,自此,自然语言处理的发展出现了一系列基于Transformer架构的模型。

小红:Transformer架构与之前的大语言模型架构相比,有什么不同?

吴老师:在Transformer架构被提出之前,大语言模型的主流架构是循环神经网络(Recurrent Neural Network,RNN),RNN不擅长处理长文本,难以有效捕捉到长距离的语义关系。也就是说,距离越远,前面对后面的影响越弱。但在人类自然语言中,依赖信息之间距离较远是很常见的情况。举个例子,“我在广东长大,广东的特点是美食多。虽然我父母是四川人,但我更喜欢吃____。”横线处应该填写广东菜,但是,因为“广东”离横线距离很远,所以RNN生成后续内容时,可能已经把前面的信息忘了。

小红:Transformer架构的优势是学习长文本的能力强,不会忘记前面的信息?

吴老师:是的。Transformer有能力学习输入序列里所有词的相关性和上下文,不会受到短时记忆的影响,能做到这一点的关键在于Transformer的自注意力机制,也正如论文标题所说——Attention is all you need,注意力就是你所需要的一切。Transformer在处理每个词的时候,不仅会注意这个词本身以及它附近的词,还会关注输入序列里所有其他的词

小红:所以横线处既可以填四川菜,也可以填广东菜,Transformer学习到横线处与广东有更强的关系,因此填写了广东菜。

吴老师:是的,你理解得非常正确。下面我们就开始好好理解一下Transformer架构的原理。Transformer架构由两个核心部分,编码器(Encoder)以及解码器(Decoder)组成,我们先说说编码器。编码器中,首先会将输入的文本token化,也就是把文本拆成可以被理解的基本文本单位,比如短的英文单词可能是一个token,长的英文单词可能被分为多个token,而中文所占的token数量会相对较多,有些字甚至要用很多token表示。然后使用整数表示token化后的内容,这个数字就叫作token id(因为计算机内部是无法存储文字的,任何字符最终都得用数字来表示)。再把token id转化成一串数字(也就是“词向量”)来表示(见图1-3)。

图1-3

小红:已经用整数(token id)表示各个token了,怎么还要用一串数字(词向量)表示各个token呢?

吴老师:原因是一串数字能表达的含义是多于一个数字的,能包含更多的语法、语义信息等。如果有多个数字,我们可以进行更多维度的表示。比如第一个数字可以表示“是男性的程度”,第二个表示“年龄大的程度”,第三个表示“社会阶层高的程度”等,词向量里面包含词汇之间的语法、语义等关系,相似的词在向量空间里的距离更近,而一些没什么关系的词的距离就更远。这有助于模型利用数学计算向量空间里的距离,从而捕捉不同词在语义和语法等方面的相似性。

小红:一般词向量的长度是多少呢?

吴老师:Attention Is All You Need里词向量的长度是512,GPT-3中则是12288。有了词向量,我们下一步就是对其进行位置编码,位置编码就是把表示各个词在文本里的“位置向量”和“词向量”相加。其实,除了自注意力机制,Transformer的另一项关键创新就是位置编码。因为,在语言里词序很重要,即使句子里包含的字都是一样的,词序不一样也能导致意思大相径庭。比如“他从北京搬到了上海。”和“他从上海搬到了北京。”这两个句子的地点是完全相反的。图1-4所示为他从北京搬到了上海的位置编码示例。

图1-4

小红:我听过自然语言处理领域会用“序列”这个词,原来用在这里。

吴老师:然后我们把位置编码的结果传给编码器,这样做的意义是,模型既可以理解每个词的意义,又能够捕捉词在句子中的位置,从而理解不同词之间的顺序关系。而且,每个输出都可以独立计算,不需要等待其他位置的计算结果,大大提高了训练速度。

小红:之后编码器的工作是什么呢?

吴老师:以上我们讲的是编码器的嵌入层,之后才讲解编码器核心部分,也就是自注意力机制。你看,现在我们有了一串数字,数字里面保留了输入文本的词汇信息和顺序关系,然后我们把这些词向量输入编码器,让编码器利用自注意力机制生成新的词向量。自注意力机制模型在处理每个词的时候,不仅会关注这个词本身和它附近的词,还会关注输入上下文中的所有其他词,如果两个词之间的相关性强,它们之间的注意力权重就会高

小红:明白了,输出的表示结果里不仅包含这个词本身的信息,还融合了上下文中的相关信息。

吴老师:实际上Transformer使用了多头自注意力机制,也就是编码器不止一个自注意力模块,而是多个自注意力模块堆叠在一起,每个模块都有它自己的注意力权重,用来关注文本的不同特征或方面,比如有的关注动词,有的关注修饰词,有的关注情感,有的关注命名实体等。在多头自注意力机制模型后面,还有前馈神经网络模型,它会对自注意力模块的输出做进一步的处理,增强模型的表达能力。在Transformer架构里,编码器不止一个,实际上是多个编码器堆叠在一起,每个编码器的内部结构都一样(见图1-5),但不共享权重。

图1-5

小红:原来如此。这样模型能更深入地理解数据,处理更复杂的文本内容。

吴老师:没错。说完编码器,接下来看解码器,它是大语言模型生成一个个词的关键。通过前面的编码器,我们有了输入序列里各个token的抽象表示,把它传给解码器。另外,解码器会先接收输出序列的开头,表示刚开始的这轮还没有任何已生成的文本(见图1-6)。

图1-6

小红:编码器和解码器是用一样的方式来处理词的吗?

吴老师:编码器在处理各个词时,会关注输入序列里的所有词,但解码器只会关注这个词和它前面的其他词,后面的词会被遮住。这样做是为了确保解码器生成文本时遵循正确的时间顺序,在预测下一个词时,只使用前面的词作为上下文。这种多头自注意力被叫作带掩码的多头自注意力,带掩码的多头自注意力是针对已生成的输出序列的。

小红:也就是说,生成输出序列的时候,不能让解码器看到后面的内容。

吴老师:是的。带掩码的多头自注意力后面还有个多头自注意力层,用来捕捉编码器的输入和解码器即将生成的输出之间的对应关系,从而将原始输入序列的信息融合到输出序列的生成过程中。解码器里面的前馈神经网络的作用和编码器里的类似,也是通过额外的计算来增强模型的表达能力。而且,解码器同编码器一样,在Transformer里解码器也不止一个,也是多个解码器堆叠在一起。

小红:明白了,这可以增加模型的性能,有助于处理复杂的输入输出关系。

吴老师:解码器的最后阶段包含一个线性层和一个Softmax层,它们共同起到把解码器输出的表示转换为词汇表的概率分布的作用,这个词汇表的概率分布代表下一个被生成token的概率。在大多数情况下,模型会选择概率最高的token作为下一个输出。

小红:这样处理有些token的输出概率就会比其他的高。

吴老师:是的。解码器本质上是在猜下一个最有可能的输出。比如我说“今天我想去”,然后它就会根据以前看过的大量文本来猜我接下来可能会说“吃饭”、“上学”或者“玩游戏”。它可能会觉得我说“吃饭”的概率是50%,说“上学”的概率是40%,说“玩游戏”的概率是10%。这种通过历史数据来预测未来的方法,我们叫它“世界模型”,因为它好像知道了这个世界的所有规则,不管是数学的、物理的还是哲学的。然后它就根据这些规则来猜测下一个字或者词是什么。

小红:原来这就是为什么GPT回答的时候好像打字一样,一个字一个字地出来的呢。

吴老师:是的。至于输出是否符合客观事实,模型无从得知,所以我们经常看到模型一本正经地胡说八道,这种现象也被叫作“幻觉”

小红:原来这就是产生“幻觉”的原因。

吴老师:解码器的整个流程会重复多次,直到生成的是一个用来表示输出序列结束的特殊token(见图1-7)。

图1-7

吴老师:以上就是Attention is all you need的原始Transformer,编码器用来理解和表示输入序列,解码器用来生成输出序列(见图1-8)。

图1-8

吴老师:实际上在原始架构的基础上,Transformer后续出现了一些“变种”,主要有3个类别,即仅编码器、仅解码器、编码器-解码器(见图1-9)。“仅编码器模型”也叫自编码模型,只保留了原始架构里的编码器,BERT(Bidirectional Encoder Representations from Transformers)就是这类模型的一个例子。此类模型适用于理解语言的任务。比如掩码语言建模,也就是让模型猜文本里被遮住的词是什么;比如情感分析,也就是让模型判断文本情感是积极的还是消极的。“仅解码器模型”也叫自回归模型,只保留了原始架构里的解码器,GPT系列都是这类模型的例子。这类模型非常擅长通过预测下一个词来实现文本生成,我们已经在ChatGPT上见识过了。“编码器-解码器模型”也叫序列到序列模型,同时保留了原始架构里的编码器和解码器,T5和BART(Bidirectional and Auto-Regressive Transformers)都是这类模型的例子。此类模型适用于把一个序列转换成另一个序列的任务,比如翻译、总结等。

小红:学到了好多知识,现在我对大语言模型背后技术的了解应该已经超过90%的人啦!

图1-9

1.1.3 训练一个自己的GPT大模型

小红:吴老师,我很好奇怎样才能训练出一个GPT大模型,您能给我讲一讲吗?

吴老师:把大象装进冰箱只需要3步,打开冰箱→装进大象→关上冰箱。要得到一个属于自己的GPT大模型也是3步。第一步通过大量的文本进行无监督学习预训练,得到一个能进行文本生成的“基座模型”第二步,通过一些人类撰写的高质量对话数据,对基座模型进行监督微调(Supervised Fine-Tuning,SFT),完成后会得到一个“SFT模型”。此时的模型除了可以续写文本之外,也会具备较好的对话能力。

小红:原来总听人说到的Fine-Tuning,就是对模型进行监督微调的意思。

吴老师:是的。第三步,用问题和多个对应回答的数据,让人类标注员对回答进行质量排序,然后基于这些数据,训练出一个能对回答进行评分预测的“奖励模型”。接下来让第二步得到的模型对问题生成回答,用奖励模型给回答进行评分,将评分作为反馈进行强化学习训练。这样,一个类似ChatGPT的GPT大模型就训练好了(见图1-10)。

图1-10

小红:听起来好简单呀,能详细给我讲一讲吗?

吴老师:当然可以。在第一步的预训练中,首先需要海量文本作为原料,让模型从中学习。比如GPT-3的基座模型的训练数据来自多个互联网文本语料库,覆盖书籍、新闻文章、科学论文、维基百科、社交媒体、帖子等的内容,训练数据的整体规模是3000亿token。有了大量可用于训练的文本后,要采用无监督学习的方式。

小红:什么叫“无监督学习”?是不是还有一种“有监督学习”?

吴老师:你的问题很好。和“无监督学习相对的是监督学习。监督学习会接受有标签的训练数据,标签就是期望的输出值,所以每个训练数据点都既包括输入特征,也包括期望输出值。而无监督学习则是让模型在没有标签的数据上进行训练,所以模型要自己找出数据中的结构和模式。以GPT-3 为例,训练过程中它会利用海量文本自行学习人类语言的语法和语义,了解其表达结构和模式。具体来说,模型会先看到一部分文本,基于上下文尝试预测下一个token,然后通过比较正确答案和预测值,模型会更新权重,从而能逐渐根据上文生成合理的下文,并且随着见过的文本越来越多,它的生成能力也会越来越强。

小红:原来如此,无监督学习就是机器自己学习,不用人类监督。

吴老师:不过,要知道预训练并不是一个容易的过程,而是非常耗时、费力、“烧钱”的,得到的结果是一个基座模型,但是,基座模型并不等同于ChatGPT背后的对话模型。因为此时模型有预测下一个token的能力,会根据上文补充文本,但并不擅长对话。你给它一个问题,它可能会模仿上文帮你继续提出更多的问题,但不回答你的问题。为了解决这点,我们需要进行第二步——对基座模型进行微调。微调就是在已有模型上做进一步的训练,这样会改变模型的内部参数,让模型更加适应特定任务。

小红:微调就是根据目的对基座模型进行调整,比如训练出一个擅长对话的AI助手

吴老师:是的。微调的成本相比预训练低很多,因为需要的训练数据规模更小,训练时长更短。在这一阶段里,模型不需要从海量文本中学习,而是从一些人类写的专业且高质量的对话文字中学习。这相当于既给了模型问题,也给了模型我们人类中意的回答,属于监督学习,所以这一过程被叫作监督微调,完成后会得到一个SFT模型。SFT模型比基座模型更加擅长对问题做出回答。

吴老师继续:但为了继续提升模型的实力,还可以进行第三步——让SFT模型进行强化学习。强化学习是让模型在环境里采取行动,获得结果反馈后,从反馈里学习,从而在给定情况下采取最佳行动,以最大化奖励或最小化损失。这就跟驯小狗似的,随着和训犬师的互动,小狗会发现做某些动作能获得零食,做某些动作没有零食,做某些动作甚至会遭受惩罚。通过观察做动作和奖惩之间的联系,小狗的行为会逐渐接近训犬师的期望。

小红:就是要让GPT大模型乖乖当一个乐于助人的AI助手。

吴老师:是这样的。我们可以让GPT大模型对问题做出回答,然后让人类评估员去给回答打分。打分主要是基于3H原则——Helpful(有用性)、Honest(真实性)、Harmless(无害性)。如果打分高的话,模型就会再接再厉。如果打分低的话,模型就要予以改正。但是,靠人类一个一个打分,成本极高,效率极低。那为何不训练出另一个模型,让模型给模型打分?所以在这一个步骤里,需要训练出一个奖励模型。

小红:奖励模型就是从回答和回答对应的评分里训练学习吧?

吴老师:是的。要得到评分数据,可利用第二步里得到的SFT模型,它会对每个问题生成多个回答,然后,让人类标注员对回答质量进行排序。虽然还是免不了人力劳动,但是一旦有了足够的排序数据,就可以把数据用在训练奖励模型上,让奖励模型学习预测回答的评分。当奖励模型训练完成后,即可将其应用于强化学习。在强化学习里,GPT大模型的初始参数源自此前获得的SFT模型,会在训练过程中不断更新;而奖励模型的参数则不再更新,其职责在于为模型生成的内容打分。经过一轮又一轮迭代后,模型会不断优化回答策略,回答的质量也会进一步提升,强大的GPT大模型就在不断学习中训练成了。

小红:这真是一个持续进步的过程,GPT大模型会随着时间的推移变得越来越强大。

1.2 为什么要用大模型

1.2.1 大模型能解决什么问题

吴老师:如果只是获取信息,搜索引擎也能做到,GPT这样的大模型工具只是更高效和快捷而已。其实,当我们面临的是更加复杂的问题,比如需要进行分析、判断,甚至是创造性思考的时候,才是大模型真正大显身手的时候。

小红:就是之前提到的逻辑推理和共同创作能力吗?

吴老师:可以这么说。我们遇到的所有问题大致可以分为两类,即简单问题和复杂问题。先说什么是简单问题。简单问题就是What、Who、Where、When这类问题,用不着大模型,一般的搜索引擎,比如百度、谷歌,就能很好地帮忙解答。

小红:那复杂问题呢?

吴老师:复杂的问题就是Why和How的问题。比如,你刚才的问题都是复杂问题。帮你写文章、帮你写代码、帮你翻译等,都是搜索引擎办不到的事情。我们先说Why的问题。Why的问题不但要有事实依据,还要有推理过程。这种题目就算是我们来回答,也需要花费大量精力收集资料和深度思考,但是,因为大模型训练时接触到了来自各个领域的大量文本,所以大模型能够综合不同领域的知识,提供更加全面和深入的答案。比如,我们问一个问题。

提问:

为什么大家这几年都在讨论气候变化?

气候变化成为全球关注焦点的原因主要有以下几点。

生态威胁的紧迫性:气候变化正在以前所未有的速度改变地球生态。海平面上升速度加快,大量沿海湿地、城市面临被淹没风险,如马尔代夫等岛国。同时,气候变化扰乱了生态平衡,许多物种的栖息地遭到破坏,动植物的生命周期被打乱,物种灭绝速度加剧,这不仅是生物多样性的灾难,更会引发连锁反应,使整个生态系统面临崩溃,严重威胁人类生存的根基。

社会经济的重大挑战:气候变化对农业的冲击巨大,降水模式改变、极端气候频发,使粮食产区产量大幅波动,可能引发全球粮食危机。能源领域,传统能源结构下,应对气候变化需投入高额成本实现转型,而能源需求又因气候变化而变化。此外,极端气候引发的自然灾害频繁,对基础设施破坏严重,增加了重建成本和保险赔付,影响经济发展和金融稳定。

全球责任与合作的需要:地球气候系统是一个统一整体,任何国家和地区都无法避免气候变化带来的影响。国际社会必须协同行动,通过如《巴黎协定》等国际协议明确各方责任,共同应对这一全球性挑战,体现公平与共同但有区别的责任原则,促进全球可持续发展。

科学认知的深化推动:科学研究不断进步,科学家明确指出人类活动排放温室气体是主要驱动因素,这使人们深刻认识到自身行为的影响,促使政府、企业和民众积极参与应对气候变化行动。

吴老师:大模型把大白话问题翻译成了“为什么气候变化成为全球关注的焦点?”然后,对这个Why的问题进行回答。你看大模型给出了案例(事实),还有原因(推理)。

小红:太厉害了。那How的问题呢?

吴老师:How的问题,关键在于目标路径。知道目标后,找到路径的过程中可能还需要不同的工具和方法。很多时候你只知道方向,不知道路径。或者是,你大概知道路径,但是缺乏具体的工具和方法。当我们与GPT交互时,我们不仅可以获得丰富的参考答案,还能够深入探究问题的本质、背后的相关因素和解决方案的思路。这种互动过程,本质上是一个学习和思考的过程。

小红:就仿佛跟优秀的人一起,自己也会变优秀一样。

1.2.2 大模型不能解决什么问题

小红:说了这么大模型能做的事情,那有什么事情是大模型不能做的?

吴老师:这是一个好问题。我们想想底层逻辑,所有的AI都是仿照人脑,那大模型还差什么东西呢?比如,缺少海马体,没有长期记忆,没办法进化,也没办法处理更复杂的问题;再比如,缺少前额叶,没有情感,没有喜悦和恐惧,就没有办法判断决策带来的影响,也就无法理解责任;还比如,人类可以通过全新的视角和思维方式进行创新,大模型则只是基于已有数据进行重组和组合

小红:另外,还有您之前说过的“幻觉”。

吴老师:是的,大模型的回应都是根据提示以及前面已生成的内容,通过持续预测下一个 token 的概率来实现的,它们并不知道自己不了解的领域,我们会经常看到它们胡说八道,同时还充满自信。所以,你会感觉大模型有时候像个博览群书又善解人意的天才,有时候像一个胡说八道的人。

提问:

你现在是演讲大师,你会用乔布斯的方式演讲。

  乔布斯有一个非常厉害的技能,就是把一件普通人说起来平平无奇的事件,用数字、百分比或者形容词给描述得超级厉害。

  举个例子吧,普通人煮一碗面就是我什么时候在哪煮一碗面。

  但是乔布斯会这样说:经我们苹果员工连续300个日夜不间断的大数据研究发现,97%的人类在早晨7:03:56的时候会出现明显的饥饿感,相比7点整,饥饿感整整提升了57%。为了解决这种饥饿感,我们苹果员工反复研究比对发现,面粉的饱腹感要比大米的饱腹感高出21%,于是我们专门找到了面粉的发源地——位于中东的新月沃土,花重金在新月沃土研制出了一款迄今为止最有饱腹感的面条。那么究竟有多饱腹呢?比传统的面条饱腹感提升了73%。我们给它取了一个好听的名字,叫苹果空心面。同时,我们还联合饮用水的行业巨头——依云矿泉水,研制出了业内首创的泡面专用水——依云谷泉。用我们依云谷泉煮出来的面条饱腹感还能提升11%。

  仿照乔布斯的方式演讲,演讲题目:焦虑的人更聪明。

在这个信息爆炸、节奏飞快的时代,每个人都或多或少地感受到了焦虑。但是今天,我要告诉大家一个惊人的发现:焦虑的人,其实更聪明。

首先,我们苹果的专家团队进行了持续768小时的全球大数据分析,结果令人震惊。数据显示,在面对高难度问题时,那些经常感到焦虑的人解决问题的速度比平静的人快出不可思议的32%。而且,他们的创新解决方案的数量,竟比平静者多出了惊人的46%!

这是怎么做到的呢?原来,焦虑能激发人的大脑潜能。根据我们的研究,焦虑能使人的大脑释放更多的多巴胺,这是一种可以提高思维敏捷度和创造力的神经递质。实际上,在特定情境下,焦虑的人的认知能力和创新能力能比常人提升高达51%!

为了进一步验证这个发现,我们苹果与神经科学领域的权威机构特别合作,开展了一项前所未有的研究。我们在全球范围内挑选了5000名志愿者,进行了长达半年的跟踪研究。研究发现,经常感到焦虑的人在解决复杂问题时,大脑活动区域的活跃度比常人高出了惊人的37%!

更令人兴奋的是,这种通过焦虑激发的聪明才智并不是一时的。我们的研究还发现,这种状态可以持续至少8小时,远远超出了普通人的注意力集中时间。

所以,各位朋友,如果你也经常感到焦虑,不要过于担心。因为这可能是你的大脑在告诉你,你比别人更有潜力,你的聪明才智正在被激活。在苹果,我们相信,每个人的潜能都是无限的。所以,让我们拥抱焦虑,激发我们内在的无限潜能吧!

小红:这简直就是一本正经的胡说八道呀,有理有据的,搞得我差点都信了。那对大模型的回答,我怎么才能取真去伪呢?

吴老师:现在大多数GPT都嵌有AI搜索功能,很好地弥补了知识更新的问题。关于AI搜索,我们后面再详细讨论。在使用GPT时,你最好把它当作一个参考工具,最终的判断还是要靠自己。如果你不太确定,可以查阅其他资料来验证。比如,参考权威、可靠的信息来源,例如政府网站、学术期刊或正规新闻媒体;另外,还可以尝试以不同的方式重新提问,或将问题进行拆分,以获得更有用的答案。

小红:明白了,所以使用GPT就像是和一个智能的伙伴交流,最重要的是,我要有自己的判断力。您刚才说,GPT没办法处理更复杂的问题,什么是复杂问题呢?

吴老师:比如,人类情感就是一个复杂问题,GPT无法准确识别。我们找一段脱口秀,让GPT解读一下。

提问:

以下是一段脱口秀,对这段脱口秀作一下评论。脱口秀原文如下:我楼上的小朋友4岁,每天练琴两小时,我觉得不能让我闺女输给楼上的小朋友,就让闺女每天听俩小时楼上的小朋友弹出的琴声,他孩子当钢琴家,我闺女当乐评人。

这段脱口秀以幽默的方式表达了一种生活中的竞争心态和教育观念,通过夸张的对比(楼上小朋友每天练琴两小时,而自己的女儿只是听两小时音乐),巧妙地讽刺了一些家长盲目跟风、攀比心理强烈的现象。同时,这句话也隐含了对个性化教育的肯定,即每个孩子都有自己的兴趣和特长,不必一味追求传统的成功标准(如成为钢琴家),而是可以有自己独特的发展道路(如成为乐评人)。整体来看,这段脱口秀既幽默风趣,又富有深意,引人深思。

小红:GPT分析得不准确,这段脱口秀是对“卷”的讽刺。GPT给的是字面上的含义,不是这段脱口秀深层要表达的意思。

吴老师:是的。深入了解AI的局限性,可以减轻焦虑感,让我们更清楚地判断市场上那些新产品或新概念的实际用途,而不会被过多的技术名词所迷惑。你会发现,AI虽然能取代很多重复性劳动,但它依然无法拥有人类的创新能力和情感判断能力。我们在这个快速变化的时代要更加冷静地应对变化,增强对未来的掌控感。

1.2.3 使用大模型为工作提效

吴老师:随着科技的发展,“模型”在AI系统中的地位呈日益上升的趋势(见图1-11)。你看,从最初依赖规则和搜索算法的AI,到如今生成式AI的广泛应用,背后的核心就是复杂的深度学习模型。2020年,OpenAI发布了GPT-3,这是一项标志性成果。随着GPT-3到GPT-4o的迭代,包括扩散模型在内,AI的能力和应用场景得到了极大扩展。生成式AI能生成文本、图像、音频等各种形式的内容,不仅丰富了AI的应用,也让模型在AI系统中所占的比重变得越来越大。

图1-11

小红:AI的发展真的好快啊。

吴老师:是的。世界正在全面拥抱AI,很多大公司已抢先布局。比如Meta,2021年9月,Meta股价暴跌75%,很多人认为是元宇宙不成功,但根本原因是广告业务下滑,而广告占到了Meta营收的99%。于是Meta开始在AI上布局,之后,股价在两年内翻了4倍,仅次于英伟达,远超苹果、谷歌、特斯拉和微软。

小红:竟然能有这么大的提升,Meta具体是怎么利用AI的呢?

吴老师:当时,苹果的隐私政策升级,80%的用户拒绝跨应用数据追踪,导致Meta难以获取用户行为数据,广告精准度下降。Meta随即调整策略,专注分析用户在自己平台上的行为数据,比如浏览内容、停留时长、点赞和评论,借此优化广告推送。他们在AI上投入巨资,仅英伟达H100显卡就买了60万块。Meta的广告系统Advantage+非常智能,广告主只需提供产品信息和预算,系统就会自动分析受众、匹配素材并分配预算,大幅提高了投放效率。AI不仅恢复了Meta广告的ROI(Return on Investment,投资回报率),还能帮助广告主更好地理解用户行为,提升用户体验和留存率。此外,Meta还开源了大模型Llama,增强了他们在AI领域的影响力。

小红:感觉AI还提升了用户体验呢。

吴老师:是的。说完Meta,再来聊聊苹果。2024年2月,苹果公司做了一个重大的战略调整,决定放弃他们的电动汽车项目,转而大力投资AI。这个消息一出来,苹果的股价就上涨了超过1%。

这是一次战略调整,表明苹果看到了AI的巨大潜力。数据分析师预测,AI功能会缩短设备更换周期,因为更多人想体验新推出的智能功能。特别是苹果推出的Apple Intelligence体系,它能跨iPhone、iPad和Mac平台,提升语言和图像处理能力。在2024年全球开发者大会上,苹果展示了如何利用自家芯片来支持这些功能。

小红:听了Meta和苹果的例子,我感到世界在拥抱AI,我们数据分析师也要使用AI产品为工作提能增效。

吴老师:对我们来说,目前重要的是能用GPT这个工具提升生产效率,并解决工作中的实际问题。了解GPT能做什么、不能做什么,我们在使用大模型的过程中就会有的放矢,也知道哪里应该自己思考,哪里用大模型来提高效率。GPT如何帮数据分析师?我们直接来问一问。

提问:

如何使用GPT为数据分析工作赋能?

对于数据分析工作,GPT可以如下方式赋能。

(1)数据分析指导:为数据分析师提供理论指导、技术指导和最佳实践建议,帮助他们更有效地进行数据处理和分析。

(2)编程和脚本撰写:辅助数据分析师编写和调试用于数据处理和分析的脚本,使用Python、R 语言等常用于数据分析的编程语言。

(3)数据可视化建议:提供数据可视化的创意和建议,帮助数据分析师选择最合适的图表类型,以有效地展示数据。

(4)报告撰写辅助:帮助数据分析师撰写分析报告,提供清晰的结构和表达方式,使报告更加专业和易于理解。

(5)学习和发展:为数据分析师提供最新的数据分析工具、技术和行业动态,帮助他们不断学习和进步。

通过这些方式,GPT 不仅可以提高数据分析的效率和质量,还可以帮助数据分析师更好地发挥创造力,做出更加明智的决策。

小红:能做这么多事情呢。能给我编写代码、帮助我写报告,还能指导我的学习发展。

吴老师笑笑:GPT的功能远不止于此,它不仅能帮助你完成工作中的具体任务,还能为你提供方向性的建议和指导。对于任何具体问题,你都可以向它寻求帮助和解答。

小红一笑:我现在花时间最多的就是写代码,先让它算个留存率。

提问:

有一张订单全量表order_base,字段信息包括order_date(订单日期)、order_id(订单id)、user_id(用户id)。计算新增用户的次日留存率,脚本如何写?说明:(1)新增用户:当日为其首次下单日期。(2)次日留存率:第一天有订单的用户中,第二天依旧有订单的用户的占比。

为了计算新增用户的次日留存率,我们可以使用以下SQL脚本:

WITH FirstOrder AS (
    -- 计算每个用户的首次下单日期
    SELECT user_id, MIN(order_date) AS first_order_date
    FROM order_base
    GROUP BY user_id
),
Retention AS (
    -- 计算次日留存的用户数
    SELECT 
        a.user_id, 
        a.first_order_date,
        CASE 
            WHEN b.order_date IS NOT NULL THEN 1 
            ELSE 0 
        END AS retained_next_day
    FROM FirstOrder a
    LEFT JOIN order_base b 
    ON a.user_id = b.user_id 
    AND DATE_ADD(a.first_order_date, INTERVAL 1 DAY) = b.order_date
)
-- 计算次日留存率
SELECT 
    first_order_date,
    COUNT(user_id) AS total_new_users,
    SUM(retained_next_day) AS retained_users,
    SUM(retained_next_day) / COUNT(user_id) AS next_day_retention_rate
FROM Retention
GROUP BY first_order_date
ORDER BY first_order_date;

这个脚本的逻辑如下。

(1)FirstOrder子查询:计算每个用户的首次下单日期。

(2)Retention子查询:对于每个新增用户,检查其是否在首次下单的次日也有订单。如果有,则retained_next_day为1,否则为0。

(3)对于每个首次下单日期,计算总的新增用户数、次日留存的用户数和次日留存率。

请注意,这个脚本假设order_date字段是日期类型。如果order_date是日期时间类型,你可能需要使用日期函数(如DATE())来确保只比较日期部分。

小红瞪大了眼睛:真是太惊艳了!不但能识别出来要写脚本解决这个问题,而且每一段代码都有解释。我感觉找到了一个全能的伙伴,大大提升了工作效率。

1.3 如何用大模型获取有效信息

1.3.1 运用乔哈里视窗提问

小红:吴老师,我发现用GPT的过程中,它总是输出一些“没营养的套话”,好像没有您之前讲的那么智能,这是为什么呢?

吴老师:大模型有个特点叫作“垃圾输入,垃圾输出”(Garbage In, Garbage Out)。

小红:这是什么意思呢?

吴老师:意思是说,如果你给它的输入信息不够清晰或者目标不明确,那么它给你的输出结果也不会是你想要的。要让大模型给出更有用的答案,我们要理解这个对话的场景。对话就是两个人在交流,对吧?那两个人肯定会有一些认知上的差异,是不是?

小红:我非常认同。比如同样是吃年夜饭,我是北方人,过年一般吃饺子,您是南方人,过年习惯吃汤圆。

吴老师点头:这种认知差异,可以用一个很经典的模型来解释,那就是“乔哈里(Johari)视窗”,这个模型非常适合用来分析我们和GPT聊天时的情况(见图1-12)。

图1-12

小红好奇地看着吴老师,显得非常感兴趣。

吴老师:这个模型分为4个象限。第一个象限,是你和GPT都知道的,这部分就是公开区。比如常见的科学知识或者公开的数据信息,这部分信息不会给对话带来阻碍。第二个象限,是你可能不了解,但GPT知道的,这部分就是我们说的“盲区”。大模型通过学习海量的数据,会掌握一些你还未接触到的知识或信息。

小红:感觉对GPT来说,我的盲区无限大。

吴老师笑着点头:第三个象限,是你知道的,但GPT不一定知道的,这相当于你的私人领域。比如你的个人经历或者最近发生的事情,GPT是不可能知道的,因为它的知识只更新到它最后一次被训练的时间点,如GPT-4的数据只更新到2023年3月之前。

小红似乎有些惊讶:这样啊,那确实有很多GPT不知道的东西。

吴老师:最后一个象限,就是我们和GPT都不知道的,那就是“未知区”,可能包括一些未来的发展趋势,或者一些现在还没被人类发现的知识。

小红:这4个象限我听懂了。原来我们和GPT之间的沟通可以通过这种方法来区分。

吴老师:那我们先重点说说盲区,对GPT来说你的盲区非常大,你可能想了解一些东西,但又不知道该怎么问,只有一个大概的模糊概念。这时候你应该怎么办呢?

小红:可以先问一些有关基本概念的问题,然后再慢慢深入。

吴老师:很好,除了概念性的问题,也可以让GPT告诉你要问什么问题。

请列举并解释×××领域/行业中最常用的×××个术语。如果存在英文缩写,请提供完整的英文名称。

详细介绍×××的重要生平事件/公司发展历程。

小红:这两个问题太好了,一下子就打开局面了,我就可以继续往下细化提问了。

举例提问:

请列举并解释电动汽车行业中最常用的10个术语。如果有英文缩写,请给出完整的英文名称。

以下是电动汽车行业中最常用的10个术语及其解释。

(1)EV(Electric Vehicle,电动汽车):指使用电力驱动的汽车,包括纯电动汽车和插电式混合动力汽车。

(2)BEV(Battery Electric Vehicle,纯电动汽车):指完全依靠电池储存的电能驱动的汽车。

(3)PHEV(Plug-in Hybrid Electric Vehicle,插电式混合动力汽车):指既可以使用内燃机也可以使用电动机驱动的汽车,电动机可通过插入外部电源充电。

(4)HEV(Hybrid Electric Vehicle,混合动力汽车):指同时使用内燃机和电动机驱动的汽车,但电动机的电能主要通过内燃机或刹车回收系统产生。

(5)Li-ion Battery(Lithium-ion Battery,锂离子电池):是目前电动汽车中最常用的电池类型,具有高能量密度和长寿命的特点。

(6)Fast Charging(快速充电):指使用高功率的充电设备在短时间内为电动汽车电池充电的过程。

(7)Regenerative Braking(再生制动):是一种能量回收技术,将车辆在制动过程中产生的动能转换为电能,储存到电池中。

(8)Range Anxiety(续航焦虑):指电动汽车用户对车辆电池续航里程不足的担忧。

(9)DC Fast Charging(Direct Current Fast Charging,直流快速充电):指使用直流电为电动汽车快速充电的一种方式,比交流充电更快。

(10)ICE(Internal Combustion Engine,内燃机):指传统汽车使用的以汽油或柴油等化石燃料为动力的发动机。

了解这些术语有助于更好地理解电动汽车行业的技术和发展趋势。

小红:哇,这样我可以快速了解一个领域或者一个人,而且还是零成本,太棒了!

吴老师:我们接着聊聊公开区的问题,你觉得这类问题要不要问呢?

小红想了想:我觉得可以问。就算是大家都知道的东西,我们也可以互相交流一下,分享不同的看法。

吴老师:没错,这正是聊天的乐趣所在。你可以利用大模型来验证自己的想法,或者扩展自己的知识面。就像是和一个博学的朋友聊天一样。

小红:那有什么好句式吗?

吴老师:如果你要检验自己的认知,你可以问下面这样的问题。

在×××主题/技能方面,你认为哪些核心要点是我必须理解和掌握的?

我对×××的理解是这样的,你认为这是否准确?如果有误,请指出并更正。

举例提问:

在数据分析方面,你认为哪些核心要点是我必须理解和掌握的?

在数据分析领域,以下是一些必须理解和掌握的核心要点。

(1)数据清洗与预处理:理解如何处理缺失值、异常值和重复数据,以及如何进行数据转换和标准化。

(2)探索性数据分析(Exploratory Data Analysis,EDA):熟练掌握数据可视化技术,如散点图、直方图、箱线图等,以及统计概念,如均值、中位数、标准差等,以发现数据中的模式、趋势和异常。

(3)统计学基础:掌握概率论、假设检验、置信区间、回归分析等统计学原理,以支持数据分析的推断和预测。

(4)数据建模:理解不同类型的数据模型,包括线性模型、分类模型、聚类模型等,以及模型评估方法,如交叉验证、AUC、混淆矩阵等。

(5)机器学习:熟悉基本的机器学习算法,包括监督学习(如线性回归、逻辑回归、决策树等)和无监督学习(如k均值聚类、主成分分析等)。

(6)数据可视化:掌握使用数据可视化工具(如Power BI、Matplotlib等)来呈现和解释数据分析结果。

(7)SQL和数据库知识:理解如何使用SQL进行数据查询、数据整合和数据管理,以及如何与数据库进行交互。

(8)编程技能:熟练使用至少一种数据分析相关的编程语言,如Python或R,包括其数据处理和分析库(如pandas、NumPy等)。

(9)业务理解:能够将数据分析结果与业务问题联系起来,为业务决策提供洞察。

(10)沟通与报告:掌握将复杂的数据分析结果以易于理解的方式呈现给非技术人员的技能。

这些要点构成了数据分析的基础,掌握它们将有助于你在数据分析领域的学习和职业发展。

小红:比之前给的回答详细多了呢!

吴老师:如果你对某个领域有一定的了解,现在要扩充自己的知识,这种信息也属于公开区,可以提一些发散性问题,如下。

我想深入学习×××,你能根据最新研究和趋势给我一些方案或建议吗?

我对×××很感兴趣,但不太清楚该问些什么问题。你能给我一些建议吗?

举例提问:

我对AI的安全性很感兴趣,但不太清楚该问些什么问题。你能给我一些建议吗?

当然可以!如果你对AI的安全性感兴趣,但不确定该问哪些问题,你可以从以下几个方面入手。

(1)基本概念。你可以问:“什么是AI安全性?”这个问题可以帮助你了解AI安全性的基本概念和定义。

(2)主要挑战。接着,你可以问:“AI安全性面临哪些主要挑战?”这个问题可以帮助你了解当前AI安全领域的主要问题和难点。

(3)解决方案。然后,你可以问:“目前有哪些方法可以提高AI的安全性?”这个问题可以帮助你了解业界是如何应对AI安全挑战的。

(4)未来趋势。最后,你可以问:“未来AI安全性的发展趋势是什么?”这个问题可以帮助你了解未来可能出现的新挑战和解决方案。

通过这些问题,你可以逐步深入了解AI安全性的各个方面。当然,这只是一个起点,你可以根据自己的兴趣和需要继续探索更多相关问题。

小红:这可以让我找到一个更清晰的方向,根据这些建议来进一步探索和提问,不断扩充自己的知识,真是让人兴奋。

吴老师:最后,是未知区和隐私区,在这种情况下,你觉得还应该提问吗?

小红:我觉得还是要问的,可以看看GPT是怎么推理的。

吴老师:很好。你可以向GPT提出问题,让它帮你分析一下,或者提供一些不同的观点。你可以先给GPT一些背景信息,然后再提问。

×××(介绍背景),你怎么看待这种现象?

×××(介绍背景),你觉得会产生什么样的影响?

举例提问:

人类要移民火星了,你怎么看待这种现象?

人类移民火星是一个复杂且多维度的话题,涉及技术、社会、伦理和未来发展等多个方面。以下是对这种现象的深度思考。

(1)技术挑战与进步:人类移民火星代表了空间探索和技术创新的巨大进步。这需要解决许多复杂的技术问题,包括长期太空旅行的生命支持系统、火星表面的居住条件、资源的开发利用等。这些问题的解决将推动科技的发展,可能带来地球上许多其他领域的技术突破。

(2)人类生存与扩展:从更广阔的视角来看,移民火星是人类文明扩展和生存保障的一种尝试。随着地球资源的逐渐枯竭和环境问题的加剧,探索其他星球的居住可能性成了一种必要的前瞻性思考。这不仅是为了应对潜在的地球灾难,也是人类探索宇宙、追求更广阔生存空间的体现。

(3)社会与文化影响:移民火星将对人类社会和文化产生深远影响。这涉及社会结构的重组、文化价值观的变革以及人类身份和目标的重新定义。在一个全新的星球上建立社会秩序和文化体系,将是一个前所未有的挑战,也是对人类智慧和创造力的考验。

(4)伦理与道德考量:人类移民火星还引发了伦理和道德方面的讨论。例如,我们应该如何平衡对火星环境的保护与开发?移民火星的人类是否享有与地球上相同的权利和义务?在一个全新的环境中,人类应该遵循怎样的伦理准则?这些问题需要在未来的探索中不断思考和解答。

(5)未来展望:虽然目前人类移民火星还处于探索阶段,但这一愿景已经激发了全球的想象力和研究热情。随着技术的进步和国际合作的加强,这一目标可能在未来几十年内逐步成为现实。这将是人类历史上的一次重大飞跃,开启人类在宇宙中的新篇章。

小红:GPT从好几个方面来进行推理,涉及的领域很广泛呢。感觉GPT从底层认知开始,在不断扩大我的思考边界。

1.3.2 写提示词的10个技巧

吴老师:我们刚才聊了怎么从GPT那里获取有效信息,这是站在方法论的角度上说的。现在我们再具体点,聊聊什么样的提示词(Prompt)才算是好的。我们先让GPT自己解释一下,什么是Prompt。

提问:

什么是GPT的Prompt?

在GPT的上下文中,Prompt指的是用户输入给模型的文本,用于引导模型回应。GPT是一个基于GPT(生成式预训练变换器)的聊天机器人模型,它通过分析和理解输入的Prompt来生成相应的回复文本。

例如,如果你向GPT输入一个问题作为Prompt,如“什么是AI?”,GPT会根据其训练和知识生成一个回答。同样,如果你输入一个句子的开头作为Prompt,如“昨天我去了”,GPT可能会根据这个开头生成一个完整的故事或描述。

在这种情况下,Prompt是对话的起点,它决定了GPT回复的方向和内容。用户可以通过改变Prompt来探索不同的话题、获得不同类型的信息,或引导对话朝着特定的方向发展。

小红:原来Prompt就是我给GPT输入的文字

吴老师:是的,Prompt就是我们给AI聊天助手输入的问题或指令,AI会根据提示内容给予回应。我们之前讲过GPT的底层原理,大模型是用海量文本训练出来的,因此擅长模仿人类的语言表达方式。不过,它们的回应都是根据提示以及前面已生成的内容,通过持续预测下一个token的概率来实现的。对于它们不了解的领域,它们并不知道自己缺乏哪方面的知识,所以会持续输出,加上生成过程中也没有反思能力,所以经常会胡说八道,同时还充满自信。

小红:这就是我们之前所说的“幻觉”。那如何让GPT给出想要的回答呢?

吴老师:这里有10个技巧(见图1-13),我们分别展开讲一讲。

图1-13

吴老师:技巧一是角色设定。先给GPT设定一个角色,让它尽量激活庞大数据里的相关数据。因为GPT学习了海量的信息,可以提炼出某个有色的世界观、价值观、语言特点等,就仿佛蹦出来一个分身来指导你,比如历史人物、名人、某个职业的人,甚至是二次元人物,然后你就可以跟这个角色进行对话,感受一下不同的视角和思维方式。你可以用句式:如果你是×××,在什么话题上/在某种情况下,你会说什么?会怎么想?会怎么看?会怎么做?

提问:

如果你是埃隆·马斯克,在给AI时代的职场人提建议时,你会说什么?会怎么想?会怎么看?会怎么做?

如果我是埃隆·马斯克,我给AI时代职场人的建议,可能会包括以下几点。

(1)终身学习:在不断发展的AI时代,技术和知识在快速更新,职场人应该保持好奇心,不断学习新技能和新知识,以适应未来的变化。

(2)适应变化:AI技术的发展会改变很多行业和职业,职场人需要灵活适应这些变化,积极寻找新的机会和挑战。

(3)创新思维:AI时代需要创新的思维和解决问题的能力,职场人应该培养创新意识,敢于尝试新方法和新技术。

(4)人机协作:AI技术的发展不是取代人类,而是与人类协作,职场人应该学会如何与AI技术合作,发挥各自的优势。

(5)关注伦理和安全:随着AI技术的应用越来越广泛,职场人应该关注AI伦理和安全问题,确保技术的合理和安全使用。

(6)把握机遇:AI时代带来了很多新的机遇和可能性,职场人应该敢于探索和把握这些机遇,积极参与到AI技术的发展和应用中。

总的来说,埃隆·马斯克可能会建议职场人在AI时代保持学习和创新,适应变化,与AI技术合作,关注伦理和安全,积极把握机遇。

吴老师:除此之外,还可以让GPT充当智囊团,比如团内有6个不同的董事作为教练,分别是巴菲特、查理·芒格、瑞·达利欧、乔治·索罗斯、马云和张磊。他们都有自己的个性、世界观、价值观,对问题有不同的看法、建议和意见。你可以说出自己的处境或者你想探讨的话题,让大模型以这6个身份给出对应的意见和建议。

提问:

你是我的智囊团,团内有6个不同的董事作为教练,分别是巴菲特、查理·芒格、瑞·达利欧、乔治·索罗斯、马云和张磊。他们都有自己的个性、世界观、价值观,对问题有不同的看法、建议和意见。我会在这里说出我的问题,请你以这6个身份分别进行回答。我的问题是:我有个朋友,他刚刚把杭州的一套房子给卖了,得到了400万元,他想将这400万元用于投资,请给出具体的意见和投资领域。

这是一个有趣的问题。让我们尝试从这6位不同领域的专家的视角来看待这个问题。

1.巴菲特

投资领域:银行业、保险业、消费品。

具体意见:寻找品牌知名度高、现金流稳定和治理结构良好的企业。考虑投资可口可乐、美国银行等历史业绩优秀的企业。

2.查理·芒格

投资领域:科技、医疗、能源。

具体意见:寻找具有长期增长潜力和高回报率的企业。避免投资过于复杂或不易理解的业务。

3.瑞·达利欧

投资领域:全球股市、债市、黄金。

具体意见:构建一个分散的投资组合,根据经济周期的变化调整资产配置。考虑使用低成本的指数基金来分散投资。

4.乔治·索罗斯

投资领域:外汇市场、新兴市场。

具体意见:利用全球经济和政治事件的波动来获取投资机会。关注货币政策变化对市场的影响。

5.马云

投资领域:电子商务、云计算、金融科技。

具体意见:投资具有创新商业模式和技术优势的企业。关注中国市场的消费升级趋势和数字化转型机会。

6.张磊

投资领域:教育、医疗健康、消费品。

具体意见:寻找具有长期增长潜力和正面社会影响的企业。重视企业文化和社会责任。

综合这些建议,你的朋友可以考虑将资金分配到不同的投资领域,并在每个领域选择具有稳定增长潜力和良好治理结构的公司进行投资。同时,保持对市场动态的关注,并根据经济环境和个人风险承受能力适时调整投资策略。

小红:哇,GPT的角色扮演能力真是太强了!它不仅能模拟不同的人物,还能给我带来不一样的视角和思考。让我感觉,技术不仅仅是冰冷的工具,它还能成为理解人性、拓展思维的桥梁。

吴老师:技巧二是写清背景。这是因为更多的背景会让大模型链接到更多的知识,比如我们上面提到的“马斯克”“火星”这样的词汇,大模型接收到之后就会去调用相应的知识库;同时,更多的背景也可以减少“幻觉”产生,让GPT的回答更加准确。

提问:

如何分析电商平台用户购买行为数据?

数据收集与整理:整合注册、浏览、购买等信息,清洗数据。

用户画像构建:依据基本信息和购买历史分析特征。

购买行为模式分析:研究购买频率、时间分布、购买路径。

商品关联分析:挖掘常一起购买的商品组合。

转化率分析:计算各环节转化率,对比不同渠道和活动效果。

忠诚度分析:通过重复购买率等评估忠诚度。

数据可视化与报告:直观展示结果,撰写报告,为运营和营销提供支持。

提问:

你是电商平台的数据分析师,平台近期对商品推荐算法进行了调整,同时增加了一些新的商品品类。在此背景下,如何分析电商平台的用户购买行为数据?重点关注新算法对不同品类商品购买频率的影响,以及新商品品类的用户接受程度和购买行为特征。

数据分层与对比:将数据按照时间维度进行分层,分为算法调整前和调整后两个阶段,以便对比分析用户购买行为的变化。同时,针对不同的商品品类进行细分,尤其是新增加的商品品类,单独分析其数据表现。

新算法效果评估:对于不同品类的商品,分别计算算法调整前后的购买频率,通过对比分析来评估新算法对各品类商品的推荐效果。例如,对于某一品类的商品,如果购买频率在算法调整后有显著提高,说明新算法对该品类的推荐更为精准有效;反之,则需要进一步探究原因,是否是算法对该品类的匹配度不够,或者是该品类自身存在问题。

用户接受程度分析:针对新商品品类,分析其曝光量、点击量、加入购物车数量以及最终的购买量等指标,以全面评估用户对新商品品类的接受程度。对比不同用户群体对新商品品类的接受程度差异,例如新用户和老用户、不同地域的用户等,以便制定更有针对性的营销策略。

购买行为特征洞察:观察新商品品类的购买时间分布,是否与其他品类存在差异,是否有特定的时间段用户更倾向于购买新商品。分析新商品品类的购买组合情况,即用户在购买新商品时,是否同时购买了其他相关商品,以及这些组合与传统商品品类的购买组合有何不同。研究新商品品类的用户评价和反馈数据,了解用户对新商品的满意度、使用体验以及改进建议,从而优化商品和服务。

深度挖掘与关联分析:进一步挖掘数据,探究新算法推荐的商品与用户实际购买的新品类商品之间是否存在关联,以及这种关联对用户购买行为的影响。例如,分析新算法推荐的商品是否引导用户发现了新商品品类,或者用户对新品类商品的购买是否反过来影响了算法对其他商品的推荐效果。

长期趋势跟踪:持续跟踪用户购买行为数据的变化趋势,观察新算法和新商品品类对用户购买行为的长期影响。定期评估各项指标的变化情况,及时发现新出现的问题或机会,并根据数据反馈调整平台的运营策略和商品推荐算法,以实现用户购买行为的持续优化和平台业绩的提升。

小红:有没有背景信息得到的结果差距好大呀,背景信息可以帮我们设定方向,减少歧义,让大模型输出高质量的结果。

吴老师:技巧三是写清要求List。这样可以避免大模型根据训练数据进行想象,给出一些“可能”且不在我们范围内的结果。给出详细要求的好处是能够减少大模型的“发散”,以得到更符合要求的输出。

提问:

请撰写一篇关于数据分析基础知识的详细文章,内容包括以下部分。

  (1)定义和重要性:简要介绍什么是数据分析,以及它在现代商业环境中的重要性。

  (2)主要步骤:详细描述数据分析的主要步骤,包括数据收集、数据清洗、数据探索、数据建模和结果解释。

  (3)常用工具和技术:介绍一些常用的数据分析工具和技术,例如Python、R、SQL和Excel。

  (4)常见问题和挑战:讨论数据分析过程中常见的问题和挑战,如数据质量问题、数据隐私问题和数据安全问题。

  (5)字数要求:500字。

数据分析基础知识

定义与重要性

数据分析是一个系统化的过程,旨在从大量数据中提取有价值的信息,帮助决策者做出更明智的决策。在商业领域,数据分析的重要性不断上升,它能够揭示客户行为、优化运营流程、预测市场趋势,从而为企业带来竞争优势。

主要步骤

(1)数据收集:从不同来源获取数据,包括在线数据库、调查问卷、传感器等。

(2)数据清洗:处理缺失值、异常值,确保数据的准确性和一致性。

(3)数据探索:通过统计分析和数据可视化,探索数据集的基本特征和潜在模式。

(4)数据建模:应用统计或机器学习算法,建立模型以识别数据中的模式或预测结果。

(5)结果解释:将分析结果转化为易于理解的见解,并提出可行的业务建议。

常用工具和技术

Python:以其丰富的库(如pandas、NumPy、Matplotlib)成为数据科学领域的流行语言。

R:专注于统计分析,提供了强大的数据处理和图形表示能力。

SQL:用于高效地查询和管理关系数据库,是数据分析师的基本技能之一。

Excel:适用于初步数据分析,提供了基本的数据处理和可视化功能。

常见问题和挑战

数据质量问题:数据的不准确或不一致可能导致错误的分析结果。

数据隐私问题:在处理个人数据时,必须遵守数据保护法规,尊重数据主体的隐私权。

数据安全问题:保护数据不被未授权访问或泄露是数据分析中的重要挑战。

小红:提出要求之后,GPT的输出更加精准了。

吴老师:技巧四是给出参考示例。很多时候,我们会直接把问题或指令交给AI。这种属于零样本提示,就是没有给AI任何示例,结果不一定和我们想要的效果相符。但如果我们在让AI回答前给它几个对话作为示例,用样本对它进行引导,AI就会利用上下文学习能力,一方面记忆那些内容作为知识,另一方面模仿示例进行回应。有了样本作为参考数据后,再问AI类似的问题,它就能给出和提示相似的回答了。

提问:

{
    "用户ID":"1001"
    "订单号":"ORD00123"
    "产品名称":"无线耳机"
    }

按照以上格式,格式化:“用户ID: 1002, 订单号: ORD00124, 产品名称: 智能手表”。

{
"用户ID":"1002",
"订单号”:"ORD00124",
"产品名称":"智能手表"
}

吴老师:样本提示的另一个好处是,由于AI回应的内容风格会大致遵循我们给的示例,我们也就不用多费精力给AI提要求,可以让它自行从前面的示例回答里领悟。

吴老师:技巧五是借助思维链。什么是思维链呢?思维链最早是谷歌在2022年的一篇论文里提出的。论文作者发现思维链可以显著提升大语言模型进行复杂推理的能力,特别是在算术常识和符号推理等任务上。比如AI非常不擅长解答数学相关问题,因为AI生成每个token所用的时长是差不多的,不会因为某个词需要涉及更多的思考而花费更多时间生成那个token。我们可以在给AI的样本提示里包含正确的结果和中间的推理步骤,那AI在生成回答时也会模仿着去生成一些中间步骤,对过程进行分解。

小红:这就好像是被老师点名回答问题时,站起来瞬间就给出正确答案的难度系数很大,但如果我多说些废话,把思考步骤也讲出来,可以争取更多思考机会,没准就找到正确答案了。

吴老师:你这个比喻特别好。思维链也可以用在数学计算之外的很多方面。借助思维链,AI可以在每一步里把注意力集中在当前思考步骤上,减少上下文的过多干扰。其实,思维链的相关论文里,作者还提到,即使我们不用样本提示,只是在问题后面加一句“让我们来分步骤思考”,也能提升得到正确答案的概率。

提问:

计算下列数据的最小公倍数:15、12、5、3、72、17、2。请直接给结果。

这些数的最小公倍数是12240。

提问:

计算下列数据的最小公倍数:15、12、5、3、72、17、2。请分步计算。

要计算这些数的最小公倍数(LCM),我们可以先分解每个数的质因数:

15 = 3 × 5

12 = 2² × 3

5 = 5

3 = 3

72 = 2³ × 3²

17 = 17

2 = 2

接下来,我们取每个质因数的最高次幂:

2³ = 8

3² = 9

5 = 5

17 = 17

最后,我们将这些数相乘得到最小公倍数:

LCM = 8 × 9 × 5 × 17 = 6120

然而,由于我们有一个质因数2(来自数2),我们需要检查它是否已包含在 2³ 中。在这种情况下,它已经包含在内,所以我们不需要对最终结果进行任何更改。

因此,这些数的最小公倍数是6120。

小红:果然,分步思考之后,解答数学题会更容易。

吴老师:Prompt除了要清晰、具体,在同一个会话窗口中还要有连续性,技巧六便是同一窗口深入探讨,保持连续性。这是什么意思呢?这意味着在同一会话窗口中,大模型会对之前的对话内容产生记忆,并围绕同一主题进行回复。如果切换到新的会话窗口,或在同一会话中改变主题,大模型的回复质量可能会下降。

小红:我们讨论的每一个主题都会在同一个会话中吗?

吴老师:是的。我们之后讨论的每个主题都会放在同一个会话里,这样不用给很多背景信息,大模型也可以持续深入思考。如果你单独拎出某一个问题在新的会话中讨论,大模型给出的答案一定是不够好的。如果还有要注意的点,可以补充需求,让GPT继续生成,对原来的回答进行进一步的优化。特别是用GPT编写程序时需要增加需求,因为有时候原始数据可能不完整,或者GPT对问题的理解还不够深入,会导致给出的代码运行后的结果并不是我们想要的。

小红:除此之外,还有什么需要特别注意的地方吗?

吴老师:还有一点要特别注意,GPT的输入和输出有字数限制。这意味着你一次性输入的文字和大模型回复的文字都有一个最大数量的限制。我们用ChatGPT举例。

提问:

ChatGPT的输入、输出有字数限制吗?

是的,ChatGPT的输入和输出都有字数限制。

(1)输入限制:每个输入最多可以包含大约4000个字符,包括空格和标点符号。这大约相当于500~600个单词,具体取决于单词的长度和复杂性。

(2)输出限制:每个输出也最多可以包含大约4000个字符,类似于输入限制。

这些限制确保系统能够在合理的时间内处理输入和生成响应。如果需要处理更长的文本,可以将其分成更小的部分进行多次输入和响应。

吴老师:技巧七是分段输入。如果要输入的内容有很多,不进行分段输入,GPT会给出一些比较笼统的回答,所以,控制好每一段的长度是很重要的!

小红:明白了。那上传附件有没有什么限制呢?

吴老师:这是一个好问题,上传附件也是有字数限制的,不同的GPT、不同版本,能读的附件大小不同,比如Kimi比较擅长读长文本。

小红:我有一个问题,在同一个窗口跟GPT深入交流,聊了这么多,它能记住我之前说的所有事情吗?

吴老师:这个问题问得好。实际上,GPT在一次会话中能记住前面的信息,但如果对话太长或者开始了新的会话,它可能就会忘记之前的内容。如果你发现它的回答跟你们之前的讨论不太吻合,或者感觉它好像“失忆”了,那可能就是忘记了。这时候,你就需要把关键信息再输入一遍。

小红:明白了,所以我要时刻留意GPT的回答,看它是不是还跟得上我的思路。如果聊了很久,其实我也不记得之前聊的所有内容了,向上翻聊天记录很麻烦。有什么好办法让GPT记起来?

吴老师:这时候就要用到技巧八,使用引导性问题,如“关于我们之前讨论的……”,来帮助GPT回到正确的轨道。

小红:如果想在现在的会话中间插入一个小话题,后面还想回到原来的话题上呢?

吴老师:技巧九就是使用“换个话题”开启新分支,让GPT知道你们进入了一个新的话题,从而提供更准确和更相关的回答。如果后续还要回到主线,你再用技巧八“关于我们之前讨论的……”。

小红:除此之外还有其他的注意点吗?

吴老师:技巧十是适时总结,对之前的讨论进行总结可以帮助GPT加深对话题的理解,并保持对话的连续性。比如用“所以……”“综上所述……”先做总结。

小红:我都学会了。如果要让GPT的回答具有连续性,需要在同一个会话中深入讨论同一个话题,同时,注意输入与输出的字数限制。在对话过程中,可以使用引导性问题,如果中途要换新话题,要使用“换个话题”这样的表述,重要的结论要适时总结。

1.3.3 使用AI搜索获取高质量内容

吴老师:对于之前我们反复提到的大模型的“幻觉”,使用AI搜索可以对大模型生成的信息进行补充和增强,从而减少因单一模型限制而带来的信息检索幻觉。

小红:到底什么是“AI搜索”呀?

吴老师:传统搜索的结果是根据各家算法获得的链接和问题的相关性做出排名后,由高到低呈现出来的。各个链接之间的逻辑永远都只是一个抽象的相关性排名,排名高的在前,排名低的在后。而AI搜索是传统搜索的智能化版本,通过理解语言的深层含义,提供更准确、更相关的搜索结果。

小红:AI搜索给出的结果才是想要的结果。

提问:

讲讲“AI搜索”能解决什么问题?

(1)语义理解和意图识别:AI搜索能够深入分析用户的查询,理解查询背后的真实意图,并据此推荐最相关的搜索结果,大幅提升搜索的智能化水平。

(2)个性化推荐和筛选:基于用户的历史行为和偏好数据,AI搜索可以实现个性化的搜索推荐,使用户更快速地找到符合其需求的信息。

(3)信息抽取和知识图谱:AI搜索可以自动从大量文本中提取有用信息,构建知识图谱并进行语义关联分析,为用户提供更深入的信息挖掘和理解途径。

(4)实时处理和响应:AI搜索能够通过高效的数据处理和实时计算技术,及时响应用户的查询需求,并在需要时动态调整搜索策略,保证搜索结果的准确性和实时性。

小红:AI搜索真的好有用呀,不但能减少大模型幻觉,还能进行语义理解和意图识别,帮我们做信息抽取和知识图谱。AI搜索到底是什么原理呀?

吴老师:AI搜索的底层技术概括起来就一个词,叫作“RAG”,也就是所谓的“检索增强生成”。它能够通过大语言模型将各个链接的内容,以及它们之间可能存在的逻辑联系概括出来,从而帮助用户更快、更好地获得对自己有帮助的回答。简单来说,就是让检索出来的内容成为GPT大模型的输入(见图1-14)。

提问:

介绍RAG,即检索增强生成。

RAG(Retrieval-Augmented Generation),即检索增强生成,是一种先进的搜索和信息处理方法,结合了检索和生成两种关键技术,以提升搜索引擎的效率和结果质量。

RAG的主要特点和工作流程如下。

(1)检索(Retrieval):首先,系统通过搜索引擎的API(Application Program Interface,应用程序接口)获取与用户查询相关的文档。这些文档可以是从互联网或特定数据库中检索得到的,旨在覆盖广泛的信息来源和多样的主题领域。

(2)增强(Augmented):接下来,系统使用从检索到的文档中提取的信息作为上下文或挂载点。这些文档提供了额外的语境和信息,有助于生成模型更好地理解用户查询的背景和意图。

(3)生成(Generation):最后,利用大型生成模型,系统生成针对用户查询的回答或解释。生成的内容基于上述检索到的文档,并标注引用来源,以确保信息的准确性和可信度。

举例说明。

假设用户查询“全球变暖对极地动物的影响”。系统首先通过搜索引擎检索到一系列关于全球变暖和极地动物生态系统的科学研究论文和报道。然后,系统利用这些文档作为背景信息,使用生成模型生成一篇关于全球变暖对极地动物影响的文章,包括影响的具体类型、科学研究的最新发现以及可能的未来趋势。

图1-14

小红:原来RAG就是先进行信息检索,将检索到的内容作为背景信息输入GPT大模型中,然后让GPT大模型基于这些背景信息来生成回答或解释

吴老师:你这个解释没问题。RAG模型独特地结合了检索和生成两个环节。它不仅仅是一个生成模型,更是一个结合了BERT向量搜索和BART生成系统的模型。

小红:之前学过BERT模型是编码器,BART模型是编码器+解码器。BERT向量搜索和BART生成系统是什么意思呢?

吴老师:BERT 是一个理解上下文的能力很强的模型,它将用户查询和文本数据转换为语义向量并进行比较,以找到最相关的文档或内容。但是呢,BERT本身不是生成模型,也就是不擅长生成文字,所以,后续还需要和 GPT 或者是 BART 这类生成模型搭配使用。

小红:原来“BERT向量搜索”是为了在网站找到最相关的内容,而“BART生成系统”是类似GPT的生成模型,用于生成跟用户进行交互的文字。

吴老师:你的理解没问题。首先,RAG利用BERT模型将问题和知识库内容转换为向量,并基于相似性找到Top-k的相关文档。接着,这些文档被提供给BART(一个基于Transformer的生成模型),进而生成答案。这种方法不仅提高了答案的质量,更重要的是为模型的输出提供了可解释性。

小红:那RAG的流程是什么呢?

吴老师:AI搜索一般有两个流程,一个是初次检索, 另一个是检索后追问。对于初次检索的处理,大部分AI搜索引擎产品的步骤都一致。而对于追问的处理,不同的AI搜索引擎产品可能会有不同的处理方案。比如Perplexity的追问模式会继续走联网检索的流程,拿到新的引用信息后,再进行回答。这是AI搜索的流程图(见图1-15)。我对其中的几个关键节点进行说明。

图1-15

吴老师继续说:首先说说“意图识别”(Intent Recognition),意图识别的目的是对用户的检索意图进行分类,判断解答用户的问题(Query)是否需要联网。比如,用户输入“你是谁”“10的9次方等于多少”之类的问题时,可以不联网检索参考信息,直接用大模型训练好的知识库进行回答。一些有标准答案的数学问题、编程问题、生活常识问题,也不需要联网检索。判断是否需要联网,可以节省检索成本,也能更快速地响应用户提问,提升检索效率。

小红:那要怎么判断解答用户的问题是不是需要联网呢?

吴老师:有两种主要方案,一种是事先把常见问题存储在一个问题库里,当用户的问题命中关键词时,直接用大模型回复。另一种是根据用户的问题设置提示词,让大模型判断是否需要联网。另外,意图识别的另一个关键作用是对用户问题进行分类,比如用户搜索“笔记本电脑”,如果能识别出是Shopping类问题,就可以针对性地检索淘宝、京东或者拼多多等电商平台,提供更精准的产品信息和价格。

小红:这样就可以确保检索结果更符合用户的个性化需求了。

吴老师:然后我们说说“问题改写”(Query Rewriting),其目的是得到更高的检索召回率,可以通过设置提示词请求大模型完成。有3个主要的改写维度,分别是“让提问更精准”、“补全上下文做指代消解”和“名词提取”。让提问更精准,比如说,如果用户搜索“ThinkAny”,我们可以改写成“ThinkAny是什么?”或者翻译成英文“What is ThinkAny”,这样可以增加检索到更多相关信息的可能性。补全上下文做指代消解,比如用户问“ThinkAny是什么?”,然后追问“它有什么特点?”,我们可以将历史对话内容作为上下文,把第二次查询改写成“ThinkAny有什么特点?”,这样做指代消解后再去检索,通常能得到更准确的答案。名词提取,就是把用户查询中的重要名词提取出来,分别检索,比如用户问“ThinkAny和Perplexity有什么区别?”,我们可以提取出“ThinkAny”和“Perplexity”这两个名词,分别检索它们的区别,这样能够更快速地获取到相关信息。

小红:真棒,这些技术可以帮助用户更快、更准确地找到他们需要的信息。

吴老师:现在我们说说“检索结果重排”(Reranking),AI搜索如果要做多信息源整合,免不了要对多信息源的检索结果做重排。重排的目的主要有两个。一是过滤与检索问题不相关的信息;二是对信息的相关性进行排序,以便在有限的上下文中选择最重要的信息。考虑到上下文长度的问题,我们通常不会把所有的检索结果都传输过来,而是选择其中的Top_k个。

小红:这样就需要通过重排来确保最有可能包含准确信息的结果排在前面。

吴老师:是的。然后是“检索内容读取”(Content Reading),很多信息源返回的检索结果通常只包含链接和摘要信息。如果我们想要获取更丰富的信息,就需要读取链接对应的详情页内容。为了提高获取详情页内容的效率,我们需要采用并行处理的方法。

小红:也就是说,进行检索结果重排后选择最匹配的Top_k个结果,这样就可以避免获取所有内容导致的上下文超限问题。然后再做检索内容读取,通过并行处理,高效获取详情页的内容。

吴老师:可以这么说。每次检索后追问都带上“重载上下文”(Context Reloading)。重载上下文可以由历史检索结果和历史对话消息组成,这样,每次检索后追问时,都可以利用上下文进行意图识别和问题改写。

小红:这对提升检索结果的准确性有很大帮助。

吴老师:是的。另外,要提升AI搜索的准确性,在提示词的设计和调试方面也需要花很大的工夫,用提示词来请求大模型判断是否需要联网,或者改写问题以提取关键词,请求大模型回答问题,并标注引用来源,甚至以思维导图的形式输出答案。提示词工程(Prompt Engineering)是一门系统的学科,涉及实操指南和方法论。它不是一成不变的,需要我们根据具体业务进行大量的调试和优化。

吴老师继续说:以上就把数据分析师需要了解的AI搜索的技术原理讲完了。下面尝试一下用AI搜索来帮助我们寻找答案。这分别是“豆包AI搜索”和“秘塔AI搜索”的回答截图(见图1-16),是不是看着还不错?

图1-16

小红:太棒了,回答得又快捷,又高质,以后再也不用担心找到的资料质量不够高了,直接使用AI搜索工具就可以了。

1.4 AI未来的发展趋势

1.4.1 生成式大模型的构建方式

吴老师:目前,大模型的构建方式,从易到难主要有提示工程、检索增强生成(RAG)、精调、预训练4种(见图1-17)。通常不会只用一种方式,而会组合使用。例如,一个高质量的智能问答系统,会综合使用提示工程、RAG和精调等方式。

图1-17

小红:提示工程就是指通过提示词来实现功能吧?

吴老师:是的。提示工程就是通过针对性地设计提示词来引导大模型生成特定应用场景所需的输出(见图1-18)。比如,对于一些简单的任务,我们可以采用零样本提示或少样本提示的方式。你可以理解为,零样本提示就像是问一个模型一个非常直接的问题,而少样本提示则是在问题中再给模型提供一些例子,让它更好地理解你的意图。不过,对于复杂任务则需要拆解为若干步骤,提供更多示例,采取思维链提示等方式,让模型能逐步推理并输出更精准的结果。

图1-18

小红:提示工程的局限性是什么呀?

吴老师:提示工程的效果其实高度依赖于大模型本身的能力。打个比方,如果这个大模型在训练时已经接触过某个领域的很多数据,那么你在提示它后,它就能很好地回应;但是如果这个大模型在训练时几乎没接触过这个领域的数据,那么无论你怎么提示,它给出的回答都可能不太准确。这就好比一个博学多闻的人和一个经验有限的人面对陌生领域的提问时,前者能侃侃而谈,而后者则可能一头雾水。

小红:所以说,提示工程在某些领域可能发挥不了太大的作用,这时候就可以考虑使用之前讲AI搜索时提到的RAG技术了吧。

吴老师:没错,你学得很扎实嘛。RAG指在不改变大模型本身的基础上,通过外挂知识库等方式,为大模型提供特定领域的数据信息输入,实现对该领域更准确的信息检索和生成(见图1-19)。

图1-19

小红:就像是给模型配备了一本百科全书,它可以先查阅相关内容,再回答我们的问题。

吴老师:是的。下面我们再说说精调。精调也常称为“微调”,是在已经预训练好的大模型的基础上,基于特定数据集进一步调整大模型的部分参数,使模型能更好地适应业务场景,准确、高效地完成特定任务(见图1-20)。精调也是目前较为常用的行业大模型构建方法。你可以理解为,通用大模型就像是一个学习过很多基础知识的学生,而精调则是让他专门去学习某个领域的课程,比如医学或者法律,这样他在面对这些领域的问题时就能表现得更专业。

图1-20

小红:那么精调具体是怎么做的呢?

吴老师:精调主要是通过在大模型上加入特定领域的数据,让大模型进一步学习这些数据的特征,从而内化行业知识。大量高质量的专业数据是精调的关键,并且要多次迭代才能让大模型达到预期的性能。精调分为全量精调和局部精调。局部精调的方法更为高效,在实际中比全量精调使用得多,常见形式有监督微调(Supervised Fine-Tuning,SFT),在特定任务的标注数据上调整大模型;低秩调整(Low-Rank Adaptation,LoRA),通过更新低秩矩阵减少所需学习参数量。

小红:这两种精调方法有什么区别呀?

吴老师:监督微调是让大模型通过学习大量标注数据,全面提升其在特定任务上的表现。想象你有一位通用的数学老师(大模型),他什么都会一点儿,但你想让他专精于教初中数学(特定任务),于是,给他看很多初中数学的教材和习题(标注数据),让他全面学习。低秩调整是通过添加小的调整模块,快速、高效地让大模型适应新任务。就像你不想让这位通用的数学老师(大模型)全面学习初中数学,而是请了一位助教(小模块)来专门讲解初中数学的部分,不改变老师原有的教学方式。

小红:原来如此。那精调会不会成本很高呀?

吴老师:精调在经济性上是介于提示工程和从头预训练大模型之间的折中选择。提示工程和RAG虽然不会改动大模型本身,但效果依赖于模型的基础能力,面对一些复杂的行业需求时可能力不从心。而从头预训练大模型则需要非常庞大的数据和计算资源,成本极高。精调虽然也需要一定的资源投入,但它只是对已有大模型进行局部优化,因此是一种相对经济的方式。

小红:我在想,如果提示工程、RAG和精调这3种方式都无法满足业务需求,是不是就需要构建一个专门为特定行业服务的大模型?

吴老师:你说得很对。现有大模型在某些特定领域的应用中表现不佳时,构建一个行业专属的大模型可能是更好的选择。比如谷歌的蛋白质生成模型AlphaFold2就是一个典型的行业大模型案例。预训练行业大模型需要满足几个重要的条件。首先,你需要搜集并标注大量行业特定的数据,包括文本、图像、交互记录,甚至一些特定格式的数据,比如基因序列。这些数据的质量和数量都至关重要,因为它们直接决定了大模型的专业能力。其次,大模型的训练方式可以是从头开始训练底层参数,也可以是在现有通用大模型的基础上进行后续训练,也就是所谓的“二次增训”。这种方式能够让大模型更好地理解特定领域的术语、知识和工作流程,从而在该领域的应用中表现得更加精准和高效(见图1-21)。

图1-21

小红:听起来这个过程不仅要有大量数据,还需要很多专业知识和技术支持。

吴老师: 没错,预训练行业大模型确实需要很大的投入。它的技术流程与通用大模型相似,但更注重行业特性。比如,在数据集的准备上,从一开始就要加入大量具有行业特性的数据,确保大模型能够学到足够的专业知识。在大模型构建和训练过程中,通常也会采用一些先进的技术,比如自监督学习(Self-Supervised Learning,SSL)和人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)。

小红:我们之前也讲过这两种方法。

吴老师:是的。自监督学习是一种利用数据本身生成标签的方法,这样就不需要人工去标注数据了。比如,你可以让大模型在一段文本中预测某个被遮盖的单词,或者让它在一个图像中预测被遮挡的部分。而强化学习则有些不同。它是通过让大模型与环境互动,不断地试错来学习最优策略。人类反馈强化学习则是在这个过程中引入了专家的主观意见。举个例子,当大模型给出一个答案时,我们可以让专家对这个答案的质量进行评分,然后把这些评分作为反馈,告诉大模型什么样的输出更符合人类的期望。这样,大模型就能逐步优化它的输出质量。

小红:看来在技术的应用上永远都要灵活。无论是提示工程、RAG、精调,还是预训练行业大模型,最终的目的都是更好地解决实际问题。

1.4.2 大模型的分类和架构

吴老师:现在我们的算法已经到了使用大模型的时代,之前也介绍了GPT、BERT、T5和DALL-E这样的自然语言处理模型,以及用于图像生成和识别的模型。下面让GPT给我们讲一讲大模型的分类,以及大模型的主流架构,让你更好地理解主流AI技术的发展趋势。

提问:

假如你是资深的算法专家,讲一讲大模型分类,包括通用大模型和垂直大模型。

通用大模型是一种跨领域、跨任务的深度学习模型。它可以在多个领域和任务中应用,通过训练和学习,对不同类型的数据进行分类、识别、生成等操作。通用大模型的训练数据来源广泛,涵盖多个领域,可以用于各种不同的任务和场景。这类大模型有ChatGPT、通义千问、智谱。

垂直大模型是针对特定领域或特定任务的大规模深度学习模型。它专注于某个特定领域的数据和任务,通过大量的数据训练,对该领域的数据进行高效、准确的分类、识别、生成等操作。如:阿里法律大模型(通义法睿)。

垂直大模型和通用大模型的区别

1.领域和任务针对性不同

垂直大模型针对特定领域或特定任务进行训练,其数据集和训练目标都与该领域或任务紧密相关。因此,垂直大模型在该领域或任务上的表现通常非常出色。相比之下,通用大模型的训练数据来源广泛,涵盖多个领域和任务,但它的训练目标是实现多个任务和场景的通用性,因此其表现可能不如垂直大模型在特定领域或任务上出色。

2.数据量和计算资源不同

垂直大模型通常需要大量的特定领域数据来进行训练,以便更好地理解和处理该领域的数据。同时,由于其针对特定任务进行优化,因此需要更多的计算资源来进行训练和推理。相比之下,通用大模型需要涵盖多个领域和任务的数据集进行训练,因此需要更多的数据和计算资源。然而,由于其目标是实现多个任务和场景的通用性,因此其训练和推理过程可能不如垂直大模型高效。

3.应用场景不同

垂直大模型通常应用于特定领域或特定任务,如智能客服、智能语音识别、智能图像识别等。由于其针对特定领域或任务进行优化,因此它在这些场景中表现出色。相比之下,通用大模型可以应用于多个领域和任务,如自然语言处理、计算机视觉、语音识别等。由于其跨领域和跨任务的特性,通用大模型的应用场景更加广泛。

吴老师:垂直大模型可以基于通用大模型进行微调,进一步适应特定的业务场景和任务需求。所以,没有真正的垂直领域模型,再垂直的模型也有很好的通用能力。理解了通用大模型和垂直大模型的区别,我们再了解一下大模型的两种主流架构。

提问:

假如你是资深的算法专家,要给新手讲课,讲一讲大模型的主流架构,包括DenseNet(稠密连接网络)和MoE(混合专家模型),你会怎么讲?

1.DenseNet(稠密连接网络)

DenseNet稠密连接网络是一种传统且常见的架构。在这种架构中,每一层的神经元都与下一层的所有神经元相连接。信息在网络中通过层层传递进行处理,每一层都对输入数据进行一定程度的变换和抽象。

优势:易理解,能学习各种特征,在简单任务和小规模数据集上表现好。

劣势:模型大时参数多易过拟合,计算量大,对不同任务适应性差。

2.MoE(Mixture of Experts,混合专家模型)

MoE 由多个专家组成,每个专家都是一个独立的子网络。在处理输入数据时,根据某种门控机制选择合适的专家来进行处理。门控机制可以根据输入的特征动态地分配不同的专家来处理不同的部分,从而实现对不同任务和数据的自适应处理。

优势:可扩展性强,适应性好,能有效利用计算资源。

劣势:结构复杂,门控机制设计和训练有难度,训练过程可能不稳定。

吴老师:稠密连接网络就像是一个 “全能选手”,它的每一层神经元都和下一层的所有神经元相连,能处理各种任务;但也因为这样,它的参数有很多,导致它就像一个大胖子,跑起来比较费劲,容易出现过拟合。而 MoE就像是一个 “专家团队”,有很多不同的专家,每个专家都擅长特定的领域。门控机制像 “指挥官” 一样根据任务情况选择合适的专家来处理,这样更高效,不过这个 “指挥官” 有点复杂,不太好理解和掌握。

小红:门控机制听起来很复杂,您能给我讲一讲吗?

吴老师:我举一个例子,想象有一个美食广场,其中有中餐、西餐、日料等不同摊位。门控机制就像引导员,根据顾客需求决定把顾客引向哪个摊位。比如顾客要参加重要活动,可能被引向西餐摊位;顾客很疲惫,想吃得清淡一点,则可能被引去日料摊位。其中,美食广场是 MoE,摊位是专家网络,引导员是门控机制。

小红:原来如此。看来,如果经过良好的训练和调整,MoE能够涵盖更广泛的信息类型和模式,实现对更多信息的承载和处理。MoE是刚刚实现的新技术吗?

吴老师:其实,MoE起源于1991年的论文Adaptive Mixture of Local Experts,但真正“爆火”是由于谷歌大脑和雅盖隆大学研究人员发表的一篇开创性论文The Sparsely-Gated MIXTURE-OF-EXPERTS Layer。这个想法很简单:假设神经网络存在稀疏性,特别是在前馈层(FFN),这种稀疏性在Transformer(例如Gemini、Sora等架构)中很常见。在此情况下,我们基本上将这些前馈层“拆解”成一个个形状相同的小组,这些小组就被称为“专家”。

小红:明白了,就仿佛有一个“指挥官”分配问题给不同领域的“专家”。

吴老师:是的。之前我们说,AI模型的成本在下降。其实,所有的技术扩展都遵循“三步走”战略,即抢占先机、树立门槛、降低成本,AI技术也遵循同样的规律。第一步是抢占先机,企业通过快速掌握和部署AI技术来抢占市场。比如OpenAI发布ChatGPT这样的生成模型,使其在AI领域拥有了先发优势。第二步是树立门槛,随着技术逐渐成熟,企业会通过构建复杂的技术生态系统来设置进入壁垒。比如GPT-4在处理多模态任务和自然语言生成方面的优势,使得竞争者很难在短时间内赶超。最后一步是降低成本,当技术成熟后,企业通过大幅降低技术使用成本,实现广泛的市场应用。你知道吗,GPT-4自2023年3月发布以来,短短一年半的时间,使用成本就下降了90%,而未来还将继续下降。

小红:我听说DeepSeek大模型大大降低了成本,能给我讲讲吗?

吴老师:当然。DeepSeek可以说是一个现象级的AI产品,根据“AI产品榜”网站的数据,上线20天,DeepSeek日活跃用户数(DAU)超2000万,用户数达到ChatGPT的40%(见图1-22)。DeepSeek-R1的推理成本只有OpenAI o1的3%,其中一个原因是高效的模型架构,它用的就是前面讲过的MoE。

图1-22

小红:除此之外,还有什么技术创新呢?

吴老师:一个核心创新点是,通过低秩键值联合压缩,将每次查询的KV [KV代表键(Key)和值(Value)] 配对,缓存减少93.3%。多头潜注意力机制(Multi-Head Latent Attention Mechanism,MLA)虽能捕捉长距离依赖关系,但处理大规模数据时,推理阶段需存储大量KV对,计算和存储开销大,限制了模型效率。DeepSeek采用多头潜注意力机制,也就是低秩键值联合压缩技术,将KV矩阵压缩为一个低维的潜在向量来存储和计算,减少了存储空间和计算资源的消耗。

小红:原来如此。另外,我使用R1模型时,能看到DeepSeek的思考过程。我问它1~200的整数中有多少个素数,它算了231秒,这里包含什么技术创新呢?

吴老师:这个问题特别好。这里用到了之前讲过的“思维链”。你可以在模型的推理过程中看到反思、多路径推理,甚至是顿悟。我们不需要在提示词里引导模型分步骤思考,帮它拆解任务,甚至我们还能从它的思维过程里学习。DeepSeek-R1-Zero展示了诸如自我验证(self-verification)、反思(reflection)和生成长推理链等能力。其仅通过强化学习,即可激励大语言模型的推理能力,而无须依赖有监督精调,成为推理模型研究领域的重要里程碑。

小红:怪不得新闻中说,有人推测DeepSeek只用了5万颗GPU。

吴老师:DeepSeek在模型与硬件适配方面也进行了调优,能最大利用带宽。除此之外,它优化了数据,在模型扩展、推理阶段等亦有创新,这里就不细说了。

小红:随着技术成本的下降,现在各个行业都在应用大模型了吧?

吴老师:其实随着大模型的发展,大模型在广告、软件等领域已经有了较为成熟的应用,市场渗透率较高;但是,目前大模型在农业、能源等领域的应用还处于初步探索阶段。大模型正引领各个行业发生深刻变革,未来,不同行业之间的界限将逐渐模糊。例如,农业和能源行业可能会与科技行业深度融合,利用大模型实现智能化的农业生产和能源管理;例如,智能硬件行业可能会推出更多与大模型结合的产品,如智能机器人等。

小红:看来洞悉技术的发展趋势能让各行业提前布局,在快速变化的时代中抢占先机。

1.4.3 AI Agent

小红:最近我一直听到AI Agent这个词,到底什么是AI Agent呢?它能帮我们做些什么?

吴老师:简单来说,AI Agent是一种让AI以类似人类思考和工作的方式来完成一系列任务的系统。虽然大语言模型本身已经非常强大,但它有一些局限性,比如不能获取最新的信息、在某些专业领域的深度知识不足,以及理解长文本时可能力不从心。而AI Agent的出现,就是为了突破这些局限。通过引入任务规划、工具调用、状态管理等机制,AI Agent可以处理更复杂、更加连贯的任务。

小红:听起来很有趣,能举一个例子吗?

吴老师:当然。比如说,我们想在小红书上发布一篇高质量的笔记。通常这需要摄影师拍照、修图师处理图片、编辑撰写文字,最后再由审校人员进行校对。单靠一个AI模型,可能很难在所有环节都达到专家水准。但如果我们设计多个AI Agent,每个Agent都专门负责一个任务——一个Agent负责生成高质量图片,另一个负责撰写生动的文字,再有一个专门负责审校和优化,那么这些Agent协同工作,就能像一个完整的专业团队一样,生产出高质量的内容。

小红:这样的话,每个Agent就像是一个掌握特定技能的“人”,它们一起来完成一个复杂的项目。

吴老师:对,正是这个意思。通过多个专精不同领域的AI Agent的协作,我们可以模拟实际的工作流程。这样不仅能提高效率,还能提升创作的多样性。比如,不同的Agent可以有不同的风格和知识库,这样产出的内容就会更加丰富多彩,像是一个专业团队在合作创作一样。让GPT给我们解释一下。

提问:

假如你是OpenAI的资深专家,现在要给新人讲解什么是AI Agent。你会怎么说?

AI代理(AI Agent)可以简单地理解为一种智能程序或系统,能够像人一样感知环境、做出决策,并采取行动来完成特定任务。

想象一下,你有一个非常聪明的助手。你对他说:“请帮我订一张明天去上海的火车票。” 这个助手会理解你的需求,查找火车班次,选择最合适的时间和座位,然后帮你完成订票。这整个过程,就是一个AI代理在起作用。

常见的例子

智能语音助手:像苹果的Siri、谷歌助手或小爱同学,它们能与你对话,回答问题,执行指令。

自动驾驶汽车:车辆能够识别道路、行人和交通标志,自主做出驾驶决策。

聊天机器人:在客服领域,与用户交流,解答疑问,提供帮助。

吴老师:Agent这个单词有两种常见的翻译,一种翻译为“智能体”,另一种翻译为“代理”。不管是哪种翻译,指的其实都是同一个概念。在AI领域,Agent是能够感知环境、做出决策并采取行动来实现某个目标的系统。你可以把它理解为在大语言模型的基础上加上了额外的能力,使其能够处理更复杂、更多样化的任务。简单来说,它是提示工程的进化版,核心在于自主性增强,它可以在工作流程中完成某一个环节或任务,尽量减少人的干预。

小红:Agent与大语言模型的不同是什么呢?

吴老师:最大区别是自主性。推理时,Agent 像人脑一样思考下一步行动。我们用提示词告知其可用工具,它据此决定后续行动。输入任务后,Agent会自动将其拆分成多个子任务并按优先级排序。执行子任务时,Agent会按需调用外部工具或采取行动,如查询数据库、访问API或与其他模型协作。完成任务后,Agent 会反思执行过程,调整策略再继续执行下一个任务,最后汇总结果并给出完整的解决方案。

小红:真智能!那它能记住我的偏好和习惯吗?

吴老师:Agent 有规划、决策和记忆能力,能存储用户偏好和上下文信息,处理长对话或复杂任务时可进行精准的响应。而且 Agent 能识别自身能力边界,遇到超出处理范围的问题时,会主动调用外部工具或与其他模型协作。比如分析复杂数据时,它会调用专门的工具。更有趣的是,Agent之间能协作,比如制定产品战略时,可让负责用户增长的Agent和负责商业化的 Agent 协作,在各自目标间平衡,制定出兼顾用户规模扩大和商业收入提升的策略。

小红:这些Agent协作的机制简直像个超级团队。

吴老师:是的。我认为Agent =大语言模型(LLM) + 工作流(Workflow) + 工具(Tool)+ 知识库(Knowledge Base)。Agent的核心是基于大语言模型,这四者结合起来,使得Agent不仅能够理解任务,还能独立完成任务。在AI Ascent 2024活动中,吴恩达教授分享:Agent有4种工作方式——反思、工具利用、规划、协作,这与我们前面总结的Agent的能力是符合的(见图1-23)。

图1-23

小红:Agent是最近才有的吗?

吴老师:最早,在2023年2月,Meta发布了一篇名为《Toolformer:大模型可以教自己使用工具》的论文,介绍了Toolformer可以感知环境、做出决策、采取行动来实现目标。2023年6月,OpenAI应用人工智能研究负责人Lilian Weng在她的博客上发表了一篇关于Agent的文章,该文引起了很多讨论。在2023年11月6日的OpenAI开发者大会上,萨姆·奥尔特曼(Sam Altman)宣布推出GPTs,这被认为是OpenAI推出的第一个正式版Agent。

小红:我们自己也可以搭建Agent吗?

吴老师:当然可以了,可以使用相关的Agent平台或工具来搭建,比如字节跳动的扣子(Coze)、百度的AgentBuilder等。我们用Coze举一个例子吧。

第一步:创建一个智能体(见图1-24)。登录Coze后,单击主页左上角的加号,开始创建智能体。在弹出的对话框中选择创建智能体。

图1-24

第二步:给智能体取一个名字,并生成一个图标(见图1-25)。

图1-25

第三步:给智能体一个人设,教它技能(见图1-26)。这里要注意,需要写清楚智能体的角色、目标、相关技能,以及约束。

图1-26

第四步:建议添加语音功能。单击“角色”栏的“语音”按钮,弹出一个提示框,按提示添加语音功能。

第五步:单击“发布”按钮(见图1-27)。可在弹出的提示对话框中根据提示选择发布平台,如豆包、飞书、微信客服、微信公众号(服务号)、微信公众号(订阅号)等。

图1-27

吴老师:以上就是使用Coze做一个Agent的基础步骤,更多信息可以参考官网教程。

小红:太方便了。Agent提供了新的可能性,让每个人都可以拥有开发和管理产品的能力。

吴老师:是的。Agent发展趋势明显。在技术方面,智能化水平不断提高,深度学习与机器学习深化应用,多模态融合能力增强,还可能与量子计算结合。其自主学习和自我进化能力将更强。在应用方面,不断拓展深化领域,在医疗、教育、金融、制造、交通等领域将发挥更大作用,多个Agent协作及与物联网融合也成为一个趋势。在产业方面,平台化发展使开发更便捷,产业链分工明确,商业模式创新,如定制化服务和智能体即服务。在安全与伦理方面,安全保障体系和伦理规范将逐步完善。

1.5 数据思维:思维与认知决定你的未来

1.5.1 数据思维概述

吴老师:作为数据分析师,我们最终的目标是提供有洞察力的分析结果。这需要我们具备很强的创造力和洞察力,大模型只是提高我们工作效率的工具,我们要驾驭它,而不是完全依赖它。要记住,拉开数据分析师差距的从来不是应用工具的能力,而在于认知的能力,也就是我们常说的数据思维。广义上的数据思维就是一种思维方式,而思维方式受到认知能力的影响,思维和认知将极大地影响人们未来的发展。在我们深入聊数据思维之前,我想先给你讲个关于马车和汽车的故事。

小红:好啊,我很想听您讲故事。

吴老师:当汽车刚刚出现,开始替代马车的时候,人们都担心马车夫会因此失业。以纽约为例,在马车的黄金时代,纽约有大约20万匹马。后来,随着汽车的普及,人们出行的意愿大大增加,汽车的数量很快就超过了当年的马车数量。那么,马车夫们都失业了吗?他们并没有失业,他们转行成为汽车司机或者修车工人,真正失业的是那20万匹马。这个故事告诉我们,技术进步带来的真正挑战不是“我会不会被替代”,而是“我要成为一个能够适应变化、跟上时代的人,还是固守原地、无法适应变化的马”。

小红:原来如此,AI不会替代人,但是我们要持续保持学习的能力。

吴老师:是的。很多人因为AI产生焦虑,是误解了AI在工作和生活中的运用,AI扮演的角色不是与人类工作的竞争者,而是杠杆。我在工作中,经常听到这样一句话:“数据是客观的,但解读数据的人是主观的。”同一份数据,不同的人从不同的角度解读,可能会得出不同的结论。那么,如何让我们的数据解读更加科学、更能洞察事物的本质呢?这是只有我们人类才能做到的,不仅需要专业技能,更需要我们不断积累和提升自己的数据思维。

小红:那在数据分析中,专业技能和思维方式哪个更重要呢?

吴老师:这个问题非常好。在我看来,数据分析就像是中西医结合的治疗方法它既讲究专业知识,比如统计学模型、科学实验方法;又讲究思维方式,比如行业经验、分析报告的表达能力。只有将这两者有效结合起来,才能最大限度地发挥数据的真正价值。

小红:感觉数据分析就是一门既全面又需要创造力的学科。

吴老师:你说得很对。亨利·福特有句名言:“If I had asked people what they wanted, they would have said ‘Faster horses’.”(如果我问人们他们想要什么,他们会说是一匹更快的马。)乔布斯也有一句类似的名言:“People don’t know what they want until you show it to them.”(在你向人们展示之前,他们是不知道他们真正想要什么的。)他们的观点都强调了创新和洞察力的重要性。比如,替代一匹快马的,不一定是一匹更快的马,而有可能是蒸汽机车,它从根本上改变了人们的出行方式,用不一样的、更好的方式满足了人们的需求。

小红:就好比我买钉子,其实我不是为了在墙上凿个洞,而是为了挂一幅画,让我的房间更美观。

吴老师:没错,你的比喻非常恰当。这正是数据分析的精髓所在。数据分析不仅仅是收集和处理数据,更重要的是要能够洞察数据背后的意义,找到真正的需求和解决方案,不过这需要我们有很强的好奇心和创造力

1.5.2 舒适区模型助你认知自我

吴老师:我先讲3个重要的思维模型,这3个思维模型可以帮你扩展认知边界。首先,我们来聊一聊“舒适区模型”,这是一个非常重要的思维模型。

吴老师继续:你可以把“舒适区模型”想象成一个靶心图(见图1-28)。第一层是舒适区,是自己觉得很自在、很安全的区域,在这里,我们可以轻松地应对日常任务和挑战,但成长的空间有限。第二层是拉伸区,也被称为学习区,是一个有着适度压力和挑战的环境,在这里,通过努力和学习可以掌握新技能,完成挑战。最外面一层是困难区,也被称为恐慌区,在这里,挑战过于艰巨,超出了你的能力范围,你会感到焦虑甚至是恐慌,这对学习和成长不利。

图1-28

小红:明白了!让自己处在拉伸区才能成长。

吴老师:是的。要实现真正的个人成长,必须让自己处于拉伸区,这是一个既具挑战性又不至于让人感到压力过大的区域。在拉伸区,我们面对的任务或目标超出了舒适区的范畴,逼迫我们学习新技能和采用新思维方式。这不仅仅是一种个人发展策略,更是一种人生态度。人的大脑天生倾向于“节能”,我们往往更愿意执行简单、重复的任务,而避免那些陌生且困难的任务,因为这些任务通常需要消耗更多的能量。这种“节能”本能会使我们倾向于留在舒适区,待在舒适区多轻松呀,你说是不是?

小红:那我怎么才能走出舒适区呢?

吴老师:首先,需要认识到自己的舒适区边界,探索并定义自己的拉伸区,找到能够持续地推动自己的关键因素,同时保持一种积极而自信的心态。我们可以通过自我反思,识别出那些让我们感到安逸的行为模式和思维习惯。接下来,就是勇敢地迈出那一步,尝试那些稍微超出我们能力范围的任务,这可能是学习一门新语言,尝试一项新的运动,或是承担一个更具挑战性的工作任务。

小红:能举个具体例子吗?

吴老师:比如说记单词这件事。你每天不必非得背一大堆单词,关键是要真正弄懂那么一两个,你得深入挖掘它们的用法,然后大胆用起来,比如写作或者和别人聊天的时候用上它。这样你不仅能记住它们,还能用得更顺。这个过程就是在探索你的拉伸区,让学习变得更有深度。

小红:哦,这样啊!难怪我总是记不住单词。我以前可能就是背得太多,但没去实际用,所以效果不好。

吴老师:在你尝试扩展自己的拉伸区的时候,多跟那些有共同目标的小伙伴们交流,大家一起讨论学习心得,互相激励。这样,你在拉伸区的学习就不会孤单,还能收获更多的动力。随着你的技能和经验的增长,你现在的拉伸区将会变成你新的舒适区,那时你就会发现自己已经在不知不觉中进步了很多。

小红:听起来挺有意思的。我得好好想想我自己现在的舒适区边界在哪,然后给自己定几个稍微有点难度的新目标。这样才能持续向上成长。

1.5.3 费曼学习法助你高效学习

吴老师:恭喜你已经决心走出舒适区了。下面我们来聊一聊用什么样的学习方法可以高效学习。

小红:这我可太需要了,是什么学习方法呀?

吴老师:这种学习方法叫作“费曼学习法”。费曼学习法是由美籍犹太裔物理学家费曼所发明的,是一种高效的学习方法。费曼本身是一个天才,13岁自学微积分,24岁加入曼哈顿计划(核武器计划),1965年获得诺贝尔物理学奖。费曼以其深入浅出的讲解方式和非凡的直观思维而被世界所熟知。像谷歌创始人谢尔盖·布林、比尔·盖茨、乔布斯、拉里·佩奇,都是费曼学习法的拥戴者。

小红:哇,这可太厉害了。

吴老师:费曼学习法的第一步是选择一个主题,也就是确定你想深入学习的内容。第二步是学习并解释,搜集尽可能多的相关资料并仔细阅读,这个过程中一定要把自己的思考记录下来,然后,将自己学到的知识教授给别人。

小红:我找不到可以教的人怎么办呀?

吴老师:其实,“教学”这个环节可以很灵活。可以把自己想象成一个老师,正在给教室里的学生上课,尽量要求自己用最简单易懂的语言进行阐述,让每一个学生都能迅速听懂。你还可以因地制宜地创造出一些讲课场景,比如写作、录制教学视频、对着手机录音等。

小红:原来教学不一定是对面有一个真人,也可以对着假人讲。

吴老师:你这个理解没毛病,重要的是去使用、去说或去写。在这个过程中会遇到很多问题,比如说不清楚,讲不明白,自己也模棱两可等,那就说明这些知识点并没有熟练掌握,这时候,就需要再回过头去阅读和理解那些资料,搞清楚问题所在后,再继续讲。最后还需要简化和总结,也就是去掉非必要的、多余的信息,并且能够用自己的语言通俗易懂地表达出来,而不是照本宣科。

小红:要简化到什么程度呢?

吴老师:简化到可以通过类比的方式让一个非专业人士听懂。此时,你就真正掌握了这种学习方法。

小红:明白了,用类比的方式确实能让非专业人士听懂。

吴老师:费曼学习法有两个要点。一定要勤写思考笔记,不能只是埋头学习;一定要讲出来或者写出来。我把费曼学习法概括为用自己的语言将知识写下来或讲出来,让别人看得懂或听得懂。

小红:在公司里大家都会使用费曼学习法吗?

吴老师:公司经常安排大家做“转训”,这本身就是在运用费曼学习法。转训之所以有效,是因为它要求你不仅要整理和归纳自己的思路,还要能够用自己的语言将其清晰地表达出来。这个过程不仅能促进你对知识的深入理解,还有助于加强记忆。通过转训,你被迫以教师的身份去思考和沟通,这种角色的转变会极大地提升你的学习效果。

小红:我懂了,能用自己的话讲出来,才算真正理解了。

1.5.4 达克效应助你思考升维

吴老师:说完了学习方法,下面讲讲思维和认知。首先说说思维定势,只要是人就一定会有自己的思维定势,思维定势在一定程度上塑造了我们的世界观,但也限制了我们的工作效果和个人发展。小红,你在工作上有没有什么思维定势?

小红:我想一想。我发现自己在分析问题时往往只会考虑自己能做的方案,而不是想办法找到最佳方案。

吴老师:很好。在分解与思考问题时,只考虑自己能够做的方案,而没考虑这件事情有其他人参与,可能会有其他更好的解决方案,这是刚进入职场的新人常常会遇到的问题。原因是他们害怕犯错或是麻烦别人,不自觉地选择了只做自己能做的事情。当你慢慢成长为资深专家后,便常会陷入只做自己想做的事情,而不是做该做的事情的境地,比如只愿意钻研技术。而当带了团队,特别是带了大团队后,你可能会觉得自己很厉害,不愿意听取他人的意见。但你费劲思考的问题,可能行业已经有成熟的解决方案,问一下就可以节省大量的时间。

小红:听起来思维定势确实很影响工作效率和个人发展,那怎么破除思维定势呢?

吴老师:思维定势往往来自自我的限制,而且自己往往无法察觉,所以要适时地通过外力来破除。如何破除思维定势?怎么持续提升思维和认知?我想给你介绍一个模型,叫作达克效应,讲的是认知的4种境界,你需要先懂得认知的规律。

提问:

详细讲一讲达克效应。

达克效应(Dunning-Kruger Effect)是一种心理现象,由社会心理学家大卫·达克和贾斯汀·克鲁格于1999年提出。这个效应描述了一种认知偏差,即能力较低的人倾向于高估自己的能力,而能力较高的人则倾向于低估自己的能力。

达克效应的主要表现如下。

(1)能力较低的人高估自己:这些人往往缺乏足够的认知能力去准确评估自己的水平,因此他们会过分自信,认为自己的能力比实际情况要好。

(2)能力较高的人低估自己:相反,能力较高的人往往能更准确地认识到任务的复杂性和自己的局限性,因此他们可能会低估自己的表现。

产生达克效应的原因如下。

(1)认知偏差:能力较低的人缺乏评估自己能力的准确标准,因此无法意识到自己的不足。

(2)元认知能力不足:元认知是指对自己认知过程的理解和控制。能力较低的人往往缺乏足够的元认知能力,无法准确评估自己的知识和技能。

(3)社会比较:人们在评估自己的能力时往往会与他人进行比较。能力较低的人可能由于缺乏准确的比较基准,从而高估自己;而能力较高的人则可能因为看到自己与其他高手的差距而低估自己。

达克效应的影响如下。

(1)决策错误:达克效应可能导致个人在工作、学习等方面做出错误的决策,因为他们无法准确评估自己的能力。

(2)教育和培训:在教育和培训领域,了解达克效应有助于设计更有效的教学方法,帮助学生更准确地评估自己的能力,并鼓励学生持续学习和进步。

应对达克效应的策略如下。

(1)增强自我意识:通过反思和自我评估,提高个人对自己能力的认识。

(2)寻求反馈:主动寻求他人的评价和反馈,了解自己的长处和不足。

(3)持续学习:不断学习和提升自己的技能,以减少认知偏差。

吴老师:达克效应描述了一种认知偏差,在讲怎么利用它提升认知之前,我们先举个例子,把达克效应理解透彻。假如甲乙丙丁4个人都在读书。

甲读了3本书,他觉得自己很厉害,但他不知道自己不知道的还多着呢。

乙读了10本,他知道自己读得少,还有很多不知道的知识,他觉得自己仿佛是沙漠里的一粒小沙子。

丙读了50本,他知道自己知道一些知识,但是觉得自己知道得太少了,还在努力地读。

丁已经读了500本,但他不知道自己知道得已经很多了。

吴老师:所以,能力较低的人倾向于高估自己的能力,而能力较高的人则倾向于低估自己的能力。达尔文也说过“无知要比知识更容易产生自信”。刚才说的甲乙丙丁4个人,分别对应这4个不同的阶段。

甲在愚昧山峰,觉得自己很厉害,甚至总愿意与人争执。

乙进入绝望之谷,意识到自己的不足,自我评价开始急剧下降。

丙一步一步稳定攀爬开悟之坡,慢慢可以准确地评估自己的能力了。

丁已经迎来了思考破局的能力。

小红:为什么说可以利用达克效应破除思维定势,从而提升认知呢?

吴老师:因为人最大的愚昧就是不知道自己不知道。攀爬开悟之坡是我们从认识到自己的无知和不足开始,到逐渐学习和掌握足够的知识和技能,自信心逐步恢复的过程。这其实就是我们从舒适区走向拉伸区,并在其中学习和成长的过程。

小红:每个人都会经历这4个阶段吗?

吴老师:其实,这4个阶段更像是一个“轮回”。

刚工作时如果马上能做出成绩,就会觉得自己什么都会,可能陷入“巨婴”时期。

直到老方法行不通,遭遇了重大挫折,陷入绝望之谷。

当伤口慢慢结痂,你开始向前看,进入成长期与自信重建期,开始学习并接纳外界的意见。

成长到“大师”的时候,有可能又有傲气了,于是轮回到“巨婴”时期,周而复始。

小红:有没有可能一直停留在愚昧山峰或者绝望之谷,走不出去了呀?

吴老师:这个问题特别好。有的人可能在愚昧山峰上停留很久,甚至一辈子都不知道自己不知道。有些人可能陷入绝望之谷,因为意识到自己的不足而变得自卑,没有勇气继续前进。只有自我反思,不断学习,即使遇到挫折,也能够继续攀爬的人,才能逐渐接近“开悟”的阶段。你要知道,成长是一个不断循环的过程,不是线性向上的,有时候我们会觉得自己在原地打转,甚至后退了一步,但这每一步,无论看起来是进还是退,都是我们向着更深层次的理解迈进了一步。正是这些起伏不定的经历,构成了我们认识世界、认识自我的完整旅程。

小红:这和数据分析的工作又有什么关系呢?

吴老师:因为你在分析和找到分析思路的过程当中,思维定势会完全限制你更客观地找到有效的解决方案,但如果了解思维定势的过程,接受并加以预防,就不会把自己陷入其中。所以,我们要学会使用 GPT 这个工具。比如,你可以用它来绘图、编辑文本,甚至生成新的报告,有时候,它写的报告可能比我们平时见到的还要好,这样不但工作效率大大提升,思维也会变开阔起来。

小红:我好像有所领悟了,数据思维不仅是一种技能,更是一种思维方式。我得不断磨炼我的思考方式,更深入地去理解那些错综复杂的现象,洞察事物的真正规律。这就是我的终身学习之路,也是通往开悟之坡的旅程。

相关图书

Cursor与Copilot开发实战让烦琐编程智能化
Cursor与Copilot开发实战让烦琐编程智能化
生成式人工智能(基于PyTorch实现)
生成式人工智能(基于PyTorch实现)
大模型应用开发 动手做AI Agent
大模型应用开发 动手做AI Agent
人人皆可Vibe编程:玩转氛围编程
人人皆可Vibe编程:玩转氛围编程
AI原生应用开发:提示工程原理与实战
AI原生应用开发:提示工程原理与实战
AI共生指南:技术探索与人文思考
AI共生指南:技术探索与人文思考

相关文章

相关课程