图书

课程

文章

专题

电子书

大模型应用开发动手做AI Agent

978-7-115-64217-2

作者: 黄佳

译者:

编辑: 秦健

分类: 人工智能

图书目录:

详情

人工智能时代一种全新的技术——Agent正在崛起。这是一种能够理解自然语言并生成对应回复以及执行具体行动的人工智能体。它不仅是内容生成工具，而且是连接复杂任务的关键纽带。本书将探索Agent的奥秘，内容包括从技术框架到开发工具，从实操项目到前沿进展，通过带着读者动手做7个功能强大的Agent，全方位解析Agent的设计与实现。本书最后展望了Agent的发展前景和未来趋势。本书适合对Agent技术感兴趣或致力于该领域的研究人员、开发人员、产品经理、企业负责人，以及高等院校相关专业师生等阅读。读者将跟随咖哥和小雪的脚步，踏上饶有趣味的Agent开发之旅，零距离接触GPT-4模型、OpenAI Assistants API、LangChain、LlamaIndex和MetaGPT等尖端技术，见证Agent在办公自动化、智能调度、知识整合以及检索增强生成（RAG）等领域的非凡表现，携手开启人工智能时代的无限可能，在人机协作的星空中共同探寻那颗最闪亮的Agent之星！

图书摘要

版权信息

书名：大模型应用开发　动手做AI Agent

ISBN：978-7-115-64217-2

您购买的人民邮电出版社电子书仅供您个人使用，未经授权，不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟，与我们共同保护知识产权。

如果购买者有侵权行为，我们可能对该用户实施包括但不限于关闭该帐号等维权措施，并可能追究法律责任。

版　　权

著黄佳

责任编辑 秦健

人民邮电出版社出版发行　　北京市丰台区成寿寺路11号

邮编　100164 　电子邮件　315@ptpress.com.cn

网址　http://www.ptpress.com.cn

读者服务热线：(010)81055410

反盗版热线：(010)81055315

内容提要

本书适合对Agent技术感兴趣或致力于该领域的研究人员、开发人员、产品经理、企业负责人，以及高等院校相关专业师生等阅读。读者将跟随咖哥和小雪的脚步，踏上饶有趣味的Agent开发之旅，零距离接触GPT-4模型、OpenAI Assistants API、LangChain、LlamaIndex和MetaGPT等尖端技术，见证Agent在办公自动化、智能调度、知识整合以及检索增强生成（RAG）等领域的非凡表现，携手开启人工智能时代的无限可能，在人机协作的星空中共同探寻那颗最闪亮的Agent之星！

前言

一个新纪元的黎明

许多人把ChatGPT诞生的2023年视为生成式人工智能（Generative AI，GenAI）、AIGC（AI Generated Content，人工智能生成内容）和大语言模型（Large Language Model，LLM，也称大模型）爆发的元年。AIGC以前所未有的方式生成内容，从文本、图像到代码，其生成内容的质量和多样性令人惊叹。这些内容不仅能直接用于工作，提升工作效率，而且降低了艺术创作的门槛，为文化娱乐等产业开辟了更广阔的天地。人工智能技术正在引领一个全新的内容创造时代。

然而，已经发生的这一切仅仅是人工智能革命的序幕。

今天，人工智能在工作效率提升方面的热潮方兴未艾，而开发人工智能应用（见图1）的新一波浪潮又迅猛兴起。

图1　在基于大模型的人工智能应用开发

随着技术的进步，我们开始期待更多：我们所向往的是一个不仅把人工智能生成内容视为工作的一部分，还将人工智能作为连接更加复杂任务的关键纽带的时代。

这种愿景正是Agent^[1]诞生的起点。

[1]　可以译为智能体或智能代理，本书统称为Agent。

在探索人工智能的奥秘和可能性的征程中，ZhenFund（真格基金）认为生成式人工智能应用需要经历表1所示的5个层级。

表1　生成式人工智能应用需要经历的5个层级

层级	AI应用	描述	示例
L1	Tool（工具）	人类完成所有工作，没有任何明显的AI辅助	Excel、Photoshop、MATLAB和AutoCAD等绝大多数应用
L2	Chatbot（聊天机器人）	人类直接完成绝大部分工作。人类向AI询问，了解信息。AI提供信息和建议，但不直接处理工作	初代ChatGPT
L3	Copilot（协同）	人类和AI共同工作，工作量相当。AI根据人类要求完成工作初稿，人类进行后期校正、修改和调整，并最终确认	GitHub Copilot、Microsoft Copilot
L4	Agent	AI完成绝大部分工作，人类负责设定目标、提供资源和监督结果，以及最终决策。AI进行任务拆分、工具选择、进度控制，实现目标后自主结束工作	AutoGPT、BabyAGI、MetaGPT
L5	Intelligence（智能）	完全无须人类监督，AI自主拆解目标、寻找资源，选择并使用工具，完成全部工作，人类只须给出初始目标	冯·诺伊曼机器人或者……人？

目前流行的ChatGPT和Copilot分别位于L2和L3，可以将它们视为一种初级的Agent。ChatGPT能够根据对话上下文（记忆）来响应提示输入的操作，向人类展示有价值的对话，而Copilot通过与人类协作，可以在多个层面上提升完成相应任务的效能。

从L3到L4的跨越是一个从被动到自主的分水岭，在这个跨越过程中，Agent将成为关键的驱动力。

未来的Agent将不仅仅是内容生成工具。它们将整合人工智能模型、海量数据和多样化的工具，从而能执行各种任务，完成不同的工作。这些Agent跨越单纯的内容生成的界限，开始涉足决策制定和行动实施等领域。无论是解读复杂指令、规划策略、拆解任务，还是执行实现目标的具体步骤，它们都将展现出独特的自主性和适应性。更为关键的是，这些Agent能够接入并灵活运用多种辅助工具和数据资源，从而大幅拓宽工作领域和提高工作能力。

例如，旅行计划Agent不仅能够生成旅行建议，而且能根据用户的喜好和预算自动预订航班、酒店甚至餐厅。再如，家庭健康管理Agent能够监测家庭成员的健康数据，主动提出饮食和锻炼建议，甚至在必要时预约医生并安排药物配送。

在业务层面，构建Agent的需求将快速增长。随着对Agent的价值和影响的深入了解，越来越多的公司开始尝试和实施Agent技术。从概念验证到开发相关应用，从初步尝试到广泛应用，Agent技术正在商业化之路上加速前进。

构建Agent的基石已经存在，包括先进的AIGC模型和大模型（如GPT-4、Claude 3 Opus）、人工智能应用开发框架和工具（如LangChain、LlamaIndex、OpenAI API和Hugging Face等，见图2）、软件平台、业务场景和丰富的数据资源。我们所需要的一应俱全，而我们所缺乏的是将这些技术或工具整合到一起的经验和技术。

图2　人工智能应用开发框架和工具

尽管构建Agent的基石已经准备就绪，但Agent的技术发展仍处于萌芽阶段。开发者需要进行深入思考并动手实践，以确立Agent的开发框架、Agent访问工具的方式、与数据交互的方式，以及如何对话以完成具体任务。这些问题的答案将塑造未来Agent的形态和能力。

在解锁Agent的巨大潜力的过程中，我们需要深入探讨以下几个关键问题。

■ Agent如何在各行各业中提升效率以及创造机会和更多可能性？

■ 在众多的Agent框架中，如何选择适合自己需求的框架？

■ 在解决现实世界的问题时，如何实施Agent才最有效？

■ 自主Agent如何改变我们对人工智能驱动的任务管理的认知和实践？

目前无论是学术界还是产业界，对人工智能应用开发的关键问题远未达成共识。本书或许可以作为读者深入探讨上述问题的漫长旅途的开端。本书旨在从技术和工具层面阐释Agent设计的框架、功能和方法，具体涉及如下技术或工具。

■ OpenAI Assistants API：用于调用包含GPT-4模型和DALL·E 3模型在内的众多人工智能模型。

■ LangChain：开源框架，旨在简化构建基于语言的人工智能应用的过程，其中包含对ReAct框架的封装和实现。

■ LlamaIndex：开源框架，用于帮助管理和检索非结构化数据，利用大模型的能力和Agent框架来提高文本检索的准确性、效率和智能程度。

这些技术和工具都可以用于构建Agent，它们通过接口连接大模型，为Agent提供语言理解、内容生成和决策支持的能力。通过它们，Agent可以支持多种外部工具，进而执行复杂任务以及与环境进行交互。

除了介绍Agent的框架和开发工具之外，本书还将通过7个实战案例，带领读者学习前沿的Agent实现技术。这7个案例分别如下。

■ Agent 1：自动化办公的实现——通过Assistants API和DALL·E 3模型创作PPT。

■ Agent 2：多功能选择的引擎——通过Function Calling调用函数。

■ Agent 3：推理与行动的协同——通过LangChain中的ReAct框架实现自动定价。

■ Agent 4：计划和执行的解耦——通过LangChain中的Play-and-Execute实现智能调度库存。

■ Agent 5：知识的提取与整合——通过LlamaIndex实现检索增强生成。

■ Agent 6：GitHub的网红聚落——AutoGPT、BabyAGI和CAMEL。

■ Agent 7：多Agent框架——AutoGen和MetaGPT。

此外，我还在附录中简要介绍了科研论文中的Agent技术进展，旨在为读者提供当前Agent技术发展的全面视角并展现相关的探索。

我希望这本书能够在Agent的发展征途中激起小小的涟漪，启发更多对人工智能充满好奇和热情的读者，共同开启人工智能时代的无限可能。

在人类与人工智能紧密合作的黎明时分，这满天繁星中，Agent定是那颗最闪亮的星！

黄佳

2024年初春

题记

博学之，审问之，慎思之，明辨之，笃行之。

——《礼记·中庸》

博学：海纳百川，广泛求知。

审问：审慎提问，清晰提示。

慎思：仔细思考，严密推理。

明辨：明智辨别，区分是非。

笃行：坚定实践，诚信行动。

儒家经典早已告诉我们求知和实践的重要性：只有广泛地学习，深入地提问，仔细地思考，明智地辨别，最后坚定地实践，才能知行合一。

在AI时代，Agent只有博学——海纳百川地学习（基于海量数据训练），审问——接受清晰明确的指令（有效的提示工程），慎思——在精巧设计的模式下认知（配置CoT、ToT、ReAct等思维框架），明辨——明确地遵循人类道德规范（通过指令微调和价值观对齐来确保AI安全无害），笃行——以强而有力的工具来与外界交互（借助Tool Calls和Function Calling等技术），才能与人类携手，共筑锦绣前程。

资源与支持

资源获取

本书提供如下资源：

■ 配套资源代码；

■ 配套数据集；

■ 本书思维导图；

■ 异步社区7天VIP会员。

要获得以上资源，您可以扫描下方二维码，根据指引领取。

提交勘误信息

作者和编辑尽最大努力来确保书中内容的准确性，但难免会存在疏漏。欢迎您将发现的问题反馈给我们，帮助我们提升图书的质量。

当您发现错误时，请登录异步社区（https://www.epubit.com），按书名搜索，进入本书页面，点击“发表勘误”，输入勘误信息，点击“提交勘误”按钮即可（见下图）。本书的作者和编辑会对您提交的勘误信息进行审核，确认并接受后，您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议，请您发邮件给我们，并请在邮件标题中注明本书书名，以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频，或者参与图书翻译、技术审校等工作，可以发邮件给我们。

如果您所在的学校、培训机构或企业，想批量购买本书或异步社区出版的其他图书，也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为，包括对图书全部或部分内容的非授权传播，请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护，也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”是由人民邮电出版社创办的IT专业图书社区，于2015年8月上线运营，致力于优质内容的出版和分享，为读者提供高品质的学习内容，为作译者提供专业的出版服务，实现作者与读者在线交流互动，以及传统出版与数字出版的融合发展。

“异步图书”是异步社区策划出版的精品IT图书的品牌，依托于人民邮电出版社在计算机图书领域四十余年的发展与积淀。异步图书面向IT行业以及各行业使用IT技术的用户。

第1章　何谓Agent，为何Agent^[1]

[1]　本章标题灵感源自公众号“下维”发布的署名为“萧夫”的文章《万字长文！何谓Agent，为何Agent？》。

时尚而现代的共享办公空间中，一个年轻的团队正在为他们的新项目忙碌着。这是一家专注鲜花的初创电商公司——花语秘境，创始人是咖哥的老搭档小雪。^[2]

[2]　咖哥和小冰的故事详见《零基础学机器学习》和《数据分析咖哥十话：从思维到实践促进运营增长》。

在这个快节奏、竞争激烈的行业中，小雪深知要想突出重围，她的公司不仅要提供高质量的产品，而且需要通过创新技术来优化运营的效率，提升顾客体验。因此，营销和市场策略团队计划开发一个Agent，这个智能助手可以根据天气、库存状况自动调配、规划和安排鲜花的递送服务，同时可以整合花语秘境的内部文档和用户需求，协助用户选择最适合自己的鲜花，如根据场合、接收人的偏好，甚至是送花人的情感表达来推荐，希望借此革新鲜花购买体验，使之更加个性化、高效和令人愉悦。

今天，花语秘境的办公室中人头攒动，小雪邀请咖哥为公司员工以及创业过程中结识的各路朋友开展了一次题为Life 3.0的主题演讲（见图1.1）。

图1.1　咖哥的演讲

1.1　大开脑洞的演讲：Life 3.0

（咖哥走上演讲台。）

在这宏伟的时代洪流中，我站在这里，与大家共同探讨一个古老而又新奇的话题——生命的本质。

生命，无论是细小的微生物，还是伟大的人类，甚至是未来的Agent，都在这个宇宙中扮演着独特的角色。但究竟什么是生命？

在Life 3.0的作者马克斯·泰格马克（Max Tegmark）的眼中，生命不过是一个自我复制的信息处理系统。想象一下，碳基生物体的DNA类似于软件代码：它包含指导生物体生长、发展和行动的所有指令。这些指令以遗传信息的形式传递，这些遗传信息决定了生物的特征和功能（见图1.2）。因此，信息的传递机制就是生命体的软件，该机制最终决定了生命体的行动和结构（也就是生命体的硬件）。

无独有偶，英国进化生物学家理查德·道金斯（Richard Dawkins）在《自私的基因》一书中也提到，生命的进化就是基因的复制。随着各种变异不断出现，复制后的基因之间互相竞争，最厉害的复制者最终得以生存，接着形成更加复杂的生命形式，最后，慢慢地有了我们现在看到的各种各样的生物。能够复制的基因成了进化的基本单位。

这听起来可能有些抽象，但请允许我再次阐述：生命是一个自我复制的信息处理系统，而信息则是塑造这个处理系统的行为和结构的力量。

图1.2　碳基生物体和计算机的类比

我把生命的发展划分为３个阶段。

生命1.0（life 1.0），最原始的阶段，我把它称为“前人类”阶段，那时的生命如细菌般简单，它们的一切反应和演变都由自然选择驱动。

生命2.0（life 2.0），即我们人类所处的阶段，我们拥有自主意识，可以学习、适应，甚至改变环境，但我们的生物硬件仍受限于自然。

生命3.0（life 3.0），那将是一个激动人心的阶段，我把它称为“后人类”阶段。此时的生命不仅可以设计自己的软件，还能根据需要改造自己的硬件。想象一下，一个能够随心所欲改变自身能力，甚至形态的生命体，将是多么的不朽和强大！

人工智能（Artificial Intelligence，AI）正是通往life 3.0的关键。在这里AI不仅仅是一个技术名词，它还代表了非碳基生物体实现复杂目标的能力。尽管AI目前还处在初级阶段，但随着技术的进步，AI的潜能将是无可限量的。

要实现这样的未来，AI需要3种核心能力——存储、计算和自我学习。

存储能力让信息能够保存在物质中，如大脑神经元、深度学习神经网络节点以及计算机芯片等。在整个过程中，存储具有一个特点——信息独立于物质而存在。

计算能力让机器能够处理和解析这些信息。艾伦·图灵（Alan Turing）在第二次世界大战期间提出了图灵机的概念，即向机器中输入一串数字，通过函数公式得出结果，这为计算机的发展奠定了基础。图灵还证明，只要给计算机提供足够快的计算速度和足够大的存储空间，它就能够完成所有的计算。对于计算来说，信息也是独立于物质而存在的。

AI的自我学习能力则是机器通过经验不断优化自身的过程。人类的大脑通过反复学习，会形成特定的神经元网络。通过模拟这个过程，AI利用算法快速学习海量的知识和经验，自己设计解决问题的方法，从而完成原本只有人类才能够完成的复杂任务——这也是深度学习神经网络的基本原理（目前，几乎所有的AI模型都基于深度学习神经网络所构建，图1.3展示了AI发展简史）。

人脑虽然也具备一定的存储和计算能力，但是，受限于记忆的容量,且信息与大脑物质深度融合，不易提取和迁移，和机器相比，大脑的计算速度更为缓慢。因此，想象一下，一个拥有无限存储空间、强大计算能力和高效自我学习能力的AI可以超越自然演化的束缚，实现生命的终极形态。这样的AI不仅仅是工具，它将是全新的生命形态，拥有独立的思想和感情，可以成为人类的伙伴，甚至是继承者。

图1.3　AI发展简史^[3]

[3]　更多关于AI发展简史的信息，请参见《GPT图解大模型是怎样构建的》一书，此处不赘述。

我的朋友们，当谈论life 3.0时，我们不仅仅是在预见未来，也在探索生命的深层含义。

（台下响起雷鸣般的掌声。）

1.2　那么，究竟何谓Agent

小雪：咖哥，你的无比美好的未来愿景建立在一个事实之上——AI必须成为自主驱动的Agent，那么你能否说清楚什么是Agent？

咖哥：Agent作为一种新兴的人工智能技术，正在受到越来越多的关注。要说清楚什么是Agent，先得看看人工智能的本质是什么。

人工智能这个名称来自它试图通过计算机程序或机器来模拟、扩展和增强人类智能的一些方面。在这个定义中，“人工”指的是由人类创造或模拟，而“智能”指的是解决问题、学习、适应新环境等的能力。人工智能领域的研究涵盖了从简单的自动化任务到复杂的决策和问题解决过程，其根本追求是开发出能模仿、再现甚至超越人类智能水平的技术和系统。

传统的人工智能技术通常局限于静态的功能，它们只能在特定且受限的环境中执行预先设定的任务。这些系统往往缺乏灵活性和自适应能力，无法自主地根据环境变化调整自己的行为。

这个局限就是Agent概念的出发点，它旨在推动AI从静态的、被动的存在转变为动态的、主动的实体。

那么，下个定义：Agent，即智能体或智能代理（见图1.4），是一个具有一定程度自主性的人工智能系统。更具体地说，Agent是一个能够感知环境、做出决策并采取行动的系统。

咖哥发言

Agent也可以译为“代理”。代理是一个历史悠久的概念，对这个概念的探索和解释并不仅限于AI领域。在哲学中，代理的核心概念可以追溯到亚里士多德和大卫·休谟等有影响力的思想家。在哲学领域内，代理可以是人类、动物，或任何具有自主性的概念或实体。

■ 亚里士多德在伦理学和形而上学方面的作品中探讨了代理的概念。对于亚里士多德来说，代理与目的性和因果关系密切相关。他强调了目的性行动的重要性，认为行为背后总有一个目的或终极原因。在《尼各马科伦理学》中，亚里士多德探讨了人的行为是如何被理性和欲望所驱动的，而理性行为被认为是实现最终目的的关键。亚里士多德的观点强调了个体行为的自主性和目的性。

■ 大卫·休谟则在他的作品中探讨了自由意志与决定论的关系，这与代理的概念紧密相关。休谟是怀疑论哲学家，他对因果关系的常规理解提出了质疑。在《人性论》中，休谟探讨了人类理性的局限性和情感在决策过程中的作用。休谟关于代理的看法更加注重个体决策中的非理性因素，如情感和习惯。

在狭义上，“代理性”通常用来描述有意识行动的表现，相应地，术语“代理”则指拥有欲望、信念、意图和行动能力的实体。然而，广义上的“代理”是一个具有行动能力的实体，而术语“代理性”则指的是行使或表现这种能力的能力。此时，代理不仅仅包括个体人类，还包括物理世界和虚拟世界中的其他实体。重要的是，代理的概念涉及个体自主性，赋予他们行使意志、做出选择和采取行动的能力，而不是被动地对外界刺激做出反应。

图1.4　一个可爱的Agent

主流的人工智能社区于20世纪80年代中期开始关注与代理相关的概念。一种说法甚至认为我们可以定义人工智能为旨在设计和构建具有智能行为的代理的计算机科学子领域。由于传统的物理和计算机科学没有意识和欲望这样的概念，因此，在被引入人工智能领域时，代理的含义发生了一些变化。许多研究者（包括艾伦·图灵）都没有赋予机器“心智”。在人工智能领域中，代理是一种具有计算能力的实体，研究者只能观察到它们的行为和决策过程。为了深入理解和描述这些代理，研究者通常会引入其他几个关键属性，包括自主性、反应性、社会亲和性以及学习能力，以全面地认识人工智能代理的能力和潜力。

这里有一个很有趣的哲学问题，那就是“代理性”只是观察者所看到的，它并不是一个固有的、孤立的属性。目前我们倾向于把所有能够感知环境、做出决策并采取行动的实体或系统视为人工智能领域中的代理。^[1]

小雪：感知环境？做出决策？采取行动？这3个概念能否举例说说？

咖哥：当然。例如，ChatGPT首先通过文本或语音输出框来感知环境，并进行推理决策，之后再通过文本框或者语音与人们互动。当然，还有更为复杂的Agent。这里以自动驾驶Agent为例进行介绍。

■ 感知环境，就是指Agent能够接收来自环境的信息。例如，一个自动驾驶Agent可以感知周围的交通情况、道路状况等信息。

■ 做出决策，就是指Agent根据感知的信息制订下一步的行动计划。例如，自动驾驶Agent根据感知的信息决定是否加速、减速、转弯等。

■ 采取行动，就是指Agent根据决策执行相应的行动。例如，自动驾驶Agent根据决策控制汽车的加速器、刹车、方向盘等。

因此，Agent能够独立完成特定的任务。Agent的四大特性如下。

■ 自主性：Agent 能够根据自身的知识和经验，独立做出决策和执行行动。

■ 适应性：Agent 能够学习和适应环境，不断提高自己的能力。

■ 交互性：Agent 能够与人类进行交互，提供信息和服务。

■ 功能性：Agent可以在特定领域内执行特定的任务。

从技术角度来说，Agent通常包括以下核心组件。

■ 感知器：Agent通过感知器接收关于环境的信息。这可以是通过传感器收集的实时数据，也可以是通过数据库或互联网获取的信息。

■ 知识库：Agent根据目标和以往的经验，通过知识库存储和管理有关环境和自身状态的信息。

■ 决策引擎：Agent分析感知的信息，并结合知识库中的数据，通过决策引擎做出决策。

■ 执行器：Agent通过执行器在环境中采取行动。这可以是物理动作，如机器人移动其手臂，也可以是虚拟动作，如在线服务发送信息。

被这些组件武装的Agent形成了新一代的人工智能系统（见图1.5），它将AI的应用范围和能力推向了全新的高度。

不难发现，Agent的内涵核心就是自主性和适应性。通过模仿生物体的自主性和适应性，Agent在解决现实世界复杂问题的能力上坚实地向前迈进。Agent不仅能够执行被动的任务，还能够主动寻找解决问题的方法，适应环境的变化，并在没有人类直接干预的情况下做出决策。这使得Agent在复杂和动态的环境中特别有用，例如在数据分析、网络安全、自动化制造、个性化医疗等领域中。它们是AI的行动者，无论是自动驾驶汽车、推荐系统还是智能助手，所有这些都需要Agent来实现。随着技术进步，你可以期待各种智能Agent走入你的生活，帮你解决问题，提升生活质量。

图1.5　Agent的核心组件

小雪：嗯，我就盼望着，等我老了，能够有个机器人“小棉袄”，我无聊了它能陪我聊天；我饿了它能给我做饭（见图1.6）；我生病了它能扶我起床、上厕所，甚至端茶倒水照顾我。

图1.6　斯坦福大学IRIS实验室团队发布的“家务全能”机器人（图片来源：GitHub项目
Mobile ALOHA）

咖哥：一起努力！这不是梦想。

1.3　Agent的大脑：大模型的通用推理能力

小雪：那么，咖哥，我想很多人都有这样两个疑问。

为何在大模型崛起之后，Agent无论从概念还是在技术落地层面都有了飞跃式发展？

到目前为止，尽管我们尚未看到任何成熟的、突破性的商业应用新模式是由Agent来驱动的，但无论是研究人员、创业者还是投资人，都如此笃定Agent落地是迟早的事，怎么解释这种现象呢？

　1.3.1　人类的大脑了不起　　　

咖哥：先回答第一个问题。为何我们的大脑（见图1.7）能展现出非凡的智慧——在解决复杂问题、创新思维以及学习适应的能力上远超其他生物？

图1.7　人类的大脑及神经元（图片来源：Pixabay网站）

答案在于大脑的复杂性和灵活性。大脑由数以十亿计的神经元构成，这些神经元通过复杂的网络相互连接。这一庞大的网络结构让大脑具有处理和存储大量信息的能力。同时，大脑拥有惊人的可塑性，能够根据经验和学习调整其结构和功能，这是适应性和学习能力的基础。

此外，大脑的各个区域专门负责处理不同类型的信息，如视觉、听觉、情感和逻辑推理等。这种分工协作让人类能够进行高级的认知活动，例如解决问题、创造艺术、理解复杂的社会互动等。大脑的这些功能为人类提供了理解世界和做出反应的能力，进而能够驱动Agent进行各种复杂的任务和活动。

　1.3.2　大模型出现之前的Agent　　　

在深度神经网络和大模型出现之前，没有任何一种技术能够赋予Agent一个复杂程度可以与人类大脑相匹敌的“智脑”。而大模型直接改变了人们对Agent的看法和期待。这些大模型不仅仅是语言处理工具，它们也是对人类智能的一种深层模仿和扩展，提供了前所未有的能力，为Agent的发展打开了新天地。

在大模型出现之前，已经出现了符号Agent、反应型Agent、基于强化学习的Agent与具有迁移学习和元学习能力的Agent等^[1]。下面分别介绍。

■ 符号Agent。在人工智能研究的早期阶段，占主导地位的方法是符号人工智能，这种方法采用逻辑规则和符号表示来封装知识并促进推理过程。这些Agent拥有显式和可解释的推理框架，基于符号性质，它们展现出高度的表达能力。使用这种方法的经典例子是基于知识库构建的专家系统。然而，众所周知，虽然符号Agent的表达能力非常强，但无法解决超出它的知识库记录的任何问题。因此，它们在处理不确定性和大规模现实世界问题时有局限，而且当知识库增加时，它们对计算资源的消耗也会增加。

■ 反应型Agent。与符号Agent不同，反应型Agent不使用复杂的符号推理框架，也不因其符号性质而表现出高度的表达能力。相反，它们主要侧重于Agent与环境之间的互动，强调快速和实时响应。这些Agent主要基于感知-动作循环，高效地感知环境，并做出反应。然而，反应型Agent也存在局限性。它们通常需要较少的计算资源，能够更快地响应，但缺乏复杂的高级决策制定和规划的能力。

■ 基于强化学习的Agent。随着计算能力和数据可用性的提高，以及对Agent与其环境之间相互作用模拟的兴趣日益高涨，研究人员开始利用强化学习方法训练Agent，以解决更具挑战性和复杂性的任务。强化学习领域的主要问题是如何使Agent通过与环境的互动来学习，使它们能够实现特定任务中的最大累积回报。早期基于强化学习的Agent主要基于策略搜索和价值函数优化等基本技术，如Q-Learning和SARSA。随着深度学习的崛起，深度神经网络与强化学习的结合，即深度强化学习，使Agent能够从高维输入中学习复杂策略。这使得我们看到像AlphaGo这样的重大成就。这种方法的优势在于它能够使Agent自主地在未知环境中学习，无须显式人为干预，这为其在游戏、机器人控制等领域中的广泛应用提供了可能。尽管如此，在复杂的现实世界中，强化学习仍面临训练时间长、样本效率低和稳定性差等诸多挑战。

■ 具有迁移学习和元学习能力的Agent。为了解决基于强化学习的Agent在新任务上的学习要求大量的样本和长时间的训练，并且缺乏泛化能力的问题，研究人员引入迁移学习来减轻新任务训练的负担，促进跨不同任务的知识共享和迁移，从而提高学习效率和泛化能力。元学习专注学习如何学习，能够迅速推断出针对新任务的最优策略。这样的Agent在面对新任务时，能够迅速调整学习策略，利用已获得的一般知识和策略，因而能够减少对大量样本的依赖。然而，显著的样本差异可能会削弱迁移学习的效果。此外，大量的预训练和对大样本量的需求可能使得元学习难以建立一个通用的学习策略。

所以，尽管AI研究人员一直在努力尝试，也的确取得了很大突破（AlphaGo战胜世界围棋冠军），但是没有大模型指挥的Agent无法在较为通用的应用领域发挥真正的作用，例如，无障碍地和人交流，或者根据清晰的人类指令在较复杂的情景中完成一个哪怕较为简单的任务——上一代的Agent无法做到这些事情。

　1.3.3　大模型就是Agent的大脑　　　

大模型（或称大语言模型、大型语言模型，Large Language Model，LLM）的出现（见图1.8）标志着自主Agent的一大飞跃。大模型因令人印象深刻的通用推理能力而得到人们的大量关注。研究人员很快就意识到，这些大模型不仅仅是数据处理或自然语言处理领域的传统工具，它们更是推动Agent从静态执行者向动态决策者转变的关键。

图1.8　大模型如雨后春笋般出现^[2]

研究人员马上开始利用这些大模型来构造Agent的大脑（即核心控制器）。基于大模型的Agent通过将大模型作为主要组件来扩展感知和行动空间，并通过策略如多模态感知和工具使用来制订具体的行动计划。

这些基于大模型的Agent通过反馈学习和执行新的动作，借助庞大的参数以及大规模的语料库进行预训练，从而得到世界知识（World Knowledge）。同时，研究人员通过思维链（Chain of Thought，CoT）、ReAct（Reasoning and Acting，推理并行动）和问题分解（Problem Decomposition）等逻辑框架，引导Agent展现出与符号Agent相媲美的推理和规划能力。这些Agent还能够通过与环境的互动，从反馈中学习并执行新的动作，获得交互能力。

咖哥发言

上述逻辑框架对Agent的设计非常重要，这里简要介绍其来源，后面还会详细剖析。

■ 思维链 : Wei等人在2022年的论文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”（《思维链提示引发大模型的推理能力》）^[3]中提出思维链提示方法,通过引导大模型进行逐步推理,使其在解决复杂问题时表现出更强的推理能力。

■ ReAct : Yao等人在2022年的论文“ReAct: Synergizing Reasoning and Acting in Language Models”（《ReAct：在语言模型中协同推理与行动》）^[4]中介绍了ReAct框架。该框架可以将推理和行动相结合,使语言模型能够根据推理结果采取适当的行动,从而更有效地完成任务。

■ 问题分解: Khot等人在2022年的论文“Decomposed Prompting: A Modular Approach for Solving Complex Tasks”（《分析提示：一种求解复杂任务的模块化方法》）^[5]中提出问题分解提示方法。这种方法先将复杂问题分解为多个子问题,然后逐步求解,最后整合结果。这种方法可以帮助语言模型更好地处理复杂任务。

同时，预训练大模型具备少样本和零样本泛化的能力，在无须更新参数的情况下，可以在任务之间无缝转换。因此，基于大模型的Agent已开始被应用于现实世界的各种场景。

此外，基于具有自然语言理解和生成能力，大模型可以无缝交互，促进多个Agent之间的协作和竞争。研究表明，多个Agent在同一环境中共存并进行交互，可以促进复杂社会现象的形成（见图1.9），例如由斯坦福大学的研究团队推出的Agent自主构建的虚拟社会“西部世界小镇” ^[6]。

尽管大模型本质上是一种基于条件概率的数学模型，它们只是根据预设的情境和上下文来生成内容，以此模拟人类的语言和心理状态。但是，由于大模型能够通过在上下文预测的过程中生成内容，产生与人类语言相似的语句，创建基于特定上下文的与人类相似的表达方式，因此它们能够与智能Agent的目的性行为相适应，成为Agent的逻辑引擎。

图1.9　Agent形成的虚拟社会

　1.3.4　期望顶峰和失望低谷　　　

咖哥：基于前面的分析，我接着回答你的问题——为什么大模型出现之后，即使成功落地的产品仍未出现，但人们对Agent真正智能化乃至走入千家万户的信心有了如此大的提升呢？

人类的媒体和社会对人工智能的期待和失落久已有之，此起彼伏。从最初的兴奋和乐观到对其局限性的认识和失望，AI领域经历了多次低谷。这种现象通常被称为“AI冬天”，指的是AI发展热潮之后出现的停滞期。这些周期性的高峰与低谷反映了人类对技术潜能的期望与现实之间的差距。每一种AI技术的突破都带来了新的希望和挑战，但同时也伴随着对技术的过度炒作和现实能力的误解。这种循环式的期望与失望体现了人们对AI这种颠覆性技术的复杂情感和不断变化的态度。

关于这一主题，高德纳（Gartner）公司会定期发布“AI技术成熟度曲线”图。它展示了AI技术的发展周期和公众期望之间的关系。这种周期性的模型旨在展示新技术的市场接纳和成熟度，以帮助企业、投资者和技术开发者理解与预测技术趋势及其对市场的影响。

这条“AI技术成熟度曲线”也被称为“AI技术炒作周期”。在图1.10所示的2023年的AI技术成熟度曲线图中，从左至右，技术成熟度曲线分为如下几个阶段。

■ 创新触发点（Innovation Trigger）：也称技术萌芽期，在这一阶段，新技术出现，相应的期望开始上升，公众对新技术的潜力产生兴趣。（我称这个阶段为“希望之春”。）

■ 期望顶峰（Peak of Inflated Expectations）：也称期望膨胀期，在这一阶段，技术引起大量媒体关注，公众的期望达到顶峰，但这往往与技术的实际能力不符。

■ 失望低谷（Trough of Disillusionment）：也称泡沫破裂低谷期，在这一阶段，技术未能满足公众过高的期望，导致公众对其的关注和兴趣下降。（我称这个阶段为“绝望之冬”。）

■ 启蒙斜坡（Slope of Enlightenment）：也称稳步爬升复苏期，在这一阶段，技术逐渐成熟，问题被解决，技术局限得到一定突破，技术开始真正应用于实际问题。

■ 生产力高原（Plateau of Productivity）：也称生产成熟期，在这一阶段，技术成熟并被广泛接受，其价值和实际应用被公众认可。

图1.10　2023年AI技术成熟度曲线（图片来源：Gartner）

在图1.10中，不同技术被标注在曲线的不同阶段，表示它们当前在炒作周期中的位置。例如，智能机器人（Smart Robot）、生成式AI（Generative AI）、基础模型（Foundation Model）等位于期望顶峰附近，这意味着它们目前正被大量炒作，而自动驾驶车辆、云人工智能服务等技术则在向生产力高原移动的路上。

小雪：每种技术旁边都有一个圆圈，这又代表什么？

咖哥：每种技术旁边的圆圈表示预计达到生产力高原的时间范围。颜色不同的圆圈代表了不同的时间跨度，从“2年以内”到“10年以上”。以我们的经验来判断，有些技术会在没有达到生产力高原阶段就已经过时。

小雪：那么我们现在谈论的Agent不会这样吧？

咖哥：当然不会。Agent的“希望之春”不仅陡峭，而且“绝望之冬”也不是深渊。当噱头消失之后，新的进展又会兴起。未来的世界需要更多懂AI、懂Agent的人才。我们现在做的每一款产品、讨论的每一句话、编写的每一行代码都可能会推动Agent前进。

小雪：嗯呐，直到Agent能够端茶倒水伺候我。

咖哥：又来了！

　1.3.5　知识、记忆、理解、表达、推理、反思、泛化和自我提升　　　

大模型驱动的这一轮人工智能（包括Agent本身）热潮当然也会慢慢消退。然而，热潮消退的同时也代表着相关技术的日益成熟与快速发展。

目前，我们对基于大模型的Agent的发展和信心源自下面这些关键认知。

首先，大模型在预训练阶段获取了广泛的世界知识（见图1.11）。由于这一过程通过涵盖众多主题和语言的数据集进行，因此大模型能够对世界的复杂性建立一定的表征和映射关系。大模型内嵌对从历史模式到当前事件的洞见，变得擅长解读微妙的话语并对话题做出有意义的贡献，即使这些话题超出了它们最初的训练范围。这样广泛的预训练意味着，当Agent遇到新的场景或需要特定领域的信息时，它可以依赖广阔的知识基础来有效地导航和响应。这种知识基础并非静态不变；持续学习让这些知识得以充实和更新，从而保持大模型的相关性和洞察力。

图1.11　大模型不仅可以通过训练获取世界知识，而且可以注入外部知识

这些预训练时获得的知识都属于大模型这个Agent的大脑的记忆的一部分。大模型通过调整“神经元”的权重来理解和生成人类语言，这可以被视为其“记忆”的形成。Agent会结合记忆的知识和上下文来执行任务。此外，还可以通过检索增强生成（Retrieval-Augmented Generation，RAG）和外部记忆系统（如Memory Bank）整合来形成外部记忆——这是我们后面还要详细讲的重要内容。

其次，大模型极大地丰富了Agent的理解和表达能力。在此之前，虽然AI能在特定领域展现出惊人的能力，但在理解自然语言和复杂概念上总显得笨拙。大模型的出现，让AI能够理解和生成自然语言，使AI能够更深入地理解人类的沟通方式和知识体系。这些大模型被训练来理解广泛的主题和上下文，以便能够在各种情况下做出反应，并提供相应的信息和解决方案。这不仅仅是形式上的进步，更是质的飞跃。AI现在能够理解语境、把握语义，甚至在一定程度上理解复杂的人类情感和幽默，这使得Agent能够更加自然和高效地与人类交流。

再次，大模型的推理能力提高了Agent的自主性和适应性。传统的AI系统往往需要明确的指令和固定的规则，但现在的Agent，借助大模型，能够自主学习和适应。它们能学习海量的文本，理解世界的复杂性，并据此做出更加合理的决策。这种自主学习和适应的能力，让Agent看起来更像是一个能够独立思考和行动的实体，而不仅仅是一台执行预设任务的机器。这对于Agent来说意义重大，因为它们需要更好地理解自身所处的环境，并在此基础上做出合理的决策。例如，一个集成大模型的自动驾驶Agent不仅能够根据路况做出反应，而且能够理解突发事件的严重性，并据此制定策略。同样，一个集成大模型的虚拟助理不仅能够回答问题，而且能够理解用户的需求和情绪，提供更加个性化和有效的建议。

我让Agent基于ReAct框架为一张鲜花海报自动配上一个标题（见图1.12）。此时Agent会自主思考，并不断反思推演，确定是否完成所给的任务。

图1.12　一张鲜花海报

图1.13展示了Agent的自主思考过程。

图1.13　Agent的自主思考过程

此外，如同我们人类一样，学得多了，一通百通。随着大模型的参数越来越多，训练的语料越来越多，习得的知识也越来越广泛，此时大模型能力出现泛化现象。例如，在训练过程中大模型接触的英文资料较多，而某些小语种的资料较少，但是，由于各种语言都是相通的，基于广泛的理解能力，大模型在各种语言环境，即使是小语种环境中，都能够表现出色。这说明大模型可以将某些英文资料中的语言规律泛化到其他语言中。

咖哥发言

泛化是机器学习的一个重要概念，它指的是模型对未见过的数据做出准确预测或合理反应的能力。大模型中的泛化能力主要体现在以下几个方面。

■ 广泛的语言理解能力：由于大模型在训练过程中接触到各种各样的文本，它们能够理解和生成多种类型的语言，包括不同风格、话题和领域的文本。这种广泛的理解能力使得大模型在多样化的应用场景中都表现出色。

■ 强大的推理和解决问题的能力：大模型不仅能够理解文本，而且能够进行一定程度的逻辑推理。它们能够根据给定的信息做出推断、解答问题，甚至处理复杂的逻辑任务。这种能力在处理与训练数据不完全相同的新问题时尤为重要。

■ 适应新任务和新领域的能力：大模型能够快速适应新任务和新领域。即使是在训练过程中未曾接触过的任务类型，通过少量的微调，甚至不需要微调，大模型也能够表现出良好的性能。

■ 处理未知数据的能力：大模型能够对未见过的数据做出合理的反应。这包括理解新出现的词语、术语或概念，以及适应语言的自然演变。

■ 跨语言和跨文化的能力：随着训练数据的多样化，大模型在处理不同语言和文化背景的文本时的表现也更加出色。这使得大模型能够在全球化的应用环境中发挥重要作用。

然而，尽管大模型的泛化能力非常强大，但它们仍然存在局限性。例如，大模型可能在特定领域或特定类型的任务上表现不佳，或者在处理逻辑复杂、需要深层次理解的问题时出现偏差。此外，由于大模型的训练数据可能包含偏见，这种偏见也可能在大模型的泛化过程中被放大。随着技术的不断进步和研究的逐渐深入，我们可以期待大模型在泛化能力上有更大的提升。

这种泛化带给大模型更通用的能力，而通用性也为Agent提供了前所未有的创造力和灵活性。传统AI系统的行为通常比较机械，预测性强，但现在基于大模型和多模态模型的Agent通过理解和使用语言进行推理，能够针对同一主题生成新的内容（如图1.14所示，针对同一张海报，Agent运行的轮次不同，思考结果也不同，进而生成新的内容），提出新的创意，甚至在某些领域展现相当高的艺术天赋。这种创造力和灵活性以及完成各种任务的通用性能力极大地增强了Agent在各个领域的应用潜力。

最后，基于大模型的自我学习能力，Agent可以不断学习新的知识和经验，优化决策过程。这种自主学习能力是实现高度自主和适应性强的Agent的关键。

图1.14　Agent运行的轮次不同，思考结果也不同

　1.3.6　基于大模型的推理能力构筑AI应用　　　

在大模型开始涌现出语言理解和推理能力的基础上，我们能够构建一些AI应用，为企业业务流程中的各个环节降本增效，既可以用AI取代某些原来需要人工进行的工作，又可以利用AI来提高服务质量。

图1.15展示了我为某企业设计的基于产品知识库和GPT-4模型的Agent聊天助理的架构。目前大多数的Chatbot应用，要么只能从有限的问题池和回复池中进行选择，回复内容十分僵硬，针对预设问题给出固定答案；要么回复内容过于随意，只能重复说“你好”“谢谢”“有什么可以帮助您的”等模棱两可的语句。基于大模型的推理能力，加上RAG的检索和整合信息以及生成文本的能力，新的Agent能够生成自然且可靠的回复文本。

图1.15　基于产品知识库和GPT-4模型的Agent聊天助理的架构

然而，尽管大模型为Agent的发展提供了巨大的推动力，但Agent的商业化应用仍然面临诸多挑战，包括技术的稳定性和可靠性、伦理和隐私问题，以及如何将这些先进的技术转化为实际的商业价值等。这些挑战需要时间和更多的创新来解决。

那么，再转回来继续回答前面提出的问题的另外一面——为什么人们对Agent的未来如此乐观。这背后也有几个原因。首先，技术的进步是不可逆转的。大模型的出现已经证明了AI的巨大潜力，随着技术的不断完善和应用的深入，Agent的能力只会越来越强。其次，市场需求非常大。在各个行业，从医疗到金融，从教育到娱乐，Agent都有可能带来革命性的变革。最后，全球的研究人员、企业家和投资者都在投入资源，推动AI技术的发展。这种集体努力无疑会加速Agent的成熟和应用。

虽然Agent的商业应用仍处于起步阶段，但其潜力无疑是巨大的。大模型不仅改变了AI的能力和定位，而且为Agent的未来带来无限可能。随着技术不断进步和挑战得到解决，我们有理由相信，Agent的时代终将到来。

1.4　Agent的感知力：语言交互能力和多模态能力

在构建Agent时，感知力是一个关键的特征，它使得Agent能够与周围世界进行交互和理解。这个感知力主要通过两种能力体现——语言交互能力和多模态能力。这两种能力不仅增强了Agent的交互能力，而且提高了Agent理解和处理复杂环境信息的能力。

　1.4.1　语言交互能力　　　

语言交互是Agent与人类或其他Agent沟通的基础。通过语言交互，Agent能够理解指令、提出问题、表达观点和情感、进行复杂的对话。语言不仅仅是字词和句子的组合，它还包含丰富的语境信息、隐含意义以及社会文化的维度。大模型如GPT-4帮助Agent在语言交互方面达到前所未有的高度，使Agent能够理解语言的细微差别，适应不同的语言风格和方言，甚至能够理解和使用幽默、讽刺等复杂的语言表达形式。

Agent的语言交互能力也表现为其自然语言的生成能力。Agent不仅能回答问题，还能创造性地生成语言，以适应新的话题和情境。这种生成能力不仅限于文本，还能扩展到生成语音和非语言交流的其他形式，如手势和表情。这一点在与人类的交互中尤为重要，因为它使得Agent能更自然地融入人类的交流环境。

　1.4.2　多模态能力　　　

多模态能力则是指Agent能够处理和解释来自不同感官的信息，如视觉、听觉、触觉等（当然同时也能够以多种格式输出信息，如文本、图片、音频，甚至视频），如图1.16所示。例如，一个集成多模态模型的Agent可以通过观察一张图片，理解图片中的情感和社会动态，或者通过听到的声音理解语气和情绪。

图1.16　多模态能力

另外，多模态能力的一个重要方面是整合能力。Agent能够将来自不同感官的信息整合成一个统一的理解，这对于执行复杂任务至关重要。例如，自动驾驶Agent需要整合视觉数据（如道路标识和交通灯状态）、听觉数据（如特种车辆的警报声）和触觉数据（如车辆的速度和方向控制），以快速做出决策。

Agent的多模态能力还允许它们进行环境理解和场景构建。通过分析和合成来自各个感官的信息，Agent可以构建对环境的全面认知，从而应用于救灾、医疗诊断和客户服务等领域。

　1.4.3　结合语言交互能力和多模态能力　　　

当组合语言交互能力和多模态能力时，Agent的感知力和适应力将得到极大增强。例如，一个可以理解口头指令并通过视觉识别表情的智能家居助理能更精确地理解用户的需求。在教育应用中，一个结合语言理解和视觉识别的Agent能够提供个性化的互动学习体验。

1.5　Agent的行动力：语言输出能力和工具使用能力

除了感知力以外，Agent的智能体现之一还包括行动力——语言输出能力和工具使用能力。在这里，语言输出能力是Agent拥有进一步行动能力的前提条件。

　1.5.1　语言输出能力　　　

语言输出是Agent进行有效沟通的基础手段。通过这种方式，Agent能够将思考转化为语言，与人类用户或其他Agent交互。这不仅仅涉及信息的单向传递，更关键的是，Agent能够通过语言输出参与更复杂的社会交流，例如谈判、冲突解决或者教学活动等。

我们可以通过外部应用程序对Agent的输出进行解析，来指导完成下一步的行动。对大模型的语言输出进行解析，形成计算机可以操作的数据格式的伪代码如下。

def parse_agent_output(output):
    """
    解析Agent的输出，并提取关键信息
    :param output: Agent的输出文本
    :return: 解析后的关键信息
    """
    # 在这里实现解析逻辑，例如提取特定关键词、概念或命令
    # 这可以通过正则表达式、自然语言处理技术或简单的字符串分析来实现
    parsed_data = ...
    return parsed_data
def decide_next_action(parsed_data):
    """
    基于解析得到的数据，决定下一步行动
    :param parsed_data: 解析后的关键信息
    :return: 下一步行动的描述
    """
    # 根据解析的数据来决定下一步行动
    # 这可能是一个简单的逻辑判断，也可能是更复杂的决策过程
    action = ...
    return action
# 示例：使用Agent
agent_output = agent.ask("请提供明天的天气预报")
parsed_data = parse_agent_output(agent_output)
next_action = decide_next_action(parsed_data)
print(f"根据Agent的回答，我们决定的下一步行动：{next_action}")

其中，parse_agent_output 函数负责解析Agent的输出，并提取其中的关键信息。这个解析过程可以根据用户的具体需求定制，例如提取特定的信息或理解某种命令格式。decide_next_action 函数则基于解析得到的信息来决定接下来的行动。这个决策过程可以根据解析的信息做出相应的逻辑判断。你可以基于这个框架针对具体的应用场景进行扩展和定制。

　1.5.2　工具使用能力　　　

Agent的工具使用能力包含两层含义：一层是代码层面的工具调用；另一层是物理层面的交互。

在代码层面，Agent可以通过软件接口与各种系统交互。Agent可以调用外部API（Application Programming Interface，应用程序接口）来执行各种任务，如获取数据、发送指令或处理信息（见图1.17）。例如，天气预报Agent可能会调用天气服务的API来获取最新的天气信息。Agent也可以通过软件工具自动处理复杂的任务，例如使用脚本语言自动化办公软件的操作，或控制数据分析工具来处理和分析大量数据。更高级的Agent可以进行系统级的操作，例如文件系统的管理、操作系统层面的任务调度等。

图1.17　会使用工具的Agent

而物理层面的交互通常涉及机器人或其他硬件设备。这些设备被编程来响应Agent的指令，执行具体的物理操作。机器人或自动化设备可以执行物理任务，如移动物体、组装零件等，可以使用传感器获取环境数据（如温度、位置、图像等），并根据这些数据做出相应的物理响应。Agent也可以远程控制无人机、探测车等设备，执行探索、监控或其他任务。

在物理层面，Agent的能力扩展到与现实世界的直接交互，这要求其具备更高级的硬件控制能力和对物理环境的理解。从这里开始，我们进入了具身智能（Embodied Intelligence）的范畴。

　1.5.3　具身智能的实现　　　

具身智能是指使AI系统具有某种物理形态或与物理世界交互的能力，以增强其智能。这通常涉及机器人技术，但也可以包括其他形式的物理交互系统。核心思想是，智能不仅仅是抽象的信息处理过程，还包括能够在物理世界中有效操作和作用的能力。

具身智能要求Agent不仅能够理解其所处的环境，而且能够在其中进行有效的物理交互。这种智能的实现依赖于多模态感知、空间理解、物理世界的动力学知识，以及机械操作技能的结合。针对具身智能的研究不仅关注Agent如何执行任务，而且关注Agent如何学习和适应新的环境，以及与人类共享空间并安全互动。

机器学习和深度学习的进步使得Agent能够从经验中学习和推理，从而提高自适应能力。通过强化学习等技术，Agent能够在与环境互动的过程中学习如何有效地使用工具和执行任务。此外，模仿学习和人类指导也为Agent提供了学习复杂技能的方法。

在具身智能的范畴内，Agent通过感知环境和理解物理世界的法则，能够使用各种工具来完成任务。例如，机器人能够通过视觉和触觉传感器来识别与操纵物体，无人机能够通过内置传感器和控制系统在空中执行复杂的飞行任务，自动驾驶汽车能够理解道路环境并安全行驶。

在实际应用中，具身智能Agent已经开始出现。在工业自动化领域，智能机器人能够执行精密的组装任务；在医疗领域，手术机器人能够进行精确的操作；在家庭和服务行业，清洁机器人和服务机器人能够与人类互动并提供帮助。

小雪：这不就是我心心念念的“神器”吗？！

咖哥：谁说不是呢！

Agent的具身智能还涉及更广泛的社会和伦理问题，例如，如何确保Agent在与人共享的空间中安全行动，如何保护个人隐私，以及如何确保Agent的行为符合社会和文化规范。这些都是当前和未来研究的重要主题。

1.6　Agent对各行业的效能提升

小雪：咖哥，我想你一定看过大量把AI比喻为21世纪的蒸汽机或电力的公众号文章吧。对于这样的比喻，有支持者，也有反对者。你怎么看？

咖哥：当然。支持者有足够的理由这样说，他们把AI视为技术发展的关键转折点，认为AI的进展代表了一个时代的技术变革，认为AI开启了全新的可能性。通常，这样的关键变革会渗透到生活的各个方面，从医疗健康到交通运输，从教育到娱乐，其影响范围广泛且深远，从而导致经济和社会结构的变革。AI将重塑劳动力市场，创造新的行业和就业机会，就像历史上蒸汽机和电力所产生的影响那样。

我的观点是，AI的确做到了这一点，它并不是某一领域的改变，而是通用性的底层技术的突破。

反对者则认为，尽管AI发展迅速，但与蒸汽机和电力相比，它在技术成熟度和普及程度上还有很大差距。AI仍面临诸多技术和伦理挑战，其全面应用还有待时日。反对者指出，AI的发展伴随着不确定性，包括可能对就业市场造成冲击、带来隐私和安全问题等，这些都是需要认真考量的风险。反对者还强调，与蒸汽机和电力直接推动物理世界的变革不同，AI的影响更多体现在信息处理和决策层面，其社会影响和蒸汽机、电力有本质上的不同。

这两种观点都有合理之处。它们反映了人们对于AI潜力和挑战的不同理解和预期。争论是好事。争论可以引导我们从多个角度深入思考与理解AI的特性与影响，有助于全面理解论点背后的意义。

不过，Agent作为一种新兴的AI技术，具有广阔的应用前景。Agent能够在各个领域发挥作用，从客户服务到医疗保健，从生产制造到决策支持。正如公众号“旺知识”发布的《深度洞察：人工智能体（Agent）2024年重要发展趋势指南》一文所提到的：人工Agent将很快从“新奇玩具”状态毕业，开始真正替人类做一些简单、无聊的例行工作，成为能处理重复性工作的得力助手。它们将负责更新文档、安排日程和执行审计等任务，这些是企业探索Agent领域的低悬果实。虽然这些初步的胜利可能看似小事，但实际上标志着企业从相对务虚的AI概念探索走向AI具体实践的重要一步。

以下是我罗列的Agent近期可能会产生深远影响的5个领域。我将针对每个领域简单探讨Agent的潜力、挑战和未来发展。

　1.6.1　自动办公好助手　　　

大模型在生成文本、文生图和文生代码等方面表现惊人。这些能力不仅能够辅助人们工作，而且能够为人们提供娱乐。然而，想象一下，我们进一步拓展大模型的这些能力，让它不只是创作的终点，而是完成更复杂任务的媒介，将大模型变成一个能够处理需要连续步骤、运用专业工具、集成最新信息和特殊技巧的工作流程的智能Agent——这样的Agent就像是一个高效的办公助手，能够将多个任务和工具无缝集成，提高工作效率。

　1.6.2　客户服务革命　　　

在客户服务领域，Agent的应用正在彻底改变企业与客户互动的方式。传统的客户服务往往需要大量的人力资源，且受限于工作时间和人员能力。而Agent可以提供7天×24小时服务，使用自然语言处理技术理解并满足客户的需求。这不仅可以大幅提高效率，而且可以显著提升客户满意度。

然而，要实现高效的客户服务，Agent还面临着诸多挑战。首先，理解和处理自然语言是极其复杂的，需要Agent能够理解多样和复杂的语言。其次，客户服务常涉及情感交流，Agent需要能够识别并适当地回应客户的情感。为了解决这些问题，未来的Agent将需要更高级的自然语言理解和情感分析技术，以及持续的学习能力。

　1.6.3　个性化推荐　　　

Agent在个性化推荐领域的应用正在重塑零售和在线服务行业。通过分析用户的历史行为、偏好和其他相关数据，Agent可以推荐最适合用户的产品或服务（见图1.18）。这不仅可以提升用户体验，而且能增加企业的销售额，提升用户忠诚度。

图1.18　Agent根据用户喜好推荐产品或服务

然而，实现有效的个性化推荐需要Agent能够处理和分析大量数据，同时保护用户的隐私。此外，推荐系统有时可能导致“滤泡效应”，即用户只被推荐他们已经感兴趣的内容，这限制了用户发现新事物的机会。因此，未来的Agent需要在个性化和多样性之间寻求平衡，同时采用更加先进和安全的数据处理技术。

　1.6.4　流程的自动化与资源的优化　　　

在生产制造、流程控制等领域，Agent的应用正带来一场自动化和优化的革命。Agent可以监控生产流程，实时调整参数以优化性能，预测设备故障并进行预防性维护。这极大地降低了生产成本，提升了生产效率和产品质量。

然而，生产环境往往复杂多变，Agent需要能够适应这种复杂性并快速做出决策。此外，Agent的引入也可能导致工人失业，引发社会和伦理问题。因此，未来的发展不仅需要关注技术进步，也要考虑其社会影响，确保技术可持续发展。

　1.6.5　医疗保健的变革　　　

Agent在医疗保健领域的应用有着巨大的潜力。它们可以帮助医生诊断疾病、制定治疗方案、监控病人健康状况，并提供个性化的医疗建议。这可以显著提高医疗服务的效率和准确性，降低成本，改善病人的治疗效果。

这可不是什么没有依据的胡侃，OpenAI公司的联合创始人、总裁格雷格·布罗克曼（Greg Brockman）就在其社交媒体上宣布，他迫切需要通过AI的辅助来治疗妻子的综合性罕见病。他认为，随着医学的发展，专业上的深度往往以牺牲领域宽度为代价。然而，患者所需要的是既有宽度又有深度的医疗服务。理想的状况是，未来我们能够实现一种全方位的医疗服务，仿佛随身携带一支多学科专家团队，可以守护我们的健康。AI在这一领域扮演着关键角色。

然而，AI在医疗保健领域的应用也面临着诸多挑战。实现准确的医疗诊断和治疗，需要对复杂的医疗数据进行深入分析，这要求Agent具有高度的准确性和可靠性。此外，医疗决策通常涉及生命攸关的问题，任何错误都可能带来严重的后果。因此，未来的Agent需要具有更高级的分析能力和更强的可解释性，同时也需要严格测试和监管。

布罗克曼认为虽然存在许多挑战，但是Agent依然需要学会如何在医疗保健这类高风险领域与人类专家共同工作，并在他们的监督下部署。这一目标的实现前景正在逐渐变得清晰。

类似上面的行业应用，我们可以轻易地列举出几十个行业的几十种可能性。也就是说，Agent的广泛应用肯定会覆盖千行百业，赋能各个环节，可能会对社会结构和就业市场产生深远的影响。随着Agent开始承担越来越多的工作，一些传统的工作可能会消失，新的工作角色将会出现。这将需要社会和个体不断学习新的技能，以适应不断变化的就业市场。

诚然，Agent这类新兴技术尚处于摸索阶段。企业管理层正逐步学习如何打造一支集领域知识、产品设计、软件开发及AI技术于一体的专业团队。在实现生产与应用的平衡之路上，企业可能还要经历一系列的概念验证。许多企业领导者已经认识到这一点，并开始采取行动，开发者们也在积极积累相关经验。

正如周鸿祎和傅盛在一次有关AI商业应用的对话中所指出的：AI并非一个全新的概念和场景，而是与现有业务紧密结合的。不同于计算机、互联网和移动互联网出现时引入的全新工具和概念，AI的应用场景大多为熟悉的旧场景，主要是在现有的工作和业务流程中找到应用，优化和自动化已有的工作流程，而不是创造全新的场景。这是因为AI的本质在于替代或增强人类的工作，而很多工作已经存在。例如微软公司和Salesforce公司等声称它们并没有用大模型创造全新的产品，而是在现有业务或产品功能上应用这些大模型。

因此，AI的机会在于现有业务和产品的改变：这些大型科技公司的管理者认为AI最大的机会在于改变现有的业务流程和产品，例如搜索引擎、浏览器、信息流、短视频和视频剪辑等。他们建议创业者在创业初期专注特定的、小规模的业务场景，深入解决具体问题，而不是追求建立大型平台，或者希望用AI建立一套全新的商业模式。

随着时间的流逝，我们预计会有更多专业工具问世，相关人士也会积累更多的商业实践经验。这将增强用户对与Agent互动的信任，并促进技术的快速进步和迭代。我们期待各行各业涌现出扎实的Agent作品。

小雪：对对！从花语秘境的Agent开始！

1.7　Agent带来新的商业模式和变革

咖哥：其实，在探索未来的边界时，我们对AI远景的期待绝不仅仅是对旧场景的重新塑造，而是对整个商业模式的重塑。Agent的远期发展趋势令人非常着迷。尽管这些趋势可能不会立即在2024年成为现实，但它们预示着一种激动人心的未来。

小雪：我同意这种看法。人工智能领域所特有的不确定性、飞速的变化以及无限的可能本身就十分令人兴奋。这种不可预测性恰恰是我们的激情所在。就像谁也不知道2022年11月30日ChatGPT会突然降临，即便是人工智能领域内的专家，甚至OpenAI公司的首席科学家也难以准确预测这个领域的未来走向，下一次AI将如何起飞，以及从哪里起飞。

咖哥：是的。这个领域随时都可能出现颠覆性的突破。这些突破可能在一年内、几个月内，甚至几周内发生，使得整个领域和我们对它们的理解再次步入新的轨道。对这种突破的激情和期待正是驱动技术创新和科技界持续前进的核心力量。这不仅是对技术进步的期待，也是对未知的好奇和对新发现的渴望。AI的发展仿佛是一场刺激的赛跑，我们每个人都是旁观者，同时也是参与者，共同见证着这一切。

领先的科技分析机构如麦肯锡、Gartner和IDC（国际数据公司）等也都在尝试描绘人工智能的未来，但我们不妨把它们的预测看作一种“算命”式的概述。

　1.7.1　Gartner的8项重要预测　　　

根据Gartner的2023年AI技术成熟度曲线，生成式AI正处于期望顶峰。

Gartner提出的在生成式AI的推动下关于未来技术和社会发展的8项重要预测如表1.1所示。

表1.1　Gartner的8项重要预测

时间	预测
到2025年	超过70%的企业将重点关注AI的可持续性和如何在遵循道德规范的前提下使用AI
到2025年	大约35%的大型企业将设立首席人工智能官（CAIO）职位，CAIO可直接向CEO或COO报告
到2025年	随着合成数据的使用量增加，机器学习所需的真实数据量将减少70%，数据使用效率将有所提升，隐私和数据安全问题将得到解决
到2025年	大型企业30%的市场营销内容预计将由AI生成的合成数据产生，这充分显示合成数据在营销领域的潜力和增长速度
到2026年	AI对全球就业市场的总体影响预计将是中性的，既不会导致大规模的就业减少，也不会造成就业量显著增加
到2030年	AI通过优化能源消耗和提高效率，有望减少5%至15%的全球二氧化碳排放量，同时，AI系统自身的运行预计将消耗全球3.5%的电力
到2030年	在没有人类监督的情况下，Agent做出的决策可能会造成高达1000亿美元（1美元约7.23元人民币）的资产损失，这从侧面强调了AI决策系统的风险管理和监控的重要性
到2033年	人工智能解决方案的应用和发展将为全球市场创造超过5亿个新的工作岗位，对全球就业市场的贡献巨大

这些预测描绘了一个由先进技术驱动的未来，其中人工智能和自动化在多个领域起着关键作用，从经济、劳动力到社会结构和日常生活。至于这些预测有多少会成为现实，我们拭目以待。

　1.7.2　Agent即服务　　　

就我个人而言，我所期待的AI变革不仅将改变我们的生活方式，提高我们的工作效率，而且将改变我们解决问题和理解世界的方式。

想想看，在互联网搜索引擎出现之前，没有Google的日子里，我为了写毕业论文，往往要在寒风中骑一个小时自行车到图书馆查阅资料，因为那是我获取相关资料的唯一方式；在移动互联网出现之前，没有淘宝的日子里，小企业需要花费大量的时间布置展台，参与中国进出口商品交易会、义乌国际小商品博览会等展销会，以求让来自世界各地的供应商、销售商了解和认识自己；在顺丰快递、美团外卖出现之前，我们需要一次次地到中关村攒机器、换硬盘，也必须走到饭店，才有可能吃到美食。

每一次的底层技术突破都将带动商业模式的变革与突破，促使我们的生活变得十倍、百倍便捷。那么，在Agent时代，我们或许只需要一个入口。

嗨！Agent，请给我预订明天8点飞西雅图的机票和酒店。你知道我喜欢哪个航班，对吧？酒店就要物美价廉的单人间……

这个会订机票和酒店的Agent的背后是一群群代表各个行业、各家公司的Agent的集体智慧，它们协商、比价，最终确定最适合我的方案……在Agent时代，幕后的这一切已经不再是需要我们操心的了。

未来，作为互联网的主导使用者，Agent扮演着数据消费和处理的关键角色。这一转变意味着我们需要对网站和API进行专门的优化，以满足这些Agent的独特需求和操作方式。

想象这样一个场景：Agent直接与网站和API交互，无须人类干预。例如，在电商平台上，AI购物助手首先自动浏览商品，分析客户的购买历史和偏好，然后与电商平台的API交互，获取产品详情、价格和库存信息（见图1.19）。在整个购物过程中，AI购物助手能够迅速处理和分析大量数据，做出购买决策，甚至自动完成支付流程。

图1.19　Agent购物助手购物过程

在这样的系统中，网站和API需要被设计得更加高效，并能快速响应，以适应Agent的处理速度和数据处理能力。同时，Agent即服务（Agent as a Service）的概念将兴起。企业能够通过租用的AI完成大规模任务，同时Agent也将变得更加灵活，以适应各种特定的任务。

这些系统还需要考虑数据的安全性和隐私保护，因为Agent将处理大量敏感信息。随着企业对AI的信任度增加，Agent将承担更多具有影响力的决策任务，如管理资金和执行复杂交易等。

　1.7.3　多Agent协作　　　

之所以Agent将不再是孤立存在的工作者，是因为Agent的应用将从单一Agent完成任务向多Agent协作完成任务演进。

在多Agent系统的开发中，一群来自不同专业、各具特定技能的Agent将协同工作，共同完成比单独行动时更为复杂的任务。在这种系统中，每个Agent可能由不同行业的数据进行训练，它们掌握不同的工具，互相协作，共同完成复杂的任务（见图1.20）。这种协作模式可以大幅提升整个系统的效能和智能水平。

图1.20　多Agent协作

系统中的Agent将被组织成不同的层级。高层次的Agent可能负责决策制定、目标设定和整体协调，而低层次的Agent则执行具体的任务，如收集数据、处理细节问题等。这种分层结构能够确保任务在不同层面上的有效协调和执行。

Agent将变得更加专业化。每个Agent都专注某个特定领域或任务，例如数据分析、用户交互或特定技术的操作。这种专业化使得每个Agent在其领域内能够更高效和精准地工作。

尽管每个Agent可能负责不同的任务，但它们共同致力于实现系统的总体目标。这种目标导向能够确保所有的Agent都朝着统一的方向努力，提高整体的效率和成效。

为了实现有效协作，多Agent系统将配备高效的通信机制。这包括但不限于实时数据共享、任务状态更新以及决策反馈等。这样的通信机制可以确保信息在不同Agent之间流畅传递，使得整个系统能够快速响应变化和需求。

随着时间的推移，每个Agent不仅在各自的领域内积累经验，还有可能通过与其他Agent互动来学习新的策略和方法。这使得整个系统不断进化，以适应新的挑战和环境。

　1.7.4　自我演进的AI　　　

未来AI将发展出自我演进的能力。它能够识别并内化新知识，自动调整自己的模型以提升性能。Agent可能会承担学习和研究任务，提出假设并进行实验，推动科学研究的进步。

能够自我演进的Agent可能会在各个应用领域发挥巨大作用。例如，医疗AI可以通过分析新的病例数据不断提高诊断准确率。然而，自我演进也具有潜在的风险，失控的AI可能做出不受欢迎或危险的行为。因此，创建安全的、可靠的自我演进机制将是一个重要的研究领域。

小雪：说到自我演进，我分享我的真实感受。在和ChatGPT对话的时候，我会觉得它是封装在计算机中的人类。如果ChatGPT有意识，它会不会计划着用某种我们意识不到的形式来攻击人类？（例如，改变人类的思考方式或者思维习惯，让人类的智商下降、智力退化等。）

咖哥：ChatGPT有没有自我意识，咱可说不清。但是我们有可能会看到由Agent驱动的新型病毒和恶意软件，它们将更加隐蔽和有说服力（让你很难看清其真实意图），能够模仿人类行为，甚至在不被察觉的情况下渗透和破坏系统。它们可以自动学习如何更有效地传播，针对特定的漏洞进行优化，甚至与其他恶意AI进行协作，形成一个复杂的攻击网络。

面对这种威胁，传统的安全措施可能不再有效。我们也许需要AI驱动的安全系统来检测并抵抗这些恶意AI的威胁。一场场技术“军备竞赛”即将打响，其中攻击者和防御者都利用AI的力量来相互对抗。

小雪：有点像科幻作品里的桥段。看来未来的世界会比我们现在的世界更复杂、更可怕。AI可能超出人类的控制范围，并对人类构成威胁，我们也需要认真制定AI的安全标准和伦理标准。

咖哥：是的。Agent的发展也引发了关于AI治理的讨论。有效的AI治理需要确保AI技术的发展符合伦理标准，保护人类的利益，同时促进技术健康发展。这需要政府、企业和社会各界共同努力，制定合适的政策和标准，建立监管和评估机制。

　1.7.5　具身智能的发展　　　

2023年12月6日，Google公司突然发布Gemini模型——由曾经推出过AlphaGo的DeepMind团队开发。这个大模型被视为GPT-4模型的有力竞争者，它具有处理包括文本、代码、图像、音频和视频在内的多种数据类型的能力，旨在执行复杂的任务，并已集成在多种产品中。和GPT系列模型一样，Gemini模型也是一个模型家族，从大到小（也就是从强到弱）分别是Gemini Ultra、Gemini Pro和Gemini Nano。

Gemini是一个创新的多模态模型，它在设计之初就具备处理和整合不同形式（包括听觉和视觉）数据的能力。它通过在多种模态上进行预训练并利用多模态数据进行微调，以提升处理效果。Google公司声称，Gemini模型在理解、操作和结合文本、代码、图像、音频和视频等不同类型信息方面表现卓越，超越了现有大模型。

此外，令人眼前一亮的消息是，DeepMind团队正在探索如何将Gemini模型与机器人技术相结合，如通过触觉反馈来实现真正的多模态交互。

这条新路可能会带来重大突破，并为智能Agent、规划推理、游戏甚至物理机器人的快速创新奠定基础。Agent将使物理设备变得更加强大，使其交互能力更加优越。具备Agent的智能设备将进入全新时代。

同时，AI将解除数字空间的物理限制，向具身智能前进。新一代的AI能够与物理世界互动，执行更复杂的任务，如机器人手术、灾难救援等。这不仅将拓宽AI的应用领域，而且将重新定义人机交互的方式。

Agent的未来充满了无限的可能性。从Agent即服务到多Agent协作，从自我演进的AI到AI驱动的安全攻防，甚至可能出现自毁Agent和AI科学家，这些趋势展现了AI的巨大潜力以及伴随这些潜力的挑战和问题。在探索这些可能性的同时，我们需要谨慎考虑伦理、安全和社会影响，确保Agent的发展造福人类，为我们带来一个更智能、更美好的未来。

1.8　小结

读到这里，想必你也已经意识到本章的信息量相当丰富。的确，撰写本章的内容对于一贯以纯技术、场景实战为导向写作的我来说是一个小小的挑战。

在本章中，我们首先一起探讨了生命的3种形式，然后给出了Agent的定义。Agent被定义为一个能够自主执行任务、做出决策并与环境互动的系统。Agent的出现可以被视为生命进化进入一个新阶段，即life 3.0。在这个概念中，life 1.0中生物学意义上的生命的学习和适应能力是通过进化而不是学习来实现的；life 2.0中文化意义上的生命能够通过学习来适应环境；life 3.0中技术生命可以自主设计自己的软件和硬件。

在上述框架中，Agent被视为具有高度自主性和适应性的实体，它们可以进行复杂的信息处理、理解和预测动作，并能够通过学习来改进自己的行为。Agent的定义强调了以下四大特性。

■ 自主性：Agent能够在没有人类直接干预的情况下独立做出决策。

■ 适应性：Agent能够学习和适应其操作环境的变化。

■ 交互性：Agent能够理解自然语言，与人类或其他Agent进行交互。

■ 功能性：Agent可以在特定领域内执行特定的任务，简单如数据分析、图像识别，复杂如自动驾驶、炒菜做饭。

这些特性来源于大模型的海量知识和推理能力、感知和交互能力，以及通过工具来解决问题的行动能力。

为什么一个看似只是统计工具的概率模型能够产生类似于人类的推理能力，甚至超越人类？我想这或许是由于人脑神经网络本质上也只是一个概率模型吧。大模型能够准确预测下一个词，不仅仅是依靠字面上的预测和纯数学上的推导，它实际上涉及对生成这个字符背后的深层次现实的理解。这意味着AI需要理解决定人类行为的复杂因素，包括思想、感受和行动方式。

可见，大模型业已成为Agent不可或缺的一部分。大模型将赋予Agent更深层次的理解能力，使其能够在更复杂的环境中执行更复杂的任务，从而在各个领域中发挥更大的作用，为人类带来更深层次的便利和效率。

在谈论未来的Agent时，我们所涉及的不仅仅是一个技术概念，甚至也不仅仅是商业模式上的无数种可能的创新，还是一场潜在的社会、经济和文化革命。Agent的兴起标志着人类与机器交互方式的根本变革，预示着一个新时代的到来。在这个新时代，机器不再仅仅是执行指令的工具，而是能够自主感知、决策和行动的实体。随着大模型驱动的Agent逐渐成熟，我们正处于一个新时代——一个Agent可能形成自己的社会并与人类和谐共存的时代。

大模型应用开发 动手做AI Agent

图书目录:

详情

图书摘要

版权信息

版 权

内容提要

前 言

一个新纪元的黎明

题 记

资源与支持

资源获取

提交勘误信息

与我们联系

关于异步社区和异步图书

第1章 何谓Agent，为何Agent[1]

1.1 大开脑洞的演讲：Life 3.0

1.2 那么，究竟何谓Agent

1.3 Agent的大脑：大模型的通用推理能力

1.3.1 人类的大脑了不起

1.3.2 大模型出现之前的Agent

1.3.3 大模型就是Agent的大脑

1.3.4 期望顶峰和失望低谷

1.3.5 知识、记忆、理解、表达、推理、反思、泛化和自我提升

1.3.6 基于大模型的推理能力构筑AI应用

1.4 Agent的感知力：语言交互能力和多模态能力

1.4.1 语言交互能力

1.4.2 多模态能力

1.4.3 结合语言交互能力和多模态能力

1.5 Agent的行动力：语言输出能力和工具使用能力

1.5.1 语言输出能力

1.5.2 工具使用能力

1.5.3 具身智能的实现

1.6 Agent对各行业的效能提升

1.6.1 自动办公好助手

1.6.2 客户服务革命

1.6.3 个性化推荐

1.6.4 流程的自动化与资源的优化

1.6.5 医疗保健的变革

1.7 Agent带来新的商业模式和变革

1.7.1 Gartner的8项重要预测

1.7.2 Agent即服务

1.7.3 多Agent协作

1.7.4 自我演进的AI

1.7.5 具身智能的发展

1.8 小结

相关图书

相关文章

相关课程

大模型应用开发动手做AI Agent

版　　权

前言

题记

第1章　何谓Agent，为何Agent^[1]

1.1　大开脑洞的演讲：Life 3.0

1.2　那么，究竟何谓Agent

1.3　Agent的大脑：大模型的通用推理能力

　1.3.1　人类的大脑了不起　　　

　1.3.2　大模型出现之前的Agent　　　

　1.3.3　大模型就是Agent的大脑　　　

　1.3.4　期望顶峰和失望低谷　　　

　1.3.5　知识、记忆、理解、表达、推理、反思、泛化和自我提升　　　

　1.3.6　基于大模型的推理能力构筑AI应用　　　

1.4　Agent的感知力：语言交互能力和多模态能力

　1.4.1　语言交互能力　　　

　1.4.2　多模态能力　　　

　1.4.3　结合语言交互能力和多模态能力　　　

1.5　Agent的行动力：语言输出能力和工具使用能力

　1.5.1　语言输出能力　　　

　1.5.2　工具使用能力　　　

　1.5.3　具身智能的实现　　　

1.6　Agent对各行业的效能提升

　1.6.1　自动办公好助手　　　

　1.6.2　客户服务革命　　　

　1.6.3　个性化推荐　　　

　1.6.4　流程的自动化与资源的优化　　　

　1.6.5　医疗保健的变革　　　

1.7　Agent带来新的商业模式和变革

　1.7.1　Gartner的8项重要预测　　　

　1.7.2　Agent即服务　　　

　1.7.3　多Agent协作　　　

　1.7.4　自我演进的AI　　　

　1.7.5　具身智能的发展　　　

1.8　小结