书名:扣子(Coze)Skills+OpenClaw实战:零基础玩转AI智能体
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 邢云阳
责任编辑 贾 静
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
本书以Skills为主线,系统讲解如何通过国产低代码平台扣子(Coze)开发与使用Skills。全书分为5个部分。第一部分为基础入门篇,厘清智能体与Skills的核心概念及其关系,并介绍扣子平台与扣子空间的使用方法;第二~四部分实战篇,通过6个由浅入深的实战项目,覆盖文字型、图文型Skills的开发,涵盖直播带货话术复用Skills、股票技术分析Skills、微信公众号文章配图Skills、小红书图文生成Skills、PPT创作助手Skills和数字营销GEO与SEO Skills库这6个高频场景。每个项目均完整呈现从经验梳理、SKILL.md编写、调试部署到在扣子空间中调用的全流程,帮助普通用户像使用提示词一样轻松驾驭Skills。第五部分为OpenClaw部署与实战篇,系统介绍OpenClaw在扣子编程平台的部署与集成方法,以及基于OpenClaw添加与使用Skills的实战。
本书适合所有对将前沿AI能力转换为提升工作与生活效率工具感兴趣的读者阅读。
邢云阳,联通云AI与容器技术专家、架构师,深耕云原生、AI应用及传统应用上云领域。主导云原生Serverless、AI Agent、RAG等产品研发,带领团队自研容器化大数据平台、Serverless Kubernetes及AI MaaS平台等产品。在极客时间开设“DeepSeek应用开发实战”“AI重塑云原生应用开发实战”专栏,分别讲解AI Agent开发、AI大模型与云原生融合,备受认可。
2025年,AI Agent(智能体)正式迈入应用落地年,从概念验证走向规模化应用,蚂蚁阿福等AI原生产品的出现,标志着智能体突破聊天应用的局限,成为新型生产力工具。但随之而来的技术门槛难题,却让大多数非技术用户望而却步—即便有扣子(Coze)、Dify等平台提供低代码搭建方式,想要打造适配垂直业务的专家级智能体,依然要面对两道难以跨越的鸿沟。
第一道鸿沟是复杂的工作流编排,节点设计、数据流转和条件判断本质上仍是图形化编程,对缺乏编程基础的用户而言,操作烦琐且易出错。第二道鸿沟是技术协议的使用门槛,想要通过扣子空间产品连接垂直领域知识,需基于模型上下文协议(Model Context Protocol,MCP)编写工具代码。
简单来说,MCP就像是给AI智能体安装了一个标准USB接口。在此之前,AI 智能体工具的接入缺乏统一标准,导致开发者A制作的工具只能适配A自己开发的智能体。而MCP让工具与智能体之间实现了“标准通用”:只要双方都遵循这一标准,无论是哪个开发者开发的工具,都能无缝接入任何智能体。遗憾的是,MCP的实现仍需通过编写代码实现,这对于没有编程基础的用户而言,依然是一道难以逾越的技术门槛。
真正的零门槛转机,出现在2025年年底—Anthropic公司推出Skills(技能)功能,正式拉开AI应用零代码定制的序幕。简单来说,Skills是可复用的人类经验沉淀,其核心是指导智能体把事情做对的提示词文档,不需要一行代码,就能让通用智能体变身股票分析专家、PPT架构师、小红书爆款图文笔记写手,使个人经验快速转换为高效生产力。
但初期,Skills技术未开源,仅能在Anthropic自家的Claude Code、Claude桌面版等产品中使用,与国内普通用户的使用场景脱节,难以真正落地。直到2026年1月,这一困境被打破:Skills开源后获得扣子官方深度集成,国内用户终于迎来真正适配本土场景的零门槛开发环境。
此次升级带来两大突破,也成为本书诞生的核心契机:升级后的扣子开发平台(更名为扣子编程),摆脱了低代码模式的束缚,全面拥抱AI原生的自然语言编程—用户只需用日常语言对话,就能完成智能体、工作流、Skills的全流程开发;升级后的扣子空间(更名为扣子),新增“技能商店”功能,用户可以在与智能体的对话中,直接加载官方、社区或自研的Skills,真正实现即调即用。
简而言之,扣子编程是用来开发智能体、Skills等的工厂,而扣子本身就是一个开箱即用的通用智能体,用户可以直接通过自然语言对话的方式,让其解决实际问题。
本书的核心使命,就是帮助每一位非技术背景的读者,无缝衔接这次技术升级,零理解成本玩转Skills。我们将跨越代码鸿沟,以扣子系列产品为核心工具,用最通俗的语言、最落地的项目,带你把个人经验、业务逻辑,转换为可自动执行的AI Skills,让原本通用的智能体变身专属专家助手,真正实现技术退后,创意与经验上前。
本书力争零代码、全实战、本土适配,以扣子和扣子编程为工具,系统规划了从入门到精通的阶梯式学习路径,使不同基础的读者都能快速上手。全书共分为5个部分、9章,每一部分均配套实战项目,学完即能落地使用。
第一部分(第1、2章):基础入门篇。本部分将厘清智能体与Skills的核心关联,拆解Skills的底层逻辑(不需要专业术语),并手把手教读者掌握扣子、扣子编程两大平台的基础操作,从注册到核心功能使用,全程图文指引,哪怕是零基础小白,也能快速入门。此外,本书的基础操作和实战项目还配套了演示视频,读者可以通过手机扫码查看对应的视频,看清每一个参数的配置。
第二部分(第3、4章):纯文字Skills实战。这是最易上手的入门阶段,聚焦无复杂需求、纯文字经验沉淀的Skills开发,只需在扣子编程平台用自然语言描述需求,平台就能自动生成Skills。本部分包含两个高频实战项目,覆盖直播带货、理财两大场景。
• 直播带货话术复用Skill:梳理直播间核心成交逻辑,让智能体学会根据不同品类、不同受众,自动适配高转换话术,帮助主播、运营节省话术整理时间。
• 股票技术分析Skill:以短线封板票抓取为例,将炒股高手的选股逻辑、分析思路沉淀为Skill,让智能体自动完成个股筛选、逻辑分析,助力普通投资者高效决策。
第三部分(第5、6章):图文Skills实战。突破单一文本局限,进入多模态交互领域,教会读者开发能生成图文并茂的Skills,解决创作者配图难、内容吸引力不足的痛点。本部分包含如下两个热门实战项目。
• 微信公众号文章配图Skill:基于文章文字内容,自动生成贴合主题、高质量的配图,并精准插入文章合适位置,切实解决公众号创作者写文易、配图难的困境。
• 小红书图文生成Skill:贴合小红书平台调性,沉淀爆款图文笔记创作逻辑,开发具备美感、流量潜力的Skill,让智能体自动完成标题、文案、配图的协同生成,助力创作者快速出片。
第四部分(第7、8章):多模态与多Skills协同实战。这是本书的高阶内容,带领读者突破单一项目局限,进入AI编程赋能的复杂业务场景,实现多Skills协同落地。本部分包含如下两个高阶实战项目。
• PPT创作助手Skill:借助扣子编程的AI编程能力,解决多页面图文整合难题,实现从创意大纲提取、图文生成,到完整精美PPT输出的全流程自动化,帮助职场人摆脱PPT制作的烦琐工作。
• 数字营销GEO与SEO Skills库:针对复杂数字营销场景,构建多Skills协同矩阵,以搜索引擎优化(Search Engine Optimization,SEO)与生成式引擎优化(Generative Engine Optimization,GEO)为核心,打造覆盖研究、构建、优化、监控4个阶段的16个Skills,同时教会读者利用扣子的长期计划功能,实现智能体7×24小时不间断监控优化项目,高效完成复杂业务处理。
第五部分(第9章):OpenClaw部署与集成实战。本部分介绍在扣子编程平台部署OpenClaw、将其接入飞书生态的方法,并通过一个进阶实战项目“打造晚间短线封板股推荐助手”,介绍如何实现Skills的定时任务调用与结果推送。
本书专为每一位对AI充满好奇、渴望用AI提升效率,却被编程、复杂逻辑挡在门外的普通人量身定制,尤其适合以下三类读者。
• 职场办公族:每天被文案撰写、PPT制作、数据整理等烦琐工作占据大量时间,希望定制懂自身业务逻辑、能高效输出的专属AI助手,节省时间,提升核心竞争力。
• 行业专家:拥有多年行业经验,希望将自身的专业知识、实操逻辑沉淀为可复用的AI Skills,实现经验规模化复用,同时降低新人培养成本。
• 零基础小白:从未接触过扣子、Dify等AI平台,对低代码、智能体等概念感到陌生,却想快速掌握AI工具,用AI为自己赋能,无须担心入门难度。
本书立足非技术读者需求,以实操落地为核心,兼具实用性与易上手性,无论哪种基础的读者,阅读本书都能获得实实在在的能力提升,真正做到即学即用。
(1)零门槛友好:全程不涉及代码,聚焦自然语言描述需求、沉淀经验,避开复杂的工作流编排与技术协议,适配所有非技术背景读者,无须担心入门难度。
(2)零逻辑负担:避开复杂的工作流编排、技术协议,聚焦自然语言编程,哪怕你天生不擅长逻辑梳理,也能轻松开发出实用的Skills。
(3)实战导向鲜明:每个知识点都配套对应实战案例,每个项目都有详细的操作步骤。为了确保读者能从看懂跨越到做成,本书不仅准备了全量配套的项目素材包(可以在扣子编程直接导入的Skills包),更贴心地录制了关键节点的短视频演示。我们拒绝理论空谈,兼顾学习与落地。只要读者会写文档、会总结经验,就能成为优秀的Skills开发者。
(4)国内使用场景适配:全程以国内扣子平台为实战载体,所有项目均贴合国内用户的职场、创作、理财等核心使用场景,解决国外平台适配性差、项目难以落地的痛点。
AI时代,真正的核心竞争力,不再是会不会用AI,而是能不能让AI为自己所用。Skills的出现,让普通人也能成为AI的“调教者”,而本书,就是读者通往这一能力的最简路径。
现在,就让我们一起,用最简单的方式,把个人经验转换为AI能力,让智能体成为你最得力的专属助手。
邢云阳
第1章 快速认识智能体和Skills
第2章 非程序员使用Skills的打开方式
在人工智能技术迅猛发展的今天,智能体正日益成为连接AI大模型强大能力与现实应用场景的关键桥梁。它不再只是被动响应指令的工具,而是能够主动感知、规划、调用资源并执行任务的“数字协作者”。与此同时,Skills作为一种新兴范式,凭借极低的入门门槛与极高的智能上限,正在重塑普通人构建专业级智能应用的方式——用户只需通过自然语言定义功能逻辑,即可封装出可复用、可组合、可进化的“专家智能包”,为智能体注入垂直领域的专业能力。
本章旨在帮助读者快速建立对智能体与Skills的认知框架。我们将首先从智能体的本质出发,回顾其发展脉络,并梳理当前主流的实现形态;随后深入剖析Skills的核心内涵、工作机制;最后,为便于后续动手做项目实战,还将简要介绍编写Skills所需的Markdown语法基础。
通过本章的学习,无论读者是否具备编程基础,都将建立起清晰、系统的技术图景,为后续真正掌握智能体和Skills这种AI应用开发范式奠定坚实基础。
过去两年,你是否已被“AI Agent”或“智能体”这些术语反复刷屏?是否已经尝试过使用扣子、Dify等平台搭建属于自己的智能体应用?
随着AI大模型能力的持续跃升与智能体设计模式等周边技术的不断成熟,智能体正经历一场深刻的变革:它不再只是程序员的专属玩具,而是逐渐演变为普通人也能轻松上手、按需定制的实用工具。正如那句古诗所言:“旧时王谢堂前燕,飞入寻常百姓家。”——曾经高居技术殿堂的智能体,如今已悄然走进大众的日常工作与生活场景。
正因如此,本节将帮助读者快速建立对智能体的认知,为后续的实践与创新打下坚实基础。
本质上,智能体是一种让AI大模型更聪明、更能干的实用方法——通过赋予AI大模型目标感、规划能力和工具调用权限,使其从被动应答者转变为主动执行者。
一个生动的类比来自武侠小说。主角临危受命,要去完成一项极其复杂的任务。临行前,一位高人递给他三个锦囊,叮嘱道:“在特定时刻打开对应的锦囊,依计行事,自可化险为夷。”主角虽非全知全能,却凭借这些预设的策略与时机判断,最终成功达成目标。
在这个故事中(见图1-1),主角原本只是一个听话的执行者(如同基础的AI大模型),但一旦被赋予了何时、使用何种策略的指导框架,他就具备了自主决策和行动的能力——这正是智能体的核心思想。

图1-1 智能体
这三个锦囊就相当于智能体中的Skills或工具调用能力,而主角对情境的判断与锦囊的调用逻辑,则构成了智能体的推理与规划机制。高人并未全程操控,却通过结构化赋能,让主角从工具升格为代理。
因此,当我们说“把AI大模型变成智能体”,本质上就是为它配备一套可组合、可触发、可执行的Skills,让它在复杂、动态的真实场景中,像那位武侠主角一样,有策略、有步骤、有应变地完成任务。
智能体的演进并非凭空而来,其雏形可追溯至2024年年初OpenAI在ChatGPT中推出的GPT Store功能,该功能允许普通用户开发定制化的ChatGPT。具体开发方式为:将自定义工具(如天气查询、股票数据查询)的使用说明进行上传,之后在与ChatGPT对话时,ChatGPT便可以根据用户的问题,自主选择是否调用这些工具进行解决。
这一机制极大地拓展了ChatGPT的能力边界——用户不再局限于通用对话,而是可以创建诸如体育赛事助手、投资分析机器人等垂直应用。GPT Store的上线迅速激发了社区创造力,也奠定了“AI大模型 + 工具 = 智能体”的基本范式。
随后,国内平台如扣子、Dify等纷纷跟进并优化这一思路,提供了更友好的可视化界面与更丰富的工具集成能力,进一步降低了智能体的构建门槛。
然而,人们很快发现,仅能调用工具的智能体在面对具有复杂逻辑的问题时力不从心。例如,“2024—2025赛季NBA总冠军球队的主教练的父亲叫什么名字?”这类问题需要依次完成“查询冠军球队→查询该队主教练→查找其父亲姓名”等多步推理。早期的工具调用型智能体往往因缺乏整体规划而中途迷失,甚至给出错误答案。
为突破这一瓶颈,2024年中后期,一系列从人工智能领域论文发展而来的增强智能体推理能力的设计模式相继开始被人们关注并进行工程化的实现。其中,最具代表性的是 ReAct(Reasoning + Acting),以及计划(Plan)、反思(Reflection)等设计模式。这些设计模式通过引导AI大模型显式地生成中间推理步骤、制订任务计划,并在执行后进行自我校验与修正,显著提升了其处理复杂任务的准确性。
但新的挑战接踵而至,随着任务越来越复杂,处理的数据越来越多,当前AI大模型的记忆力(上下文)成为瓶颈。其记忆力是有限的,当记忆了太多内容后,就会导致出现记忆不下而不得不中断任务的情况。于是,如何扩展智能体的记忆能力,如对记忆进行摘要压缩等,也成为智能体研究的核心主线之一。
至此,智能体已从最初的工具调用者,逐步进化为具备计划、执行、反思与记忆能力的复杂系统,为其在2025年实现大规模产业落地奠定了基础。
1.1节介绍了智能体的本质及其从工具调用到自主推理、再到具备记忆能力的演进脉络。本节将进一步介绍当前业界主流的几种智能体形态,从而帮助读者理解智能体的分类,真正做到见形知用、按需选择。
目前市面上最常见、适用范围最广的智能体,当属基础的工具调用类智能体。这类智能体的核心目标是:让AI大模型不仅能“说”,还能“做”——通过自主规划思考决定调用什么外部工具(如搜索接口、数据库、计算器、API等)来完成具体任务,从而从被动问答者升级为主动执行者。
在实现路径上,业界主要有两种技术范式,分别是Function Calling(函数调用)与ReAct(Reasoning + Acting)。
• Function Calling可以理解为AI大模型在“出厂前”就练就的基本功。这就像习武之人日复一日扎马步、练套路,最终形成肌肉记忆,一旦遇到合适场景,便能自然、准确地使出相应招式。
• ReAct则是在后天通过提示词工程的手段引导AI大模型具备工具调用能力,这种方式不需要基本功。就像金庸《天龙八部》中的经典桥段:逍遥派掌门无崖子将毕生八十载内力,一股脑注入到武功低微的虚竹体内;虚竹虽未经历日复一日的苦修,却瞬间拥有了顶尖高手的内力。
二者殊途同归,都能赋予AI大模型工具调用能力,但其底层逻辑与适用条件却大不相同。
工具调用类智能体的实现方式简单,且对于不太复杂的问题,例如“今天天气怎么样”“今晚举办球赛的体育场附近有哪些烧烤店”的回答效果非常好,因此在扣子、Dify等产品的基础智能体模式中得到了应用,它们的设置页面如图1-2所示。

(a)扣子的智能体模式

(b)Dify的智能体设置页面
图1-2 扣子与Dify的智能体设置页面
深度思考型智能体(Deep-thinking Agent)是当前智能体演进中的高阶形态。其典型代表包括DeepResearch、Manus、扣子等产品。这类智能体不再满足于快速响应或单步调用,而是致力于模拟人类专家解决复杂问题的流程,堪称智能体领域的全能选手。
与基础的工具调用类智能体不同,深度思考型智能体在接收到用户任务后,并不会急于执行操作,而是启动一套结构化、多阶段的认知引擎。它的执行流程如图1-3所示。

图1-3 深度思考型智能体流程
(1)意图识别:解析用户输入,不仅包括理解用户输入的字面意思,更试图捕捉其背后的真实需求。
(2)生成执行计划:基于意图识别,智能体会制订一份详细、分步骤的执行计划。
(3)反馈人类:暂停智能体的执行过程,将执行计划呈现给用户审核,待用户反馈后,再恢复执行。
(4)执行计划:在用户确认执行计划后,智能体开始执行。在执行过程中,智能体会灵活组合如下多种能力。
• 调用搜索引擎获取实时信息。
• 调用工具获取垂直领域信息。
• 必要时自动生成并运行代码(如数据清洗、回测策略等)。
(5)反思与重新规划:执行完成后,智能体不会直接交付结果,而是进行反思:检查逻辑是否闭环、数据是否矛盾、结论是否充分。若发现漏洞或不确定性,它会主动修正计划、补充调研,甚至重新执行部分环节,直至输出达到可信标准。
(6)记忆:为应对AI大模型上下文长度限制,这类智能体通常配备外部记忆机制。它会将关键中间结果、最终报告、执行摘要等持久化存储,既避免重复劳动,也为未来类似任务提供参考——相当于为用户构建了一个可积累、可复用的个人知识库。
可以说,深度思考型智能体是对2023年以来智能体技术的综合使用。
对于需要处理研究分析、商业决策、技术开发等高复杂度任务的用户而言,深度思考型智能体已不再是简单的助手,而是一位具备专业素养、严谨方法论和持续学习能力的研究员。
1.2.1节与1.2.2节介绍的均为单智能体架构——由一个智能体独立处理用户问题。这种模式在被调用的工具数量比较少时,效果会非常好。但当一个智能体中有成百上千个工具时,仅仅这些工具的使用说明就足以将智能体的AI大模型的记忆空间填满;并且智能体面对如此多的工具,选择也会很困难。在这样的背景下,多智能体系统(Multi-Agent System)便应运而生。
简单来说,多智能体系统是由多个相互协作、各司其职的智能体组成的整体,其核心思路是将复杂的整体任务拆解为多个简单的子任务,分配给不同的智能体进行执行,既减少单智能体的工具配置数量,降低选择难度,也可以避免仅仅工具描述就占用太多记忆空间的情况。
多智能体系统通常有两种主流的架构,一种是流程固定的工作流(Workflow),扣子、Dify都支持这种架构;另一种则是流程由AI大模型决定的主从智能体架构,如2025年比较热门的A2A协议,便是为这种架构服务的。此外,近期有一个比较热门的概念叫作SubAgent,也是这种主从智能体架构的延伸。
下面对这两种架构进行简单讲解。
工作流类似公司里的请假流程,员工请假需要领导一级一级地审批。在技术实现中,工作流是由开发者预先定义的一组有序任务,明确规定了每个任务的执行顺序、触发条件,以及各任务处理环节之间的数据传递方式。适用于任务的流程固定、执行顺序明确的场景。
如图1-4所示,如果将工作流的每一个任务处理环节,都替换为智能体,便可以形成多智能体系统。

(a)

(b)
图1-4 工作流架构的多智能体系统
工作流的形式非常灵活,可以串行,也可以并行。
假设我们要生成一篇符合小红书等平台爆款风格的标准化旅游攻略,需要贴合平台用户需求、拒绝图书的章节设计范式,突出好懂、好用、有亮点,具体要求如下。
• 撰写本地美食攻略,需要带上具体品类和热门小店,加避坑提示。
• 撰写必去景点推荐,需要区分核心景点和小众打卡点,并写明每个景点的耗时。
• 撰写交通指南,需要包含落地后出行、景点间往返技巧。
• 针对以上三部分攻略,生成小红书图文笔记。
在这种情况下,撰写旅游攻略和生成小红书图文的先后顺序已经完全确定,不需要智能体灵活调整顺序,也不用多个模块同时推进,关键就在于按部就班、不出错地执行既定流程。此时可以编排成如图1-5所示的工作流。
• 工作流会并行运行美食智能体、景点智能体、交通智能体完成三类攻略的撰写。
• 撰写完成后,将攻略传递给图文生成智能体,完成小红书图文笔记的生成。
整个执行流程有序衔接,可以确保攻略结构规范、内容不遗漏。

图1-5 小红书图文笔记生成工作流
主从智能体架构如图1-6所示,通常包含以下两类角色。

图1-6 主从智能体架构
• 主智能体(MasterAgent):负责整体任务的理解、拆解与调度。
• 子智能体(SubAgent):专注于执行某一具体子任务。
用户的问题会发送给主智能体,由主智能体进行任务拆解与调度,决定子任务由哪个子智能体进行执行。根据任务的规划不同,可以每次只选择一个子智能体执行任务,也可以多个子智能体并行执行。主智能体会汇总子智能体的执行结果,将最终答案返回给用户。
该架构的使用场景与工作流正相反,其适用于问题解决的步骤不确定,需要主智能体自行规划的场景。
以如图1-7所示的AI医疗问诊项目为例,使用主从智能体构建多智能体系统的流程为:主智能体接收到用户请求后,会识别用户的问题属于哪一个科室的问题。如果用户的问题是“最近感冒了,嗓子疼”,则会调度呼吸内科子智能体处理该问题;如果用户的问题是“最近胃疼,想要中西医结合治疗”,则会调度中西医结合科子智能体和中医科子智能体并行对用户进行诊断。每个子智能体拥有独立的AI大模型和独立的执行过程,互不干扰;主智能体则只需在最后汇总结果,交付给用户。

图1-7 AI医疗问诊项目
作为推动智能体从“通用助手”迈向“领域专家”的关键技术,Skills正在重塑普通人构建AI应用的方式:无须大规模编程,仅凭自然语言与结构化文档,即可为智能体注入可复用、可组合、可进化的专业能力。
在日常工作中,许多人有过这样的经历。
作为项目最初的负责人,你从零开始完成了一项全新任务,或成功地解决了一个此前无人攻克的难题。任务完成后,领导通常会提出一个要求:“请按照公司规定的模板,将包括所用资料、解决步骤、关键判断和注意事项等的整个过程整理成文档,以便后续接手的同事能够快速理解并复现。”
这一要求的本质,是希望将个人经验转换为团队可复用的知识资产。而Skills的设计思路,正是对这一管理逻辑的延伸。它提供了一种标准化的结构格式(类似于公司模板),允许用户将自己解决问题时的思考路径、执行步骤、依赖工具、参考资料以及输出规范,以Markdown文档等形式进行封装,形成一个专家经验包。
之后智能体就像后续接手项目的同事一样,可以理解该专家经验包的格式和内容。当需要再次执行类似任务时,智能体参考专家经验包中定义的逻辑,即可自主完成工作,无须人工重复干预。
从上述过程看,其实Skills的本质还是编写提示词,只不过相比于仅仅将重点放在如何优化提示词(如增加你是一个××助手的人设)的提示词工程,Skills则是有了明确的格式规范,可以将原先散落在与智能体的多轮对话中的提示词、参考文件、代码等进行汇总,从而让智能体一次性拿到解决问题的完整方案,一次性解决问题。
既然Skills提供了一种标准化的格式,本节将系统讲解其格式规范与工作机制,帮助读者理解Skills的格式规范(长什么样)、工作机制(如何被智能体使用)。

本书配套视频可扫描右侧二维码观看。
一个Skills在物理结构上表现为一个文件夹,该文件夹的名称即为该技能的名称。在该文件夹内,通常包含以下组件。
• SKILLS.md文件(必选)。这是Skills的核心文件,也是唯一的必选组件。它相当于该Skills的标签与说明书,以Markdown格式清晰描述Skills的功能、输入输出规范、调用条件、任务执行步骤、使用示例等关键信息。智能体正是通过阅读此文件,判断是否调用该Skills,以及如何正确使用它。
• scripts/文件夹(可选)。用于存放可执行的代码脚本(如Python等)。例如,第4章将演示如何构建一个抓取短线封板股的Skills,其中就包含由扣子编程自动生成的爬虫脚本。在AI编程时代,只要能用自然语言准确描述需求,AI即可自动生成所需代码,因此没有编程基础也无须担忧。后续章节将手把手教读者如何完成这一过程。
• references/文件夹(可选)。用于存放支撑该Skills运行的参考资料。例如,若要开发一个每日营养餐推荐Skills,可在此目录下放入权威食谱、营养成分表或饮食指南等文档。这些资料为智能体提供领域知识依据,提升输出的专业性与准确性。
• assets/文件夹(可选)。用于存储静态资源与模板文件,如图片、音频、配置模板、输出格式样例等。这些内容不参与逻辑计算,但可作为任务执行时的辅助素材。
Skills的工作机制源于上下文工程(Context Engineering)中一个称为上下文污染的现象。
我们知道,当前主流AI大模型的记忆(上下文)大小虽已扩展至标配128K Token甚至更高,但仍是有限资源。若将所有可能用到的信息一股脑塞入其记忆中,不仅浪费容量,还可能干扰AI大模型对当前任务的理解——这种现象被称为上下文污染。
一个生动的类比来自《哆啦A梦》中的“记忆面包”:大雄为了记住书本内容,需要吃下印有文字的记忆面包。但他先吃了大量甜点,肚子饱了,再也吃不下记忆面包,结果什么也没记住。在这里,大雄就像AI大模型,甜点就是无关信息,而记忆面包则是真正有用的知识。塞入无关内容,会挤占真正关键信息的空间。
为避免此类问题,Skills设计了渐进式、按需加载的机制,如图1-8右侧部分所示,整个Skills的内容按照加载级别分为L1、L2、L3三个级别。图1-8左侧部分展示的则是智能体加载Skills的顺序。
• 加载Skills:当智能体加载一个Skills时,仅将L1级别的内容,即SKILLS.md中的标签部分存入AI大模型的记忆中。此时,智能体只知道“有这样一个技能可用”,但不会加载其全部细节。
• 读取Skills说明:当用户提出具体任务,智能体判断某Skills可能适用时,才会加载L2级别的内容,即SKILLS.md的全部内容,以此指导后续操作。
• 按需加载资源:在实际执行过程中,若任务需要调用代码、参考文档或使用模板,智能体会按需加载L3级别的内容,即 scripts/、references/ 或 assets/ 中的相关文件。未被使用的资源则始终保留在外部,不进入大模型的记忆中。

图1-8 Skills的工作机制
这种按需加载的设计,有效的防止了上下文污染现象,同时保障了复杂Skills的可扩展性与运行稳定性。
Skills的理论部分,到此就基本讲解结束了。在进入实战环节前,还需要补充一些Markdown语法的基础知识。因为AI大模型天然对Markdown语法格式的支持非常好,因此在Skills中文本类文件都采用Markdown语法进行编写。本节将介绍在Skills中常用的Markdown语法。
本节介绍Markdown的基础语法。
在计算机中,不同类型的文件通过后缀(扩展名)加以区分。例如,Word 文档的后缀是.docx。Markdown 文件的后缀是.md。使用任意文本编辑器(如记事本等)创建一个新文件,并将其保存为example.md,即得到一个Markdown文件。
为了获得更好的编辑体验,推荐使用Markdown编辑器,具体可分为本地版和在线版两类,可根据自身使用习惯选择。
• 本地版Markdown编辑器,如Typora、Obsidian、Zettlr,这类编辑器无须联网,操作流畅且功能全面,适合长期高频使用。
• 在线版Markdown编辑器,获取方式便捷,只需在浏览器中搜索“markdown online”,即可找到各类免费在线编辑器,适合临时使用或多设备快速切换场景。
与Word中的“标题1”“标题2”类似,Markdown也支持多级标题,用于构建清晰的文档结构。
标题语法的规则非常简单,在文字前添加1~6个符号#,分别对应一级标题~六级标题。示例如下。
|
# 一级标题 ## 二级标题 ### 三级标题 #### 四级标题 ##### 五级标题 ###### 六级标题 |
一级标题~三级标题的预览效果,如图1-9所示。

图1-9 一级标题~三级标题的预览效果
在Markdown中创建段落,需要使用空白行将一行或多行文本进行分隔。示例如下。
|
这是段落一。
这是段落二。 |
在Markdown中将文字设置为粗体或斜体来强调其重要性。粗体的语法为,在需要加粗的单词或短语前后各添加两个*或者两个下划线_。示例如下:
|
快速认识**智能体**
快速认识_ _智能体_ _ |
预览效果如图1-10所示。

图1-10 粗体预览
要用斜体显示文本,需要在单词或短语前后添加一个星号或一个下画线。示例如下:
|
快速认识*智能体*
快速认识_智能体_ |
预览效果如图1-11所示。

图1-11 斜体预览
要创建有序列表,可以在每个列表项前添加数字并紧跟一个英文句点。数字不必按数学顺序排列,但是列表应当以数字1起始。示例如下。
|
1.快速认识智能体 2.快速认识Skills |
预览效果如图1-12所示。

图1-12 有序列表预览
要创建无序列表,可以在每个列表项前面添加破折号(-)、星号(*)或加号(+)。示例如下。
|
- 快速认识智能体 * 快速认识Skills + 快速认识Markdown |
预览效果如图1-13所示。

图1-13 有序列表预览
缩进一个或多个列表项可创建嵌套列表。示例如下。
|
- 快速认识智能体 - 智能体概述 - 智能体的发展路线 * 快速认识Skills + 快速认识Markdown |
预览效果如图1-14所示。

图1-14 嵌套无序列表预览
以上便是在编写SKILLS.md 文件时常用的Markdown基础语法。
本节介绍Markdown的扩展语法与机制。
Markdown的表格语法简洁直观,使用以下两个符号即可构建。
• 管道符|:用于分隔列。
• 连字符---:用于定义表头与内容的分隔线(每列至少三个-)。
示例如下。
|
| 姓名 | 年龄 | | --------- | -------- | | 张三 | 30 | | 李四 | 27 | |
由于中文字符宽度与英文不一致,在源码中表格的管道符(|)看起来可能“对不齐”(如上示例),但这并不影响最终的渲染效果。大多数Markdown编辑器和解析器会自动对齐列宽,确保显示整齐。最终预览效果如图1-15所示。

图1-15 表格预览
YAML Front Matter机制是Markdown中为正文附加标签(即元信息)的一种方法。我们可以将其理解为文件夹封面上的标签卡(见图1-16),标签卡上可标注该文件夹的名称等相关信息。YAML Front Matter位于文档最开头,在预览或渲染时不会显示,但会被程序(如智能体、静态网站生成器等)读取并用于理解文档的元信息,如这个文档“是谁”“有什么属性”“该如何处理”。

图1-16 带有标签卡的文件夹
YAML Front Matter语法的格式为以三个连字符“---”开始,再以三个连字符“---”结束,中间使用YAML语法(通俗来说是一种用简单、清晰的格式来写配置或数据的方式,就像用列表和缩进写笔记一样,让人和电脑都能轻松看懂)编写键值对。示例如下。
|
--- name: article-illustrator description: 智能文章配图技能。分析文章内容并在需要视觉辅助的位置生成插图,支持多种风格选项。当用户要求“给文章加图”、“生成文章配图”或“为文章插图”时使用。 --- |
至此,编写SKILLS.md 文件所需的Markdown语法已全部介绍完毕。