书名:AI赋能超级个体
ISBN:978-7-115-63084-1
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 翟 尤 霍 然
责任编辑 胡俊英
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
ChatGPT引发了新一轮关于人工智能讨论的热潮,科技圈乃至各行各业都跃跃欲试,希望借助这次AI浪潮乘势而起。那么,回归到个人层面,我们该如何更好地利用互联网和AI技术,实现自我价值,创造社会价值,充分地享受美好生活呢?
本书不仅揭示了ChatGPT的神奇之处,而且解读了全球范围内的生成式人工智能产业格局。此外,本书还剖析了如何在大模型时代构建个体竞争优势,梳理了超级个体的成长秘笈,并通过丰富而翔实的案例总结了ChatGPT、文生图工具、AI绘图工具等的使用技巧,展示了一系列超级个体实践案例。最后,本书还客观地分析了使用大模型可能面临的安全风险及应对措施。
本书旨在帮助普通人理解人工智能、大模型等新技术、新应用,并将其与自己的工作和生活紧密地结合在一起。本书旨在从实践角度出发,探索一条让更多人通过人工智能放大自身优势,成为“超级个体”的可行路径。
人工智能的飞速发展为普通人提供了弯道超车的一种可能。AI不仅仅是个人助理,还可以让你探索更多可能,关键在于掌握和机器对话的能力——这正是这本书能为你带来的启发。
——秋叶
秋叶品牌,秋叶PPT创始人
AI时代已来,未来只有两类人,一类是会用AI的超级个体,另一类则是普通人。用好AI技术,超级个体就能插上翅膀,迅速成长迭代!作为AI技术的推崇者,我一直带领团队全面拥抱AI,希望读到这本书的你也能深刻感受AI的魅力,不要错过近年来最大的风口!
——肖逸群
星辰教育创始人兼CEO
恒星私董会发起人
随着ChatGPT、Midjourney等工具的出现,AI技术再一次扩展了人们的想象空间,甚至可能颠覆我们以往的生产和生活方式。本书深入浅出地讲解了AIGC相关的知识点,并通过丰富有趣的案例演示了一系列AI工具的使用技巧,能够帮助读者从容地驾驭AI工具,实现个人价值的倍增效应。
——易洋
“AI破局俱乐部”创始人
AI技术是新时代个体必备的核心技能,本书是业界难得的实践类好书,作者同样是AI技术领域的行家。这本书深入浅出地剖析了AIGC的核心原理、工具、实战案例等,让超级个体在复杂的场景也能够应对自如,从而真正把握AGI时代的新红利和新机遇。
——玄姐
“玄姐谈AGI”视频号作者
数致科技创始人兼CEO
前58集团技术委员会主席
在AI的浪潮中,每个人都拥有成为超凡英才的潜力。本书将你引入一个无限可能的未来,借由浅显易懂的笔触揭开AI大模型的神秘面纱。这不仅是一本书,更是一把钥匙,能够解锁无限可能。
——王强
ZelinAI创始人兼CEO
AI技术的快速发展足以让每个人感到震惊,而本书则更进一步地探讨了如何将AI技术应用于个人的成长和发展中。本书通过深入浅出的方式,让读者了解了AI技术的基本原理和应用场景,并提供了一系列实用的案例和工具,帮助读者更好地利用AI技术提升自己的竞争力。对于那些希望在未来的竞争中脱颖而出的人来说,这是一本不可错过的指南。
——刘津
畅销书《破茧成蝶》《你的天赋价值千万》作者
乐道商学苑创始人
如果问当前全球最大的风口在哪里,答案无疑就是ChatGPT引发的大模型与AIGC浪潮,这也带来了一场科技产业的变革。对个人来讲,我们则要聚焦在如何利用这次浪潮,从中发现自己的机会,在认知、实践等层面实现全面提升,成为真正的超级个体。
技术的每一次重大变革,总会引发人们对未来的期许和对现实的焦虑——期许的是,我们未来的生活会有重大变化,能够从中获得巨大收益;焦虑的是,我们是否能够在变革浪潮中乘风破浪,成为弄潮儿,而不错过这一难得的机遇。为此,在《AIGC未来已来》出版之后,作者(翟尤)一直在思考,如何更加实际地帮助普通人清晰地理解人工智能、大模型,尤其是把这些新技术、新应用与自己的工作和生活紧密地结合在一起。为此,从实践出发,让更多人通过人工智能来放大自身的优势就成为本书写作的初衷。本书总计11章,以下简要介绍本书的内容。
第1章着重从底层技术逻辑和创新之处来介绍ChatGPT这个现象级人工智能产品。如果ChatGPT是一颗“果实”的话,那么树干、树枝、树根和土壤是什么?通过阅读第1章,相信你会找到答案。
第2章从产业的角度,分析国内外在大模型产业的发展和应用布局方面的异同。尤其是准备投身大模型创业和就业的朋友,可以从一个更加宏观的角度来看待自己所处的位置,从而更加从容地步入人工智能时代的新阶段。
第3章介绍大模型的价值。“大模型”这个词闯入大众生活的时间并不长,很多人听说“大模型”这个词也就一年多的时间。既然大模型已经或者即将成为我们生活和工作的重要组成部分,那么我们该如何与它相处,如何发挥人的优势,实现人机协同呢?这一章着重分析了我们可以从哪些方面发挥人的价值来实现大模型价值的倍增效应。
第4章介绍超级个体时代的特点。每个时代都有超级个体,但在人工智能时代,超级个体不仅仅是天赋异禀的个人,更多的是那些愿意拥抱新技术、会使用人工智能工具的人。你会发现这里有两个关键词:一个是人,另一个是技术。也就是说,超级个体是人与技术的相互成就,并非单独依靠任何一方。
第5章着重介绍什么是超级个体,并从创业的角度分析超级个体应如何发力。借助大模型创业和大模型自身迭代之间存在相互对立的可能,当我们利用技术创新来获得优势时,技术也会很快将我们的优势吸收甚至泛化,为此我们该如何应对呢?本章对此给出了分析与解答。
第6章从超级个体的认知角度出发,帮助大家从应用、创新、产品、战略、生活等诸多角度分析未来可能的变化,并探讨了在变化的大潮中我们该如何应对。相信当你读完本章就会发现,未来应该通过技术来发挥人的价值,强化倍增效应。
第7章告诉大家使用聊天机器人的技巧,尤其是提问技巧,其中既有已经总结好的提问方法,也有一些“万能公式”。在实战案例中,我们给出了实际工作和生活中适用的方法,给大家更加直观的感受。
第8章聚焦文生图技术,介绍如何用文字生成图像,甚至可以把目前主流的人工智能产品和工具串联起来,实现个人效率的倍增——一个人也能完一个团队的工作,真正造就超级个体。
第9章介绍AI绘图技术,通过图生图的方式,你甚至还可以控制图片中人物的动作等。只要你有创意,可以将更多的工作交给人工智能,人工智能会让你的想象力爆棚,成为创造力无限的超级个体。
第10章梳理了一系列典型的实践案例,从儿童绘本到人工智能面试,从眼见不一定为实到数字人来临,从行业分析到游戏变革……相信通过这些案例,你会发现人工智能的浪潮并非天马行空,而是已经逐渐渗透到我们的工作和生活中。
第11章从安全的角度讨论大模型潜在的风险,让我们在享受技术红利的同时,也要重视其中潜在的网络安全风险和数据安全风险,进而从风险中发现解决方案,找到新的机遇。
最后,祝你找到适合自己的超级工具,成为这个时代的超级个体!
本书提供如下资源:
● 配套彩图文件;
● 本书思维导图;
● 异步社区7天VIP会员。
要获得以上资源,您可以扫描下方二维码,根据指引领取。
作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。
当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,单击“发表勘误”,输入错误信息,单击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的错误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。
我们的联系邮箱是contact@epubit.com.cn。
如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。
如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。
如果您所在的学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。
如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。
“异步社区”是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互动,以及传统出版与数字出版的融合发展。
“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域的发展与积淀。异步图书面向IT行业以及各行业使用IT技术的用户。
焦彦明《积木》
AIGC《积木》
ChatGPT(Chat Generative Pre-trained Transformer)是美国硅谷一家名为OpenAI 的公司开发的人工智能聊天机器人程序。2022年11月,ChatGPT在刚发布时,得到的关注度并不高,仅在报道科技新闻的技术圈里存在讨论和传播,人们的大部分关注点是ChatGPT出糗的段子。然而,到2022年年底,人们发现ChatGPT获得的关注已经破圈,越来越多的人开始使用ChatGPT,甚至将ChatGPT融入自己的工作,ChatGPT不再是仅限于科技人员或技术爱好者讨论的话题,而成为一个全球关注的“现象级”产品。
ChatGPT能得到各界人士的关注与认可,两位科技领袖的传播和宣传功不可没。首先是比尔·盖茨,他对ChatGPT的评价非常高。他提到,“ChatGPT这种人工智能产品的出现,其历史意义不亚于互联网和个人计算机的诞生”。众所周知,比尔·盖茨本人就相当于个人计算机的代名词,微软公司开发了各种具有划时代意义的软件和操作系统,如Microsoft Office和Windows。盖茨将ChatGPT与个人计算机、互联网相提并论,说明这位科技领袖非常看重ChatGPT的出现。当然,从商业竞争的角度来看,如果通过ChatGPT能够提升微软公司在搜索领域的市场占有率,那么这无疑是一个非常好的策略。除了比尔·盖茨之外,另一位科技领袖是埃隆·马斯克。他主导了两个众所周知的项目:一个是特斯拉,这款新能源汽车在全球范围内非常受欢迎;另一个是SpaceX的猎鹰火箭和Starlink卫星星链项目。在评论ChatGPT时,马斯克曾表示,“这项技术令人惊叹,甚至让他有些担忧,因为强大的人工智能似乎离我们不远了”。对一款人工智能产品有如此高的评价,在过去是难以想象的。比尔·盖茨和埃隆·马斯克这两位科技领袖的关注和宣传,使ChatGPT具有了较强的话题性,从而引发更多人的关注。
与此同时,美国对冲基金公司Coatue也在研究报告中指出,全球商业的每一个超级周期,往往都源于底层技术的创新,2023年最大的变量就是生成式人工智能(Artificial Intelligence Generated Content,AIGC)的发展(见图1-1)。
图1-1 美国对冲基金公司Coatue关于全球商业周期的判断
(来源:CoatueEMW2023报告)
此外,在国内,莫言在《收获》杂志65周年庆典上,也表示自己用ChatGPT撰写了给余华的颁奖词。无论最终莫言是否采纳了ChatGPT撰写的颁奖词,大众已经意识到这一轮大模型的发展,不仅仅是一时的热闹或者是噱头,而是已经进入了不同行业顶尖人才视野的新式工具。
对于ChatGPT而言,除了作为一款聊天机器人外,还可以用于文学创作。在一些测试场景中,例如MBA考试方面,ChatGPT表现得甚至比普通人类参与者还要好。以至于英伟达的CEO黄仁勋也公开表示,“站在当前的时间节点来看,ChatGPT的诞生之于人工智能领域,类似于iPhone的诞生之于智能手机领域。”回顾互联网和移动互联网的发展史,我们可以很明显地发现,智能手机和功能手机的分界线实际上就是iPhone的出现,它几乎终结了功能手机的发展历程,让智能手机大行其道,并成为移动互联网时代的“标配”。同样的,在黄仁勋的眼中,ChatGPT的出现实际上是一个技术爆炸或产业爆炸的拐点。因此,通过这些科技巨头的认知,我们可以明确一点——ChatGPT的出现本身就具有划时代的意义,这一点在诸多科技领袖中达成了共识。
那么,这种共识会产生哪些影响?影响会体现在哪些方面?
知名人力资源调查机构Unleash发布的2023年一季度《全球职场学习指数》报告显示,ChatGPT是当前职场最受欢迎的技能之一,位居全球十大人工智能技术之首。这份调查涵盖全球15个国家和地区的1.4万名被调查用户。被调查人员表示,提升工作效率是人们学习ChatGPT的关键驱动因素,大家喜欢用ChatGPT来提升他们的文本创作能力和效率。例如尝试利用ChatGPT完成邮件、营销文案撰写等工作。知名的《自然》杂志进行了一次问卷调查,收集众多用户使用人工智能的情况。尽管ChatGPT的出现时间较短,但调查结果显示,有17.9%的人经常使用ChatGPT或类似的人工智能工具。有27%的受访者会使用ChatGPT或其他AI工具来进行问题探讨。例如,使用者会向ChatGPT提问以寻求不同的观点、思路和解决方案,或者请ChatGPT帮助润色初稿等。而从未使用过ChatGPT的用户占比仅为20.6%,这意味着近80%的人准备使用或实际上已经使用相关的人工智能产品。
麻省理工学院(Massachusetts Institute of Technology,MIT)的研究人员进行了一项有趣的测试,该测试邀请用户参与的任务是撰写一篇文案。在这个过程中,一部分用户得到了人工智能助手的帮助,而另一部分用户则是不借助人工智能工具独立完成的。众所周知,文案工作主要分为三个部分:内容构思、撰写草稿以及润色修改。测试结果显示,在使用人工智能技术后,人们进行内容构思和撰写草稿所花费的时间明显减少。当人们向ChatGPT提出一个问题后,ChatGPT可以快速生成相关内容或初稿,这有效地提升了人们进行后续工作的效率。在传统的工作流程中,内容构思大约占用25%的时间,撰写草稿占50%的时间,润色占25%的时间。随着人工智能工具的出现,整个撰写工作的时间明显减少,效率得到提升。
因此,无论是《自然》这样的专业期刊,还是像麻省理工学院这样全球知名的高等学府,都在尝试将ChatGPT或者其他相关的人工智能产品融入工作中,从而提升工作效率。除了这些大型机构之外,ChatGPT甚至还通过了美国明尼苏达大学的法律和商业研究生考试,以及沃顿商学院的管理学考试。
另外一个值得关注的重点是,过去我们看到的许多人工智能产品如同空中楼阁,遥不可及。然而,ChatGPT降低了大众的使用门槛,人工智能不再是少数精英或者前沿科技探索者的特权,而是可以普惠大众的超级应用。有专家称ChatGPT是首款面向大众的人工智能产品,这是一个非常积极的正面认可。甚至有专家称,“未来不会用ChatGPT或其他类似产品的人,如同当前不会使用互联网、智能手机一样,在智能社会里将寸步难行”。
那么,ChatGPT究竟做对了什么,使其如此受欢迎呢?
首先,交互简单。ChatGPT的交互界面非常简洁,仅包含一个对话框。这个对话框没有复杂的元素,用户只要输入问题,便能迅速得到答案。回顾过去的移动互联网或互联网产品,成功的产品往往都具有简单的界面。例如搜索引擎,无论是百度还是谷歌,用户只要在搜索框中输入问题即可。再比如微信,打开后直接可以与其他用户进行对话,整个软件的功能也极其简洁。因此,交互简单是产品成功的一个关键因素,ChatGPT恰好符合这一条件。
其次,用户体验好。ChatGPT能够“理解”用户的意图,并提供相应的回应。在与ChatGPT聊天的过程中,用户会发现ChatGPT具有非常强的拟人化交互方式和话题感,就像在与一个朋友面对面交流一样。这使很多人觉得和ChatGPT沟通并非在与一个简单的人工智能产品交流,而是在与一个类似于人类的人工智能产品进行对话。而过去的聊天机器人却经常被用户贴上“人工智障”的标签。再加上埃隆·马斯克和比尔·盖茨等科技领袖的关注与话题讨论,使其成为大众追逐的焦点,更是增加了用户的好感。
再次,对智能的理解更深。ChatGPT具有很强的创造性,而不是机械地回答问题或提供答非所问的答案。这得益于ChatGPT底层的大语言模型的泛化能力。尤其是GPT模型通过使用万亿级的参数和互联网的海量数据,使大模型产生了智能“涌现”(Emergence)的能力。在与ChatGPT聊天时,我们会发现ChatGPT能够提供整合后的信息来解答我们的问题,并且其表现超出了人们的预期。与早期的聊天机器人相比,ChatGPT不再是“检索信息-反馈结果”的模式,而是“整合信息-解决问题”的模式,这使得ChatGPT的表现远超用户的期望,甚至出现了很多“通人性”的表现,这在智能理解方面是一个非常大的飞跃。
最后,推出策略。OpenAI在推出ChatGPT的过程中展现了强大的战略布局。实际上,ChatGPT在很早之前就已经研发成功。而GPT-4在2022年8月就已经完成研发工作,一些科技领域的知名人士在2022年下半年就已经开始使用GPT-4。在当前节点,我们发现OpenAI推出的ChatGPT、插件功能、GPT-4不仅引发用户持续关注,而且逐步构建起自有业务生态和闭环模式,同时考虑了整体架构和战略方向,与微软的合作也具有较强的策略性。得益于整体的战略布局,OpenAI在很长一段时间内一直处于媒体关注的焦点,热度不曾消退,一度引发全球关注。
上述因素使得ChatGPT在某些方面甚至优于传统搜索引擎,因为搜索引擎仅能列出许多搜索结果,用户需要在结果之间筛选判断,才有可能找到自己想要的答案。而ChatGPT则能直接给出一个解决方案。当然,在使用ChatGPT时,用户也需要对结果进行甄别,但这个过程比使用传统搜索引擎更高效。这也是为什么许多人甚至认为ChatGPT有可能替代搜索引擎。
当然,随着时间的推移,ChatGPT和人工智能也将从当前的狂热期,进入平稳发展期。在不久的将来,我们会发现人工智能似乎并没有宣传的那么神奇,演示效果和现实表现有着较大的差距。但是拉长时间来看,这也是新技术出现之后,必然迎来的建设期。这期间需要解决人工智能的幻觉问题,需要进行多轮迭代与磨合使人工智能和现有系统实现融合,同时需要一定时间来完善这项新技术及其配套产品。人们需要认真比较新技术带来的可能性和现实场景之间的差距,然后静下心来来弥补这些不足。
届时,人工智能将真正走进我们的生活中,变得更加好用。
ChatGPT作为一款问答机器人产品,它的问世让大家眼前一亮,如同智能手机、互联网、汽车一样以前所未有的速度影响着人们。如表1-1所示,我们可以把ChatGPT看作一棵果树上结出的“果实”,那么大语言模型(Large Language Model,LLM)就是树干,我们经常提到的GPT-3.5、GPT-4都属于这个大模型范畴。果实(ChatGPT)的成长周期相对较短,但是一棵果树从树苗变成能够能结果的果树,需要的时间则会很长。同样,作为树干的大模型,从GPT-1到GPT-4也经历了6年多的时间。
表1-1 人工智能与果树的对应关系
人工智能 |
果树 |
---|---|
ChatGPT |
果实 |
GPT-4/GPT-3.5 |
树干 |
Transformer模型 |
树根 |
算力资源 |
养分、养料 |
高质量语料资源 |
土壤 |
要想有树干、果实,首先需要树根,我们类比到人工智能领域,树根就是基础模型(Foundation Model),大语言模型的基础模型就是Transformer。2021年,李飞飞教授联合多位人工智能领域的专家发表了名为“On the Opportunities and Risks of Foundation Models”的文章,这篇文章专门介绍了Transformer这一基础模型是基于自监督学习的模型,该模型在学习过程中会体现出各种不同方面的能力,从而为下游应用提供动力和基础理论。因此可以将基础模型看作果树的树根,它为整个果树的发芽、成长、结果提供了基础能力。
有了树根(基础模型,例如Transformer)和树干(大模型,例如GPT-4)之后,一棵果树能够存活还需要土壤和养料。对于大模型来讲,土壤就是算力资源和高质量的语料资源,这是模型训练和能力提升的重要保障。
在人工智能时代,数据的重要性不言而喻。大语言模型的训练需要大量数据。研究报告“Will we run out of data”显示,未来人类的原始数据可能会越来越稀少,尤其是高质量的自然语言数据最快将在2026年就会被大语言模型耗尽。因此,如何获得合法合规、符合商业逻辑的数据源,成为大模型时代可持续发展的关键。
因此,我们在关注ChatGPT这款人工智能产品,并被它优秀的表现所惊艳的同时,也要意识到ChatGPT的发展离不开大模型、基础模型、算力资源、高质量语料所形成的工程化创新,这一过程并非一蹴而就,而是在多年的实践过程中发展的。可以说,从来就没有横空出世的爆款产品,只有一种看不见的日积月累的强大势能。
ChatGPT背后的核心技术是大语言模型,而大语言模型背后的核心原理是统计计算。ChatGPT就如同一个有上千亿个变量的复杂数据方程来模拟我们大脑中的语言规则。一旦得到方程,那么每个词的出现都变成了概率问题,语言就可以被计算出来。相当于我们只要有这个方程式,就知道这句话该怎么说。
举个例子,假如我们让人工智能续写“随着科技创新的不断发展,人工智能成为”这句话,让人工智能补充后面的内容,这个时候人工智能是如何做的呢?
它通过海量语料发现“随着科技创新的不断发展,人工智能成为”之后,出现概率最高的五个词可能是“各个国家”“科技竞争”“引领”“新一轮科技革命”“人们”,人工智能在其中选择概率较高的“引领”来补全句子。因此,我们可以看出大语言模型生成内容就是选出最可能的下一个词。因此,大家在使用ChatGPT的时候会发现它是一个字一个字地输出回答,这种方式并非故意设置的交互方式,而是它一直在计算,即算出下一个字或词,把这个词放到句子中之后,再继续计算接下来哪个字或词出现的概率最高,因此它才呈现出一个词一个词往外“蹦”的效果。
那么ChatGPT是如何得到这套复杂的公式的呢?
简单来讲,海量数据和足够的计算量产生了质变。
从2014年Attention机制的提出,到2017年Transformer论文的发布,OpenAI一步步实现关键技术迭代,才诞生了今天的大语言模型,但大语言模型(包括GPT-1、GPT-3甚至是GPT-3.5)仍然不太会和人进行交流。在整个研发过程中,很关键的一点就是,OpenAI引入了人工反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)。从本质上讲,ChatGPT是GPT-3.5和RLHF的结合,GPT是模型,模型背后是海量数据统计的涌现效应,RLHF技术用一系列例子教会大模型该如何与人类交流。
具体来看,大模型依靠Transformer机制和海量数据,实现了人工智能对人类知识的初步统计。RLHF就是让人来给机器的输出打分,回复得好有加分,回复得不好有惩罚,从而不断地训练ChatGPT的“说话”习惯,也就是训练ChatGPT学习人们日常是如何交流的。
因此,ChatGPT就是“统计+强化”的结合, ChatGPT并不真正理解它所说的内容,只不过说得更像人话而已。+
我们可以把ChatGPT的行为理解为抄作业,它在人类浩瀚的知识中学习,模仿我们曾经做过的事情,但是并不明白这件事的意义。由于抄的东西太多,所以给人的感觉就是非常像一个真人,但是这并不等于它真的理解。例如,我们问ChatGPT“3+7等于多少”,ChatGPT实际上并没有直接计算“3+7”,而是在大量语料中进行寻找,看看哪里出现过“3+7”,统计“3+7”后面出现的是什么,发现基本上都是10,所以ChatGPT就把10作为答复反馈给我们。
因此,ChatGPT的答复虽然语法通顺、写得很好,看起来很专业,但是准确度和置信度却令人担忧,因为它对事实没有鉴别能力。
前面提到了RLHF,那么它是如何在大模型里被使用的呢?
为了理解RLHF,我们需要先了解一下ChatGPT在训练过程中为何要引入RLHF。
我们先来看看ChatGPT是如何训练出来的。首先,在训练阶段,可以将预训练模型看作一个未加控制的“怪物”——修格斯[1](见图1-2),因为预训练模型的训练数据主要来源于互联网,这些数据可能包括错误信息、阴谋论等各种各样的信息,可以说这些信息鱼龙混杂、参差不齐,这个时候的模型就如同修格斯一样,像一个“怪物”。其次,使用高质量数据对预训练模型进行微调,使这个“怪物”在一定程度上变得勉强可以被社会所接受。最后,使用RLHF进一步完善微调后的模型,让模型的输出更符合用户的需求,在这个过程中RLHF不仅可以提高人工智能的安全性,还能给产品带来更好的性能,从而引发大家的关注。
[1] 修格斯(Shoggoth)是一个虚构的怪物,源自作家H. P. Lovecraft的作品。
图1-2 带着笑脸的修格斯
(来源:推特网站)
经过以上三个步骤,尤其是使用RLHF后,大模型的能力得到显著提升。基于此,当我们让ChatGPT输出某项内容时,才能如愿得到想要的结果。
较早的人机交互主要是通过命令行实现的——用户输入一段命令,机器做出相应的反应。这种工作在当时是非常高效的,但是大多数人并没有掌握这种方法。之后出现了图形用户界面,图形用户界面比命令行友好很多。比如你想写文章,你可以在操作系统中打开Word文档,然后输入文字,之后点击保存,最后关闭文档。用户需要做的就是在不同的菜单中找到能够解决问题的按钮或命令。当前的人机交互则是通过自然语言进行。例如,我们可以向人工智能提问,查询过去半年公司每个业务线的收益情况,尤其是和近几年的数据进行比较。如果通过人工查询,这样一个任务至少需要半天时间才能完成,但是通过大模型和自然语言交互,整个过程可能仅仅几秒就可以得出最终的答案。
自然语言处理技术自诞生以来,先后经历了以下四种任务处理方式。
(1)非神经网络下的监督学习。由人工设计一系列特征模板输入模型之中,模型性能高度依赖输入模型的特征和专家知识。
(2)基于神经网络的监督学习。通过人工对数据进行标注,用神经网络进行自动特征提取。
(3)预训练+精调(Pre-train and Fine-tune),在超大规模文本数据集上基于自监督方式,预训练一个具备较强泛化能力的通用大模型,然后根据下游任务特点对模型进行微调,从而减少人工参与。
(4)预训练+提示(Pre-train and Prompt),在预训练模型之后,不对模型进行微调,而是将任务以提示语句的形式输入模型,模型自动适配下游任务。
过去的人工智能主要是做小模型,或者说是工具类的小模型,比如一个算法主要针对人脸识别或车牌识别等。研究人员去收集数据进行数据标注,之后对模型进行训练,这样的小模型或者算法没有太多的可扩展性。随着ChatGPT的发展,大模型可以被视为一个具有通识性知识的“大学生”,专业领域的人员可以通过专业领域的知识和技巧来引导它,给它启发,从而让大模型帮助我们解决实际问题并完成工作。
例如,很多人认为大模型的出现会让人工智能翻译更加普及,有可能会替代人工翻译。但现实场景是,机器翻译和人工翻译正在构建新的人机协同模式。这是因为,在医疗、金融、法律等专业领域,翻译错误可能导致严重的后果,人工翻译质量稳定、可靠,因此用户愿意为人工付费。通过人机协同实现混合翻译服务,可以先用人工智能完成翻译初稿,再用人工校对进行修正。有媒体报道,这种混合翻译的模式相比纯人工翻译能节约40%的成本,更受用户欢迎。
未来,判断一家公司是不是人工智能公司,其标准将主要在于其大模型做得如何。
实际上,ChatGPT的诞生类似于汽车、电话和互联网的问世。
以电话为例,过去人与人之间的通信非常困难,沟通受限于物理距离,效率很低,但电话的出现让更多的人足不出户就能和朋友或者亲人联系,改变了我们的生活。汽车的出现也是如此,比如在一线城市,大部分的人出行都离不开汽车,无论你是拥有一辆汽车还是打车、坐公交车,汽车成为几乎每个人都会使用的工具。互联网也是一样,它是一个普罗大众每天都需要用的产品。可以看出,这些划时代产品的问世,都是从0到1的变化,让原本分散在多个领域的技术能够通过一个产品来集中体现,最终实现量变到质变的飞跃。
ChatGPT可能不是通用人工智能的最终形态,但是不妨碍ChatGPT会成为划时代的人工智能产品,它能够把之前分散在不同领域的人工智能技术和自然语言算法集合起来,通过工程能力形成一款产品。如同第一个实现人类登陆月球的阿波罗计划。登月这件事是一个系统工程,技术环节和理论环节都是现成的,并不复杂,也不需要从0到1的技术理论突破,但真正想要实现登月,却是非常艰难并且复杂的。
而且ChatGPT这款产品最关键的一点是,能够让很多普通用户使用。
首先,人工智能不再仅仅是对现实世界的简单复刻,而是变成了人类“想象力”的延伸。我们过去常说手机是人体器官的延伸,智能手机已成为非常重要的工具。而ChatGPT则会成为“想象力”的延伸。当你提出问题时,它会给出答案;当你提出一个天马行空的想法时,它可能会给你一些有用的回应和落地执行的策略。它就像一个非常贴心的助手,随时可以与你交流。这也就不难解释,为何ChatGPT与汽车、电话和互联网一样,都是划时代的重要发明。
例如,企业在做宣传的时候,最头疼的是哪些营销话术能说,哪些不能说。这种判断之前主要依赖有经验的法务人士,但是这很耗时而且效率不高。国内一家食品消费类公司在使用人工智能技术几个月之后,发现这个问题得到了有效解决,人工智能可以很好地对营销话术进行判断与审核,甚至能判断具体话术涉及哪些法律条文,以及曾经的判决案例是什么。这些场景在工作生活中非常普遍,也是我们经常遇到的痛点,有痛点就意味着有机会。
其次,ChatGPT使人和计算机之间的交互变得更加自然。当我们与ChatGPT交流或给它下任务时,你不需要编写代码,只需用最自然的语言,就像与他人交流或与朋友聊天一样。这是非常自然、高效、个性化和智能的交互入口。
以日本为例,由于社会老龄化和新生人口断崖式下降,日本各级政府和企业都非常欢迎使用新技术来补充劳动力。日本第二大银行瑞穗(Mizuho)宣布将为公司在日本地区的4.5万名员工提供ChatGPT等生成式人工智能服务,主要应用在起草金融合同、审查法律文件、生成金融报告摘要等方面。
最后,ChatGPT将各种人工智能技术和自然语言能力融入寻常百姓家,让每个人都能使用。人工智能从来没有像现在这样可以触达大部分人。只要你能说话或打字,就能与之交流,得到它的回复和响应。因此,正如凯文·凯利所言,评价一项技术成果需要考虑这项技术是否具有广泛的影响力和无限的可能,很明显人工智能的这个拐点可以催生出无限的可能,并引发万事万物的改变。
前不久,美国一家急诊科医生的经历就很有代表性。这位急诊科医生凌晨3点左右收治了一名96岁的阿尔茨海默病患者,患者由于肺部有积液,所以呼吸困难。患者的3个孩子也是70多岁的老人,但是在治疗方案上3个子女和医生争论不休,并且情绪激动。医生一边要治疗病人,一边还要安抚家属,显然时间上来不及。为此医生对ChatGPT下了一个指令:“为什么不能给水肿和呼吸困难的人进行静脉注射,并且用富有同情心的语言来解释”,ChatGPT写了一篇非常好的答复,医生让护士把这篇回答念给家属听,之后家属激动的情绪得到了有效的缓解。这是一个非常小的应用场景,不涉及付费和具体业务场景,但却是普通人拥抱人工智能的最细腻的体现。表1-2展示了生成式人工智能的典型应用领域与场景。
表1-2 生成式人工智能的典型应用领域与场景
应用领域 |
应用场景 |
具体应用 |
---|---|---|
办公软件 |
智能化文件管理和分类、自动化文章生成、智能排班、电子邮件过滤和摘要生成 |
Office Copilot、WPS AI |
教育 |
智能化学生学习和作业辅导、自动生成试卷和考试题目、智能化评估学生表现、和AI聊天机器人对话练习口语 |
多邻国、可汗学院 |
搜索引擎 |
通过自然语言问答的方式进行搜索 |
Bing、谷歌 |
电子商务 |
推荐系统、广告内容生成、商品描述生成 |
Shopify |
AI创作 |
AI文字创作、AI自动生成图片 |
Midjourney、 Stable Diffusion |
管理软件 |
自动生成客户报告、营销预测、客户评估报告等,用于客户服务、定制营销等方面 |
Salesforce、 Adobe Firefly |
金融 |
自动化税务申报、智能化税务咨询、自动生成财务报表、客户服务、投资管理、风险管理、交易监管 |
Bloomberg |
AI交友 |
AI虚拟偶像、AI虚拟伴侣 |
Character AI |
总结来说,ChatGPT的创新之处有三点:第一,不仅仅是对技术或现实世界的复刻,而是我们想象力和能力的延伸;第二,交互更加自然,降低了使用门槛;第三,让人工智能技术飞入寻常百姓家,让每个人都能使用。
如何理解人工智能大模型的能力“涌现”?
人工智能大模型存在能力“涌现”的现象。有专家曾经指出,当大模型的参数达到600亿及以上的时候,大模型就可能展现出前所未有的新能力,也就是我们经常听到的能力“涌现”。
那么为何会出现这种情况呢?
从理论上来讲,目前业内尚未有较好的方法来论证这一观点,但现象已经得到大家认可。也就是说理解一个现象和用公式推导证明是两回事。就如同我们可以轻松理解1+1=2,但是要证明为何1+1=2,则需要非常深厚的数学功底。
下面,我通过一个图片案例来看看“涌现”到底是怎么一回事。
第一步,请看图1-3。
图1-3 2×1像素图像
从图中能看到的信息不多,主要是两个色块。
第二步,再看图1-4。
图1-4 4×2像素图像
图1-4和图1-3差别不大,只是多了更多不同颜色的色块。
第三步,再看图1-5。
图1-5 8×4像素图像
从图1-5中还是看不出什么,但是仔细观察图中有不少元素。
第四步,继续,我们再看图1-6。
图1-6 16×8 像素图像
图1-6的图像色彩更丰富了,好像能看到点东西,但是具体是什么仍然看不出来。
第五步,再接再厉,看看图1-7。
图1-7 32×16像素图像
到了这一步,我们能看到图中有几个玩偶的形状,但是具体是什么还是看不清楚。
第六步,最后一次机会,我们来看看图1-8。
图1-8 64×32像素图像
相信很多人看到这张图的时候,可以很明显地看出图中有5个公仔,而且是戴着兔子耳朵的公仔,有白色、绿色等不同的颜色。到这一步相信很多人都能看出个大概。
之所以如此详细地介绍整个过程,是因为这整个过程类似一次“涌现”。从第一步到第六步,图片的像素规模都依次扩大了4倍。
第一步:2×1=2个像素色块。
第二步:4×2=8个像素色块。
第三步:8×4=32个像素色块。
第四步:16×8=128个像素色块。
第五步:32×16=512个像素色块。
第六步:64×32=2048个像素色块。
在整个过程中,前四步基本上没有人能看出来图像到底是什么,到第五步极少数人能够进行辨认,到了第六步基本上所有人都看明白了图像的内容。
因此,第六步就有了非凡的意义,这个意义类似于能力“涌现”,是一种突然的理解和获得——在涌现之前毫无痕迹,在涌现之后轻而易举。当然,也有一部分朋友在第五步的时候就能看出来图像的大概内容,这个特征就是“涌现”的临界点,或者叫“阈值”。也就是说在这个点的附近“涌现”会不稳定地发生。根据研究人员的分析可知,大模型能力“涌现”的阈值在600亿参数左右。
通过不断扩大图像像素产生的“涌现”,就如同通过扩大模型参数规模获得的“涌现”一样。因此,对于大模型的能力“涌现”,当你从理解层面掌握这个概念之后,它就可以成为你思考相关人工智能问题的基础,成为你构建更大、更复杂思维的“积木”。至于如何证明这个结论,可以留给真正的科学家来完成。