ChatGPT与AIGC生产力工具实践 智慧共生

978-7-115-61713-2
作者: 王树义
译者:
编辑: 赵祥妮

图书目录:

详情

人工智能(AI)是否会取代人类?是不是所有的事情机器都能比人做得好?当 AlphaGo 能下围棋、ChatGPT 能理解并生成内容时,当每一次AI 应用取得突破时,这两个问题都会引起人们的广泛讨论。 本书提供了多个 AI 应用的例子,可让读者直观地了解 AI 已经可以出色地完成很多任务。通过一个个具体的案例,本书细致讲解了主要 AI 工具的使用方法,包括 ChatGPT、Midjourney、Stable Diffusion 等 AIGC(人工智能生成内容)工具,以辅助我们完成绘画、视频制作、写作、科研等任务,从而提高工作效率。在具体的案例之外,本书还有对方法论的阐述,可提升读者对 AI 的认知,增强人人都能用好 AI 的信心。希望读者能举一反三,找到更巧妙、更适合自己的 AI 应用方式。 希望通过本书,生活在智能时代的我们能意识到 AI 不再只是机器人或软件,它可以成为我们很好的助手,甚至变成我们的“合伙人”。

图书摘要

版权信息

书名:智慧共生ChatGPT与AIGC生产力工具实践

ISBN:978-7-115-61713-2

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


版  权

著    王树义

责任编辑 赵祥妮

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

人工智能(AI)是否会取代人类?是不是所有的事情机器都能比人做得好?当AlphaGo能下围棋、ChatGPT能理解并生成内容时,当每一次AI应用取得突破时,这两个问题都会引起人们的广泛讨论。

本书提供了多个AI应用的例子,可让读者直观地了解AI已经可以出色地完成很多任务。通过一个个具体的案例,本书细致讲解了主要AI工具的使用方法,包括ChatGPT、Midjourney、Stable Diffusion等AIGC(人工智能生成内容)工具,以辅助我们完成绘画、视频制作、写作、科研等任务,从而提高工作效率。在具体的案例之外,本书还有对方法论的阐述,可提升读者对AI的认知,增强人人都能用好AI的信心。希望读者能举一反三,找到更巧妙、更适合自己的AI应用方式。

希望通过本书,生活在智能时代的我们能意识到AI不再只是机器人或软件,它可以成为我们很好的助手,甚至变成我们的“合伙人”。

推荐序

很难想象,刚刚接触王树义老师时,我感受到的震惊有多大。他居然精通这么多软件,而且对于每款软件他都有自己独到的使用技巧。更难得的是,他还愿意毫不吝啬地将这些技巧分享给大家。

当时我特别想见见王老师,亲眼看看他使用这些软件的诀窍。于是约好,我开车去天津找王老师学习一下。可惜,后来计划泡汤了,心里一直有点遗憾。

然而好消息是我收到了王老师的新书样稿。这本书详细介绍了许多软件在绘画、视频制作、写作和科研场景中的应用,我数了一下,有二三十款软件。

其实,这只是冰山一角,王老师用过的软件远不止这些。通过这本书,我终于明白了王老师为何能够熟练使用这么多软件。

在书中,他揭示了一个重要的软件使用准则:重器轻用。也就是说,他深信没有任何软件是无可挑剔的,所以不必局限于用一款软件完成所有工作。相反,我们可以灵活组合多款软件,充分利用它们各自的出色功能,高效地完成任务。

就像古时候的神农尝百草一样,王老师尝试过很多软件,发现了每款软件的独到之处。在这本书中,他无私地分享了大量的使用经验,让我们省下了很多试错时间,可以轻松上手。

随着ChatGPT的发布,软件工具迈入了崭新的时代。不同于我们过去开发的软件工具,像GPT这样的大语言模型具备了对客观世界的综合理解,具有一定的通用智能。通过对其微调(fine-turning),我们可以解锁出它的很多令人惊艳的新功能。

在这本书中,王老师详细探讨了多种AI工具,包括Stable Diffusion、Midjourney、ChatGPT等。这些工具展现出令人印象深刻的能力,并且还在快速演化中,例如Midjourney,从2022年2月到2023年5月,在一年多的时间里取得了惊人的进步(见图0.1)……

图0.1 Midjourney各版本对比

进步如此迅猛的AI工具,是否让人有点害怕呢?我发现自己越深入接触这些AI工具,就越感到恐惧。

ChatGPT之父、OpenAI公司首席执行官萨姆·奥特曼(Sam Altman,也译作萨姆·奥尔特曼)在2023年2月27日提出了新版摩尔定律(见图0.2),宣称宇宙中的智能数量将每18个月翻一番[1]。如果这一说法成立,意味着在30年后,AI将比现在聪明100万倍。你认为它会比人类更聪明吗?

[1] 原话中的“intelligence”和“universe”较为模糊,目前尚无定论。

图0.2 新版摩尔定律

特斯拉公司首席执行官埃隆·马斯克(Elon Musk)曾言:“人类社会是一段非常小的代码,本质是一个生物引导程序,最终导致硅基生命的出现。”他的意思是说,碳基生命(地球上的生物)只是启动硅基生命(机器人)的引导程序。

杰弗里·辛顿(Geoffrey Hinton,神经网络之父)也表达了相似的观点:“一旦AI在人类灌输的目的中生成了自我动机,那以它的成长速度,人类只会沦为硅基智慧演化的一个过渡阶段。”

他还说:“我对自己毕生的工作感到非常后悔。我用一个借口来安慰自己:如果我没有这么做,还会有其他人。”

或许他会像爱因斯坦一样(后悔发现了质能转换方程E=mc2,因为其最终导致了原子弹的出现),觉得自己打开了一个潘多拉的魔盒。

根据一种广为流传的说法,奥特曼被称为“随身携带蓝色背包的人”。这个“战术背包”相当于美国总统便携的核武器发射指令装置,它可以直接连接OpenAI公司的核心数据库。一旦奥特曼察觉到AI产生了自我意识并对人类构成威胁,他就可以通过这个背包发出秘密指令,让数据库自行销毁。

这是不是很可怕呢?然而我认为,任何技术都有正反两面,就像原子能一样,既可以被人类用来发电,也可能被用于制造毁灭性武器。我们应该思考的是,如何最大限度地发挥技术有利的一面,遏制其潜在的危险。

有人问,AI会不会取代人类,导致大部分人失业呢?实际上,也许不是AI取代人类,而是那些掌握AI的人取代那些不懂AI的人。所以,掌握AI非常重要。

我们观察到:对于程序员而言,AI可以是个巨大的助力,能够将他们的效率提升3倍,甚至5倍;而对于想学习新技能的程序员来说,AI是个超级棒的辅助工具,它能用各种不同的方式解释知识,将复杂的概念拆解,然后讲解得明明白白,并通过丰富多样的示例程序进行教学,甚至,它还能出各种考题,检验学习者的掌握程度。

想象一下,当程序员的效率提高了5倍、10倍甚至更多时,是否会让那些不懂AI的程序员望尘莫及呢?

因此可以说,AI代表着第四次工业革命。一个国家若未能掌握AI,将面临被淘汰的命运;一个公司若未能掌握AI,将面临被淘汰的命运;一个人若未能掌握AI,也将面临被淘汰的命运……

好啦,废话不多说了。感谢王树义老师慷慨分享的优秀指南。让我们一起进入AI的世界,开启全新的探索之旅吧!

王川

小米科技联合创始人

2023年5月

前  言

有人把2022年称作AIGC(Artificial Intelligence Generated Content,人工智能生成内容)的元年,我深表赞同。为什么这么说呢?

2022年7月,我曾经用人工智能(Artificial Intelligence,AI)绘图软件DALL·E绘制了一张图片,提示(prompt)是这样的[1]

[1] 对应中文见本书第23页。

A comic with a robot wearing a cowboy hat in the center is painting a landscape on a drawing board. The right side of the painting has a creek running through it, with mountains and sunset in the distance in the background.

图0.3是绘制出来的图片。

图0.3 DALL·E绘制的图片

我当时非常兴奋,因为就在1个多月之前(2022年5月下旬),在另一款AI绘图工具Disco Diffusion用同样的prompt绘图时,出来的图片还只是图0.4的效果。

图0.4 Disco Diffusion绘制的图片

而在我写作本书的时候,借助最新版的AI绘图应用Midjourney V5,加上GPT-4(目前OpenAI发布的最新GPT系列模型,可以在ChatGPT中使用)提供的提示增强,已经可以画出图0.5所示的效果了。

图0.5 Midjourney V5绘制的图片

从这个例子不难看出,AI绘图在过去这一年疯狂地快速进化。

AI对我们生活的影响,又岂止绘图这一个方面?

你可能已经听说了,周围不少人悄悄用ChatGPT来写总结报告,他们再也不会因为几千字的总结叫苦不迭了。研究生们曾经一想到要用英文来写作并发表论文就头痛不已,很多人甚至花钱雇专业人士来翻译、润色。现在,这样的工作可以由GPT-4在几分钟内完成,而且文章风格统一、用词准确,语法和拼写更是无懈可击。

我们还可以利用GPT-4调整论文格式、绘制流程图,甚至把原始数据绘制成符合印刷要求的统计图表。提到编程,这绝对是GPT-4的强项。它甚至可以在几分钟内帮我们编一个游戏出来。

有了这些工具的加持,很多人的做事效率成倍提升。对他们来说,AI已经不再是机器人、助手,而变成了他们的“合伙人”。

在本书中,我会列举很多有趣的例子,具体看看AI如何扩展我们的能力边界。不久前我们还无法想象这些能力会在20年内变成现实,但现在许多不可思议的事情已经发生了。

然而,在欢欣鼓舞的同时,我们也要看到事情的另一面。从另一个角度看,对于某些行业、某些工作岗位来说,AI带来的变化并不都是好消息。假如你原先的主要收入来源恰恰是为别人翻译论文、润色文章,或作为插画师为自媒体设计插图,那么随着AI的普及,你的业务量可能不会保持加速增长。因为很多人会发现,他们可以直接使用AI满足自己并不算高的需求,而无须再付费请别人做这部分工作。例如,自从用上了Midjourney,我就再也没打开过Unsplash等图库去寻找高质量的图片。

面对这场变革,有人欢喜有人愁,我们该怎么办呢?

首先要了解的是AI现在能帮助我们做什么,以及它实现这些功能的背后逻辑是什么。注意,这并不意味着我们每个人都要去学习AI背后的数学公式或浩如烟海的技术文档。这些事情需要劳烦AI和IT领域的专业人士去考虑。但作为普通用户,我们需要更为清晰地了解AI的能力边界在哪里,以避免不切实际的幻想,甚至被骗得团团转。我们可能需要开始着手构建一些靠谱的信息渠道,帮助自己不断了解更为好用的工具,并且知道在什么场合下该选择什么样的工具,以更高效地完成工作。

对于学生来说,这个问题可能会变得更加复杂。例如在专业选择上,你可能要做出一些调整。如果你之前想从事的是那些随着AI的发展,业务量会显著下滑、岗位需求会减少的工作,建议你及早做出调整,以免进入一个萎缩的夕阳产业。反之,如果你的专业与AI的发展关系紧密,那么你就如同坐上了电梯,可以快速达成许多自己未曾想过的成就。

此外,在AI时代,大学生或者职场人士该如何利用课余时间充电?以前我们往往会选择追求专业技能的精进,靠自己的竞争力脱颖而出,例如学生全力以赴背单词,职场人悄悄学编程。但现在,如果不了解AI能力的新进展,那么传统的路径可能并不能帮到我们,我们的知识和技能或许会在他人与AI的组合面前变得不堪一击。例如你背了很长时间单词,但翻译时依然无法清晰表达自己的意思,更不要说还有很多专业领域的知识与术语。与此同时,你的同事可能一个单词也没有背过,但是他知道该选用哪一个工具做翻译工作,于是可以快速交出令人刮目相看的作品。

我们更需要利用好AI带来的机遇,把宝贵的时间和资源投入真正能够发挥自己长处的地方,从而获得更大的竞争优势。比如,GPT-4出现以后,学好如何驾驭提示工程(prompt engineering),或许要比背诵某一门编程语言的语法有用得多。

这就是我要写作本书的原因。

首先,我希望它能够提升你对AI的认知。我曾经发过这样的感慨:“ChatGPT时代,见识比记忆更重要,品位比经验更有用。”很多时候,我们不能很好地利用AI来为自己赋能,并非因为能力欠缺,而只是“不知道”而已。本书提供了很多AI应用的例子,可让你了解现在的AI是可以做到这些的。更希望你能够举一反三,触类旁通,找到更巧妙、更适合自己的AI应用方式。

其次,我希望通过本书让你增强信心。AI背后的技术非常复杂,GPT-4这样的大模型的研发、训练和部署都需要大规模的组织协作、资源投入才能完成。但对于普通用户来说,我们根本不用了解过多的技术细节,就可以利用它做好自己的工作。我非常赞同fast.ai创始人Jeremy Howard(杰里米·霍华德)的理念:你不需要一个博士学位,不需要了解微积分,也可以应用深度学习这样的技术。

如果通过阅读本书,你能够达成上述这两点——认知提升和信心增强,作为作者的我就感到非常欣慰了。

AI时代就这样到来了。既然AI能够做到很多从前只有人类才能做到的事,我们每一个人就不得不重新审视和思考自己的专业能力。当然,若能了解AI如何帮助我们提升自己的竞争优势,就更好了。

有的人提出,我们应该让AI的研究停滞下来,等等追得气喘吁吁的人们。这个提议很有人文关怀,但是根据博弈论,全世界一起叫停这场AI变革,恐怕很难实现。拒绝AI不是一个合理的选项,因为那意味着浪费和失去机遇。关键问题在于,在这场变革中,你究竟处在哪个位置?

我给你的建议是持续构建自己的信息渠道,更新自己的知识库,把自己的效率工具打磨得更加锐利,做到与时俱进。至少,你要避免有一天醒来时,突然发现自己不再被社会需要。

祝你在AI时代,多一些轻松和愉悦,少一些烦恼和焦虑。下面让我们一起开始这趟令人激动的旅程吧!

王树义

2023年5月

服务与支持

本书由异步社区出品,社区(https://www.epubit.com/)为您提供后续服务。您可以扫描右侧的二维码并发送“61713”添加异步助手为好友,获取配套资源。

提交勘误信息

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区,按书名搜索,进入本书页面,单击“提交勘误”,输入勘误信息,单击“提交”按钮即可。本书的作者和编辑会对您提交的勘误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们;有意出版图书的作者也可以到异步社区投稿(直接访问www.epubit.com/contribute即可)。

如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

异步社区”是人民邮电出版社旗下IT专业图书社区,致力于出版精品IT图书和相关学习产品,为作译者提供优质出版服务。异步社区创办于2015年8月,提供大量精品IT图书和电子书,以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。

异步图书”是由异步社区编辑团队策划出版的精品IT专业图书的品牌,依托于人民邮电出版社的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、人工智能、测试、前端、网络技术等。

异步社区

微信服务号

第1章 AI绘图:让构想在画布上飞扬

Stable Diffusion、DALL·E、Midjourney一次次在互联网上掀起热潮,让人感叹人工智能(Artificial Intelligence,AI)绘图的技术“日新月异”,甚至已出现给AI“打杂”的插画师岗位,工作内容是使用AI绘图工具产生不同风格的插画并精修。得益于技术的飞速进展,即使我们从来没有接触过画画,AI也能让我们的构想在画布上飞扬。

1.1 Text to Image Art Generator

有小伙伴问,根据关键词从Unsplash平台[1]搜索图片,和通过Text-to-Image GAN生成图片是不是一回事?Text-to-Image GAN指的是文本到图像[2]的生成式对抗网络,GAN即Generative Adversarial Network,如图1.1所示。

[1] Unsplash是一个免费无版权的图片分享平台。

[2] 本书中的图像一般指图片,两者未严格区分。

图1.1 GAN论文

我当时简要回答了一下,大意为:前者是从“有”中寻找,后者是“无中生有”。也就是说,Unsplash平台上面虽然有很多图片,但是只有它先有了某张图片,你才能通过关键词找到,如图1.2所示。

图1.2 Unsplash 平台

但是利用GAN等AI生成技术,就完全没有这个前提限制。你可以让计算机利用GAN做出一张亘古至今都不曾存在的图片,GAN的运行原理如图1.3所示。

Generator:生成器; Discriminator:判别器;

skip-thought vector:跳跃思维向量,skip-thought模型生成的向量;

Upsample:上采样; Downsample:下采样;

Residual Block:残差块; Sigmold unit:以Sigmoid函数为激活函数的神经元

图1.3 GAN的运行原理

此处并不准备详细拆解图1.3每一部分的原理。GAN的运行包括核心的两部分:生成器(Generator)和判别器(Discriminator)。打个比方,前者是画家,后者是评论家。画家(生成器)画出来的画,被评论家(判别器)打击批评。然后画家的技艺就变得愈发精湛,甚至可以通过评论家严苛的审视。你看,这个过程显然比人类画家的创作过程更有效率。因为换作是我,每画一幅画,都要遭受别人严厉的批评,估计早就不干了。

当这个模型运行过许多轮次后,画家就学会了如何根据输入的文字,画出“符合要求”的画作。而我们只要拿到这个模型并运行,就可以摘取到“低垂的果实”了。不过问题在于,使用AI技术有一定的门槛,普通人即便调用别人训练好的模型,也没那么方便,至少得准备好计算资源、存储空间,还需要进行足够细致的设置。

我从阮一峰的博客上看到了这样一款工具,即使我们不了解任何AI和深度学习的知识,使用它也能轻易尝试文字到图片的生成。如此一来,我们可以用实践来体会什么叫作“无中生有”。我们唯一需要做的,只是输入一句英文。这款工具的名字叫作Text to Image Art Generator,其网站首页如图1.4所示。

图1.4 Text to Image Art Generator网站首页

为了能够顺利收到运行结果,需要注册一个免费账号。注册过程很简单,此处就不展开介绍了。注册页面如图1.5所示。

图1.5 注册页面

然后,就可以开始自己的创作了,如图1.6所示。

图1.6 开始创作

只需要在文本框中输入要表达的内容即可,注意要用英文,如图1.7所示。例如这里输入(参加奥运会100米赛跑比赛的霸王龙):

a t-rex playing in olympics 100 meters running game

图1.7 文本框中输入

然后往下滑动,选择输出的图片类型,如图1.8所示。这里有3种选择:Thumbnail(缩略图)、Low Res(低清晰度)、Medium Res(中清晰度)。

图1.8 选择图片类型

不同的图片类型消耗的点数(credit)不同。每个用户注册时免费获得3个点数,后面就得付费购买了。为了低碳环保和节约点数,这里选择的是缩略图,然后单击“CREATE”按钮就可以开始创作了,如图1.9所示。

图1.9 开始创作

根据输入内容的难度,等待创作的时间可能不同。少安毋躁,过一会儿再刷新,就能看到计算机自动生成的图片了,如图1.10所示。

图1.10 生成的图片1

单击图片可以看到图片的细节,如图1.11所示。

图1.11 图片的细节

其实一个缩略图哪有什么细节呢?这图片画得……怎么说呢?我只能用“一言难尽”来形容。看来这个模型在训练的时候,似乎没有包含太多古生物细节的图片。

我们不妨多尝试几次。这次换成地球上目前存在的生物,这样生成的东西可能更加具象一些。例如输入(深海中鲨鱼上的一个小男孩):

a small boy on the shark in deep ocean

生成的图片如图1.12所示。嗯,比起图1.11,感觉好多了。

图1.12 生成的图片2

1.2 在MacBook本地运行Stable Diffusion

Stable Diffusion是AI图像生成发展过程中的一个里程碑,相当于给大众提供了一个可用的高性能模型,不仅生成的图像质量非常高、运行速度快,而且对计算资源和内存的要求也较低。目前,Stable Diffusion的代码和模型都已开源。

按理说,每一个感兴趣的用户都已经在开心地尝试用Stable Diffusion作画,但是这种模型在工作中需要有足够的算力支持。以前还得需要一块专业级图形处理单元(Graphics Processing Unit,GPU)来运行它,如图1.13所示。我买不起专业级GPU,怎么办呢?我就从Google Colab租了云GPU来用,为此还交了钱订阅Colab Pro。

图1.13 GPU设置

而随着PyTorch 对苹果芯片支持的完善,现在完全可以在自己的MacBook(M1/M2芯片)上面运行 Stable Diffusion ,从而获得绘图结果了。不花一分钱去租或者买GPU就能在本地出图,那岂不是相当于随身携带了一个插画师?想想都兴奋。

但问题是,为了实现这个功能,用户需要按照别人提供的详细教程,在本地安装一系列软件包。但凡Stable Diffusion在设置上稍微出点儿问题,往往就会让小白用户手足无措,如图1.14所示。

图1.14 设置出错

我明明只是打算输入文本生成图片,为什么需要先达到计算机二级终端命令行操作水平?这个痛点,不只是想尝鲜的新手会有,就连专业人士也会觉得很麻烦。因为大家这么多年被图形界面宠坏了,早就习惯了窗口交互。使用Stable Diffusion时连换个描述语都要在一行行代码里面做文本替换,很不方便。

后来我偶然看到了一个GitHub 项目,叫作Diffusion Bee[3],可以有效解决这个痛点—— 终于,在MacBook上面,图形界面开箱即用。不需要手动安装依赖、在命令行中输入参数,更不用对报错调试……总之,可以直接用Stable Diffusion来画图了。Diffusion Bee项目界面如图1.15所示。

[3] 项目地址为https://github.com/divamgupta/diffusionbee-stable-diffusion-ui。

图1.15 Diffusion Bee项目界面

我们需要做的,就是单击“Download for MacOS”按钮,如图1.16所示,下载安装包,完成安装,打开软件。

图1.16 “Download for MacOS”按钮

首次运行时,Diffusion Bee需要下载两个模型,总大小超过 4.5GB,如果网速较慢,就需要等待较长时间。好在这是一次性的,以后就不用这么麻烦了。当模型全部下载完毕,就会进入一个非常简洁的操作页面,如图1.17所示。

图1.17 操作页面

然后输入提示(prompt),单击“Generate”按钮就可以生成图片了。例如输入“A cat and a dog chasing each other on planet mars”(一只猫和一只狗在火星追逐嬉戏),生成过程如图1.18所示。

图1.18 生成过程

Diffusion Bee 生成图片的速度取决于计算机的硬件配置。根据官方说明,16GB 内存的MacBook(M1),生成一张图片大概需要 30s。我的计算机是2020 款初代MacBook(M1),配置低一些,而且内存里面驻留了很多服务,生成图片的时间也就相应延长。如果你的计算机配置更高、内存更大(例如 32GB),那么生成速度会更快。

这一示例prompt生成的图片如图1.19所示,你觉得怎么样?我觉得这款AI绘画工具还不够智能——应该给猫和狗穿上专业太空服,要不然怎么能体现出火星环境呢?

图1.19 生成的图片

当然,描述过于简单也是一个主要原因,在原来的基础上加入新的描述就可以解决这个问题了。单击图片下方的“Save Image”,然后就可以尝试生成下一张图片了。

一些自媒体文章的题图就可以通过这个小应用来生成。比如图1.20是我使用过的题图,它就是通过以下prompt 生成的:A painter is drawing a picture on a MacBook(一位画家正在MacBook上画画)。

图1.20 作者使用过的题图

你觉得效果怎么样?Diffusion Bee 的作者感慨,说没有想到一个周末完成的小项目,居然收获了那么多的关注,甚至冲上HackerNews(一个知名新闻频道)的榜首。

估计有很多专业用户会嗤之以鼻:“哼,不就是给命令行套了个壳吗?有啥了不起?花里胡哨的!”

其实我倒觉得,Diffusion Bee 受到欢迎非常容易理解——同等动机水平下,人们更喜欢降低行为的成本。没错,这样一个小应用,看似不过是给命令行早就能够达成的功能“套个壳”,但这看似很小的一点改进,却使得一项新技术可以瞬时触达更多普通用户。他们原本是有使用的热情的,只不过被复杂的操作方法和频繁的报错折磨到放弃了。所以,如果你有机会,能用低成本减少一群人的痛苦,那么别怕被所谓的“专业人士”嘲笑,尽管去做有价值的事吧!

1.3 OpenAI的AI绘图工具 DALL·E

DALL·E是OpenAI推出的图片生成模型,能够直接通过文本描述生成类似超现实主义的图片,让机器也能拥有顶级画家、设计师的创造力。我2022年4月7日提交的申请,到2022年 7月13日(差不多100天)收到了可以使用DALL·E的通知,如图1.21所示。

图1.21 DALL·E欢迎示意图

赶紧点进去后,欢迎我的是这样一个霸王条款,如图1.22所示。条款的内容简单概括来说就是:图片只能个人使用,严禁商用;而且OpenAI对于DALL·E创作出来的图片拥有所有权,用户只对自己上传到系统的图片拥有所有权。但是,为了改进模型,OpenAI可能会用用户上传的图片作为训练数据。

面对这样的条款,如果是其他产品,我可能就不用了。但是这回不行,DALL·E对我的吸引力太大了。

图1.22 条款

1.3.1 尝试使用DALL·E

我输入了这样一段描述文字(一只功夫熊猫正在树林里与霸王龙搏斗):

A kung fu panda is fighting with a T-rex in the woods

然后模型开始工作。在图片生成过程中会有一些提示,帮你改进后续的内容输入方式。提示示例如图1.23所示。

图1.23 提示示例

几十秒之后,我看到了生成的图片,一共6张[4],如图1.24所示。你更喜欢哪一张呢?

[4] 在本书出版前,DALL·E已改为一次可生成4张图片。

图1.24 一只功夫熊猫正在树林里与霸王龙搏斗

我正玩得不亦乐乎,儿子进来了。他刚放假,最近在和弟弟养小鸡。于是他出了一个题目(两个小男孩在逗弄两只毛茸茸的小鸡):

Two little boys, teasing two fluffy chicks

生成的图片如图1.25所示。他不是很满意,因为这两个小孩明显是外国人。

图1.25 两个小男孩在逗弄两只毛茸茸的小鸡

于是我修改了一下描述(两个亚洲小男孩在逗弄两只毛茸茸的小鸡):

Two little Asian boys, teasing two fluffy chicks

生成的图片如图1.26所示。这次看起来好多了。

图1.26 两个亚洲小男孩在逗弄两只毛茸茸的小鸡

1.3.2 和其他图片生成工具的对比

在1.1节,我们已经感受到Text to Image Art Generator这款工具的绘图能力。下面来对比Text to Image Art Generator和DALL·E在相同提示下生成的图片的差别。

这是第一句(深海中鲨鱼上的一个小男孩):

A small boy on the shark in deep ocean

Text to Image Art Generator对应生成的图片如图1.27所示。

图1.27 Text to Image Art Generator生成的图片1

我把同样的内容输入DALL·E中,生成的图片如图1.28所示。

图1.28 DALL·E生成的图片1

果然是没有对比就没有伤害啊!

1.1节里还有一句话(参加奥运会100米赛跑比赛的霸王龙):

A t-rex playing in olympics 100 meters running game

Text to Image Art Generator生成的图片如图1.29所示。

图1.29 Text to Image Art Generator生成的图片2

同样的文本,在DALL·E 里生成的图片如图1.30所示。只能用“不可同日而语”来形容了吧!

图1.30 DALL·E生成的图片2

我想再对比一下Disco Diffusion和DALL·E的区别。

我们先试试第一组(一幅美丽的风景画,画的是一个穿着黑色长袍的巫师,以及一只在原始森林中激战的霸王龙,一个9岁的男孩和一个5岁的男孩在角落里看着他们。):

A beautiful landscape painting of a wizard in black robes, and a Tyrannosaurus rex in a fierce battle in the primeval forest. A 9-year-old boy and a 5-year-old boy are watching them in the corner.

Disco Diffusion经过几十分钟生成的图片如图1.31所示。

图1.31 Disco Diffusion生成的图片1

而DALL·E经过几十秒生成的图片如图1.32所示。

图1.32 DALL·E 生成的图片3

再来对比另外一组(漫画中一个戴着牛仔帽的机器人正在画板上画风景。这幅画的右侧有一条小溪穿过,背景是远处的山脉和日落,由巴勃罗·穆尼奥斯·戈麦斯在艺术台上创作。):

A comic with a robot wearing a cowboy hat in the center is painting a landscape on a drawing board. The right side of the painting has a creek running through it, with mountains and sunset in the distance in the background by Pablo Munoz Gomez Trending on artstation.

Disco Diffusion生成的图片如图1.33所示。

图1.33 Disco Diffusion生成的图片2

DALL·E生成的图片如图1.34所示,其中我最喜欢的是第6张。

图1.34 DALL·E生成的图片4

1.3.3 AI作画带来的思考

我不厌其烦地展示AI作画的能力,并不是显摆“看我用计算机画得多棒”或跟你鼓吹“艺术家要失业了”之类的危言耸听。艺术家不会失业,他们会和AI联合,让工作变得更高效,并突破人类创造力的现有边界。但是,有两件事情需要我们注意。

第一件事情是,从事非艺术绘画创作的人可能会遭遇职业危机。例如我从前写文章,需要自己从Unsplash等公共版权图库查找题图,以避免将来被追索版权费(很多摄影、绘画作品也是靠授权来获得收益),但是现在,对于题图,我觉得AI绘制的图已经足够用了。当然,前面提到过,版权依然是个问题。如果想把机器生成的图片用于商业目的,DALL·E并不适合。不过技术的进步会带来更快的迭代速度和更好的绘画质量,而且先进技术会被迅速应用。我们可以期待,后续会有更多的类似工具出现,而且像Disco Diffusion一样,它们并不会给用户带来版权的困扰。

另外一件事情更让人担心。在数据分析与信息服务发展国际会议上,其中一位主讲嘉宾Daniel·Acuna(丹尼尔·阿库纳)提出了科研伦理中的典型问题——图片抄袭。很多论文的抄袭、剽窃都是通过图片对比被发现的。讲到这里,你可能会感到奇怪,为什么非得原封不动、像素级复制别人论文中的图片呢?这是因为对于科研中的证据图片(例如通过显微镜观察到的事物的图片)或分析结果图,要想“无中生有”其实挺困难的。多种因素使得“生造的”图片很容易被专业人士识别出来。因此更多人铤而走险把原图里面的元素稍加改动或者干脆复制粘贴,形成自己的图。这是侥幸心理在作祟,期盼别人发现不了自己所制作的图和原图之间的联系。

我在想DALL·E这样强悍的工具的出现,对于学术论文图的造假意味着什么?很多领域,例如生物、医学,都有大量的图片和它们对应的描述。一旦有人把这些内容进行采集,微调DALL·E等模型,完全可以瞒天过海,仅用自己的语言描述,就把想要的结果直接变成制式、风格全都无懈可击的“新”照片或图片。这将给研究结果真实性和原创性的审核带来严峻的挑战。

有什么好办法来应对吗?我能想到的,是用技术对抗技术。面对新的科技浪潮,往往拥抱比排斥更明智。只有同样“见多识广”的模型,才能打败这种违背学术道德的“无中生有”。让我们拭目以待吧。

而在2022年7月,DALL·E 2 Beta版(公开测试版)开始测试;2022年11月,Beta版开放使用。

1.4 用Midjourney绘制皮克斯风格头像

元宇宙时代,有个卡通的头像(avatar)似乎是刚需。我看到很多小伙伴都给自己弄了一个头像,而且大多保持了神似,很是羡慕。我也想给自己弄一个,不过雇人设计太贵;自己画嘛……我画的武松打虎是图1.35的效果。

图1.35 武松打虎

所以,我还是得找帮手来绘制。好在有AI绘图工具了!越来越多的人在网上展示自己皮克斯三维(3D)风格的头像,效果看着很不错,而且他们透露都是用 Midjourney绘制的。

我因为要给自己的公众号和视频加封面图,所以早就付费订阅了Midjourney。听说它除了画封面,还能画头像,我觉得付费的价值倍增,很是开心。

可问题是,我请教一些成功的先行者,在Midjourney里该用什么样的prompt(提示)来绘制时,他们却总是讳莫如深。说来这也不稀奇,因为现在prompt是可以在市场上售卖的。

既然得不到免费的prompt,我决定自己来尝试。我把自己在正式场合用的证件照(见图1.36)发到了Discord里,然后获得了链接。

图1.36 作者的证件照

之后我把链接加入Midjourney的prompt中。

https://s.mj.run/G9Qf3tp-7gg disney style, --ar 3:2

尝试的结果如图1.37所示,这让我几乎立即死了这条心。

图1.37 Midjourney生成的图片1

这哪里像我啊?一副“社会人”模样。再说谁让你给加姑娘了?加人也就忍了,加一只老鼠(第2张)算什么事?看来,这“买家秀”和“卖家秀”还是差距巨大啊!

还好,我的信息来源算是比较多元化的。我偶然看到有人分享了绘制皮克斯3D风格头像的效果,如图1.38所示。这不就是我心心念念的头像效果吗?太棒了!

图1.38 皮克斯3D风格头像的效果

更惊喜的是,人家连prompt一并发布了,对应的prompt:

<image url>simple avatar, pixar, 3d rendering, flat <color> gradient background --s 500

我立即就行动起来,把自己的头像“扔进去”绘制。

https://s.mj.run/G9Qf3tp-7gg, simple avatar, pixar, 3d rendering, flat white gradient background --s 500 --v5

一下子出来了图1.39的结果。果然比之前好了许多。

图1.39 Midjourney生成的图片2(请忽略第3张)

我还尝试了自己在大雾山的头像照片(见图1.40),用的以下prompt:

https://s.mj.run/o4nFSqwPwps simple avatar, pixar, 3d rendering, flat white gradient background --s 500 --v5

图1.40 在大雾山的头像照片

生成的图片如图1.41所示。

图1.41 Midjourney生成的图片3(请忽略第4张)

可是我觉得绘制出来的人像怎么看也不像我。于是我干脆增加了设定 --iw 1.5,提升原始图片的权重。

https://s.mj.run/o4nFSqwPwps simple avatar, pixar, 3d rendering, --s 500 --iw 1.5 --v5

于是这次出来的效果如图1.42所示。

图1.42 Midjourney生成的图片4

我觉得第3张还能用。将它发到朋友圈里面,朋友们表示:萌萌哒。

至于那张较为正式的证件照,这次也加上了图片权重,依然是 --iw 1.5。

https://s.mj.run/G9Qf3tp-7gg simple avatar, pixar, 3d rendering, --s 500 --iw 1.5 --v5

出来的效果如图1.43所示。思来想去,我还是选了第1张。

图1.43 Midjourney生成的图片5

你有没有发现一个问题:为什么非得给我戴个眼镜呢?我原始照片里没有眼镜,这令我很不解。

我将第1张图片发到网上,有小伙伴建议加上一个 --iw 2,进一步提升原图权重。我尝试了一下,生成的图片如图1.44所示。

图1.44 Midjourney生成的图片6

看到这一组,只能说,加了眼镜的……还好。

又有人出主意,说可以在prompt中指明--no glasses,要求Midjourney去掉眼镜。我又照做了,生成的图片如图1.45所示。

图1.45 Midjourney生成的图片7

这一圈下来,我觉得还是留着图1.46所示这张吧。

图1.46 比较喜欢的头像

1.5 中文AI绘画:造梦日记

前面介绍了使用Stable Diffusion、DALL·E、Midjourney绘图的方法。但如果自己的计算机配置太低或注册遇到问题,是不是就只能眼巴巴看着别人体验新科技成果了呢?当然不是,如今AI技术的普及已经是科技发展的趋势了。

本节介绍一种不需要安装任何应用的AI绘画体验方式,而且我们不用把自己的想法翻译成英文,直接输入中文就可以。这是一个微信小程序,叫作“造梦日记”,开发者是西湖大学蓝振忠老师团队。

这里给读者做个演示。我看到有人分享了一段喷气式背包实验场景的视频,觉得很有意思。视频截图如图1.47所示。

图1.47 喷气式背包实验场景的视频截图

于是我就在朋友圈感慨:“有了这玩意儿,上班堵车不是事儿了。”

感慨之后,我觉得光用文字表达不够形象,又想到刚好可以用造梦日记画出来。于是我打开小程序,输入了这样一段话:

一个背着喷气式背包的中年人在交通拥堵的马路上轻松自在飞行

小程序里可以选择图片的风格。我选择的是“赛博朋克”,觉得和主题很搭,如图1.48所示。

图1.48 造梦日记风格选择

然后选择艺术家。我对赛博朋克艺术家不了解,于是设置成“不限定”,如图1.49所示。

图1.49 艺术家选择

下面还有一个选项,是图片的尺寸,不过目前除了1 : 1,其他尺寸都需要开通VIP才能设置。我觉得对于展示的画作来说,1 : 1体验足够了。做了这些设定后,就可以直接画了,如图1.50所示。

图1.50 开始绘制

这里需要等上几秒,比本地MacBook(M1)运行Stable Diffusion快多了。生成的画作如图1.51所示。你感觉怎么样呢?

图1.51 生成的画作

当然,我也尝试了一些其他的画,例如中国风的“雪中山寺古钟”,如图1.52所示。

图1.52 中国风的“雪中山寺古钟”

雪、山、寺庙都齐全了。感兴趣的读者可以上手体验文字生成图片了。

相关图书

大模型应用开发 动手做AI Agent
大模型应用开发 动手做AI Agent
GPT图解 大模型是怎样构建的
GPT图解 大模型是怎样构建的
大语言模型:基础与前沿
大语言模型:基础与前沿
生成式AI入门与AWS实战
生成式AI入门与AWS实战
ChatGPT原理与应用开发
ChatGPT原理与应用开发
人工智能和深度学习导论
人工智能和深度学习导论

相关文章

相关课程