书名:智慧共生ChatGPT与AIGC生产力工具实践
ISBN:978-7-115-61713-2
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 王树义
责任编辑 赵祥妮
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
人工智能(AI)是否会取代人类?是不是所有的事情机器都能比人做得好?当AlphaGo能下围棋、ChatGPT能理解并生成内容时,当每一次AI应用取得突破时,这两个问题都会引起人们的广泛讨论。
本书提供了多个AI应用的例子,可让读者直观地了解AI已经可以出色地完成很多任务。通过一个个具体的案例,本书细致讲解了主要AI工具的使用方法,包括ChatGPT、Midjourney、Stable Diffusion等AIGC(人工智能生成内容)工具,以辅助我们完成绘画、视频制作、写作、科研等任务,从而提高工作效率。在具体的案例之外,本书还有对方法论的阐述,可提升读者对AI的认知,增强人人都能用好AI的信心。希望读者能举一反三,找到更巧妙、更适合自己的AI应用方式。
希望通过本书,生活在智能时代的我们能意识到AI不再只是机器人或软件,它可以成为我们很好的助手,甚至变成我们的“合伙人”。
很难想象,刚刚接触王树义老师时,我感受到的震惊有多大。他居然精通这么多软件,而且对于每款软件他都有自己独到的使用技巧。更难得的是,他还愿意毫不吝啬地将这些技巧分享给大家。
当时我特别想见见王老师,亲眼看看他使用这些软件的诀窍。于是约好,我开车去天津找王老师学习一下。可惜,后来计划泡汤了,心里一直有点遗憾。
然而好消息是我收到了王老师的新书样稿。这本书详细介绍了许多软件在绘画、视频制作、写作和科研场景中的应用,我数了一下,有二三十款软件。
其实,这只是冰山一角,王老师用过的软件远不止这些。通过这本书,我终于明白了王老师为何能够熟练使用这么多软件。
在书中,他揭示了一个重要的软件使用准则:重器轻用。也就是说,他深信没有任何软件是无可挑剔的,所以不必局限于用一款软件完成所有工作。相反,我们可以灵活组合多款软件,充分利用它们各自的出色功能,高效地完成任务。
就像古时候的神农尝百草一样,王老师尝试过很多软件,发现了每款软件的独到之处。在这本书中,他无私地分享了大量的使用经验,让我们省下了很多试错时间,可以轻松上手。
随着ChatGPT的发布,软件工具迈入了崭新的时代。不同于我们过去开发的软件工具,像GPT这样的大语言模型具备了对客观世界的综合理解,具有一定的通用智能。通过对其微调(fine-turning),我们可以解锁出它的很多令人惊艳的新功能。
在这本书中,王老师详细探讨了多种AI工具,包括Stable Diffusion、Midjourney、ChatGPT等。这些工具展现出令人印象深刻的能力,并且还在快速演化中,例如Midjourney,从2022年2月到2023年5月,在一年多的时间里取得了惊人的进步(见图0.1)……
图0.1 Midjourney各版本对比
进步如此迅猛的AI工具,是否让人有点害怕呢?我发现自己越深入接触这些AI工具,就越感到恐惧。
ChatGPT之父、OpenAI公司首席执行官萨姆·奥特曼(Sam Altman,也译作萨姆·奥尔特曼)在2023年2月27日提出了新版摩尔定律(见图0.2),宣称宇宙中的智能数量将每18个月翻一番[1]。如果这一说法成立,意味着在30年后,AI将比现在聪明100万倍。你认为它会比人类更聪明吗?
[1] 原话中的“intelligence”和“universe”较为模糊,目前尚无定论。
图0.2 新版摩尔定律
特斯拉公司首席执行官埃隆·马斯克(Elon Musk)曾言:“人类社会是一段非常小的代码,本质是一个生物引导程序,最终导致硅基生命的出现。”他的意思是说,碳基生命(地球上的生物)只是启动硅基生命(机器人)的引导程序。
杰弗里·辛顿(Geoffrey Hinton,神经网络之父)也表达了相似的观点:“一旦AI在人类灌输的目的中生成了自我动机,那以它的成长速度,人类只会沦为硅基智慧演化的一个过渡阶段。”
他还说:“我对自己毕生的工作感到非常后悔。我用一个借口来安慰自己:如果我没有这么做,还会有其他人。”
或许他会像爱因斯坦一样(后悔发现了质能转换方程E=mc2,因为其最终导致了原子弹的出现),觉得自己打开了一个潘多拉的魔盒。
根据一种广为流传的说法,奥特曼被称为“随身携带蓝色背包的人”。这个“战术背包”相当于美国总统便携的核武器发射指令装置,它可以直接连接OpenAI公司的核心数据库。一旦奥特曼察觉到AI产生了自我意识并对人类构成威胁,他就可以通过这个背包发出秘密指令,让数据库自行销毁。
这是不是很可怕呢?然而我认为,任何技术都有正反两面,就像原子能一样,既可以被人类用来发电,也可能被用于制造毁灭性武器。我们应该思考的是,如何最大限度地发挥技术有利的一面,遏制其潜在的危险。
有人问,AI会不会取代人类,导致大部分人失业呢?实际上,也许不是AI取代人类,而是那些掌握AI的人取代那些不懂AI的人。所以,掌握AI非常重要。
我们观察到:对于程序员而言,AI可以是个巨大的助力,能够将他们的效率提升3倍,甚至5倍;而对于想学习新技能的程序员来说,AI是个超级棒的辅助工具,它能用各种不同的方式解释知识,将复杂的概念拆解,然后讲解得明明白白,并通过丰富多样的示例程序进行教学,甚至,它还能出各种考题,检验学习者的掌握程度。
想象一下,当程序员的效率提高了5倍、10倍甚至更多时,是否会让那些不懂AI的程序员望尘莫及呢?
因此可以说,AI代表着第四次工业革命。一个国家若未能掌握AI,将面临被淘汰的命运;一个公司若未能掌握AI,将面临被淘汰的命运;一个人若未能掌握AI,也将面临被淘汰的命运……
好啦,废话不多说了。感谢王树义老师慷慨分享的优秀指南。让我们一起进入AI的世界,开启全新的探索之旅吧!
王川
小米科技联合创始人
2023年5月
有人把2022年称作AIGC(Artificial Intelligence Generated Content,人工智能生成内容)的元年,我深表赞同。为什么这么说呢?
2022年7月,我曾经用人工智能(Artificial Intelligence,AI)绘图软件DALL·E绘制了一张图片,提示(prompt)是这样的[1]:
[1] 对应中文见本书第23页。
A comic with a robot wearing a cowboy hat in the center is painting a landscape on a drawing board. The right side of the painting has a creek running through it, with mountains and sunset in the distance in the background.
图0.3是绘制出来的图片。
图0.3 DALL·E绘制的图片
我当时非常兴奋,因为就在1个多月之前(2022年5月下旬),在另一款AI绘图工具Disco Diffusion用同样的prompt绘图时,出来的图片还只是图0.4的效果。
图0.4 Disco Diffusion绘制的图片
而在我写作本书的时候,借助最新版的AI绘图应用Midjourney V5,加上GPT-4(目前OpenAI发布的最新GPT系列模型,可以在ChatGPT中使用)提供的提示增强,已经可以画出图0.5所示的效果了。
图0.5 Midjourney V5绘制的图片
从这个例子不难看出,AI绘图在过去这一年疯狂地快速进化。
AI对我们生活的影响,又岂止绘图这一个方面?
你可能已经听说了,周围不少人悄悄用ChatGPT来写总结报告,他们再也不会因为几千字的总结叫苦不迭了。研究生们曾经一想到要用英文来写作并发表论文就头痛不已,很多人甚至花钱雇专业人士来翻译、润色。现在,这样的工作可以由GPT-4在几分钟内完成,而且文章风格统一、用词准确,语法和拼写更是无懈可击。
我们还可以利用GPT-4调整论文格式、绘制流程图,甚至把原始数据绘制成符合印刷要求的统计图表。提到编程,这绝对是GPT-4的强项。它甚至可以在几分钟内帮我们编一个游戏出来。
有了这些工具的加持,很多人的做事效率成倍提升。对他们来说,AI已经不再是机器人、助手,而变成了他们的“合伙人”。
在本书中,我会列举很多有趣的例子,具体看看AI如何扩展我们的能力边界。不久前我们还无法想象这些能力会在20年内变成现实,但现在许多不可思议的事情已经发生了。
然而,在欢欣鼓舞的同时,我们也要看到事情的另一面。从另一个角度看,对于某些行业、某些工作岗位来说,AI带来的变化并不都是好消息。假如你原先的主要收入来源恰恰是为别人翻译论文、润色文章,或作为插画师为自媒体设计插图,那么随着AI的普及,你的业务量可能不会保持加速增长。因为很多人会发现,他们可以直接使用AI满足自己并不算高的需求,而无须再付费请别人做这部分工作。例如,自从用上了Midjourney,我就再也没打开过Unsplash等图库去寻找高质量的图片。
面对这场变革,有人欢喜有人愁,我们该怎么办呢?
首先要了解的是AI现在能帮助我们做什么,以及它实现这些功能的背后逻辑是什么。注意,这并不意味着我们每个人都要去学习AI背后的数学公式或浩如烟海的技术文档。这些事情需要劳烦AI和IT领域的专业人士去考虑。但作为普通用户,我们需要更为清晰地了解AI的能力边界在哪里,以避免不切实际的幻想,甚至被骗得团团转。我们可能需要开始着手构建一些靠谱的信息渠道,帮助自己不断了解更为好用的工具,并且知道在什么场合下该选择什么样的工具,以更高效地完成工作。
对于学生来说,这个问题可能会变得更加复杂。例如在专业选择上,你可能要做出一些调整。如果你之前想从事的是那些随着AI的发展,业务量会显著下滑、岗位需求会减少的工作,建议你及早做出调整,以免进入一个萎缩的夕阳产业。反之,如果你的专业与AI的发展关系紧密,那么你就如同坐上了电梯,可以快速达成许多自己未曾想过的成就。
此外,在AI时代,大学生或者职场人士该如何利用课余时间充电?以前我们往往会选择追求专业技能的精进,靠自己的竞争力脱颖而出,例如学生全力以赴背单词,职场人悄悄学编程。但现在,如果不了解AI能力的新进展,那么传统的路径可能并不能帮到我们,我们的知识和技能或许会在他人与AI的组合面前变得不堪一击。例如你背了很长时间单词,但翻译时依然无法清晰表达自己的意思,更不要说还有很多专业领域的知识与术语。与此同时,你的同事可能一个单词也没有背过,但是他知道该选用哪一个工具做翻译工作,于是可以快速交出令人刮目相看的作品。
我们更需要利用好AI带来的机遇,把宝贵的时间和资源投入真正能够发挥自己长处的地方,从而获得更大的竞争优势。比如,GPT-4出现以后,学好如何驾驭提示工程(prompt engineering),或许要比背诵某一门编程语言的语法有用得多。
这就是我要写作本书的原因。
首先,我希望它能够提升你对AI的认知。我曾经发过这样的感慨:“ChatGPT时代,见识比记忆更重要,品位比经验更有用。”很多时候,我们不能很好地利用AI来为自己赋能,并非因为能力欠缺,而只是“不知道”而已。本书提供了很多AI应用的例子,可让你了解现在的AI是可以做到这些的。更希望你能够举一反三,触类旁通,找到更巧妙、更适合自己的AI应用方式。
其次,我希望通过本书让你增强信心。AI背后的技术非常复杂,GPT-4这样的大模型的研发、训练和部署都需要大规模的组织协作、资源投入才能完成。但对于普通用户来说,我们根本不用了解过多的技术细节,就可以利用它做好自己的工作。我非常赞同fast.ai创始人Jeremy Howard(杰里米·霍华德)的理念:你不需要一个博士学位,不需要了解微积分,也可以应用深度学习这样的技术。
如果通过阅读本书,你能够达成上述这两点——认知提升和信心增强,作为作者的我就感到非常欣慰了。
AI时代就这样到来了。既然AI能够做到很多从前只有人类才能做到的事,我们每一个人就不得不重新审视和思考自己的专业能力。当然,若能了解AI如何帮助我们提升自己的竞争优势,就更好了。
有的人提出,我们应该让AI的研究停滞下来,等等追得气喘吁吁的人们。这个提议很有人文关怀,但是根据博弈论,全世界一起叫停这场AI变革,恐怕很难实现。拒绝AI不是一个合理的选项,因为那意味着浪费和失去机遇。关键问题在于,在这场变革中,你究竟处在哪个位置?
我给你的建议是持续构建自己的信息渠道,更新自己的知识库,把自己的效率工具打磨得更加锐利,做到与时俱进。至少,你要避免有一天醒来时,突然发现自己不再被社会需要。
祝你在AI时代,多一些轻松和愉悦,少一些烦恼和焦虑。下面让我们一起开始这趟令人激动的旅程吧!
王树义
2023年5月
本书由异步社区出品,社区(https://www.epubit.com/)为您提供后续服务。您可以扫描右侧的二维码并发送“61713”添加异步助手为好友,获取配套资源。
作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。
当您发现错误时,请登录异步社区,按书名搜索,进入本书页面,单击“提交勘误”,输入勘误信息,单击“提交”按钮即可。本书的作者和编辑会对您提交的勘误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。
我们的联系邮箱是contact@epubit.com.cn。
如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。
如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们;有意出版图书的作者也可以到异步社区投稿(直接访问www.epubit.com/contribute即可)。
如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。
如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。
“异步社区”是人民邮电出版社旗下IT专业图书社区,致力于出版精品IT图书和相关学习产品,为作译者提供优质出版服务。异步社区创办于2015年8月,提供大量精品IT图书和电子书,以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。
“异步图书”是由异步社区编辑团队策划出版的精品IT专业图书的品牌,依托于人民邮电出版社的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、人工智能、测试、前端、网络技术等。
异步社区
微信服务号
Stable Diffusion、DALL·E、Midjourney一次次在互联网上掀起热潮,让人感叹人工智能(Artificial Intelligence,AI)绘图的技术“日新月异”,甚至已出现给AI“打杂”的插画师岗位,工作内容是使用AI绘图工具产生不同风格的插画并精修。得益于技术的飞速进展,即使我们从来没有接触过画画,AI也能让我们的构想在画布上飞扬。
有小伙伴问,根据关键词从Unsplash平台[1]搜索图片,和通过Text-to-Image GAN生成图片是不是一回事?Text-to-Image GAN指的是文本到图像[2]的生成式对抗网络,GAN即Generative Adversarial Network,如图1.1所示。
[1] Unsplash是一个免费无版权的图片分享平台。
[2] 本书中的图像一般指图片,两者未严格区分。
图1.1 GAN论文
我当时简要回答了一下,大意为:前者是从“有”中寻找,后者是“无中生有”。也就是说,Unsplash平台上面虽然有很多图片,但是只有它先有了某张图片,你才能通过关键词找到,如图1.2所示。
图1.2 Unsplash 平台
但是利用GAN等AI生成技术,就完全没有这个前提限制。你可以让计算机利用GAN做出一张亘古至今都不曾存在的图片,GAN的运行原理如图1.3所示。
Generator:生成器; Discriminator:判别器;
skip-thought vector:跳跃思维向量,skip-thought模型生成的向量;
Upsample:上采样; Downsample:下采样;
Residual Block:残差块; Sigmold unit:以Sigmoid函数为激活函数的神经元
图1.3 GAN的运行原理
此处并不准备详细拆解图1.3每一部分的原理。GAN的运行包括核心的两部分:生成器(Generator)和判别器(Discriminator)。打个比方,前者是画家,后者是评论家。画家(生成器)画出来的画,被评论家(判别器)打击批评。然后画家的技艺就变得愈发精湛,甚至可以通过评论家严苛的审视。你看,这个过程显然比人类画家的创作过程更有效率。因为换作是我,每画一幅画,都要遭受别人严厉的批评,估计早就不干了。
当这个模型运行过许多轮次后,画家就学会了如何根据输入的文字,画出“符合要求”的画作。而我们只要拿到这个模型并运行,就可以摘取到“低垂的果实”了。不过问题在于,使用AI技术有一定的门槛,普通人即便调用别人训练好的模型,也没那么方便,至少得准备好计算资源、存储空间,还需要进行足够细致的设置。
我从阮一峰的博客上看到了这样一款工具,即使我们不了解任何AI和深度学习的知识,使用它也能轻易尝试文字到图片的生成。如此一来,我们可以用实践来体会什么叫作“无中生有”。我们唯一需要做的,只是输入一句英文。这款工具的名字叫作Text to Image Art Generator,其网站首页如图1.4所示。
图1.4 Text to Image Art Generator网站首页
为了能够顺利收到运行结果,需要注册一个免费账号。注册过程很简单,此处就不展开介绍了。注册页面如图1.5所示。
图1.5 注册页面
然后,就可以开始自己的创作了,如图1.6所示。
图1.6 开始创作
只需要在文本框中输入要表达的内容即可,注意要用英文,如图1.7所示。例如这里输入(参加奥运会100米赛跑比赛的霸王龙):
a t-rex playing in olympics 100 meters running game
图1.7 文本框中输入
然后往下滑动,选择输出的图片类型,如图1.8所示。这里有3种选择:Thumbnail(缩略图)、Low Res(低清晰度)、Medium Res(中清晰度)。
图1.8 选择图片类型
不同的图片类型消耗的点数(credit)不同。每个用户注册时免费获得3个点数,后面就得付费购买了。为了低碳环保和节约点数,这里选择的是缩略图,然后单击“CREATE”按钮就可以开始创作了,如图1.9所示。
图1.9 开始创作
根据输入内容的难度,等待创作的时间可能不同。少安毋躁,过一会儿再刷新,就能看到计算机自动生成的图片了,如图1.10所示。
图1.10 生成的图片1
单击图片可以看到图片的细节,如图1.11所示。
图1.11 图片的细节
其实一个缩略图哪有什么细节呢?这图片画得……怎么说呢?我只能用“一言难尽”来形容。看来这个模型在训练的时候,似乎没有包含太多古生物细节的图片。
我们不妨多尝试几次。这次换成地球上目前存在的生物,这样生成的东西可能更加具象一些。例如输入(深海中鲨鱼上的一个小男孩):
a small boy on the shark in deep ocean
生成的图片如图1.12所示。嗯,比起图1.11,感觉好多了。
图1.12 生成的图片2
Stable Diffusion是AI图像生成发展过程中的一个里程碑,相当于给大众提供了一个可用的高性能模型,不仅生成的图像质量非常高、运行速度快,而且对计算资源和内存的要求也较低。目前,Stable Diffusion的代码和模型都已开源。
按理说,每一个感兴趣的用户都已经在开心地尝试用Stable Diffusion作画,但是这种模型在工作中需要有足够的算力支持。以前还得需要一块专业级图形处理单元(Graphics Processing Unit,GPU)来运行它,如图1.13所示。我买不起专业级GPU,怎么办呢?我就从Google Colab租了云GPU来用,为此还交了钱订阅Colab Pro。
图1.13 GPU设置
而随着PyTorch 对苹果芯片支持的完善,现在完全可以在自己的MacBook(M1/M2芯片)上面运行 Stable Diffusion ,从而获得绘图结果了。不花一分钱去租或者买GPU就能在本地出图,那岂不是相当于随身携带了一个插画师?想想都兴奋。
但问题是,为了实现这个功能,用户需要按照别人提供的详细教程,在本地安装一系列软件包。但凡Stable Diffusion在设置上稍微出点儿问题,往往就会让小白用户手足无措,如图1.14所示。
图1.14 设置出错
我明明只是打算输入文本生成图片,为什么需要先达到计算机二级终端命令行操作水平?这个痛点,不只是想尝鲜的新手会有,就连专业人士也会觉得很麻烦。因为大家这么多年被图形界面宠坏了,早就习惯了窗口交互。使用Stable Diffusion时连换个描述语都要在一行行代码里面做文本替换,很不方便。
后来我偶然看到了一个GitHub 项目,叫作Diffusion Bee[3],可以有效解决这个痛点—— 终于,在MacBook上面,图形界面开箱即用。不需要手动安装依赖、在命令行中输入参数,更不用对报错调试……总之,可以直接用Stable Diffusion来画图了。Diffusion Bee项目界面如图1.15所示。
[3] 项目地址为https://github.com/divamgupta/diffusionbee-stable-diffusion-ui。
图1.15 Diffusion Bee项目界面
我们需要做的,就是单击“Download for MacOS”按钮,如图1.16所示,下载安装包,完成安装,打开软件。
图1.16 “Download for MacOS”按钮
首次运行时,Diffusion Bee需要下载两个模型,总大小超过 4.5GB,如果网速较慢,就需要等待较长时间。好在这是一次性的,以后就不用这么麻烦了。当模型全部下载完毕,就会进入一个非常简洁的操作页面,如图1.17所示。
图1.17 操作页面
然后输入提示(prompt),单击“Generate”按钮就可以生成图片了。例如输入“A cat and a dog chasing each other on planet mars”(一只猫和一只狗在火星追逐嬉戏),生成过程如图1.18所示。
图1.18 生成过程
Diffusion Bee 生成图片的速度取决于计算机的硬件配置。根据官方说明,16GB 内存的MacBook(M1),生成一张图片大概需要 30s。我的计算机是2020 款初代MacBook(M1),配置低一些,而且内存里面驻留了很多服务,生成图片的时间也就相应延长。如果你的计算机配置更高、内存更大(例如 32GB),那么生成速度会更快。
这一示例prompt生成的图片如图1.19所示,你觉得怎么样?我觉得这款AI绘画工具还不够智能——应该给猫和狗穿上专业太空服,要不然怎么能体现出火星环境呢?
图1.19 生成的图片
当然,描述过于简单也是一个主要原因,在原来的基础上加入新的描述就可以解决这个问题了。单击图片下方的“Save Image”,然后就可以尝试生成下一张图片了。
一些自媒体文章的题图就可以通过这个小应用来生成。比如图1.20是我使用过的题图,它就是通过以下prompt 生成的:A painter is drawing a picture on a MacBook(一位画家正在MacBook上画画)。
图1.20 作者使用过的题图
你觉得效果怎么样?Diffusion Bee 的作者感慨,说没有想到一个周末完成的小项目,居然收获了那么多的关注,甚至冲上HackerNews(一个知名新闻频道)的榜首。
估计有很多专业用户会嗤之以鼻:“哼,不就是给命令行套了个壳吗?有啥了不起?花里胡哨的!”
其实我倒觉得,Diffusion Bee 受到欢迎非常容易理解——同等动机水平下,人们更喜欢降低行为的成本。没错,这样一个小应用,看似不过是给命令行早就能够达成的功能“套个壳”,但这看似很小的一点改进,却使得一项新技术可以瞬时触达更多普通用户。他们原本是有使用的热情的,只不过被复杂的操作方法和频繁的报错折磨到放弃了。所以,如果你有机会,能用低成本减少一群人的痛苦,那么别怕被所谓的“专业人士”嘲笑,尽管去做有价值的事吧!
DALL·E是OpenAI推出的图片生成模型,能够直接通过文本描述生成类似超现实主义的图片,让机器也能拥有顶级画家、设计师的创造力。我2022年4月7日提交的申请,到2022年 7月13日(差不多100天)收到了可以使用DALL·E的通知,如图1.21所示。
图1.21 DALL·E欢迎示意图
赶紧点进去后,欢迎我的是这样一个霸王条款,如图1.22所示。条款的内容简单概括来说就是:图片只能个人使用,严禁商用;而且OpenAI对于DALL·E创作出来的图片拥有所有权,用户只对自己上传到系统的图片拥有所有权。但是,为了改进模型,OpenAI可能会用用户上传的图片作为训练数据。
面对这样的条款,如果是其他产品,我可能就不用了。但是这回不行,DALL·E对我的吸引力太大了。
图1.22 条款
我输入了这样一段描述文字(一只功夫熊猫正在树林里与霸王龙搏斗):
A kung fu panda is fighting with a T-rex in the woods
然后模型开始工作。在图片生成过程中会有一些提示,帮你改进后续的内容输入方式。提示示例如图1.23所示。
图1.23 提示示例
几十秒之后,我看到了生成的图片,一共6张[4],如图1.24所示。你更喜欢哪一张呢?
[4] 在本书出版前,DALL·E已改为一次可生成4张图片。
图1.24 一只功夫熊猫正在树林里与霸王龙搏斗
我正玩得不亦乐乎,儿子进来了。他刚放假,最近在和弟弟养小鸡。于是他出了一个题目(两个小男孩在逗弄两只毛茸茸的小鸡):
Two little boys, teasing two fluffy chicks
生成的图片如图1.25所示。他不是很满意,因为这两个小孩明显是外国人。
图1.25 两个小男孩在逗弄两只毛茸茸的小鸡
于是我修改了一下描述(两个亚洲小男孩在逗弄两只毛茸茸的小鸡):
Two little Asian boys, teasing two fluffy chicks
生成的图片如图1.26所示。这次看起来好多了。
图1.26 两个亚洲小男孩在逗弄两只毛茸茸的小鸡
在1.1节,我们已经感受到Text to Image Art Generator这款工具的绘图能力。下面来对比Text to Image Art Generator和DALL·E在相同提示下生成的图片的差别。
这是第一句(深海中鲨鱼上的一个小男孩):
A small boy on the shark in deep ocean
Text to Image Art Generator对应生成的图片如图1.27所示。
图1.27 Text to Image Art Generator生成的图片1
我把同样的内容输入DALL·E中,生成的图片如图1.28所示。
图1.28 DALL·E生成的图片1
果然是没有对比就没有伤害啊!
1.1节里还有一句话(参加奥运会100米赛跑比赛的霸王龙):
A t-rex playing in olympics 100 meters running game
Text to Image Art Generator生成的图片如图1.29所示。
图1.29 Text to Image Art Generator生成的图片2
同样的文本,在DALL·E 里生成的图片如图1.30所示。只能用“不可同日而语”来形容了吧!
图1.30 DALL·E生成的图片2
我想再对比一下Disco Diffusion和DALL·E的区别。
我们先试试第一组(一幅美丽的风景画,画的是一个穿着黑色长袍的巫师,以及一只在原始森林中激战的霸王龙,一个9岁的男孩和一个5岁的男孩在角落里看着他们。):
A beautiful landscape painting of a wizard in black robes, and a Tyrannosaurus rex in a fierce battle in the primeval forest. A 9-year-old boy and a 5-year-old boy are watching them in the corner.
Disco Diffusion经过几十分钟生成的图片如图1.31所示。
图1.31 Disco Diffusion生成的图片1
而DALL·E经过几十秒生成的图片如图1.32所示。
图1.32 DALL·E 生成的图片3
再来对比另外一组(漫画中一个戴着牛仔帽的机器人正在画板上画风景。这幅画的右侧有一条小溪穿过,背景是远处的山脉和日落,由巴勃罗·穆尼奥斯·戈麦斯在艺术台上创作。):
A comic with a robot wearing a cowboy hat in the center is painting a landscape on a drawing board. The right side of the painting has a creek running through it, with mountains and sunset in the distance in the background by Pablo Munoz Gomez Trending on artstation.
Disco Diffusion生成的图片如图1.33所示。
图1.33 Disco Diffusion生成的图片2
DALL·E生成的图片如图1.34所示,其中我最喜欢的是第6张。
图1.34 DALL·E生成的图片4
我不厌其烦地展示AI作画的能力,并不是显摆“看我用计算机画得多棒”或跟你鼓吹“艺术家要失业了”之类的危言耸听。艺术家不会失业,他们会和AI联合,让工作变得更高效,并突破人类创造力的现有边界。但是,有两件事情需要我们注意。
第一件事情是,从事非艺术绘画创作的人可能会遭遇职业危机。例如我从前写文章,需要自己从Unsplash等公共版权图库查找题图,以避免将来被追索版权费(很多摄影、绘画作品也是靠授权来获得收益),但是现在,对于题图,我觉得AI绘制的图已经足够用了。当然,前面提到过,版权依然是个问题。如果想把机器生成的图片用于商业目的,DALL·E并不适合。不过技术的进步会带来更快的迭代速度和更好的绘画质量,而且先进技术会被迅速应用。我们可以期待,后续会有更多的类似工具出现,而且像Disco Diffusion一样,它们并不会给用户带来版权的困扰。
另外一件事情更让人担心。在数据分析与信息服务发展国际会议上,其中一位主讲嘉宾Daniel·Acuna(丹尼尔·阿库纳)提出了科研伦理中的典型问题——图片抄袭。很多论文的抄袭、剽窃都是通过图片对比被发现的。讲到这里,你可能会感到奇怪,为什么非得原封不动、像素级复制别人论文中的图片呢?这是因为对于科研中的证据图片(例如通过显微镜观察到的事物的图片)或分析结果图,要想“无中生有”其实挺困难的。多种因素使得“生造的”图片很容易被专业人士识别出来。因此更多人铤而走险把原图里面的元素稍加改动或者干脆复制粘贴,形成自己的图。这是侥幸心理在作祟,期盼别人发现不了自己所制作的图和原图之间的联系。
我在想DALL·E这样强悍的工具的出现,对于学术论文图的造假意味着什么?很多领域,例如生物、医学,都有大量的图片和它们对应的描述。一旦有人把这些内容进行采集,微调DALL·E等模型,完全可以瞒天过海,仅用自己的语言描述,就把想要的结果直接变成制式、风格全都无懈可击的“新”照片或图片。这将给研究结果真实性和原创性的审核带来严峻的挑战。
有什么好办法来应对吗?我能想到的,是用技术对抗技术。面对新的科技浪潮,往往拥抱比排斥更明智。只有同样“见多识广”的模型,才能打败这种违背学术道德的“无中生有”。让我们拭目以待吧。
而在2022年7月,DALL·E 2 Beta版(公开测试版)开始测试;2022年11月,Beta版开放使用。
元宇宙时代,有个卡通的头像(avatar)似乎是刚需。我看到很多小伙伴都给自己弄了一个头像,而且大多保持了神似,很是羡慕。我也想给自己弄一个,不过雇人设计太贵;自己画嘛……我画的武松打虎是图1.35的效果。
图1.35 武松打虎
所以,我还是得找帮手来绘制。好在有AI绘图工具了!越来越多的人在网上展示自己皮克斯三维(3D)风格的头像,效果看着很不错,而且他们透露都是用 Midjourney绘制的。
我因为要给自己的公众号和视频加封面图,所以早就付费订阅了Midjourney。听说它除了画封面,还能画头像,我觉得付费的价值倍增,很是开心。
可问题是,我请教一些成功的先行者,在Midjourney里该用什么样的prompt(提示)来绘制时,他们却总是讳莫如深。说来这也不稀奇,因为现在prompt是可以在市场上售卖的。
既然得不到免费的prompt,我决定自己来尝试。我把自己在正式场合用的证件照(见图1.36)发到了Discord里,然后获得了链接。
图1.36 作者的证件照
之后我把链接加入Midjourney的prompt中。
https://s.mj.run/G9Qf3tp-7gg disney style, --ar 3:2
尝试的结果如图1.37所示,这让我几乎立即死了这条心。
图1.37 Midjourney生成的图片1
这哪里像我啊?一副“社会人”模样。再说谁让你给加姑娘了?加人也就忍了,加一只老鼠(第2张)算什么事?看来,这“买家秀”和“卖家秀”还是差距巨大啊!
还好,我的信息来源算是比较多元化的。我偶然看到有人分享了绘制皮克斯3D风格头像的效果,如图1.38所示。这不就是我心心念念的头像效果吗?太棒了!
图1.38 皮克斯3D风格头像的效果
更惊喜的是,人家连prompt一并发布了,对应的prompt:
<image url>simple avatar, pixar, 3d rendering, flat <color> gradient background --s 500
我立即就行动起来,把自己的头像“扔进去”绘制。
https://s.mj.run/G9Qf3tp-7gg, simple avatar, pixar, 3d rendering, flat white gradient background --s 500 --v5
一下子出来了图1.39的结果。果然比之前好了许多。
图1.39 Midjourney生成的图片2(请忽略第3张)
我还尝试了自己在大雾山的头像照片(见图1.40),用的以下prompt:
https://s.mj.run/o4nFSqwPwps simple avatar, pixar, 3d rendering, flat white gradient background --s 500 --v5
图1.40 在大雾山的头像照片
生成的图片如图1.41所示。
图1.41 Midjourney生成的图片3(请忽略第4张)
可是我觉得绘制出来的人像怎么看也不像我。于是我干脆增加了设定 --iw 1.5,提升原始图片的权重。
https://s.mj.run/o4nFSqwPwps simple avatar, pixar, 3d rendering, --s 500 --iw 1.5 --v5
于是这次出来的效果如图1.42所示。
图1.42 Midjourney生成的图片4
我觉得第3张还能用。将它发到朋友圈里面,朋友们表示:萌萌哒。
至于那张较为正式的证件照,这次也加上了图片权重,依然是 --iw 1.5。
https://s.mj.run/G9Qf3tp-7gg simple avatar, pixar, 3d rendering, --s 500 --iw 1.5 --v5
出来的效果如图1.43所示。思来想去,我还是选了第1张。
图1.43 Midjourney生成的图片5
你有没有发现一个问题:为什么非得给我戴个眼镜呢?我原始照片里没有眼镜,这令我很不解。
我将第1张图片发到网上,有小伙伴建议加上一个 --iw 2,进一步提升原图权重。我尝试了一下,生成的图片如图1.44所示。
图1.44 Midjourney生成的图片6
看到这一组,只能说,加了眼镜的……还好。
又有人出主意,说可以在prompt中指明--no glasses,要求Midjourney去掉眼镜。我又照做了,生成的图片如图1.45所示。
图1.45 Midjourney生成的图片7
这一圈下来,我觉得还是留着图1.46所示这张吧。
图1.46 比较喜欢的头像
前面介绍了使用Stable Diffusion、DALL·E、Midjourney绘图的方法。但如果自己的计算机配置太低或注册遇到问题,是不是就只能眼巴巴看着别人体验新科技成果了呢?当然不是,如今AI技术的普及已经是科技发展的趋势了。
本节介绍一种不需要安装任何应用的AI绘画体验方式,而且我们不用把自己的想法翻译成英文,直接输入中文就可以。这是一个微信小程序,叫作“造梦日记”,开发者是西湖大学蓝振忠老师团队。
这里给读者做个演示。我看到有人分享了一段喷气式背包实验场景的视频,觉得很有意思。视频截图如图1.47所示。
图1.47 喷气式背包实验场景的视频截图
于是我就在朋友圈感慨:“有了这玩意儿,上班堵车不是事儿了。”
感慨之后,我觉得光用文字表达不够形象,又想到刚好可以用造梦日记画出来。于是我打开小程序,输入了这样一段话:
一个背着喷气式背包的中年人在交通拥堵的马路上轻松自在飞行
小程序里可以选择图片的风格。我选择的是“赛博朋克”,觉得和主题很搭,如图1.48所示。
图1.48 造梦日记风格选择
然后选择艺术家。我对赛博朋克艺术家不了解,于是设置成“不限定”,如图1.49所示。
图1.49 艺术家选择
下面还有一个选项,是图片的尺寸,不过目前除了1 : 1,其他尺寸都需要开通VIP才能设置。我觉得对于展示的画作来说,1 : 1体验足够了。做了这些设定后,就可以直接画了,如图1.50所示。
图1.50 开始绘制
这里需要等上几秒,比本地MacBook(M1)运行Stable Diffusion快多了。生成的画作如图1.51所示。你感觉怎么样呢?
图1.51 生成的画作
当然,我也尝试了一些其他的画,例如中国风的“雪中山寺古钟”,如图1.52所示。
图1.52 中国风的“雪中山寺古钟”
雪、山、寺庙都齐全了。感兴趣的读者可以上手体验文字生成图片了。