人工智能辅助药物设计

978-7-115-63392-7
作者: 常珊谢良旭
译者:
编辑: 吴晋瑜

图书目录:

详情

本书着重介绍人工智能技术在医药研发领域的应用。全书按照循序渐进的方式组织内容:先介绍人工智能的基本方法和生物医药的基本概念,然后介绍人工智能在分子表示、药物分子性质预测、分子生成、配体与蛋白质结合能力预测,以及蛋白质结构预测等新药研发任务中的具体应用,并结合具体示例,介绍如何将人工智能方法应用到实际的药物研发中。 要想更好地掌握本书涵盖的内容,读者须掌握 Python 语言和药物学的基础知识。本书适合想了解人工智能辅助药物研发的从业人员、高等院校医工交叉学科的学生阅读,也适合对人工智能辅助医药研发感兴趣的药物研发人员、程序员阅读。

图书摘要

版权信息

书名:人工智能辅助药物设计

ISBN:978-7-115-63392-7

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

著    常 珊 谢良旭

责任编辑 吴晋瑜

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内容提要

本书着重介绍人工智能技术在医药研发领域的应用。全书按照循序渐进的方式组织内容:先介绍人工智能的基本方法和生物医药的基本概念,然后介绍人工智能在分子表示、药物分子性质预测、分子生成、配体与蛋白质结合能力预测,以及蛋白质结构预测等新药研发任务中的具体应用,并结合具体示例,介绍如何将人工智能方法应用到实际的药物研发中。

要想更好地掌握本书涵盖的内容,读者须掌握Python语言和药物学的基础知识。本书适合想了解人工智能辅助药物研发的从业人员、高等院校医工交叉学科的学生阅读,也适合对人工智能辅助医药研发感兴趣的药物研发人员、程序员阅读。

前  言

医药研发是一个数据密集型的研究领域。人工智能作为一种可以处理大数据、挖掘复杂作用规律的新兴技术,在医药研发领域取得了突破性的进展。人工智能在医药研发领域的应用可以追溯到1964年Hansch提出的药物定量构效关系,该构效关系如今已广泛应用于药物靶点发现、化合物筛选、药物靶标作用网络、先导化合物优化、可成药性分析、多肽设计等各个新药研发环节。“人工智能辅助医药研发”现已成为药企的研发新策略,基于人工智能的新药研发被业界认为是最具变革意义的研究技术。然而,人工智能在医药研发领域的应用,要融合人工智能、医药研发等多个领域的专家知识,这也让初涉该领域的从业人员难以找到合适的参考资料。

本书作者一直从事人工智能辅助医药研发方向的科研工作,在小分子药物、多肽疫苗等研发方面积累了大量技术经验,并在业内权威期刊上发表过相关论文,受到了国内外同行的好评,所开发的蛋白-蛋白对接方法在国际CASP-CAPRI比赛中获得了国际前三的成绩。经过多年积累,基于对该领域发展的一些思考和培养学生以及知识分享的需求,作者编写了这本书。

内容概述

本书共18章,介绍了以下三部分内容。

人工智能的基本方法——介绍机器学习和深度学习方法的基本原理。这一部分内容包括人工智能的发展概况和基本概念,以及支持向量机、决策树、集成学习、随机森林、k近邻以及不同神经网络等,旨在帮助读者了解人工智能的基础知识。

编程开发环境——介绍Python语言和编程开发环境的搭建。和其他介绍Python语言的图书不同,本书不详细介绍编程语言,而是倾向于直接将编程语言应用到药物研发的场景中,即使用Python语言搭建TensorFlow和PyTorch等流行的深度学习框架,以完成一个实用的人工智能辅助药物研发环境的搭建。

生物医药基础——介绍常用的药物数据库和蛋白质数据库、药物筛选的基本方法、QSAR的模型、分子的特征提取、药物分子性质预测、药物分子的从头生成、蛋白质结构的预测、蛋白质-配体分子结合能的深度学习预测等内容。这一部分会结合实例加以讲解,旨在让读者了解人工智能在药物设计领域的应用场景。

致谢

本书得到了国家自然科学基金(22003020 和 62373172)、江苏省自然科学基金(BK20191032)、常州市应用基础研究项目(CJ20200045)、江苏省“双创博士”、NSFC-广东联合基金(第二期)超级计算科学应用研究专项子课题、江苏省双创计划科技副总项目、江苏省六大人才高峰项目和常州市青年人才托举工程项目的资助。

本书得以顺利付梓,离不开很多人的帮助。特别感谢中国科学院陈润生院士和上海交通大学张健教授给予的指导和推荐,同时感谢项目组陆翼、徐晴、蔡标、周利涛、王志超、茅荣智和张春等同学给予的支持!

鉴于作者的水平有限,本书无法悉数涵盖人工智能辅助医药研发的新进展,疏漏之处在所难免,敬请读者批评指正,以便日后修改完善。

资源与支持

资源获取

本书提供如下资源:

本书源代码。

要获得以上资源,您可以扫描下方二维码,根据指引领取。

提交勘误

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,单击“发表勘误”,输入勘误信息,单击“提交勘误”按钮即可(见下页图)。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给本书的责任编辑(wujinyu@ptpress.com.cn)。

如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互动,以及传统出版与数字出版的融合发展。

“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域30余年的发展与积淀。异步图书面向IT行业以及各行业使用IT技术的用户。

第1章 绪论

1.1 人工智能发展历史

“人工智能”作为一个研究领域的名称,在1956年达特茅斯会议(Dartmouth Conferences)上首次提出。以John McCarthy(LISP语言发明者、图灵奖得主)、Marvin Minsky(人工智能与认知学专家)、Claude Shannon(信息论的创始人)和Allen Newell(计算机科学家)等为首的科学家共同研究和探讨用机器模拟智能的有关问题,首次提出了“人工智能”,它标志着“人工智能”这门新兴学科的正式诞生。但是,“制造出能像人一样思考和行动的机器”这一梦想则可以追溯到古希腊,例如,古希腊哲学家亚里士多德(公元前384—公元前322)给出了形式逻辑的基本规律。但将人工智能具体实践并发展,还是在电子计算机产生以后。1936年,Turing提出的图灵机模型通过读入、写出、向左和向右移动读写头等基本操作就可以模拟任何机械的形式化算法,奠定了现代电子计算机理论模型的基础。1946年,全球第一台通用计算机ENIAC诞生。它最初是为美军作战研制,每秒能完成5000次加法、400次乘法等运算。ENIAC为人工智能的研究提供了物质基础。1950年,Alan Turing提出了著名的“图灵测试”,用来衡量一个机器是否具有智能。如果计算机能在5分钟内回答由人类测试者提出的一系列问题,且其超过30%的回答让测试者误认为是人类所答,则通过测试。关于人工智能的奇思妙想,研究人员也在不遗余力地研究。在此后的几十年间,人工智能先是被捧为人类光明未来的钥匙,后又被当作过于自大的异想天开而抛弃。

20世纪50年代到60年代,人工智能迎来了第一个黄金时代。1956年,达特茅斯会议确定了人工智能的名称和任务,同时出现了最初的成就和最早的一批研究者,这一事件也被视为人工智能诞生的标志。1959年,计算机游戏先驱Arthur Samuel在IBM的首台商用计算机IBM 701上编写了西洋跳棋程序,这个程序顺利战胜了当时的西洋棋大师罗伯特·尼赖。1965年,专家系统首次亮相。美国科学家Edward Albert Feigenbaum等研制出化学分析专家系统程序DENDRAL,用于分析实验数据来判断未知化合物的分子结构。

20世纪70年代初,人工智能遭遇发展瓶颈。即使是最杰出的人工智能程序,也只能解决它们尝试解决的问题中最简单的那部分,也就是说,彼时的人工智能程序都只是“玩具”。人工智能研究者们遭遇了无法克服的基础性障碍。尽管某些局限后来得以成功突破,但是许多难题至今未得到圆满解决。

20世纪80年代,人工智能迎来了第二个黄金时代。1982年,物理学家John Hopfield证实一种新型的神经网络(现称为“Hopfield网络”)能够用一种全新的方式学习和处理信息。大约在同一时间,Geoffrey Hinton和David Rumelhart提出了一种训练神经网络的方法——反向传播算法。这些发现使1970年以来一直“遭人遗弃”的联结主义重获新生。

20世纪90年代中期,人工智能终于实现了其最初的一些目标,并开始成功应用在整个技术行业中。在人工智能领域内部,一些子领域开始形成,分别专注于特定的问题和方法,如机器学习、自然语言理解、计算机视觉、机器人学等。1997年,IBM公司研发的超级计算机DeepBlue(深蓝)战胜了国际象棋世界冠军Garry Kasparov,成为人工智能发展中的一个重要里程碑。深蓝的运算速度为每秒2亿步棋,并存有70万份大师对战的棋局数据,可搜寻并估计随后的12步棋!

在过去几年中,人工智能呈现爆炸式发展态势,这多半要归因于图形处理器(GPU)的广泛应用——使并行处理变得更快、更便宜、更强大,以及几乎无限的存储空间和海量数据的出现,特别是“大数据运动”后出现的数据,例如图像、文本、交易数据、地图数据等。

随着互联网的发展和计算机的普及,数据的激增为人工智能的应用奠定了基础。同时,计算机硬件技术的飞速发展,GPU、TPU和分布式计算的出现,为人工智能算法提供了强大的算力支撑。2016—2017年,AlphaGo战胜围棋冠军。AlphaGo是由谷歌的DeepMind团队开发的人工智能围棋程序,具有自我学习能力,能够搜集大量围棋对弈数据和名人棋谱,学习并模仿人类下棋。后来出现的AlphaGo Zero(第四代AlphaGo)在无任何数据输入的情况下,开始自学围棋,在诞生36小时后便以100∶0的成绩超越了第二代AlphaGo(AlphaGo Lee),又在诞生的第40天战胜了在人类高手看来不可企及的第三代AlphaGo(AlphaGo Master)。

如图1-1所示,人工智能、机器学习和深度学习三者是依次包含的关系。机器学习是人工智能的一个子领域,而深度学习是一种机器学习方法。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科知识。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心,是使计算机具有智能的根本途径。

图1-1 人工智能、机器学习和深度学习关系图

深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络,例如,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机是建立模拟人脑进行分析学习的神经网络,通过模仿人脑的机制来解释数据,例如图像、声音和文本等。

近年来,人工智能的火热源于大数据和更快、更强的计算机硬件的发展,以深度神经网络模型为代表的深度学习方法引领了第三次人工智能浪潮的兴起。

1.2 传统计算机辅助药物设计的历史

计算机辅助药物设计(Computer Aided Drug Design,CADD)是以计算机化学为基础,通过计算机的模拟、计算和预算药物与受体生物大分子之间的关系,设计和优化先导化合物的方法。所谓的计算机辅助药物设计,实际上就是通过模拟和计算受体与配体的这种相互作用,进行先导化合物的优化与设计。计算机辅助药物设计与人工智能(特别是机器学习)紧密结合的方向有3个,分别是定量构效关系分子对接ADMET预测

20 世纪六七十年代,理性药物设计这一新兴前沿领域应运而生并迅速发展,构效关系的研究也从以前的定性推测水平提升到定量计算水平。20世纪60年代,构效关系的研究进入定量时代,由药物化学家Hansch提出的Hansch分析将分子整体的疏水性、电性、立体参数与药物分子的生理活性联系起来,建立了二维定量构效关系方法。1988年,Cramer等提出了基于分子空间结构的比较分子场方法,即所谓的CoMFA方法。CoMFA通过比较同系列分子附近空间各点的疏水性、静电势等理化参数,将这些参数与小分子生理活性建立联系,从而指导新化合物的设计。相比Hansch方法,CoMFA考虑到了分子内部的空间结构,因而被称为三维定量构效关系。

从20世纪80年代第一个分子对接软件DOCK问世以来,分子对接(molecular docking)方法不断发展,利用对接来探究小分子与蛋白的结合口袋(binding pocket)之间的相互作用,已经成为药物设计中非常流行的一种模拟方法,也是常用的虚拟筛选(virtual screening)策略。分子对接中打分函数的训练往往采用机器学习方法(如回归方法),以获得最佳的组合权重。

在药物研发过程中,ADMET性质是衡量化合物是否能成药的关键因素。药物的ADMET性质是指药物在人体的吸收(absorption)、分布(distribution)、代谢(metabolism)、排泄(excretion)及毒性(toxicity),涉及药物在体内的药代动力学和毒理学相关性质。和定量构效关系类似,ADMET性质预测也是从分子的理化参数出发,通过神经网络/支持向量机(Support Vector Machine,SVM)等方法,将这些参数与ADMET性质建立联系。

1.3 人工智能辅助药物研发概况

人工智能早在20世纪80年代就已用于药物设计,如今,药物研发领域越来越多地采用深度学习方法作为主要的训练工具,而且在研发场景上也更丰富了。

2015年,Wallach等人推出了深度学习模型AtomNet,用以预测选择用于药物发现的活性化合物的结合亲和力。AtomNet是第一个采用卷积神经网络(Convolutional Neural Network,CNN)进行小分子结合亲和力预测的深度学习模型,使用了结合配体和靶标结构信息的新方法。不过,AtomNet需要用到配体和靶蛋白的三维结构,这些三维结构包含参与靶标结合位点相互作用的每个原子的位置。

2018年,上海大学的Mark Waller教授和德国明斯特大学的Marwin Segler博士等人在《Nature》杂志发表的文章中提到了一款可以通过自主学习有机反应来设计分子合成路线的人工智能工具。他们把3种不同的神经网络与蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)相结合,形成了新的AI算法(3N-MCTS),依赖自动提取的规则数据进行训练。在对2015年之后发表的435种复杂分子合成砌块的测试中,3N-MCTS算法能在单个目标分子限制时间为5秒的情况下完成80%的分子合成路线设计,当限制时间延长至60秒时,完成的比例提高到了92%。

2020年,斯坦福大学和默克公司的团队针对31个ADMET数据集系统比较了基于图卷积的多任务深度学习方法与传统基于分子指纹的随机森林方法,在31种ADMET数据集上进行了训练,并比较了随机森林和GCNN的结果在两种不同的交叉验证策略的测试集上的结果。结果显示,多任务深度学习方法预测准确性有明显提升。

蛋白质结构的测定是困扰生命科学领域长达50年的科学难题,特别是重要的靶点蛋白质结构解析。为解决这一根本问题,国际组织举办了蛋白质结构预测评估赛(Critical Assessment of protein Structure Prediction,CASP)。2020年,在CASP中,单体结构预测取得了重大突破,谷歌的AlphaFold 2在多个体系的预测精度已经达到可与实验结果比较的程度,并预测了人类98.5%的蛋白质;而此前科学家们数十年的努力,只覆盖了人类蛋白质序列中的17%。《Nature》杂志以“It will change everything”(它将改变一切)作为标题特别进行了报道,《Science》杂志连续两年(2020年和2021年)将其列为十大科学进展。结构生物学家施一公院士也表示,AlphaFold对蛋白结构的精准预测是人类在21世纪取得的最重要的科学突破之一。

在我国,针对人工智能在生物医药领域的突破性进展,科技部已经组织了两次香山科学会议,即2021年8月的“人工智能与结构生物学”学术讨论会和2020年9月的“人工智能与中医药学”学术讨论会。

相关图书

大模型应用开发 动手做AI Agent
大模型应用开发 动手做AI Agent
GPT图解 大模型是怎样构建的
GPT图解 大模型是怎样构建的
大语言模型:基础与前沿
大语言模型:基础与前沿
生成式AI入门与AWS实战
生成式AI入门与AWS实战
ChatGPT原理与应用开发
ChatGPT原理与应用开发
人工智能和深度学习导论
人工智能和深度学习导论

相关文章

相关课程