生物医药大数据与智能分析

978-7-115-55843-5
作者: 彭绍亮
译者:
编辑: 贺瑞君

图书目录:

详情

生物医药大数据蕴含了非常丰富的信息和知识,是关乎人类生存与健康的重要战略资源,但只有对生物医药大数据进行高效处理和智能分析,才能真正推动生物医药研究和产业化从原来的假设驱动向数据驱动转变,因而近些年来生物医药大数据与智能分析逐渐成为潜力巨大且发展迅猛的交叉领域。本书简要介绍了并行计算、机器学习和深度学习应用于生物医药大数据的相关基础知识,并总结了作者团队在生物医药大数据处理和分析领域的若干成果,主要涵盖基因表达谱分析、微生物基因组、药物虚拟筛选、肿瘤基因表达谱分类、RNA编辑位点识别、增强子识别等,以作者团队的研究成果为实际案例,详细介绍了研究的路线和方法。 本书属于高性能计算、大数据、机器学习和生物医药等专业的交叉领域,可以为这些领域的研究人员提供参考,也可作为相关专业高年级本科生和研究生的补充教材。

图书摘要

Biomedical Big Data & lntelligent Analysis

生物医药大数据与智能分析

彭绍亮 王晓伟 编著

人民邮电出版社

北京

图书在版编目(CIP)数据

生物医药大数据与智能分析/彭绍亮,王晓伟编著.--北京:人民邮电出版社,2021.5

ISBN 978-7-115-55843-5

Ⅰ.①生…Ⅱ.①彭… ②王… Ⅲ.①数据处理-应用-生物医学工程②人工智能-应用-生物医学工程Ⅳ.①R318-39

中国版本图书馆CIP数据核字(2021)第040846号

◆ 编 著 彭绍亮 王晓伟

责任编辑 贺瑞君

责任印制 李东 周昇亮

◆ 人民邮电出版社出版发行 北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

北京鑫正大印刷有限公司印刷

◆ 开本:787×1092 1/16

印张:13  2021年5月第1版

字数:293千字  2021年5月北京第1次印刷

定价:99.80元

读者服务热线:(010)81055552 印装质量热线:(010)81055316

反盗版热线:(010)81055315

广告经营许可证:京东市监广登字20170147号

内容提要

生物医药大数据蕴含了非常丰富的信息和知识,是关乎人类生存与健康的重要战略资源,但只有对生物医药大数据进行高效处理和智能分析,才能真正推动生物医药研究和产业化从原来的假设驱动向数据驱动转变,因而近些年来生物医药大数据与智能分析逐渐成为潜力巨大且发展迅猛的交叉领域。本书简要介绍了并行计算、机器学习和深度学习应用于生物医药大数据的相关基础知识,并总结了作者团队在生物医药大数据处理和分析领域的若干成果,主要涵盖基因表达谱分析、微生物基因组、药物虚拟筛选、肿瘤基因表达谱分类、RNA编辑位点识别、增强子识别等,以作者团队的研究成果为实际案例,详细介绍了研究的路线和方法。

本书属于高性能计算、大数据、机器学习和生物医药等专业的交叉领域,可以为这些领域的研究人员提供参考,也可作为相关专业高年级本科生和研究生的补充教材。

序言1

2020年新冠疫情的突然来袭,让全世界认识到了生命科学研究的重要性,生物医药技术与大数据、人工智能、高性能计算等信息技术的交叉融合,将在提高人类的医疗和健康水平方面发挥越来越重要的作用。

本书的作者彭绍亮教授毕业于国防科技大学计算机学院,是一位活跃在我国高性能计算、生物信息、大数据等领域的优秀青年科研工作者。这些年,他和他的团队在生物医药大数据这个交叉领域与国内外许多单位建立了长期的合作关系,并进行了一系列卓有成效的工作。

由彭绍亮教授与王晓伟博士编著的这本《生物医药大数据与智能分析》,不仅系统地总结了近年来国际、国内生物医药大数据领域中并行计算、数据挖掘、机器学习等方面的最新研究成果,还分享了彭绍亮教授团队在大规模异构超级计算机上进行生物医药大数据并行算法研发和优化的经验。本书内容不仅包括生物医药大数据的高效处理和智能分析,还涉及基因序列分析、微生物宏基因分析、药物虚拟筛选、肿瘤基因表达谱分类等具体科研和临床应用案例。

本书是彭绍亮教授团队十余年来科研工作的结晶,是目前国内该领域内容涵盖较为全面的一本专著。通过本书,读者不仅可以了解该领域最新的科学问题和基本知识,更可以学习在生物信息等交叉领域进行研究的方法论和应用技术。本书的出版,必将对进一步推动我国高性能计算与生物医药大数据智能分析的交叉融合发展产生积极的影响。

中国工程院院士

序言2

近年来,随着新一代信息技术的发展与应用,生物医药领域中大数据发挥的作用愈发关键。我国在“十三五”期间先后启动了“精准医学”“数字诊疗装备研发”等一系列重点研发计划专项,将生物医药大数据与人工智能(AI)、高性能计算等IT技术交叉融合。未来,生物医药大数据将在提高人类的医疗和健康水平方面发挥越来越重要的作用。

这些年,介绍生物医药大数据与人工智能结合理念和技术的书刊纷纷出现,但是很多读者读完后还是对此概念不甚清楚。读者需要一座连接宏观理念和技术细节的桥梁,需要能够将高性能计算、大数据、机器学习和生物医药等专业之间交叉融合的研究方法和应用技术“讲清楚”的书籍。

为此,我向大家推荐本书。它从生物医药大数据这个交叉领域的理论与应用的角度切入,系统地总结了近几年国际、国内该领域中并行计算、数据挖掘、机器学习等方面的最新研究成果,建立了生物医药大数据与人工智能技术架构之间的映射关系,并辅以作者团队十余年来走在科研前线的成果进行印证,内容丰富、条理清晰、深入浅出、难易适度,使读者可以系统地了解生物医药大数据与人工智能技术的结合。

为了帮助读者对生物医药大数据与智能分析形成全面、系统的认识,本书首先从系统论的高度对生物医药大数据与智能分析进行了高度的概括,后续内容涵盖了生物医药大数据与智能分析概述、生物医药大数据高效处理的基础、海量基因表达谱分析、功能性前噬菌体预测、高通量药物虚拟筛选、生物医药大数据的智能分析基础、基于字典学习的肿瘤基因表达谱分类、基于深度学习的RNA编辑位点识别、基于深度学习的增强子识别9个方面。这种结构化、系统化的思想贯穿全书,对普通读者、与生物医药大数据有关的医疗从业人员和生物医药大数据领域的科研人员都有帮助,可以使他们全面、深刻地理解和把握复杂的生物医药大数据与智能分析问题。

中国科学院院士

前言

近年来,围绕大规模异构超级计算机在生命科学与医药领域的推广应用,我们团队与中国科学院上海药物研究所、军事医学科学院、深圳华大基因股份有限公司、电子科技大学、人和未来生物科技(长沙)有限公司、湖南智超医疗科技有限公司等单位密切合作,在生物医药大数据领域做了一些研究和开发工作。这些工作大多面向大规模异构超级计算机,解决海量数据分析的时效性和准确性问题。

由于大数据、机器学习等领域的专业书籍汗牛充栋,本书在对大数据并行计算、大数据的机器学习基础知识作简要介绍的基础上,重点介绍我们在生物医药大数据领域的最新研究工作,包括基因表达谱分析、微生物基因组、药物虚拟筛选、肿瘤基因表达谱分类、RNA编辑位点识别、增强子识别等。希望能够通过本书,帮助读者学习、理解、体会在大数据、超级计算、生物医药等交叉领域进行研究的基本方法和思路,从而达到“授人以渔”的目的。

本书是我们团队多年来努力创新的结晶,感谢国防科技大学计算机学院,感谢廖湘科院士,卢宇彤、刘杰、李姗姗老师,感谢团队中对本书内容做出贡献的崔英博、杨顺云、谢湘成、郭润鑫、董懂、张志强、程乾等同学。还要特别感谢与我们密切合作的中国科学院上海药物研究所蒋华良院士,朱维良、徐志建老师;军事医学科学院李松院士,童贻刚、伯晓晨、钟武、李非、舒文杰老师;电子科技大学邹权老师;湖南大学谭蔚泓院士、李肯立老师;中国科学院生物物理研究所陈润生院士等。

书中涉及的研究案例得到了国家超级计算长沙中心(湖南大学)在计算、大数据平台和研发方面的支持,也得到了相关单位、项目和基金的支持,其中包括国家重点研发计划2017YFB0202602、2018YFC0910405、2017YFC1311003、2016YFC1302500、2016YFB0200400、2017YFB0202104,国家自然科学基金U19A2067、61772543、U1435222、61625202、61272056,湖南省杰出青年基金2020JJ2009,长沙市科技计划项目kq2004010、JZ20195242029、JH20199142034、Z202069420652,鹏城实验室、化学生物传感与计量学国家重点实验室基金等,作者一并致以诚挚的谢意。

由于作者水平和精力有限,书中难免有错误和疏漏,恳请读者不吝指正。

作者

于长沙

第一篇 绪论

第1章 生物医药大数据与智能分析概述

随着高通量测序技术凭借其优良的测序性能和低廉的价格在生物领域中被广泛应用,基因组数据经历了爆炸式的增长。在生物医学研究和应用需求的推动下,包括国际千人基因组计划、ENCODE、modEN-CODE、The Cancer Genome Atlas、Human Microbiome Project等[1-3]在内的大型生物医学项目不断推进,基因组数据以每12~18个月10倍以上的速度增长,其积累速度远超过摩尔定律所揭示的计算机硬件发展速度,具备典型的大数据特征。除了基因组学,蛋白质组学、生物医学图像、药物虚拟筛选等领域也有急速增长的数据处理和分析需求,这都为生物医药大数据技术带来了严峻挑战,同时也为这个典型的交叉科学领域的研究人员带来了前所未有的机遇。

本章简要介绍生物医药大数据的相关概念、技术及应用,将生物医药大数据的关键技术问题划分为高效处理和智能分析两大范畴,为读者提供一个生物医药大数据领域相关技术的全景视图。

1.1 生物医药大数据

大数据,通常指无法在一定时间范围内用常规软件工具进行采集、管理和处理的数据集合。通常来说,大数据需要具备“4V”特征,即数量(Volume)大、产生速度(Velocity)快、多样性(Variety)高和价值(Value)高[4]

由于生物医药领域需求的推动和大数据技术的不断发展,大数据已经从研发、制造、医疗服务等环节进入生物医药产业链,生物医药大数据得到了快速发展,尤其在以下3个方面。

(1)生命的整体性和疾病的复杂性导致病因学研究需要海量的生物医药数据作为支撑。例如,人类生命体具有复杂的遗传和分子机制,通过海量的相关数据透视这些机制,能够揭示其中隐藏的生命科学规律,为病因和治疗研究提供支撑。

(2)高通量测序技术的发展和基因组测序成本的下降为基因大数据的产生提供了条件。高通量测序技术可以对数百万个DNA进行同时测序,使得对一个物种的转录组和基因组进行细致、全面的分析成为可能。随着人类基因组计划的完成和计算能力的快速提高,每个基因组的测序成本已从数百万美元降低至数千美元,并且还将继续降低,已经产生了海量测序数据[5-8]

(3)IT行业和医院信息化的迅速发展,也在推动医学图像等诊疗数据源源不断地生成。随着医学仪器的不断进步,越来越多的医疗设备产出了大量人体数据,医院信息化的不断进步,也使得这些数据的存储和共享更加高效和方便。

1.2 生物医药大数据的高效处理

如此大规模和复杂的数据,需要高效的存储、挖掘、分析、可视化等技术才能应对和处理。总的来说,生物医药大数据的高效处理包括两个重要方面:首先是加快处理和分析的速度,其次是改善数据处理的易用性。对于前者,通常采用大规模并行处理技术;对于后者,云计算技术提供了成熟的解决方案。

1.2.1 大规模并行处理技术

生物医药大数据的规模和计算强度已经远远超过了普通计算机所能处理的范围,这在过去的几十年里推动了计算生物学和计算药物学等生物医药学科与计算机学科交叉成为新的学科。生物信息的爆炸式增长、生物过程中相互作用的复杂性、组合化学计算的复杂性、分子级别生物组织的多样性和关联性等,都需要人们使用超级计算、网格计算及其他最新的体系架构来开展计算研究。全球已有很多大型超级计算机或服务器集群被用于生物医药大数据研究,但生物医药软件在可扩展性、可移植性、集成度、可用性等方面仍然有许多问题需要解决,包括将已有的生物医药分析软件移植到最新的超级计算机并进行并行优化,使用网格计算、云计算等分布式技术解决大规模并行计算,利用加速卡(FPGA、GPU、MIC等)和大规模并行架构处理大规模数据等。从计算机系统的角度来讲,生物医药大数据通常需要超级计算机或网格计算等提供的高级计算能力来支撑[9,10]

超级计算机是能够执行一般个人计算机无法处理的大数据量与高速运算的计算机系统,是计算机中功能最强、运算速度最快、存储容量最大的一类。它具有很强的计算和数据处理能力,主要特点表现为高速度和大容量,配有多种外围设备及功能丰富的软件系统。

作为高科技发展的要素,超级计算机早已成为世界各国经济发展和国防科技进步的竞争利器。几十年来,我国高性能计算机的研制水平显著提高,“天河”“神威”系列超级计算机多次夺得世界超级计算机性能冠军[11,12]。在此基础上,我国已经在天津、广州、济南、长沙等地建立了国家级超级计算中心,成功部署了大量生物医药大数据分析平台和软件流水线,为包括生物医药在内的大科学领域提供了重要的计算基础设施。下面简要介绍部分超级计算机在生物医药平台方面的进展。

中国科学院上海药物研究所药物发现与设计中心通过国家超级计算天津中心“天河一号”超级计算模拟与药学实验的紧密配合,确证了一个全新的药物作用位点,直接通过药物设计,未经过任何化学改造,就获得了具有良好癫痫治疗效果的药物先导化合物;还开展了“重大心血管疾病相关GPCR新药物靶点的基础研究”项目相关的计算模拟。

国家超级计算天津中心基于“天河一号”超级计算机开展的生物医药与生物信息研究,主要应用范围包括人类健康咨询、疾病预防、农业育种、新药研发等。该中心构建了PB级基因组学数据的存储、分析和处理平台,支持华大基因在人类健康和精准农业方面的研究,并在健康咨询、农业育种方面显现效益。

国家超级计算长沙中心为国内外科研院所、创新企业提供分子动力学、蛋白质组学、合成甾体激素、水稻全基因组关联分析、生物医学工程研究等领域的计算分析服务,还建立了湖南省首个健康医疗云,以及区域卫生信息平台、远程医疗云平台等智慧医疗相关平台,并对外提供服务。

国家超级计算广州中心打造的生物计算与个性化医疗应用服务平台支持分子生物学、合成生物学、细胞生物学、系统生物学、生物信息学、生物医学、基因组学等多个生命科学相关学科的研究,帮助用户从原子、分子、细胞、组织、器官、个体、群体和生态系统等多个尺度,系统地解决生命科学中的各种问题,研究不同空间尺度和时间尺度上生命活动与环境的相互关系,从而揭示生命现象的规律和本质。该平台是一个集生物信息分析、药物设计和筛选、医学大数据分析和数据挖掘于一体的、软硬件结合的一站式服务平台,为公众卫生健康、个性化医疗和相关学术研究提供服务和技术支持。

该平台已部署和适配了一批与分子生物学、生物信息学和生物医学相关的分析研究软件,包括NAMD、BLAST、Tinker、Gromacs、Modeller等。研究人员可在该平台上进行生物大分子的结构模拟与功能预测、药物设计和筛选、蛋白质结构预测及相互作用网络分析、蛋白质序列分析、基因调控网络功能分析、基因序列分析和比对、SNP变异检测、疾病与基因关联分析、外显子与转录组研究、医疗健康大数据分析和信息挖掘等多种分析与研究。

网格计算[13]是利用由许多地理位置相对分散的计算机组成的大规模分布式计算机系统进行海量数据计算的计算模式,其中每一台参与计算的计算机就是一个“节点”,而整个计算是由数以万计的“节点”组成的一张“网格”。网格计算能够充分利用闲置的资源,把数据分成小的片段分发给闲置节点进行计算,可以将大量的闲置资源汇聚成超强的算力,是一种典型的大规模分布式计算模式。

在药物学研究方面,有很多药物研究公司使用低成本、高可扩展的网格计算技术。例如,为了推进预防使用天花病毒的生物武器袭击的研究,United Devices公司设计了网格计算软件Metaproceesor,可以用来部署在企业内部和全球的网格。利用该软件,可以联合200万台个人计算机处理数十亿次的药物虚拟筛选,从而模拟3500万个药物分子同一些靶蛋白的作用,该项目也被认为是历史上规模最大的计算机化学项目之一。2005年,世界社区网格(World Community Grid)启动了一个全球的FightAIDS@home计划,该计划组织了包含全球10万台计算机的网格系统,帮助Scripps研究所的科学家研究治疗艾滋病的药物。

1.2.2 云计算技术

对生物医药领域来说,云计算平台提供了一种主要按使用量付费的计算解决方案,这种模式提供便捷的按需网络访问,使用户进入可配置的计算资源共享池,资源包括网络、服务器、存储、应用软件和服务等。这些资源能够被使用者快速获取,只需要进行很少的管理工作,或与服务供应商进行很少的交互就可以使用。

云计算平台的特殊容错措施使用户可以采用极其廉价的节点来构成云,自动化集中式管理使大量企业不需要负担日益高昂的数据中心管理成本,通用性使资源的利用率较传统计算机系统大幅提升。因此,用户可以充分享受云计算的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。

云计算为生物医药等领域的大数据研究提供了便捷的计算模式,生物医药领域的云计算平台近年来得到了蓬勃发展。在我国,国家超级计算广州中心部署的Galaxy平台是比较著名的云计算平台。该平台由美国宾夕法尼亚州立大学和约翰霍普金斯大学联合开发,功能强大并支持二次开发,集成了大量的生物信息分析工具。我国华大基因开发了名为EasyGenomics的基于云计算的在线基因组分析平台,该平台具有成千上万的处理器及大规模的存储空间,用来应对EB级别的数据处理。

1.3 生物医药大数据的智能分析

近年来,人工智能的浪潮正在席卷全球,“人工智能”这个已有60多年历史的概念重新得到了人们的热切关注。1956年,几位计算机科学家相聚在达特茅斯会议,提出了“人工智能”的概念,梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。之后的几十年里,人们对人工智能的研究和应用一直在疯狂追捧和全盘否定中摇摆前进,直到近10年间,由于深度学习理论在生物医药等多个重要领域取得重大进展,人工智能才又一次得到了全球学术界和产业界的广泛关注。

人工智能是一个相当宽泛的研究领域,涉及许多研究分支,包括机器学习、专家系统、进化计算、模糊逻辑、计算机视觉、自然语言处理等。机器学习作为人工智能的一个研究分支,其最基本的做法是通过一定的算法对大量数据进行训练,得到一个模型,然后用该模型完成任务。这些算法通常包括聚类、决策树、贝叶斯分类、支持向量机、Adaboost等。经过几十年的发展,机器学习在指纹识别、人脸检测、物体检测等任务中都达到了实用化的水平,但在更多的领域却难以得到满意的结果。近年来,作为以神经网络为基础的机器学习方法,深度学习的理论和实践都得到了突破,在许多领域取得了令人惊异的进展,相比传统的机器学习算法形成了明显的优势,也激起了人们对人工智能光明前景的期待。

实际上,生物医药大数据现在和未来的成功应用与机器学习有着密不可分的关系,而深度学习的成功很大程度上得益于大数据技术的发展。生物医药与人工智能结合的关键在于“算法+有效数据”。先进的机器学习算法能提升数据处理效率与识别准确率,而大量有效的数据则是先进算法应用的基础。2012年以后,正是得益于大数据技术的发展、计算能力的飞速提升和深度学习的出现,以深度学习为核心的机器学习技术在生物医药领域从科研到应用都取得了巨大的进展。特别是以卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)为核心算法的深度学习技术,更是深刻影响了生物医药领域的现状,并将重塑其未来。

1.4 总结

生物医药大数据的高效处理受益于大规模并行计算技术的进步,如今,超级计算机及成本相对低廉的服务器集群都在支撑着生物医药软件的运行。大规模并行计算机体系结构的不断进步必将带来新的并行计算模式和框架,也会为相关软件的并行优化带来新的挑战和机遇。对生物医药大数据与智能分析的从业人员来说,则需要及时跟进计算机体系结构和并行计算机模式的新发展。

另一方面,虽然以深度学习为核心的人工智能技术已经在基因分析、辅助诊疗、医学图像分析、医药研发等领域取得了很大进展,但人工智能与生物医药大数据的真正融合还有很长的路要走,这不仅需要人工智能技术发展出更为智能和实用的算法,还需要高性能计算技术的不断进步,提供不断提升的计算能力作为人工智能的引擎,更需要大数据技术的持续发展,提供大规模的高质量数据作为人工智能引擎的“燃料”。

1.5 本书的内容安排

本书致力于阐述生物医药大数据的高效处理和智能分析两方面的问题。其中,高效处理对应本书第二篇的内容,主要涉及生物医药大数据算法的大规模并行优化;智能分析对应本书第三篇的内容,主要涉及基于机器学习(特别是深度学习)对生物医药大数据进行分析。

在第二篇中,第2章首先介绍并行计算的基础知识,然后第3、4、5章分别介绍作者团队在海量基因表达谱分析、功能性前噬菌体预测、高通量药物虚拟筛选3个方面的工作。这些工作涉及人类基因组、微生物基因组和药物筛选领域,对一些重要算法进行了大规模并行优化。

在第三篇中,第6章首先介绍机器学习(特别是深度学习)的基础知识,及其在生物医药方面的应用,然后第7、8、9章分别介绍作者团队在肿瘤基因表达谱分类、RNA编辑位点识别、增强子识别3个方面的研究。其中,第7章主要介绍用传统机器学习方法来解决癌症诊疗方面的问题,第8、9章则主要介绍用深度学习方法来解决基因分析问题。

本书中生物医药大数据的智能分析指应用于生物医药大数据的人工智能方法,包括传统机器学习及近年来大放异彩的深度学习等技术。

相关图书

SPSS医学数据统计与分析
SPSS医学数据统计与分析
首席数据官知识体系指南
首席数据官知识体系指南
时序大数据平台TDengine核心原理与实战
时序大数据平台TDengine核心原理与实战
大数据技术基础
大数据技术基础
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据实时流处理技术实战——基于Flink+Kafka技术
搜索引擎与程序化广告:原理、设计与实战
搜索引擎与程序化广告:原理、设计与实战

相关文章

相关课程