图机器学习

978-7-115-64447-3
作者: 武强吕琳媛
译者:
编辑: 吴晋瑜

图书目录:

详情

本书通过系统而全面的介绍,帮助读者深入理解和掌握图机器学习的基本原理、方法和技术;同时,通过丰富的案例和实践经验,展示了图机器学习在各个领域的应用价值和广阔前景。 本书基于斯坦福大学图机器学习CS224W课程的内容编写,结合作者自身和团队学生在图机器学习中的痛点和实践经验,重新梳理知识脉络,重点介绍图机器学习的相关知识,并对前沿的图机器学习会议论文和网络科学的最新发展趋势进行探讨与展望。 本书适合所有对图机器学习感兴趣的读者参考。

图书摘要

版权信息

书名:图机器学习

ISBN:978-7-115-64447-3

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

编  著 武 强 吕琳媛

责任编辑 吴晋瑜

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内容提要

本书通过系统而全面的介绍,帮助读者深入理解和掌握图机器学习的基本原理、方法和技术;同时,通过丰富的案例和实践经验,展示了图机器学习在各个领域的应用价值和广阔前景。

本书基于斯坦福大学图机器学习CS224W课程的内容编写,结合作者自身和团队学生在图机器学习中的痛点和实践经验,重新梳理知识脉络,重点介绍图机器学习的相关知识,并对前沿的图机器学习会议论文和网络科学的最新发展趋势进行探讨与展望。

本书适合所有对图机器学习感兴趣的读者参考。

前  言

近年来,以深度神经网络为代表的人工智能技术给人类的工作和生活带来了巨大的进步。基于深度神经网络的ChatGPT、DeepSeek等生成式人工智能模型,已经成为人们日常生活和工作中不可或缺的得力工具。尽管现有的神经网络足以处理常规的欧氏结构数据(有固定的排列规则和顺序,如文本、照片等),但越来越多的实际应用问题会涉及非欧氏数据(没有固定的排列规则和顺序,如分子结构、社交网络等)的处理。因此,用机器学习方法分析和处理非欧氏图结构研究越来越受到关注。

图机器学习(graph machine learning,GML)是一类基于机器学习的处理图信息(非欧氏数据)的方法。近期,机器学习领域关于图机器学习的研究热情日益高涨,图机器学习日益成为各大人工智能顶级会议的研究热点,并已成为人工智能落地应用的重点领域。图机器学习因其在处理非结构化数据中的出色表现,在网络数据分析、推荐系统、物理建模、自然语言处理等方面取得了新的突破。此外,图机器学习因具有较好的性能和可解释性而成为一种应用广泛的图分析方法。阿里达摩院曾在2019年提出:“单纯的深度学习已经成熟,而结合了深度学习的图研究将端到端学习与归纳推理相结合,有望解决深度学习无法处理的关系推理、可解释性等一系列问题。”由此可见,研究图机器学习对推动人工智能的发展具有重大意义。

本书的写作源于笔者自身的学习经历。笔者在学习图机器学习相关知识的过程中,苦于学习资源、资料的匮乏,彼时市面上兼具“理论基础+前沿成果+实际应用+通俗易懂”等内容与特点的相关中文图书更是寥寥无几,因此在学习过程中走了不少弯路。后来,笔者接触到了美国斯坦福大学Jure Leskovec教授的图机器学习课程(CS224W课程),深受世界高水平图机器学习课程启发,萌生了撰写一部相关中文指导用书的想法。本书意在充分考虑机器学习和复杂网络进行融合发展的大趋势背景,合理设计内容结构,并结合自身的学习和理解,由浅入深地进行图机器学习的全脉络梳理和介绍。本书具体参考了斯坦福大学图机器学习CS224W课程(全球观看学习人次超过百万)内容,以及图机器学习顶级会议论文和网络科学的最新发展趋势。同时,笔者结合自身经历,深入分析自身在学习过程中遇到的困惑,将初学者难以理解的概念提前考虑到写作中,并着重解释和说明。通过阅读本书,读者可以了解图机器学习的基础知识和研究方法,以及前沿图机器学习成果,达到“知其然,并知其所以然”,增强学习自信心。

章节概述

第1章 引言:从什么是图机器学习的问题讲起,介绍图机器学习的概念、分类等内容;同时介绍图机器学习的广泛应用和具体的三类任务(节点、链接、整图预测)。

第2章 图机器学习基础:通过图论和机器学习两个方面的内容简明介绍后续学习所需要的基础知识,为读者夯实图机器学习的理论“地基”。

第3章 基于图基础结构特征的图机器学习:介绍基于图基础结构特征的图机器学习,即应用图本身具有的节点、链接、整图的特征,构建图的特征表示,从而进行下游图机器学习任务。

第4章 图嵌入表示:用向量表示图中节点、链接、整图信息,是图特征表示的一种方法,同时也是图神经网络的嵌入表示的基础。本章介绍图嵌入的编/解码架构、节点嵌入的算法和图嵌入计算的具体方法。

第5章 图矩阵分解:将图表示为矩阵,在线性代数视角下进行研究和分析。本章紧随第4章,首先揭示节点嵌入方法实际上就是特定形式的矩阵分解;随后介绍著名的PageRank算法,该算法可以通过在矩阵上的随机游走定义节点的重要性,并通过幂迭代方法进行计算;最后,通过分析矩阵分解与随机游走的局限性,引出我们将要具体介绍的图神经网络方法。

第6章 消息传递与节点分类从网络关联的概念出发介绍节点分类的方法,包括集体分类、关系分类和迭代分类;随后,通过信念传播的定义和过程,说明网络中的信念传播概念;最后,介绍解决信念传播中存在的问题的方法——矫正与平滑。

第7章 图神经网络研究思路与经典模型:在消息传递机制及深度神经网络的基础上,介绍图神经网络的基础、方法和训练过程;随后分析图神经网络的结构;最后,重点介绍典型的三大图神经网络(GCN、GraphSAGE和GAT)。

第8章 图神经网络设计:在第7章的基础上,深入介绍图神经网络为防止过度平滑问题的“多层”设计方法,以及图增强设计和图神经网络表达能力设计,最后介绍具有强表达能力的图同构网络(GIN)模型。

第9章 图神经网络训练:在第7、8章的基础上,分别针对节点、链接、图级别任务,介绍图神经网络训练的设置方法,以及图神经网络数据集切分、训练流程和调试技巧。

第10章 图神经网络优化:在第7、8、9章的基础上,针对图神经网络的结构识别、位置识别缺陷,介绍基于位置感知和身份感知的图神经网络优化思路和方法。

第11章 大规模图神经网络介绍图神经网络在大规模网络场景应用的问题、解决思路和具体方法。

第12章 图神经网络在知识图谱中的应用:通过分析传统GNN解决异质图问题的局限,引出关系图卷积神经网络(R-GCN);随后具体介绍知识图谱概念及其补全的相关内容;最后详细说明知识图谱基础查询和高级查询的方法。

第13章 图神经网络在网络科学领域的应用:介绍图神经网络在图生成、子图挖掘和社区发现中的应用。在图生成模型中,介绍深度图生成模型的概念及GraphRNN和GCPN方法;在子图挖掘中,介绍子图嵌入表示、查询、训练、预测的过程,并且详细说明识别高频子图结构的方法;在社区发现中,介绍网络社区划分效果的度量方法,以及网络社区发现算法(Louvain)和重叠社区检测算法(BigCLAM和NOCD)。

第14章 图神经网络在推荐系统和自然语言处理中的应用:在推荐系统中,介绍基于图节点嵌入的推荐模型、基于协同过滤的GNN推荐模型和大规模GNN推荐模型PinSAGE。在自然语言处理(NLP)中,介绍基于图的编码器-解码器模型,最后从自然语言理解、生成、推理三个方面,说明GNN与NLP结合的典型思路和应用。

第15章 图神经网络在自然科学研究中的应用:从物理学到生物化学,图神经网络正在前所未有地助推自然科学发展。在物理学中,分别介绍了GNN重新发现万有引力定律和仿真物理世界;在生物化学和医疗领域,介绍了GNN在辅助药物发现、预测蛋白质折叠结构、辅助医疗诊断等方面的开创性应用。

第16章 总结和展望:对图机器学习的思路、典型方法、学习范式,以及图神经网络的热点应用进行总结,同时对图机器学习未来发展进行展望。

阅读前提

为了更高效地掌握本书的内容,读者应预先了解如下基础知识(本书第2章会介绍部分重点基础内容,但是建议读者提前系统性地掌握以下内容)。

机器学习:监督学习、非监督学习、半监督学习、数据处理、模型调优和深度神经网络。

图论基础:基础概念、最短路径和图搜索。

概率论:随机现象、样本空间和概率空间。

线性代数:矩阵运算、向量空间、特征值和特征向量。

Python编程基础:数据类型(列表、元组、字典、集合)操作、函数、模块、错误异常处理。

工欲善其事,必先利其器。本书推荐读者使用图机器学习相关的编程平台和数据集。

编程平台

PyTorch Geometric (PyG):基于PyTorch、用于处理不规则数据(比如图、点云等)的库,可以将其视为一个用于在图数据上快速实现表征学习的框架。其优势在于支持异构图,提供高效灵活的功能存储后端,支持各种图神经网络模型,例如 GraphSAGE、GraphSAINT、GNNAutoScale 等。

DeepSNAP:具有灵活的图形操作、标准的数据拆分流程等优点。

GraphGym:设计图神经网络的平台,具有模块化GNN实现、简单的超参数调优、灵活的用户定制等优点。

DGL:允许用户轻松地跨多个深度学习框架移植和利用现有组件,在速度和内存利用方面有一定优势。

NetworkX:基于Python的库。利用NetworkX可以以标准化和非标准化的数据格式存储网络、生成多种随机网络和经典网络、分析网络结构、建立网络模型、设计新的网络算法、进行网络绘制等。

数据集

从历史角度来看,高质量和大规模的数据集在推进研究中发挥了重要的作用,例如计算机视觉领域的ImageNet、MS COCO,自然语言处理领域的GLUE Benchmark、SQuAD等。在图机器学习领域,最具代表性的是Open Graph Benchmark(OGB)基准数据集。2019年,斯坦福大学Jure Leskovec教授在人工智能会议NeurIPS的分享中介绍了OGB并宣布开源。该数据集将不同领域的各种大小的数据集组合在一起,涵盖多个领域、多种类型(如社交网络、知识图谱和生物信息学图谱)的数据;还给出了标准化评估过程,可供研究人员直接比较不同模型的性能;可提供不同类型的任务,例如节点分类、链接预测和图分类。

非常荣幸,本书得到了兰州大学黄建平院士的支持和帮助,以及图机器学习权威学者、斯坦福大学CS224W课程导师Jure Leskovec教授的肯定和授权。在此,向黄建平院士、Jure Leskovec教授表示诚挚的感谢!同时,特别感谢耶鲁大学助理教授应智韬对本书的内容细心评审和指导!

在本书的写作过程中,黄一鸣、曾钰洁、郭彧宁、张倨源同学协助处理了大量的文字校对、排版、图片绘制工作,还对图神经网络的学习顺序提出了很有价值的建议,作者衷心感谢大家的支持和帮助。同时,感谢孙敬书老师,她对本书做了细心修改和订正。

特别感谢人民邮电出版社吴晋瑜老师对本书出版的大力支持,并衷心感谢郭涛老师的专业意见和修改,他们的敬业和专业让本书增色很多。

十分感谢家人对本人持续忙碌的科研工作的充分理解和大力支持,特别感谢王景女士!

最后,诚挚欢迎读者对本书提出意见和批评,我们将在重印或再版时及时更正,不断完善本书质量。

武强于兰州大学

2025年4月

资源与支持

资源获取

本书提供如下资源:

本书思维导图;

异步社区7天VIP会员;

PPT文件;

配套代码。

要获得以上资源,你可以扫描下方二维码,根据指引领取。

提交勘误信息

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎读者将发现的问题反馈给我们,帮助我们提升图书的质量。

当读者发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,单击“发表勘误”,输入勘误信息,单击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对读者提交的勘误进行审核,确认并接受后,将赠予读者异步社区100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是wujinyu@ptpress.com.cn。

如果读者对本书有任何疑问或建议,请发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果读者有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。

如果读者所在的学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果读者在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请将怀疑有侵权行为的链接发邮件给我们。这一举动是对作者权益的保护,也是我们持续为广大读者提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”(www.epubit.com)是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互动,以及传统出版与数字出版的融合发展。

“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域多年来的发展与积淀。异步图书面向IT行业以及各行业使用IT技术的用户。

1.1   图机器学习概述

如何直观地描述事物及其联系?图(网络)结构无疑是一个好的选择。我们可以将图视为一种用于描述并分析有关联的实体的通用语言。这就意味着我们不仅关注分散的实体,即图中的一个个“节点”,更关注这些实体之间的关联,即节点之间的“边”。根据实体间的关系将其连接起来,可以简单、直观地描述领域知识。现实中,很多领域知识都可以用这种关系图的方式表现出来,从某种意义上说,图结构无处不在。不过,图中可能包含成千上万的节点和边,并且节点或边很少有预先定义的标签来揭示其信息,这意味着需要进行大量的人工数据整理和分析工作。因此,从图结构入手直接进行建模分析存在一定的挑战。这种情况下,通过更为智能的机器学习对图结构进行建模,即图机器学习,无疑是更好的选择。

图机器学习是针对图结构的机器学习方法或模型,即在图上的机器学习,是一种图数据分析和挖掘技术。一般来说,图机器学习方法是将图的特征映射到向量空间中(见图1.1)。此外,图的嵌入表示可以很容易地被下游任务使用。由此可见,图机器学习是一种强大且有效的图分析技术。

图1.1   图机器学习示意图

1.1.1 为什么需要图机器学习?

深度学习(deep learning,DL)是机器学习(machine learning,ML)领域中一个新的研究方向。深度学习主要学习样本数据的内在规律和表示层次,在此过程中获得的信息对文字、图像和声音等数据的解释很有帮助。深度学习的终极目标是让计算机能够具备“类人”的分析学习能力,能够识别文字、图像和声音等数据。深度学习常用于对简单的序列(如文本、语音等具有线性结构的数据)和固定表示结构的网格(grid)建模。然而,图数据中会有丰富的关系结构,可以被表示为关系图(relational graph),这些关系结构通过显式的建模关系可以获得更好的表现。传统的深度学习很难直接用于图的建模,具体原因归纳如下。

图中元素的空间关系(拓扑结构)不定。

图中节点的顺序不定。

图结构通常是动态的,并可能含有多种数据类型(具有多模态特征)。

如图1.2所示,相较于独立的图片、文本等规则数据,图数据(网络)结构非常复杂,传统的深度学习方法的直接应用效果不理想。因此,对于图数据结构,我们需要有针对性地设计图机器学习方法。

图1.2   图片、文本与图数据(网络)的比较

1.1.2 图机器学习的分类

根据不同的视角,图机器学习的分类也有所不同。本书按照图结构特征处理的方法将图机器学习分为四类,即基于图基础结构特征的方法、基于随机游走的方法、基于矩阵分解的方法和基于深度学习的方法。

1.基于图基础结构特征的方法

基于图基础结构特征的方法是应用图的节点(微观)、链接(中观)、整图(宏观)的特征手工构建图特征,然后进行下游机器学习任务。例如,针对节点的任务需要描述节点在图中的位置和结构特征,节点的描述指标有很多种,如节点度、节点中心性、聚类系数等;针对链接的任务基于图中边的特征与性质而展开;针对整图的任务是基于全局图特征的角度来表征整个图的结构特征。本书第3章将具体介绍以上基于图基础结构特征的方法。

2.基于随机游走的方法

随机游走是按照一定的概率,在网络结构中进行“访问”,是一种简单、有效的网络结构信息采样方法。随机游走可以生成“访问”节点的序列,并保留节点之间的原始关系。因此,通过节点的序列生成网络中节点的特征向量,从而使下游任务基于特征向量,在低维空间中挖掘网络信息。基于随机游走的方法在图特征信息采样中应用广泛,包括基于图结构的随机游走、基于图结构和节点信息的随机游走、异质网络中的随机游走和时变网络中的随机游走。其中,Deep Walk和node2vec是两种最具代表性的随机游走方法,它们通过将顶点视为“单词”,将生成的顶点随机序列视为“单词序列”(句子),然后将这些序列输入词向量模型(Word2vec)来学习节点的嵌入表示。本书第4章将具体介绍这两个基于随机游走的经典方法。

3.基于矩阵分解的方法

图可以表示为矩阵。矩阵分解是一种将矩阵分解为不同组成部分的方法(例如,线性代数中将矩阵分解为一组特征值和特征向量)。其中,矩阵分解后的部分具有较低的维度,可以用来表示网络中的原始信息。基于矩阵分解的图学习主要有两种类型:一种是节点邻接矩阵分解,另一种是图拉普拉斯矩阵分解。

节点邻接矩阵分解(vertex proximity matrix factorization):邻接矩阵是描述图结构的常见方式,它是一个二维矩阵,其中的元素表示节点之间的连接关系。对于邻接矩阵,我们通常采用奇异值分解方法,将高维的邻接矩阵降维为低维表示,以便进行后续的图分析任务。邻接矩阵分解方法可以捕捉节点之间的连接关系,但在某些情况下,可能无法很好地处理图的局部结构信息。本书第5章将具体介绍节点嵌入与矩阵分解。

图拉普拉斯矩阵分解(graph Laplacian matrix factorization):图拉普拉斯矩阵是描述图结构和连接性的矩阵,它可以提供比邻接矩阵更丰富的图结构信息。对于图拉普拉斯矩阵,我们通常采用特征值分解或奇异值分解方法,将图的结构信息转化为低维向量表示,这些向量可以用于图分析、聚类、降维等任务。相较于节点邻接矩阵分解,图拉普拉斯矩阵分解除了考虑节点之间的连接关系,还考虑了图的全局结构和局部结构。本书会在第2章具体介绍图的基础理论,在第7章全面介绍在频域的图拉普拉斯矩阵分解。

4.基于深度学习的方法

近年来,深度学习的快速发展,让我们可以针对图结构设计神经网络,使其自动学习更好的表示图特征的低维向量,以便用于下游的机器学习任务。图机器学习应用深度学习获取图的低维特征向量,即图神经网络方法。在图神经网络中,我们输入图结构,通过神经网络,得到节点的嵌入表示(低维向量),从而对节点、链接、图进行预测。图神经网络架构如图1.3所示。

图1.3   图神经网络架构

图神经网络(graph neural network,GNN)的概念首先由Gori等于2005年提出。早期的研究以迭代的方式计算邻近节点信息传播来学习目标节点的特征表示,直到收敛,该过程所需计算量庞大。受到深度卷积网络在计算机视觉领域所获巨大成功的启发,Bruna等于2014年提出了基于谱图理论(spectral graph theory)的图卷积网络(graph convolutional network,GCN)。自此,以GCN为代表的GNN模型不断发展。现阶段,图神经网络研究分为两个大方向:谱域和空域。

谱域:谱图神经网络是一种基于图信号谱域滤波器的图神经网络,广泛应用于图任务。很多经典的GNN模型可以归入谱域GNN,比如GCN、ChebyNet、BernNet。谱域方法通过将图上的信号(如节点特征)在频域上表示,能够有效处理图上的局部特征,但其计算复杂度较高,不适用于处理大规模图。

空域:不依靠图谱卷积理论,直接在图结构空间上定义消息传递机制。近几年,基于空域的图神经网络的新模型和新方法层出不穷,如基于空间的GCN、大规模图上的归纳表示学习模型GraphSAGE、图注意力网络(graph attention network,GAT)、简化GCN模型、预训练GNN模型和联邦GNN模型等。空域方法对于处理大规模图具有优势,但对于全局特征的处理相对不足。

如图1.4所示,在以GNN为代表的图机器学习经典模型的发展历程中,图机器学习模型几乎都发表在人工智能顶级会议上。本书第7章将具体介绍经典GNN模型的相关内容。

图1.4   以GNN为代表的图机器学习经典模型的发展历程

1.2   图机器学习应用

图机器学习应用已深入我们生活的方方面面。自然界和人类社会中有很多类型的数据,并且数据间的关系可以表示为图。例如,我们目前使用的计算机网络、物理学中的粒子网络、生物学中的食物网都可以表示为包含节点和边的图结构。我们可以对这些数据和关系进行建模来分析其背后的现象。

图是现实世界中一类重要的数据结构,社会关系网络、通信网络、基因和蛋白质互作网络、大脑网络、知识图谱、推荐系统等都可以用图的形式表达。

人类社会是80多亿个个体的集合,人与人之间需要协作共事,并产生了多种连接形式,形成了社会关系网络,如图1.5所示。

图1.5   社会关系网络(摘自:Medium官网)

通信网络是指将多个地理位置相互独立的终端设备(如计算机、手机、平板电脑等)通过通信线路、无线信道进行连接,以实现信息传输和交换的系统,如图1.6所示。

图1.6   通信网络(摘自Lumen Learning官网)

基因和蛋白质互作网络是由蛋白通过彼此之间的相互作用构成,来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节。生命体中的基因和蛋白质互作网络如图1.7所示。

图1.7   基因和蛋白质互作网络(摘自“AlphaFold a solution to a 50-year-old grand challenge in biology”)

大脑不同皮质区域中的神经元组成不同的神经网络,区域之间也通过神经元连接,形成更大的神经网络,我们的思想就隐藏在数十亿个神经元连接起来的大脑网络(见图1.8)的背后。

图1.8   大脑网络(摘自“Visualization of the human brain network using the BrainNet viewer”)

知识图谱可以描述实体、概念及其之间的关系,由节点和边构成。节点表示现实世界中的实体,其标签表示对应实体的类型,边类型表示实体间的关系。知识图谱通过捕获节点之间的关系,并以三元组(头实体、关系、尾实体)的方式汇集特定领域的知识。著作知识图谱如图1.9所示。知识图谱已广泛应用于搜索引擎、问答系统、推荐系统等任务。

图1.9   著作知识图谱

推荐系统也是常见的网络类型。在我们的生活中,有很多庞大的信息网络,如Netflix电影网络、Amazon购物网络、Spotify音乐网络、YouTube视频网络等,而如何让信息或产品匹配到合适的用户是一个难题。推荐系统正是基于用户的个人行为特征,将用户与其匹配的产品相连而形成的网络。图1.10所示为用户和商品之间的推荐。如今,推荐系统的应用已经渗透到购物、娱乐、学习等生活的方方面面。

图1.10   用户和商品之间的推荐

1.3   图机器学习任务

图机器学习的应用如此广泛,那么它究竟能帮助我们完成什么具体的任务呢?在本节中,我们围绕图结构设定不同类型的任务。一般分为三类:节点预测、链接预测和整图预测。

1.3.1   节点预测

在节点预测任务中,我们想要预测节点的属性。其中,最有代表性的是2021年DeepMind公布的AlphaFold对蛋白质折叠空间的预测。在人体内,蛋白质分子起到调节生命过程的作用。例如,药物的作用就是它和蛋白质结合,约束或者改变不同蛋白质的行为,从而改变我们体内的生物进程,进而治愈疾病。准确的蛋白质结构预测有助于更有效的药物开发和个性化医疗。然而,蛋白质分子由一系列氨基酸组成,氨基酸的排列组合不同,在力的作用下,蛋白质就会折叠成完全不同的形状,因此其预测难度极大。如何从氨基酸序列预测蛋白质的3D结构,这是一个在生物学中非常重要的问题。

AlphaFold将蛋白质序列中的氨基酸视为节点,节点间通过肽键连接,形成空间图结构。因此,给定一个氨基酸的位置,与其相邻的氨基酸的位置便可以被预测。图神经网络经过训练,可以预测新的氨基酸的位置。通过这种方式可以完全模拟蛋白质的折叠结构(见图1.11),并可以预测分子的最终位置。

图1.11   蛋白质折叠结构模拟(摘自DeepMind官网)

1.3.2   链接预测

在链接预测任务中,我们试图预测一对尚未相互连接的节点间存在链接的可能性,并了解不同节点间的关系。社交网络在一定程度上反映了现实世界中的复杂关系,因为连接的节点对(社交关系或链接)可以被标记为积极的、消极的或中立的,如图1.12所示。此外,任何两个没有连接的节点都表明其没有社会关系。因此,链接预测是解决哪些未连接的节点对将来可能被链路连接的问题。

图1.12   社交网络(摘自“How network math can help you make friends”)

1.3.3   整图预测

在整图预测任务中,我们可以通过分析已知的网络结构和属性信息,预测网络未来的演化、拓扑结构和节点属性等方面的变化。其中一大应用就是通过图的结构信息对其进行归类。例如,在新药研发中需要预测分子性质,我们先将分子表示为图结构(原子为节点,化学键为边),然后对这些图结构进行预测,如图1.13所示。

(a)青霉素 (b)头孢霉素

图1.13   抗生素分子图结构

美国麻省理工学院(MIT)的一个研究团队使用基于图卷积神经网络的方法(本书后面章节会重点介绍图卷积神经网络),在大量的分子结构中预测有治疗潜力的分子。因为有数十亿的候选分子,所以这项工作的意义十分重大,其成果于2020年发表在顶级期刊Cell上。迄今为止,新药发现依然是一个高价值的研究方向。

1.4   图机器学习展望

图机器学习由于没有足够时间的积累,其目前研究的深度和领域还在不断发展当中。现阶段,图机器学习正在以下几个方面快速发展。

异质图:同质图是指节点和边只有一种类型,这种数据处理起来较容易。异质图则是指节点和边的类型不止一种,同一个节点和不同的节点连接会表现出不同的属性,同一条边和不同的节点连接也会表现出不同的关系。因此,这种异质图结构处理起来就相对复杂。处理异质图也是将来研究的一个热点,我们已经提到的知识图谱采用的就是典型的异质图处理方法

表现力更强的图神经网络模型:对于图深度学习来说,现有的图神经网络模型大多还是只限于浅层的结构。通过实验发现,当构造多层的神经网络时,实验结果反而变差。这是由“过度平滑”现象造成的。如何解决过度平滑问题,是GNN研究的一项重点内容

将图神经网络应用到大规模图:随着图神经网络所处理数据的急剧增加,图中的节点数量也显著增长,这就给图神经网络的计算带来了不小的挑战。

图机器学习的工业落地:任何研究只有真正在工业界落地,才能发挥它的应用价值。同时,工业落地也会促进其进一步的研究发展。以知识图谱为代表的图机器学习已经大范围应用到实际的搜索、推荐场景中,但是图机器学习的应用潜力仍然非常大。

1.5   本章小结

本章是全书的开篇,从什么是图机器学习的问题出发,介绍图机器学习的概念、类别和发展趋势;同时介绍了图机器学习的典型和前沿应用;最后,说明了图机器学习可完成的三类具体任务。本章为读者简单勾画了一幅图机器学习的全景图,让大家对图机器学习的全貌建立初步的认知,后续章节将进一步描摹图画的细节之处,使之更加饱满生动。

1.6   参考文献

[1] GORI M,MONFARDINI G,SCARSELLI F. A new model for learning in graph domains [C]//Proceedings of the International Joint Conference on Neural Networks (IJCNN) 2005:July 31 - August 4, 2005, Hilton Montréal Bonaventure Hotel, Montréal, Québec, Canada:volume 2 of 5. Piscataway: IEEE Operations Center, 2005:729-734.

[2] DEFFERRARD M,BRESSON X,VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering [C]. Advances in Neural Information Processing Systems 29: 30th Annual Conference on Neural Information Processing Systems 2016: Barcelona, Spain, 5-10 December 2016.La Jolla:Neural Information Processing Systems,2016:3844-3852.

[3] WILLIAM L H,YING R,LESKOVEC J. Inductive representation learning on large graphs [C]. Advances in Neural Information Processing Systems 30: 31st Annual Conference on Neural Information Processing Systems(NIPS 2017): Long Beach, California, USA,4-9 December 2017. La Jolla: Neural Information Processing Systems,2017:1025-1035.

[4] YOU J X,LESKOVEC J. Graph contrastive learning with augmented graphs [C]//Proceedings of ICLR,2021.

[5] LI Y J,WANG Z Q,ZHANG J,et al. Federated graph neural networks: A federated learning approach to distributed graph neural network training [C]//Proceedings of ICLR,2021.

[6] JUMPER J,EVANS R,PRITZEL A,et al. Highly accurate protein structure prediction with AlphaFold [J]. Nature,2021,596:583-589.

[7] STOKES J M,YANG K,SWANSON K,et al. A deep learning approach to antibiotic discovery [J]. Cell,2020,18(4): 688-702.

相关图书

DeepSeek原理与项目实战大模型部署、微调与应用开发
DeepSeek原理与项目实战大模型部署、微调与应用开发
软件工程3.0:大模型驱动的研发新范式
软件工程3.0:大模型驱动的研发新范式
大模型工程化:AI驱动下的数据体系
大模型工程化:AI驱动下的数据体系
AI辅助编程实战
AI辅助编程实战
Kubernetes修炼手册(第2版)
Kubernetes修炼手册(第2版)
Cursor与MCP快速入门:零基础开发智能体应用
Cursor与MCP快速入门:零基础开发智能体应用

相关文章

相关课程