书名:科学知识图谱:工具、方法与应用
ISBN:978-7-115-62442-0
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
编 著 王大阜
责任编辑 谢晓芳
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
本书旨在讲述科学知识图谱中常用的工具及其应用。本书首先介绍知识图谱基础知识,智慧图书馆领域中文献题录数据的采集和预处理操作,然后介绍文献计量分析工具CiteSpace、VOSviewer、HistCite、Bibliometrix与SATI的应用,以及多元统计分析工具SPSS和社会网络分析工具UCINET的应用,最后阐述LDA(Latent Dirichlet Allocation,隐狄利克雷分配)主题模型的应用。
本书适合科研人员、科研管理者和科学知识图谱爱好者阅读。
图3-62
图3-74
图3-75
图3-76
图3-77
图3-78
图3-79
图6-7
王大阜,中国矿业大学图书馆工程师,从事校园网数据中心和信息化的建设与运维工作十余年,在运维、软件开发以及网络安全管理等方面具有丰富的实践经验,并从事过“网页开发”“C#程序设计”两门课程的教学工作。研究方向包括科学知识图谱、机器学习及网络安全,已发表论文数篇,主持一项江苏省高校哲学社会科学研究项目,参与研究一项江苏省高校哲学社会科学研究项目,参与研究一项国家社会科学基金项目。
知识是人类对信息进行归纳和总结而获得的结论,而眼睛是人类获取知识的一种重要感官。“一图展春秋,一览无余;一图胜万言,一目了然。”美国德雷克塞尔大学的陈超美教授形象地对科学知识图谱的效能进行了诠释。科学知识图谱用于对复杂的科学知识进行可视化,旨在以可视化的方式展示科学知识的演进历程和结构,识别科学领域的研究热点、研究前沿并展望未来发展趋势。
随着科学的进步,各个领域产生了大量的科技文献。科研人员在科研创作的过程中需要对大量文献进行整体的梳理与分析,从而把握科学发展状况并寻求学术突破口。然而,由于文献数据日益庞大繁杂,并且缺乏有效的分析手段,因此科研人员面临“信息迷航”的局面和困扰。在此背景下,一种有效地获取知识、发现知识和探测知识前沿的知识服务手段——以知识单元为基础的科学知识图谱方法蓬勃发展,并逐渐成为情报学、科学计量学和计算机领域的一个交叉研究领域。
当前,科学知识图谱工具层出不穷,按照设计原理和功能,可以分为以下4类:
● 文献计量分析工具,如CiteSpace、VOSviewer、HistCite、SATI等;
● 多元统计分析工具,如SPSS;
● 社会网络分析工具,如UCINET、Pajek等;
● 数据预处理工具,如BICOMB、BibExcel等,此类工具实际上是研究科学知识图谱的辅助工具,用于提取知识单元并生成知识单元的共现矩阵。
作者通过大量的文献调研选择 6 种关注度较高的工具——BICOMB、SATI、CiteSpace、HistCite、SPSS、UCINET。此外,就文献主题的挖掘功能而言,可通过相关工具对关键词进行聚类操作,或者通过自然语言处理领域的主题模型编程实现。
本书以智慧图书馆为研究对象。智慧图书馆一词由芬兰奥卢大学学者艾拓拉提出,他指出智慧图书馆是一个不受空间限制且可被感知的移动图书馆。上海社会科学院信息研究所的王世伟认为,智慧图书馆以数字化、网络化、智能化的信息技术为基础,以互联、高效、便利为主要特征,以绿色发展和数字惠民为目标,是现代图书馆科学发展的理念与实践。
近年来,国内掀起对智慧图书馆的研究热潮,但是关于国内外智慧图书馆的研究现状及研究热点的探讨文章仍然比较少见。本书以智慧图书馆领域的文献题录作为示例,借助多种科学知识图谱工具对其进行分析与解读,探究其中蕴含的知识。作者在撰写本书时,对本书的结构进行了认真构思,旨在将知识完整、准确地呈现给读者。
本书共6章。
第1章介绍科学知识图谱的概念、研究方法、研究意义、图谱绘制与解读流程、相关工具等。
第2章讲述数据的采集与预处理。
第3章介绍文献计量分析方法中的常用工具。
第4章讨论多元统计分析中常用工具SPSS的应用,其中还提及数据提取工具BICOMB的应用,BICOMB用于对题录数据进行提取并输入SPSS。
第5章介绍社会网络分析中常用工具UCINET的应用。
第6章讨论如何利用LDA主题模型对文本数据进行挖掘。
本书不仅介绍引文分析、多元统计分析、社会网络分析以及LDA主题模型的基本原理和方法,还对主流工具和主题模型的应用展开论述,旨在为广大的科研工作者和科学知识图谱爱好者提供参考。
感谢我的家人,尤其是我的爱人彭妍秋女士对我莫大的支持和鼓励,让我能够拥有研究和写作的恒心与信心。感谢我的同事和朋友,在和他们的交流中,我受到了莫大的启发,得到了莫大的帮助。感谢人民邮电出版社的编辑。
在撰写本书的过程中,尽管我力求内容详尽、数据精确、解读全面,但因水平有限,书中难免会存在一些纰漏,在此恳请各位读者批评与指正,相关信息请发送到电子邮箱wdf@cumt.edu.cn。
王大阜
本书由异步社区出品,社区(https://www.epubit.com)为您提供后续服务。
作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。
当您发现错误时,请登录异步社区,按书名搜索,进入本书页面,单击“发表勘误”,输入相关信息,单击“提交勘误”按钮即可,如下图所示。本书的作者和编辑会对您提交的相关信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。
我们的联系邮箱是contact@epubit.com.cn。
如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。
如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们;有意出版图书的作者也可以到异步社区投稿(直接访问www.epubit.com/ contribute即可)。
如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。
如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。
“异步社区”是人民邮电出版社旗下IT专业图书社区,致力于出版精品IT图书和相关学习产品,为作译者提供优质出版服务。异步社区创办于2015年8月,提供大量精品IT图书和电子书,以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。
“异步图书”是由异步社区编辑团队策划出版的精品IT专业图书的品牌,依托于人民邮电出版社的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、人工智能、测试、前端、网络技术等。
异步社区
微信服务号
在“大数据科研”时代,科研人员面对海量的文献,希望从中挖掘有价值的信息。然而,传统的文献计量方法会耗费科研人员大量的时间和精力,而且凭个人的主观经验判断,难免会获取错误的信息和知识。随着信息技术的迅速发展,采用知识管理和信息可视化技术,对科技文献信息进行处理与分析,进而高效、准确地获取知识的科学计量学逐渐成熟,它以可视化的方式解读和认知科学领域知识,受到广大科研人员的青睐。
2003年美国国家科学院组织的“Mapping Knowledge Domains”讨论会为科学计量学中的知识图谱和可视化研究拉开了序幕。在国内,大连理工大学的陈悦、刘则渊于2005年率先将Mapping Knowledge Domains翻译为“科学知识图谱”,并发表了国内第一篇关于科学知识图谱的研究文献“悄然兴起的科学知识图谱”。此后,国内科学知识图谱的研究热度一直持续增长。科学知识图谱在近20年中广泛应用于各个领域,为科研人员高效识别重要的研究成果、揭示知识演化发展脉络、研究热点与前沿等提供科学的技术手段。
知识图谱(knowledge graph)一词最早起源于科学计量学,全称为科学知识图谱。近年来,随着人工智能技术的发展,一种用于描述和建模世界万物之间关系的知识图谱成为学术界和工业界的研究热点,在相关专著、论文中,它通常也简称为知识图谱,因此很容易使人混淆。为了进行有效区分,本书将知识图谱分为科学知识图谱和语义知识图谱两种类型。两者虽然都属于知识管理应用范畴,都需要针对知识单元进行知识组织,并将知识进行可视化,但本质上两者不指代同一种事物,它们在概念起源、知识构建方法和应用场景等方面均存在较大差异。
国内学者对科学知识图谱的定义已达成一定共识,认为它不仅是一种揭示科学知识的发展进程与结构关系的图形,还是一种发现知识的方法。不同学者对科学知识图谱概念表述的侧重点有所差异,以刘则渊等为代表的学者认为知识图谱是一种图形,它侧重于表达,图形是知识图谱的重要表现形式;以秦长江等为代表的学者强调知识图谱的学科基础(应用数学、计算机科学、科学学、信息科学、统计学、图形学等)及绘制方法(引文分析、共现分析、社会网络分析等)。表1-1所示是陈悦、刘则渊、梁秀娟、秦长江、杨国立这5位学者给出的科学知识图谱概念表述。
表1-1 科学知识图谱概念表述
学者 |
概念表述 |
---|---|
陈悦 |
科学知识图谱是一种显示科学知识的发展进程与结构关系的图形,当它在以数学方程式表达科学发展规律的基础上进而以曲线形式将科学发展规律绘制成二维图形时,便成为最初的知识图谱 |
刘则渊 |
科学知识图谱是一种以科学知识为对象、显示科学知识的发展进程与结构关系的图形。它可视化地描述人类拥有的知识资源及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的联系,在组织内创造知识共享的环境以促进科学技术研究的合作和深入 |
梁秀娟 |
科学知识图谱以科学知识为计量研究对象,通过数据挖掘、信息处理、知识计量和图形,以可视化的方式显示科学知识的发展进程与结构关系,揭示科学知识及其活动规律 |
秦长江 |
科学知识图谱是一种把应用数学、图形学、信息可视化技术、信息科学等学科的理论和方法与科学计量学的引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域及整体知识架构的多学科融合的研究方法 |
杨国立 |
科学知识图谱是一种把应用数学、计算机科学、科学学、信息科学等学科的理论和方法与科学计量学的引文分析、共现分析、社会网络分析等方法结合,用可视化的图谱形象地揭示科学发展进程和结构关系的研究方法 |
在科学知识图谱中,获取知识的数据源自涵盖期刊论文、会议论文、学位论文等科技文献的数据库,数据采集的粒度是数据库中半结构化的题录信息,包括文献相关的发表者(作者)、发表机构(机构)、发表载体(期刊)、知识点(关键词)等字段,也称作知识单元,相当于语义知识图谱中提及的实体概念。科学知识图谱依托引文分析、共现分析、社会网络分析、多元统计分析等研究方法,对知识单元进行关联分析。
在可视化图谱中,将知识单元看作节点,根据知识单元是否存在共现、引用、耦合等关系,确定节点间是否存在边连接,从而构建不同的实体关系网络,例如,关键词共现网络(即共词网络)、共被引网络、耦合网络、合作网络、引文时序网络等。科学知识图谱的主要功能包括追踪学科研究前沿、探测学科研究热点、分析学科演化历程、考查科研合作关系、评价学者影响力、辅助科研工作决策等。
部分中外文数据库平台利用科学知识图谱的原理构建可视化图谱,例如,国内万方数据知识服务平台提供的分析平台(见图1-1),支持对主题、学者、机构等维度进行分析。
图1-1 万方分析平台首页
图1-2展示了中国矿业大学与其他高校间的机构合作网络图谱。
图1-2 万方分析平台——机构合作网络图谱
2012年谷歌公司发布了知识搜索产品——知识图谱,提出“things,not strings”的理念,意为用户搜索到的结果,除展现与关键词匹配的网页之外,还会展现与人名、地名、机构等实体相关的结构化信息。此外,搜索引擎可以回答用户提出的一些简单问题,如“苏轼是哪个朝代的”。随后,国内外大型互联网公司也相继推出知识搜索产品,例如,百度知心、搜狗知立方、微软Bing Satori等。
如图1-3所示,用户在搜狗搜索引擎中输入“苏轼”,按Enter键,网页头条则会出现与苏轼相关的基本状况、家庭关系以及代表作品等信息。
图1-3 搜狗知识搜索
语义知识图谱的发展历史源远流长,起源于由美国心理语言学家奎廉(Quilian)于1968年提出的语义网络(semantic network),它是通过概念(concept)及其语义关系来表示知识的一种有向或无向的网络图。随着本体论、万维网、语义网等技术的发展,语义网络最终演化到语义知识图谱。
谷歌知识图谱是为实现智能化检索而建立的知识库,是语义知识图谱的一种具体应用。语义知识图谱是基于图模型描述和构建世界万物之间的关联关系的大规模语义网络。语义知识图谱由节点和边组成,节点代表实体(entity)、概念或值(value),边代表实体、概念间的语义关系或实体属性(property)。
图1-4所示是以苏轼为实体的人物关系知识图谱样例。
图1-4 以苏轼为实体的人物关系知识图谱样例
语义知识图谱的构建涉及知识来源、知识表示、知识获取、知识存储、知识融合等流程。知识数据来源于关系数据库中的结构化数据、存储用户行为信息的日志文件中的半结构化数据、网页文本中的非结构化数据等。知识表示通常使用资源描述框架(Resource Description Framework,RDF)作为数据模型构建结构化的三元组,格式如<主语,谓语,宾语>,表示主体和客体之间存在谓词所表达的关系,众多的关系链接共同构成一个复杂的、巨大的网络图谱。
随着深度学习(deep learning)技术的兴起,表示学习方法可以将知识表示为稠密、低维的实值向量,以解决计算效率低下和数据稀疏性高的问题。知识获取是语义知识图谱构建的核心技术,数据源中隐含大量的实体和关系实例,知识获取是指对其进行命名实体识别(Named Entity Recognition,NER)、关系抽取(Relation Extraction,RE)和事件抽取(Event Extraction,EE)等信息抽取子任务处理。
在当前大数据和深度学习计算模型的强力驱动下,实现大规模的知识获取已成为可能。知识图谱的存储方式分为3类——使用关系数据库、使用RDF数据库和使用以Neo4j为代表的图数据库。其中图数据库以图模型这种直观的知识表达方式存储和查询数据,它在处理大规模知识图谱时的性能表现较卓越,因此目前非常受欢迎。
知识融合是将多源异构知识进行合并的过程,解决知识图谱异构造成的信息无法共享和交互等问题,例如,中文百科知识图谱CN-DBpedia主要从百度百科、中文维基百科等异构知识库中抽取知识并进行概念融合、实体对齐、属性(包括关系)对齐和属性值融合。
语义知识图谱被学界和业界广泛应用,在通用领域和垂直领域中催生出各种类型的知识图谱,包括Wikidata、Freebase、DBpedia等百科知识图谱,Cyc、ConceptNet等常识知识图谱,WordNet、HowNet等词汇知识图谱以及电商、医疗、金融、教育等特定领域的知识图谱。随着大数据、人工智能技术的发展,知识图谱被应用于智能问答、决策支持、辅助大数据分析及个性化推荐等场景。
综上所述,科学知识图谱和语义知识图谱的差异较大。
表1-2所示是科学知识图谱与语义知识图谱的比较结果。
表1-2 科学知识图谱与语义知识图谱的比较结果
比较项 |
科学知识图谱 |
语义知识图谱 |
---|---|---|
知识来源 |
科技文献数据库,以手动下载为主要采集方式 |
关系数据库、网页、文本等,以自动采集为主要采集方式 |
知识表示 |
采用关系矩阵描述实体(作者、机构、期刊等)及实体间的关系 |
采用RDF三元组描述世间万物及其关系 |
知识存储 |
关系矩阵文件、网络文件 |
关系数据库、RDF数据库和原生图数据库 |
知识融合 |
通常仅涵盖某学科或领域的知识 |
融合多源的领域数据,从而扩大知识规模 |
知识查询 |
不支持查询 |
当以RDF数据库存储知识时,支持SPARQL查询;当以Neo4j图数据库存储知识时,支持Cypher查询 |
知识应用场景 |
梳理科学发展脉络、评价学术成果、跟踪研究前沿、分析科研合作关系等 |
以检索、问答、推理应用为主 |
科学知识图谱的研究方法主要包括文献计量分析、多元统计分析、社会网络分析、自然语言处理以及主题模型分析。其中前4种方法较成熟,当前科学知识图谱工具都基于这些方法进行设计与开发。主题模型是自然语言处理领域中常用的语义数据模型,用于从文本提取和挖掘隐含的语义信息,代表性的应用是识别学科领域所涉及的研究主题,从而揭示学科研究的知识结构和演化过程。
表1-3所示是对前4种研究方法的说明。
表1-3 对科学知识图谱相关研究方法的说明
研究方法 |
研究对象 |
子方法 |
研究目的 |
---|---|---|---|
文献计量分析 |
施引文献、参考文献 |
共被引分析 |
揭示学科研究基础与研究前沿,探测重要科学共同体以及高影响力的核心文献(群体)、作者(群体)、期刊(群体) |
耦合分析 |
分析研究内容相似的文献、作者、期刊群体 |
||
引证关系分析 |
分析高影响力文献,梳理学科发展脉络 |
||
关键词 |
共词分析 |
通过高频词、突现词揭示研究热点与前沿,通过共词聚类揭示研究主题 |
|
多元统计分析 |
关键词 |
因子分析 |
对变量(关键词)进行降维,用少量的因子代表多个变量 |
聚类分析 |
对高频关键词按照关联密切程度进行分类,每个分类表示某研究主题 |
||
多维尺度分析 |
通过二维平面空间展示关键词节点的距离(相似性) |
||
社会网络分析 |
科研合作网络 |
中心度分析 |
揭示作者、机构等知识单元的影响力 |
凝聚子群 |
基于可达距离(边数)和度数划分作者、机构等单元 |
||
网络密度 |
衡量作者、机构之间合作的紧密程度 |
||
自然语言处理 |
文本 |
主题模型 |
揭示研究主题、热点主题及主题演化历程 |
美国哲学家库恩(Kuhn)指出,“一种范式通过革命向另一种范式的过渡,便是成熟科学通常的发展模式”,并形成了一套科学发展模式理论,科学发展本质上是前科学(前范式)→常规科学(范式积累)→科学革命(范式变革)→新常规科学(新范式形成)的交替过程。学科前沿对学科领域的发展具有重要的推动作用,是为解决研究领域内关键问题而受到学者关注的最新研究。
美国科学家普赖斯(Price)最早提出“研究前沿”概念,用于描述研究领域的动态本质,即科学领域不断继承与创新的现象,他认为研究前沿是由科学家积极、频繁引用的少量文献体现的,经过大量研究,他认为某个研究前沿由最近发表的40~50篇论文组成。
对于学术机构(高校与科研院所)而言,科学知识图谱可以辅助科研人员就其从事的科研领域,探究发展脉络,追踪研究前沿,并为科研选题和发现学术增长点提供参考依据,从而显著提升科研工作效率。
图1-5展示了2003—2022年我国知识图谱领域发文趋势。
图1-5 知识图谱领域发文趋势
由图1-5可见,从2010年开始,发文量逐年递增。
此外,根据相关数据,图书情报与数字图书馆方面的发文量最高,其次是计算机方面的,发文量所占比例分别为32.84%和17.81%。这表明知识图谱在各个领域(尤其是在图书情报领域)广泛应用,这对于研究并促进学科发展有着重大作用。
科研的合作不仅是合作的一种特殊形式,还是学术界基本、常见的特征。科研合作网络(scientific collaboration network)的概念由物理学家纽万(Newwan)提出。随着科技的飞速发展,科研活动中学科的交叉日益加深,复杂的科研问题仅凭个体的知识、能力、设备和资源难以应对,必须通过科研合作的方式来解决。学者之间在科研项目、学术会议和撰写论文或图书等方面的交流与协作更频繁,而且大多数学者通过个人社会关系,选择相互熟识的师生、同事、朋友等作为其合作学者,从而进行跨学科、跨专业甚至是跨机构的合作,并逐渐形成关系稳定的科研合作关系。
科研合作能够增进学者之间的交流与协作,巩固或扩展个人的社会关系,促进知识(尤其是隐性知识)的整合、传播、转化及共享。合著论文不仅是科研合作成果主要的表现形式,还是构建科研合作网络(同一篇合著论文中的多位学者的协作关系可形成相互关联的网络)的重要依据。
普赖斯指出,“科研合作已成为当今科学发展的重要动力。”换言之,科研合作网络的建立,标志着科研成果产出能力的不断增强,从本质上可认为建立科研合作网络是一种现代科学研究的生产方式。很多研究表明,大多数的高产学者在合作网络中是非常活跃的,学者的科研产出与其在合作网络中的合作程度存在显著的正相关关系。
除探究学者间的合作情况之外,科研合作网络还可以根据学者所在的机构、国家属性特征,反映机构间和国家间的合作关系,从而探究机构间和国家间的合作情况。使用知识图谱对科研合作网络进行分析,为识别影响力高的作者与寻找科研团队、学术带头人提供决策支持。
此外,科研合作网络与合作学者推荐密切相关。合作学者推荐是指给目标学者寻找潜在的合作学者,从而促进学者间的合作。目标学者和合作学者的学术能力与研究兴趣相当,两者经历过历史科研合作或存在间接的合作关系。
一流学科建设是高校人才培养与科学研究的重要基础和衡量标准,受到高校及政府部门的高度重视。科研能力是高校核心竞争力的体现。要了解自身的科研能力,高校必须借助工具或平台,通过学科分析与评价做出准确的定位,明确自身的优势和不足,从而为学科的建设和发展制定相应的战略举措。
基本科学指标(Essential Science Indicator,ESI)是科睿唯安(Clarivate)公司基于WOS(Web Of Science)核心合集数据库建立的深度分析型研究工具。
ESI 将所有科研成果按22类学科划分,可以确定全球范围内在各学科中有影响力的国家、机构、论文和出版物。通过ESI,高校可以对科研产出能力进行统计分析,包括高被引论文、热点论文、篇均被引次数以及学科排名,从中发现高校未来需要着重发展的弱势学科。
再例如,全国各大高校图书馆建设的机构知识库(Institution Repository,IR)能够自动同步采集、存储并展现校内学者的学术数据,包括基本信息、科学指标信息以及论文、专利、著作、科研项目等形式的学术科研成果。
此外,兰州大学采用的商用机构知识库产品CSpace等类似产品还支持可视化关键词共现图谱、校内学者之间以及本校与校外机构的合作网络图谱。
高校可以借助机构知识库产品或其他工具分析本校各学科的研究主题、科研成果产量和引用量,对标国内外一流大学对应学科的研究状况,通过加强纸本及电子文献资源建设、加强校内与校外科研合作交流等方式,促进弱势学科(尤其是弱势分支领域)的发展,以向一流学科行列迈进。
科学知识图谱的绘制与解读分为以下4个步骤。
(1)确定研究对象,研究对象可以是某个学科或者是某个研究领域。
(2)选择数据源,进行数据采集及数据预处理。常见的中文文献数据库主要是CNKI和CSSCI,英文文献数据源主要是WOS。数据采集分为手动下载和爬虫抓取两种方式。由于目前国内外各大数据库商对于高并发访问、下载以及爬虫行为均有所限制,以及数据库中存在一些与研究主题无关的文献,因此大多数学者选择采取手动导出的方式进行数据采集。数据清洗是大数据分析中提升数据质量的首要环节,在科学知识图谱领域同样如此。除与工具自身有关之外,知识可视化的可靠性还依赖数据的质量。即使非常权威的WOS数据库也存在数据题录格式和数据项缺失的问题,因此采集到的数据还需要经过数据预处理(包括查漏补缺、区分同名作者、归一化机构名、文献去重以及格式转换等操作)才能用于分析。
(3)选取知识图谱工具,根据分析需求,选取不同知识单元,绘制科研合作网络、共词网络、共被引网络、引文时序网络、多维尺度等可视化图谱。其中,科研合作网络、共词网络及共被引网络都是基于知识单元的共现关系将其矩阵化并标准化的图谱;引文时序网络是基于时间线和引证关系的图谱;多维尺度是基于距离的图谱。此外,若绘制出的图谱中的节点数庞大,需要进行阈值设置,从中筛选出高频关键词、高产作者、高被引作者等重要节点,以揭示学科领域中具有研究意义的知识。高产作者的界定标准可参考普赖斯定律及公式,其余节点的阈值设置没有明确的界定标准。
(4)对图谱进行科学解读。可视化的目的不是展示图形,而是洞察,这需要结合研究领域的专业知识背景,通过定性、定量的方法分析和揭示学科领域的研究热点、演化历程、核心作者、核心机构、核心期刊(群体)等。核心节点在网络结构中占据着重要的地位。关于核心的界定,我们可以从频次计数、频次变化率、网络影响力角度出发,分别以出现频次、突现值以及中介中心度这3种测量指标作为判断依据。注意,CiteSpace内置了这3种指标,而且突现值是CiteSpace特有的指标,中介中心度指标要借助社会网络分析工具来计算。通常由于研究者的认知能力不同,因此解读结果会不同。建议读者在熟悉图谱工具功能的基础之上,结合学科背景知识,赋予可视化图谱科学和规范的解读。
科学知识图谱的绘制与解读流程如图1-6所示。
图1-6 科学知识图谱的绘制与解读流程
目前,科学知识图谱工具层出不穷,据不完全统计,用于绘制科学知识图谱的工具不少于30种。按照软件设计的原理方法划分,大致可以分为4类——文献计量分析工具、多元统计分析工具、社会网络分析工具以及数据预处理工具,它们的分析方法、支持的数据格式以及功能各不相同。
表1-4所示是关于常用知识图谱工具的说明。
表1-4 关于常用知识图谱工具的说明
工具 |
分析方法 |
支持的题录数据格式 |
功能说明 |
---|---|---|---|
CiteSpace |
文献计量分析 |
WOS(支持多种数据转换) |
共现分析、聚类分析、共被引分析、耦合分析、时间线分析、突变检测 |
VOSviewer |
文献计量分析 |
WOS、Scopus、PubMed、 |
共现分析、聚类分析、共被引分析、耦合分析 |
HistCite |
文献计量分析 |
WOS |
统计作者、机构、期刊的文献信息,绘制引文时序网络 |
SATI |
文献计量分析 |
CNKI、CSSCI、WOS、万方、维普 |
桌面版提供预处理(生成相关矩阵、相异矩阵)功能,在线版提供共现分析、聚类分析、共被引分析、词云等功能 |
Bibliometrix |
文献计量分析 |
WOS、Scopus、PubMed、Dimensions、Lens |
共现分析、聚类分析、共被引分析、耦合分析、多维尺度分析、战略坐标分析 |
SPSS |
多元统计分析 |
数据表 |
多维尺度分析、因子分析、聚类分析 |
UCINET |
社会网络分析 |
矩阵、Pajek NET、UCINET DL |
网络可视化分析(关键词、机构、作者共现) |
Gephi |
社会网络分析 |
GEXF、GraphML、GML、 |
网络可视化分析(关键词、机构、作者共现) |
Pajek |
社会网络分析 |
Pajek NET、UCINET DL |
网络可视化分析(关键词、机构、作者共现) |
BICOMB |
数据预处理 |
CNKI、CSSCI、WOS |
文献计量与可视化预处理(生成共现矩阵、词篇矩阵) |
BibExcel |
数据预处理 |
WOS(CNKI、CSSCI需要 |
文献计量与可视化预处理(生成共现矩阵,提取、导出.net文件) |
根据科研人员的关注度,本书重点介绍CiteSpace、VOSviewer、HistCite、SATI、Bibliometrix、UCINET、SPSS与BICOMB。此外,科研人员通常热衷于对科技文献中所涉及的研究主题进行提取分析,为此,本书第6章将介绍如何使用自然语言处理技术中的LDA主题模型提取研究主题、确定热点主题及揭示主题演化历程等。
本章首先介绍了知识图谱的概念、科学知识图谱的研究方法及研究意义,并围绕科学知识图谱与语义知识图谱的概念与区别进行论述,避免读者在阅读知识图谱领域相关文献时产生歧义。其次,本章介绍了科学知识图谱的绘制与解读流程。最后,本章对主流工具所支持的题录数据格式及功能做了介绍。