书名:数据要素化时代的数据治理
ISBN:978-7-115-65179-2
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
编 上海市静安区国际数据管理协会
责任编辑 龚昕岳
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
随着数字化的发展,数据逐渐融入生产、分配、流通、消费和社会服务管理等环节,为数据的拥有者或使用者带来经济效益,成为一种新型的生产要素,给生产方式、生活方式和社会治理方式带来了深刻的变革。
本书主要介绍数据要素化时代的数据治理。本书分为5篇。第一篇“数据治理新趋势”介绍DataOps 的发展及实践,产业级数据治理新趋势,数据治理的场景化、工程化和智能化,以及数据资产的安全运营。第二篇“新理论、新方法和新技术”介绍数业的逻辑及路径、数据治理的闭环管理方法、数据资产价值的呈现、数据治理的共治共享、精益数据治理,以及数据治理的“新四化”。第三篇“新型数据基础设施”详细介绍来自平安人寿、阿里巴巴和镜舟科技3家企业的数据中台产品的创新情况。第四篇“行业数据治理与数据安全治理”首先介绍高校是如何进行数据治理的,然后介绍数据的安全运营和数据质量问题解决之道。第五篇“企业最佳实践”分享中国石化、中电金信和中国联通3家企业在数据要素化过程中积累的经验。
本书适合对数据管理、数据治理、数字化转型等相关主题感兴趣的读者阅读,尤其适合从事相关工作的读者参考借鉴。
主 编:胡博
副主编:吕璐
作 者(依编写章节排序):
王 瀚 高 伟 毛大群 王 琤 张晓东 卢云川
符海鹏 凌立刚 史 凯 刘 晨 朱 晟 洪子健
冉秋萍 田奇铣 王有卓 汪 浩 丁 勇 刘永波
郑保卫 蒋 楠 杜啸争 欧阳秀平
作为一个专业的非营利性机构,上海市静安区国际数据管理协会(DAMA大中华区)自成立以来一直秉承国际数据管理协会(Data Management Association International,DAMA国际)“志愿、服务、共享、开放、中立”的原则,努力为我国的数据管理和数字化转型相关工作贡献力量。每年举办一次“DAMA中国数据管理峰会”就是这种努力的表现之一。
2022年的“DAMA中国数据管理峰会”紧扣“数据基础制度和数字化转型”这一主题,深入分析了数据管理领域的国内外政策、趋势及标准,重点聚焦行业最佳实践与应用,助力业界人士提升认知,帮助企业从容应对数字化浪潮下的挑战与机遇,致力于我国数字化水平的不断提高和创新。本次大会能够圆满举行,要感谢本协会主管单位——上海市静安区科学技术委员会的大力支持,也要感谢各界合作伙伴的帮助,还有我们全体会员的奉献。
本次大会共有四大议题。
● “基础制度”:响应国家关于“数据基础制度”的指示,大会邀请了北京、上海、广州、深圳4地数据交易所的领导,并由来自北京国际大数据交易所的王臻和上海数据交易所的卢勇进行分享,就数据确权、数据资产价值评估、交易规则、数据合规等问题进行了深度分享和讨论。
● “数字化转型”:围绕数字政府和政务数据治理的主题,由来自上海市大数据中心、山东省大数据局、广东数字政府研究院、数字浙江技术运营有限公司、广州市政务服务数据管理局、东莞市政务服务数据管理局等组织机构的专家做了公开或闭门的分享和交流。专家们一致认为数字政府(包括政府和公共数据的数据供应链改革等)是整体数字化转型的一大关键。
● “生态产业”:由来自中国联通、中国石化、阿里巴巴、三一集团等组织机构的专家进行分享,分别就数字化组织架构的设立、数字化素养、首席数据官机制、数字生态的建设和健全等问题进行广泛且深入的讨论,并总结各自企业的成功经验。
● “数据治理”:十多家在业界具有较高品牌影响力的服务提供商和产品提供商提出了一些新的概念和方法论,比如数业(对应农业、工业)、数商(数据要素的运营商)、产业级(不仅限于项目级和企业级)的数据治理、数据治理的10种模式、数据质量问题解决之道等。
本次大会还邀请了国内外著名的行业大咖进行了公开分享,包括“数据仓库之父”比尔·恩门(Bill Inmon)、提出大数据3V(Volume, Variety, Velocity,分别代表数据量大、数据类型多、数据处理速度快)概念的Gartner公司分析师道格·莱尼(Doug Laney)、提出DIKW(Date, Information, Knowledge, Wisdom,数据、信息、知识、智慧)模型的罗伯特·阿巴特(Robert Abate)、提出数据素养(data literacy)概念的DAMA国际主席彼得·艾肯(Peter Aiken)等。
此外,DAMA大中华区的11位资深会员在本次大会上进行了专场分享,他们基于自身丰富的实践经验,梳理了数字化转型的难点和痛点、数据管理的成功之路等,并就个人的职业发展、数字化方向的创业计划等话题进行了充分的讨论和交流。
作为本次大会的后续工作内容之一,我们整理出版了本书,收录了本次大会上部分演讲嘉宾的演讲内容,以及从本次大会征文活动中挑选出来的部分优秀论文。我们这样做不只是为了记录,更是为了能给更多的人提供进一步学习和交流的机会。
数据是数字经济的基础,数据管理是数字化转型的前提。数字化转型是一个长期且艰巨的过程,数据和数据管理本身也面临着许多问题。在业务层面,对于数据的确权、数据的价值评估、数据作为生产要素如何进入市场流通等问题,目前还没有定论。在技术层面,数据网格、湖仓一体、流批一体、数据资源目录的梳理、主数据和数据标准的建设、数据安全、数据质量等也都面临着一系列的问题。
未来,DAMA大中华区将继续前行,为建设我国自有的数据管理和数字化体系而努力!
期待下次相聚!
汪广盛
DAMA大中华区主席
上海市静安区国际数据管理协会会长
2022年12月,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)正式发布,为我国加快构建数据基础制度体系,进一步释放数据要素价值,激活数据要素潜能指明了方向。就在“数据二十条”发布之后不久,DAMA大中华区举办了以“数据基础制度和数字化转型”为主题的数据管理峰会,与会嘉宾就“数据二十条”展开热烈讨论,一致认为:数据是新的生产要素,数据基础制度的构建无疑能够更好地发挥数据要素的作用,应通过数据资源化、资产化和资本化等数据要素化关键步骤来全面释放数据要素的潜能。
为了将与会嘉宾的观点结集成册以飨读者,我们将此次峰会的部分演讲稿和优秀来稿整理成本书。全书分为五篇,共20章。
第一篇“数据治理新趋势”包含4章,分别介绍了DataOps的发展趋势及实践探索,数据要素时代产业级数据治理新趋势,数据治理进阶——场景化、工程化、智能化,以及数据资产安全运营和演进趋势。
第二篇“新理论、新方法和新技术”包含6章,分别介绍了数业的逻辑及路径、业务驱动的数据治理闭环管理方法、数据资产价值呈现之道、数据治理的共治共享、价值驱动的精益数据治理,以及数据治理的“新四化”。
第三篇“新型数据基础设施”包含3章,分别介绍了平安人寿数据中台建设实践、阿里巴巴数据治理平台建设实践,以及后Hadoop时代的数据分析之道。
第四篇“行业数据治理与数据安全治理”包含4章,分别介绍了高校数据治理工程化探索与实践、场景化数据治理助推“智校”提升、数字化时代数据安全运营的探索与实践,以及数据质量问题解决之道。
第五篇“企业最佳实践”包含3章,分别分享了中国石化、中电金信和中国联通3家企业在数据要素化过程中积累的经验。
遗憾的是,受多方因素影响,我们无法将全部,尤其是特定主题的嘉宾报告收录到本书中。我们将通过“MyDAMA”公众号、小程序及视频号等新媒体渠道,将这些精彩的内容以另一种形式呈现给读者,敬请关注。
本书提供如下资源:
● 本书思维导图;
● 异步社区7天VIP会员。
要获得以上资源,您可以扫描下方二维码,根据指引领取。
作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。
当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,单击“发表勘误”,输入错误信息,然后单击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的错误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。
我们的联系邮箱是contact@epubit.com.cn。
如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。
如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。
如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。
如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。
“异步社区”是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作译者与读者的在线交流互动,以及传统出版与数字出版的融合发展。
“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域30余年的发展与积淀。异步图书面向IT行业以及其他行业的IT用户。
王瀚 海南数造科技有限公司联合创始人、首席运营官,南开大学MBA,海南省领军人才,DAMA大中华区会员,DAMA认证数据治理专家(Certified Data Governance Professional,CDGP),开放群岛开源社区首席数据科学家,中国信息协会理事,中国信息通信研究院(以下简称中国信通院)大数据技术标准推进委员会DataOps方向专家委员,曾主导多个世界500强企业数据中台、数据治理项目的咨询和建设,参与中国信通院《数据资产管理实践白皮书》5.0版和6.0版、《DataOps实践指南》1.0版和2.0版等多个行业权威报告及标准的编写。
在当前的数字经济时代,我国政府出台了一系列规划和意见,强调数据作为一种新型的生产要素,应该赋能数字化转型和实体经济,因此对数据管理提出了新的要求,即能够高效、合规、有序、自主地利用数据,在组织内部要能促进数字化转型,在组织外部要能保障数据要素的有序流通。
当前的数据管理诉求与现状仍存在较大差距,如图 1-1 所示。企业希望能够快速地调取数据,更快地获得数据洞察;能够有准确的数据以便辅助做出正确的决策;能够有自助分析的能力,让数据分析师、数据科学家进行创新探索;能够在安全合规的环境中使用数据,等等。由此可见,企业在数字化转型方面依然任重而道远。
与此同时,我们也看到了云和大数据技术的普及和演变,以及开源社区的活跃,出现了湖仓一体、流批一体等众多数据架构和新的数据组件(以下简称组件)。这些组件的出现说明当前企业的数据体量更大、类型更加多样化并且数据分析过程更加复杂。但每一种组件的出现主要是为了解决特定的问题,因此这些组件的组合使用带来了新的挑战,包括复杂的数据管道、割裂的元数据、较高的使用门槛和运维成本、不安全的数据环境等。
当前企业在数据管理方面的诉求是从“管”到“用”的转变:希望有敏捷的数据管道,以便对数据复杂的流程做好编排;希望有统一的元数据,以便形成准确一致的数据语义,让数据消费者能够在统一的语言里去理解数据的含义;希望有自主独立的工作空间,从而能够让不同的数据消费者进行独立的探索;希望有安全可信的数据环境,以便数据消费者更放心地利用数据。图1-2展示了现代数据栈及其特点,从中可见当下企业对数据管理提出了更高的要求。
图1-1 数据管理诉求与现状的差距
图1-2 现代数据栈及其特点
面对快速变化的业务需求和复杂的技术组件,业界借鉴DevOps(开发运维一体化)的方法,提出DataOps(数据研发运营一体化)的概念。DataOps是应对业务需求快速变化和业务价值转化的关键策略,其通过构建和增强数据管道的方法和技术,满足新技术引入和数据流向价值流转化的需求。
DataOps是一种将敏捷、DevOps、精益和产品思维等多个方法论融合在一起的数据开发和运营方法,以实现更高效、更灵活、更稳定的数据生命周期管理。DataOps强调从业务需求到数据分析价值输出的全链条整合,旨在实现敏捷和协作的数据开发,利用DataOps的持续集成/持续交付(Continuous Integration / Continuous Delivery, CI/CD)能力来最大限度地减少流程浪费,并专注于业务本身的成本和收益。同时,DataOps 能够充分体现产品思维,输出能够最大限度满足业务需求的内容,从而实现数据从数据流向价值流的转化。
在DataOps中,敏捷的思想体现在快速响应业务需求和变化。参考DevOps的方法,DataOps实现了数据工程更短的迭代周期和更高的交付效率。精益思想的应用可以帮助团队更好地理解数据价值流,消除数据开发和运营过程中的浪费,优化流程,提高数据生产效率和质量。产品思维是一种以用户需求为中心、持续创新和迭代的思考方式,强调的是用户体验和价值创造。在DataOps中,产品思维的应用可以帮助团队更好地理解业务需求,将用户价值放在首位,优化数据产品的设计和功能,实现更高效、更灵活、更稳定的数据生命周期管理。
DataOps的概念最早由莱尼·利伯曼(Lenny Liebmann)于2014年提出,他指出DataOps是优化数据科学团队和运营团队之间协作的一些实践的集合。随后,业界开始对DataOps的概念进行研究和提炼。2015年,英国Tamr公司的安迪·帕尔默(Andy Palmer)提出了DataOps的4个关键构成:数据工程、数据集成、数据安全和数据质量。2017年,美国Nexla公司的贾拉·尤斯顿(Jarah Euston)把DataOps的核心定义为从数据到价值,这是首个把DataOps和业务价值关联起来的定义。自2018年被高德纳(Gartner)公司纳入数据管理技术成熟度曲线以来,DataOps的热度逐年上升。2021—2022年,Forrester公司、国际数据公司(International Data Corporation,IDC)、IBM公司陆续发布各自在DataOps方向的研究和探索。自2022年以来,DataOps处在一个从萌芽期到爆发期的关键过渡阶段,预示着未来2~5年DataOps将得到广泛的实践应用。2022年,中国信通院将DataOps列为当年大数据十大关键词之一,同时发布了DataOps成熟度模型的相关标准,可见国内业界对DataOps的关注也越来越多。
综合各家观点,可用如下几个关键词来概括DataOps的概念:敏捷、协作、自动和业务价值的呈现。那么DataOps究竟能给企业带来什么样的价值呢?主要有以下4点。
(1)能够提高数据生产效率。速度是DataOps的主要驱动力,数据管道的优化使得DataOps能够快速实现一个业务从需求到开发成果的输出,整个流程更加敏捷,并且具备快速迭代的能力,从而及时响应需求的变化。
(2)提高质量和可靠性。DataOps通过定义明确的管道流程来保证研发的规范性,并通过自动化测试和持续集成/持续交付流程来确保交付质量,还通过落标[1]检查和质量校验来保证数据的标准化和准确性。
[1]落标,即落实标准。
(3)自动化和标准化。DataOps通过自动化和标准化的方式,减少了手动干预和重复工作,降低了IT运营和维护的成本。
(4)打破部门之间的界限。DataOps鼓励交流与协作,有利于企业建设数据文化,提高整个企业的生产力,让所有人都愿意通过数据来做分析。
DataOps定义了数据管理的新模式,让数据管道、数据处理流程、数据技术和团队能有效结合起来。图1-3所示为韦恩·埃克森(Wayne Eckerson)给出的一个DataOps框架:中间的数据管道表示从数据来源到数据结果输出的过程,包含数据采集、数据工程和数据分析3个环节;下半部分列出用到的相关技术,包括数据捕获、ETL(Extract-Transform-Load,提取-转换-加载)、数据准备、数据血缘、数据目录、数据治理、数据分析等;上半部分是整个数据管道的处理流程,包含持续集成、持续部署、编排工作流和调度、持续测试等。总的来讲,DataOps将DevOps的敏捷开发和持续集成应用到了数据领域,以优化和改进数据管理者和数据消费者的协作,实现持续交付的数据生产线。
当前整个数据栈的生态蓬勃发展,有很多开源的组件,且不乏行业领先的独角兽企业。然而从数据的集成、加工到调度编排,再到治理和分析,众多技术栈的出现更需要使用DataOps的方法把这些产品和组件集成在一起,以便做好组件的融合和流程编排,让企业的数据开发和运营更便捷、更简单,因此未来几年DataOps的发展将迎来爆发期。
图1-3 DataOps框架
IDC出具的相关统计报告显示,当前已有10%的企业完全实现了DataOps,而80%以上的企业表示需要实现DataOps,这说明DataOps有着广泛的认同和市场。那么实现DataOps有哪些条件呢?
● 战略:DataOps为数字化转型奠定基础,它是一个经过深思熟虑的数据战略的一部分,组织要明确当前的战略目标和战略范围。
● 文化:DataOps的核心是协作和信任的文化。所有利益相关者都必须共同努力,并对整个过程负责。在所有阶段了解业务需求至关重要。
● 流程:DataOps需要定义明确的流程、角色、准则和指标,以加强DataOps的原则。
● 人员:DataOps需要明确与数据生命周期一致的人力资源,包括内部客户和利益相关者。
● 技术:DataOps需要工具和基础架构来支持自动化、测试和编制,以及所有利益相关者之间的协作和沟通。
上述条件简而言之就是,要实现DataOps,首先要有清晰的战略目标和战略范围,战略目标不一定长远宏大,但一定要明确,要清楚解决什么样的问题;其次需要有协作和信任的文化,数据的开发、管理不只是IT部门的事情,业务部门也要参与进来;最后需要定义明确的DataOps的成员、角色、准则和指标,包括自动化的能力等,配备相应的专业人员并提供技术组件工具的支撑,这样才能够保证企业更好地实现DataOps落地。
在具体实践方面,我们认为DataOps的落地有4个关键点:首先是实现敏捷的数据管道,把传统的、复杂的、割裂的数据工程,转变为敏捷的、一站式的自动化数据管道,通过流程化自动约束DataOps的规范化,并支持多类角色的协作;其次是要具备持续集成/持续发布(CI/CD)的能力,由于数据工程包含多个环节且由多人开发完成,因此数据工程的验证和投产过程十分重要,可以通过版本控制对代码和数据进行管理,通过自动测试验证任务和数据的准确性,通过CI/CD能力提高数据工程从开发到投产的质量和效率;接下来是安全可信的数据资产,也就是说,要保障数据消费者使用的数据是准确合规的,从而让数据管理者能够放心授权数据给数据消费者使用;最后是自助的数据分析和探索能力,业务分析师和数据科学家等可能有一些创新性的研究或碎片化的需求,他们可以在安全授权的前提下,利用简单快速的数据访问和分析能力来探索数据,实现数据民主化。
下面具体介绍实现DataOps落地的每一个关键点。
(1)敏捷的数据管道。敏捷的数据管道强调DataOps过程的自动化和协作化,包括沙箱创建、资源申请、数据发现、数据准备/集成、模型设计、数据加工、任务编排、版本管理、任务测试、部署上线等能力,还涉及多种角色的协作过程,旨在高效地对数据工程、数据技术和数据流程进行结合及流程自动化。图1-4展示了一个敏捷的数据管道。
(2)持续集成/持续发布的能力。传统的数据开发通常会在文本或工具中编写脚本,并将其提交到测试环境进行验证。如果验证出现问题,则需要修改并重新测试脚本。因此传统的数据开发存在以下3个问题。
● 大型数据工程需要多人协作,当团队中有很多人参与编写和修改代码时可能会出现错误,缺少版本控制管理将导致无法找到以前的版本。
● 当切换环境时,需要修改很多环境参数,比如数据集成和加工时的测试或生产环境参数,这很容易造成漏改或错改。
● 传统模式下的整个投产过程缺乏管理,数据审计时发现的问题很难追溯,并且由于数据业务需求变化频繁,即使一次成功的投产,也可能因为后续变更而需要再次进行投产。
图1-4 敏捷的数据管道
此时,持续集成/持续发布的能力将发挥作用。它能够实现环境的统一管理、自动化的编排、测试和上线流程的管理,并提供审计功能。持续集成/持续发布的能力是DataOps的核心。图1-5展示了一个基于DataOps平台进行持续集成/持续发布的示例。
图1-5 数据的持续集成/持续发布
(3)安全可信的数据资产。对于数据资产,数据消费者需要“能找到”“看得懂”“放心用”。数据消费者在进行数据分析前,首先需要找到数据。这就需要一个可搜索且易于理解的数据目录工具,以便找到企业中存在的数据资产,并通过详尽的元数据信息来理解数据,包括业务术语、数据结构、数据分布、数据血缘、数据质量、数据安全和数据合规等信息,从而对数据有清晰的理解和充分的信任。同时,需要确保数据的访问权限和审计能力,以保证数据能够被安全使用。
(4)自助的数据分析和探索能力。一些创新性的研究或碎片化的需求并不需要完整的数据投产就能够让业务分析人员、数据科学家进行数据的探索和数据分析,不需要依赖数据工程师,从而真正地实现数据民主化。因此,我们需要提供自助的数据分析和探索能力,让用户可以自主发现数据,按需申请试用,并编写脚本以分析和验证数据模型的效果。这样就可以满足用户灵活多样的数据分析需求。具体而言,自助的数据分析和探索能力包括如下内容。
● 自助发现:数据消费者根据自己的用数需求,自助地从企业数据资产目录中查找数据。
● 按需访问:数据消费者获得授权后,能够轻松便捷地访问数据。
● 自助使用:针对数据分析需求,数据消费者可以构建个人数据沙箱,在个人数据沙箱中进行数据的分析和探索,并将分析结果导出和可视化。
总的来说,DataOps的能力覆盖了整个数据研发和治理的过程。如图1-6所示,
图1-6 DataOps灵活贯穿整个数据研发和治理的过程
DataOps 从数据的需求阶段开始,贯穿到编码、测试、上线以及价值运营阶段。通过统一的元数据,它可以贯穿所有流程,并且这些流程在实践中可以组合和拆分,以满足企业在DataOps方面的需求。
对于DataOps未来的发展,业界充满了信心。2022年12月,Gartner发布的《DataOps工具市场指南》指出,DataOps可以增强我们的数据管理能力,使我们有更好的投入产出,包括通过可靠的数据交付来获得卓越的运营能力,通过多流程的集成和自动化来提高整个生产效率。鉴于此,我们认为未来DataOps的演变方向将包括以下4个方面。
(1)从理论抽象到具体化、标准化。业界掀起对DataOps的探索和实践,让DataOps从抽象的概念逐步走向可落地的标准和经验。
(2)从IT平台的价值到业务价值。未来DataOps将会更加聚焦业务价值的回报,将有更多的业务人员通过敏捷的数据管道快速获得业务洞察和行动指导。
(3)从粗放到精益。DataOps 强调精益思维。未来,DataOps 将越来越关注数据的可观测性,包括工作流的实时监控和分析,以及对整个工作流性能的洞察,以便更好地优化流程,减少浪费。同时,DataOps会关注投入产出及相关成本指标。
(4)从零散到一体化。在落地形态上,将出现众多一体化的DataOps解决方案和平台工具,以使企业更加方便、更低成本地实践DataOps。