书名:数据素养
ISBN:978-7-115-62918-0
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 [美]彼得·艾肯(Peter Aiken)
[美]托德·哈伯(Todd Harbour)
译 上海市静安区国际数据管理协会
责任编辑 胡俊英
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
Data Literacy ISBN: 9781634629584
Copyright © 2021 by Peter Aiken, Todd Harbour
Simplified Chinese translation copyright © 2023 by Posts and Telecommunications Press
Published by arrangement with DAMA and Technics Publications. ALL RIGHTS RESERVED
本书中文简体版由DAMA联合Technics Publications授权人民邮电出版社出版。未经出版者书面许可,对本书的任何部分不得以任何方式或任何手段复制和传播。
版权所有,侵权必究。
本书旨在帮助读者进一步理解数据在社会中的角色和作用,并帮助个人和组织提高他们的数据素养。
本书分为三大部分。第一部分首先讲解什么是数据和数据素养,随后概述大众数据素养的现状,表达了对于数据素养缺失的担忧,并给出提高大众数据素养的具体需求内容。第二部分介绍一个数字公民框架,针对移动数据传播者、成人数据传播者、知识工作者、数据教师和数据专家分别给出具体的数据知识。第三部分介绍如何培养具备数据素养的组织,并给出提升组织数据素养的十二步法。
本书适合所有与数据打交道的读者阅读,尤其是那些希望提升个人或组织的数据素养的读者,包括普通的个人、数据管理者、组织管理者、数据科学家等。
“素养”远不只是读和写的能力,还包含获得和掌握知识的能力,它奠定了我们掌握知识和把握机会的基础。本书可以帮助数据传播者从“爬行”的初学者转变为“步行”的知识工作者,再转变为“奔跑”的数据专家。本书作者非常有远见卓识,他们通过本书告诉我们:数据是“土壤”,而不是“石油”!
——迈克尔·莱希(Michael Leahy)
美国马里兰州技术部长
“数据”这个词如今在人们脑海中的形象肯定和20年前不一样。这是可以理解的,因为数据变得不同了。对于数据如何成为一个全人类的热点话题,以及组织和个人需要为数据做什么,本书进行了全面的探讨。现如今,数据已经进入了社会的各个方面。本书提供对各种形式的数据的处理方法和注意事项。
——约翰·拉德利(John Ladley)
《数据治理:如何设计、开展和保持有效的数据治理计划》作者
对任何事情做出好的决定都需要好的数据支撑。在不断发展的技术、商业、政策和日常生活中,数据都起到了关键作用。本书可以帮助读者更好地了解数据的价值。
——苏泽特·肯特(Suzette Kent)
肯特咨询服务公司首席执行官、美国联邦政府前首席信息官
这是一本用通俗易懂的方法来解释“数据素养”的书。“数据素养”是一个由数据专业人员、企业高管、首席数据官、业务分析师、学者和顾问们定义和探讨的概念。本书为“数据素养”这个概念提供现实世界的背景和相关的示例,以帮助人们识别不良的数据行为,并培养良好的数据素养。本书提出了明确和可操作的方法,通过分层级的课程和分阶段的组织行动来提高人们对数据的敏锐度。本书是企业管理者和负责数据管理计划的人们的必读书目。我也强烈建议所有成年人,尤其是家长,阅读本书。
——玛丽亚·沃尔赫(Maria Vorheh)
毕马威董事、美联储首席信息官顾问、FBI前首席数据官
本书详细讨论了数据素养对每个人的重要影响,并提供通过提高数据素养来最大化实现数据价值的实际方法。
——凯瑟琳·克莱·多斯(Catheryn Clay Doss)
里士满联邦储备银行首席数据官、Capital One前首席数据官
我们正生活在人类历史上伟大的信息革命之中,这次革命甚至比印刷机的出现还要伟大。
据估计,每天有超过3 000亿封电子邮件被发送,谷歌每24小时处理60亿个请求,YouTube上的所有用户每分钟总计观看4 333 560个视频……每天总共会生成大约2.5 EB数据。1 EB相当于美国国会图书馆内容的3 000倍。难怪一些数据科学家推测,世界历史上90%的数据都是在过去两年里产生的。
不仅如此,数据正在呈指数级增长。如今,全世界有50亿人拥有强大的信息引擎——手机。每次滑动、搜索、输入、点击、发送、点赞和购买都会创建数据。你在手机或计算机上做的所有事情,都在创造数据和信息,甚至我们还没有考虑物联网!到目前为止,每个拥有智能手机的人都能比历史上的任何人获得更多的信息。
然而,最近的一项对美国大众的调查显示,人们对科学和事实的信任比计算机和互联网出现之前更低。4 300万美国人的数据素养较低,840万美国人被归类为“功能性文盲”。在过去的十年里,美国各地人口的平均阅读水平都有所下降。面对一场全球性的疫情,有数百万美国人似乎不理解或不相信科学的基本原则。在过去的十年里,虚假信息越来越多。尽管数据量在增长,本书仍然非常具有启发性地写道:数据素养似乎已经停滞不前。当下,我们可以即刻获得比历史上任何时候都更多的数据、更多的事实、更多的信息、更多的知识,但数以百万计的人却依赖于直觉或迷信。
我们先来思考一个基本的问题:什么是数据?
数据是数字经济中使用的信息单元。在科学中,数据是一堆事实,但在数字世界中,数据却可能是真的也可能是假的。正如本书中指出的那样,数据是独特的(价值不会衰减),不会消耗的(用不完的),不可降解的(它永远可以被使用),可再生的(它可以被反复使用),其成本随着使用而降低。就像石油是工业时代的基础一样,数据是数字时代的基础。
然而人们害怕数据。一项研究表明,相比线上付款,大多数美国人更愿意支付纸质账单。21世纪以来,数据可以而且应当使人们能够对自己生活的方方面面做出更好、更明智的决定。数据应当能够提高个人和组织的生产力和竞争力。数据应当能够让所有人都成为更好的公民。缺乏数据素养使我们容易受到操纵、误导,以及被虚假信息影响,这对我们的社会是一种威胁。作为21世纪的人,我们应该具有数据素养。
数据为平台公司创造了数十亿美元的收入。你的数据的每一个细节都有价值,这让那些拥有你的数据的平台公司变得富有。在线平台和供应商收集关于你的所有信息,并用来服务于各种目的:优化使用体验(让你保持在线);投放个性化广告(卖给你东西);授权给第三方(卖给你更多的东西);预测你和他人的行为。对他们来说,再小的数据也是有价值的。你花费在网上或手机上的每一秒,都会为某个人提供数据,而这个人正在用你的数据赚钱。肖莎娜·祖博夫(Shoshana Zuboff)写道:“我们生活在监视资本主义(surveillance capitalism)的时代。”
然而问题是,许多人并没有意识到这一点。数以百万计的人们用安全和隐私来换取便利。这是一个危险的交易。这使得我们被操纵、欺骗和盗窃。“数据文盲”(data illiteracy)的存在为黑客和勒索软件敞开了大门。
那你能做些什么呢?首先,要保持警惕。不要轻易信任他人,要自己去验证。请谨慎授权别人来访问你的数据。对任何要求提供信息的请求都要表示怀疑。不要允许应用程序随时访问你的位置、图片和联系人,而是只在有需要的情况下才允许。为什么要让餐厅应用程序使用你的摄像头呢?你真的不应该让任何人完全接触到你的联系人。不要打开来自你不认识的人的短信。你在网上说的或者做的一切几乎都会永远存在,所以在你发出帖子和动态前请三思。
拥有数据素养不仅仅是为了保护你的隐私和安全,它还关系到组织和社会的运转。不要泄露你自己的信息和关于组织的信息。不要被造谣者愚弄。利用数据来做出更好的选择,这些选择应当既符合你的利益,又符合组织和全社会的利益。数据是中性的,所有人都可以使用它,所以请明智地使用它,不要滥用它。
理查德·斯坦格尔(Richard Stengel)
时代杂志编辑、
微软全国广播公司(MSNBC)直播分析师、
负责公共外交和公共事务的美国前副国务卿、
《信息战争》(Information Wars)和《曼德拉之路》(Mandela’s Way)的作者
数据是数字时代的基础,无论对于个人,还是对于企业,甚至对于社会,缺乏基本的数据素养会给数字化进程带来相当大的困难。
我曾多次到访中国,看到了中国数字经济的蓬勃发展。希望本书能帮助大家更好地理解并使用数据——那些属于每个人自己的数据,以及其他人提供给我们的数据。
我非常感谢上海市静安区国际数据管理协会和本书的翻译团队,以及人民邮电出版社为本书的出版所付出的努力。这也是大家为提高全社会的数据素养所做的共同努力。
彼得·艾肯
2023年10月
我们将本书献给信息工程之父——克莱夫·芬克尔斯坦(Clive Finkelstein,1939—2021)。我们很感激他无数小时的慷慨指导。本书是对他的整体愿景的一个小小的贡献。
如果没有各方的帮助,我们不可能写出本书。我们从分享中受益,感谢所有为本书的出版作出贡献的人。下面是一些我们想特别感谢的人,本书建立在他们的工作之上。
● 我们的老朋友、编辑和合作者胡安妮塔·比林斯(Juanita Billings)。
● 里士满联邦储备银行首席数据官凯瑟琳·克莱·多斯(Catheryn Clay Doss)。
● 加拿大国际计划公司数据治理部的米歇琳·圣·克莱尔(Micheline St Clair)。
● 我们的同事克里斯·布拉德利(Chris Bradley),本书引用了他的研究成果,他在这一领域的工作鼓舞人心。谢谢克里斯允许我们使用这些内容。
● 我们的同事约翰·拉德利(John Ladley),他为本书提供审核和贡献。
我们也感谢以下基础研究工作。本书的写作建立在这些坚实的基础和卓越的成就之上。
● Qlik Tech和埃森哲(Accenture)共同开展的数据素养项目(Data Literacy Project)。
● 《数据新闻手册2》(The Data Journalism Handbook 2)。
● 2015年的《数据素养教育的战略和最佳实践:知识综合报告》(“Strategies and Best Practices for Data Literacy Education: Knowledge Synthesis Report”)。
● 2013年哈维尔·卡尔萨达·普拉多(Javier Calzada Prado)和米格尔·安赫尔·马扎尔(Miguel Ángel Marzal)发表的文章《将数据素养纳入信息素养计划:核心能力和内容》(“Incorporating Data Literacy into Information Literacy Programs: Core Competencies and Contents”)。
彼得·艾肯:
谨以本书献给我的父亲。他为我提供了基本的工程和架构概念,这是我完成所有工作所必需的。我很想你,爸爸!(Benjamin Haynes Aiken,1932—2020)
托德·哈伯:
我要感谢我的妻子,罗克珊(Roxanne)。她对本书的贡献远远超出了这本书本身,而是融入了我的生活之中。她是我的支持,是我的核心,也是我的灵魂。她是我追求完美的动力。
数据小知识 #1
任何移动电话、短信、自拍、电子邮件、文件交换或社交媒体上的点赞(小到1个字节)都是数据请求,你的回复(或没有回复)也都将被记录为数据。
我们相信,所有在当今互联网普及的世界中工作的人都希望拥有足够的数据素养,但在这方面几乎没有可参考的资源。学习和掌握本书的内容,可能是提升你个人和组织的数据素养的关键一步。
本书的目标读者有三类,彼此之间还会有些重叠:
● 个人阅读,学习如何更好地管理自己的数据;
● 个人阅读,了解应该为组织做些什么来提高组织的数据素养;
● 数据专家,了解他们能做些什么来推进专业研究和社会发展。
我们必须采取更多措施来缩小“数据文盲”和人们所需的数据素养之间日益扩大的差距。我们需要提高人们的数据素养,无论是在科学、经济、司法、社会、调查研究还是在其他任何领域。
缺乏数据素养是对人们的直接威胁。不理解数据和缺乏数据意识是许多人和组织未能取得成功的根本原因,数据素养是还不为大多数人所知的取得成功的一项必需技能。那些“数据文盲”仍然是“永久的无意识的数据捐赠者”(Perpetual Involuntary Data Donors,PIDD)。PIDD不知道,他们是日益强大的利益的产物,这些利益专注于将物品、服务、思想、自然、私人数据和人转化为商品或者贸易对象——这都是为了获得利润,而且在很大程度上没有足够的规范或监管。
这些都是被有心人设计好的,就像肖莎娜·祖博夫(Shoshanna Zuboff)的《监视资本主义时代:在权力的新前沿为人类的未来而奋斗》(The Age of Surveillance Capitalism: The Fight for a Human Future at the New Frontier of Power)一书中写的一样。“监视资本主义”指的是一类从PIDD身上收集数据来增长自身业务的组织。随着人们逐渐意识到这类组织的目的是销售更多更有效的广告,人们对其的愤怒应该会持续增强。最后,我们不应忘记,广告的目标是影响人们的行为,甚至是控制人们的行为。这些控制PIDD的方法已经使用了至少十年,导致了大量不良行为,包括发布有针对性的虚假信息,并最终影响人们的重要决策。
监视资本主义的商业模式需要PIDD一直是受害者并放弃自己的数据,这样这些PIDD就可以成为广告营销的目标,以及成为更糟糕的通过数据来控制的目标。这些数据收集行为和收集者结合在一起,是“一种分布式的、很大程度上没有争议的新权力的表现,它们构成提取信息、商品化和控制大众的隐藏机制,威胁大众的个人隐私等核心利益”。
监视资本主义的目标是控制人口细分群体,这是通过指导客户的数据输入以产生期望的输出来实现的。这种商业模式限制PIDD的选择,向他们提供虚假信息、垃圾新闻和错误的产品信息来误导他们,使得他们被迫放弃自主选择权。
消灭“数据文盲”的必要性很强且在日益增长——消灭“数据文盲”不仅是为了数据专家,也是为了所有公民。本书将提供一个客观的方法来提高个人数据素养和组织数据素养。如果有足够多的个人和组织提高了数据素养,所有人都将受益。
本书分为3部分。第一部分概述为什么要更深入地了解数据。第一部分首先介绍关于数据素养的基础知识,这些知识目前在教科书或培训中几乎没有涉及。我们希望青少年和成年人可以利用这些知识来避免成为PIDD,避免在不知情的情况下成为监视资本主义的傀儡。当公民具有更高的数据素养时,现代生活中的摩擦就会更少。本部分还阐述了在当下这一前所未有的数据增长时期,同时增加各维度的数据,但是不提高数据素养所带来的挑战。我们认为,目前的数据教育方法是无效的,对人们造成的破坏性后果越来越大。接下来,本部分提供一个小型业务场景来说明如何提高组织和个人的数据素养,并重点关注知识工作者的具体特征。
第二部分提供在21世纪数字经济中保护自己和私人信息的工具。这种结构化地提高数据素养的方法是以数字公民框架(Digital Civics Framework,DCF)的形式呈现的。DCF说明了数据素养的规模和范围,并整理了必要的数据知识领域(Citizen Data Knowledge Area,CDKA)。DCF为五类数据参与者分别提供了他们各自的数据特征、能力、共性和CDKA。本部分描述了30个CDKA的数据素养需求,以及它们应如何协同工作以实现有意义的结果。本部分还为个人和组织提供了如何掌握这些CDKA的建议,从而提高他们的生产力,并使他们能够向他人传授这些原则。
第三部分以DCF为基础,更深入、具体地阐述组织如何通过程序化方法来提高其数据素养。本部分首先介绍一个提升组织数据素养的“十二步法”,以及由此产生的组织中的数据管理程序。接着,本部分介绍数据指南(第2版),详细说明在组织层面开展数据管理所需的具体、客观的标准。最后,我们特别展示了个人和组织在提高数据素养的过程中会面临的挑战,以及战胜这些挑战将能够如何推动社会进步,以激励人们走向一个拥有高数据素养的社会。
由于持续的数字化运动,人们需要详细了解他们基于DCF的权利和责任。如果大众的数据素养水平停滞不前,无道德的组织将继续吸收数十亿毫无防备的公民在不知不觉中“捐赠”的数据,而这些公民却不知道,提供个人数据使他们更容易受到数据的控制和影响。
我们应该认识到数据的重要性!否则社会将继续受到损害。我们仍然保持乐观,并不断思考各种方法来提高人们的数据素养,以便更好地处理危机,培养更有数据意识的未来一代。我们也意识到乔治·博克斯(George Box)这句著名格言的准确性:
所有的模型都不能保证完全正确,但其中一些是有用的!
我们希望DCF和进一步细化的数据素养是有用的!
彼得·艾肯和托德·哈伯
2021年秋
彼得·艾肯(Peter Aiken)是公认的数据管理(Data Management)权威。作为一名执业数据经理、顾问、作家和研究员,他三十多年来一直积极从事和研究数据管理。他的专业知识受到了世界上一些重要组织的青睐,他的成就也得到了国际认可。他曾在27个国家和地区的150多个组织担任过领导职务,这些组织涉及众多行业,包括银行、医疗、保健、电信和制造。他是Data Blueprint的创始董事,该公司是一家咨询公司,帮助组织利用数据获得竞争优势和运营效率。他还是弗吉尼亚联邦大学副教授、国际数据管理协会(Data Management International)主席,以及麻省理工学院国际首席数据官协会(MIT International Society of Chief Data Officers)副主任。
托德·哈伯(Todd Harbour)是美国纽约州的首席数据官(Chief Data Officer,CDO),负责协调数据管理制度的设计和实施。他的工作包括制定数据治理的战略、框架和路线图,定义统一的信息架构,掌握数据,协调数据共享,以及开展全州范围的数据分析实践。在此之前,他在美国华盛顿哥伦比亚特区大都会区担任联邦政府高级官员,领导了数据战略、业务框架和数据管理平台的建立工作。他曾担任一家软件和系统工程公司FGM Inc.的高级副总裁,管理500余名员工。在他的领导下,该企业的市场估值超过了1.75亿美元。
本书由上海市静安区国际数据管理协会(DAMA China)组织翻译,参与翻译的人员包括(排名不分先后):于冰冰、王磊、刘贤荣、孙斌、孙晓鸥、李小青、何涵、汪科科、汪广盛、陈裕源、苟晓锋、康凯、赵瑞、高平、袁健、崔佳、崔鹏、黄金和、韩学智、欧阳秀平。
本书提供如下资源:
● 本书思维导图;
● 异步社区7天VIP会员。
要获得以上资源,您可以扫描下方二维码,根据指引领取。
作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。
当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,单击“发表勘误”,输入勘误信息,然后单击“提交勘误”按钮即可(见下页图)。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。
我们的联系邮箱是contact@epubit.com.cn。
如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。
如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。
如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。
如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。
“异步社区”(www.epubit.com)是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者的在线交流互动,以及传统出版与数字出版的融合发展。
“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域30余年的发展与积淀。异步图书面向IT行业以及各行业使用IT的用户。
和数据打交道是危险的!
提高组织数据素养的关键是加强数据教育和提高人们的数据素养。经验表明,大多数人低估了数据的复杂性和从数据中获取有效价值所需的工作量。许多人认为数据非常复杂,而不这么认为的人则更多是尚未意识到这一事实。许多组织的失败是因为他们没有在整个组织中发挥约束的作用或应用足够的资源。我们相信,同样的原则也适用于社会。除非我们认真对待数据,为数据素养工作提供资金,否则社会也可能出现问题。这不只是政府的问题,所有公民都应该主动提高自己的数据素养,至少要明白成为一个PIDD是不可取的。(好消息是,正如我们将在第5章中详细介绍的,大多数人都愿意提高数据素养。)仍然保持“数据文盲”身份的公民将无法控制他们的数据和隐私,只有通过提高数据素养,他们才能学会如何控制和保护他们的数据和隐私。
第一部分回答了一个问题——为什么要更深入地了解数据?本部分提供数据基础、数据增长和数据教育的相关知识,以帮助读者重视数据,并了解不认真对待数据的后果。我们鼓励读者将数据视为一种资产和一种规划性的投资。我们还鼓励读者在为数据决策时深思熟虑,并且数据应该成为日常思维的一部分。我们要认识到,社会越来越依赖数据,尽管人们经常低估它对金融系统、电网、新闻和信息服务的驱动作用。正如理查德·斯坦格尔在本书的推荐序中所说的那样,数据是在数字经济各个方面所使用的信息单元。
● 第1章列出了一个框架,帮助读者理解数据是一种必须被使用和保护的资产——就像我们做的其他任何有价值的事情一样。
● 第2章将数据描述为现代生活和社会的基础。
● 第3章描述了数据可用性和使用量的大量增加,以及新的社会能力和新的公民能力。
● 第4章提供证据表明,目前对待数据的方法并没有削减数据债务,而是让各个方面的社会数据债务都在增加。
● 第5章为提高知识工作者的生产力提供一个起点。
除了从事数据相关工作的人之外,一般人对数据的概念和知识了解得较少。
本章提供了我们认为所有成年人都需要在社会中运用到的数据的基本的、非技术性的知识。我们认为,数据必须被视为一项个人资产,不应该让大众沦落到只有通过斗争才能保护他们的数据。
任何成年人都需要了解的关于数据的第一件事是,数据是一种资产。大多数人都可以列出常见的公司资产,比如不动产、金融投资、库存、知识和技能,甚至是声誉和商誉。然而,很少有人会将数据视为他们自己或公司的资产。本节旨在纠正这一基本性的误解。
当一个数字和一个语境相结合时,数据才获得了有用的意义。例如,数字42到底是什么意思?在过去的30多年中,当我们与来自世界各地的团体谈论数据时,总有人会记得在《银河系漫游指南》(The Hitchhikers Guide to the Galaxy)一书里,数字42代表了“生命、宇宙和一切的意义”。不可避免的是,没有读过这本书的人对此很困惑。42和什么有关系呢?是杰基·罗宾逊(Jackie Robinson)的球衣号码吗?(确实如此。)这就是同样的数字和不同的语境相结合从而被赋予了不同的意义。
在浅显的层面上,数据是数字和定义的组合。在将42与“生命的意义”关联起来之后,我们就有了理解数据的语境和能力。然而,大多数人并没有机会研究生活中的数据。
数据是复杂而详细的,但它也很简单。毕竟,数据用二进制表示所有的事物:真或假。那么,为什么数据令人困惑,为什么人们很难谈论它呢?这种困惑是一个常见的问题。缺乏数据知识和经验加剧了人们之间的沟通误解。通常,数据所涉及的群体是数据相关人士和非数据相关人士。也就是说,有些人理解数据的概念,而另一些人则不理解。我们认识到,弥合不同群体之间的差距是本书的重要挑战之一。
对大多数人来说,数据可能会令人很困惑,因为它很复杂、很详细,而且不同人的理解不一致。知道如何阅读和解释数据需要原则、实践和教育。
即使是那些经常使用数据的人也只知道其中的一部分。例如,数据科学家们会经常探索有用的数据维护工具,以及何时使用何种工具作为他们的教学内容,而不是学习所有类型的工具。对许多人来说,数据就像是盲人摸象的故事一样,如图1-1所示。
图1-1 盲人摸象
故事中,摸到大象鼻子的人以为他摸到了一条蛇,摸到大象躯干的人以为他摸到了一堵墙,而碰到大象腿的人则以为他摸到了一棵树。没有他们的综合观察数据,每个人都认为自己有不同的感觉。
就像大象由它身体的各个部分组成一样,数据专业也由它的各个分支组成,如图1-2所示。在数据世界中,不同的人根据不同的专业进行工作。有些人专注于收集数据,而另一些人专注于分析数据,还有些人这两者都不做。
这些工作不交叉,甚至不合作。每个人都在自己的维度里工作,只是偶尔会进行交流,例如:
● 有些人收集数据,并认为数据专业的工作是一组业务流程和金融交易;
● 有些人保护数据,并认为数据专业的工作是一套应用于数据资产的保障控制措施;
● 有些人存储数据,并认为数据专业的工作是对数据增长的一种计算。
图1-2 数据专业的分支
在深入研究数据的概念之前,让我们做一些快速的练习,思考一下自己生活中的数据和信息。拿出一张空白的纸,在你完成以下3项活动之前,不要进一步阅读。
(1)列出你的个人信息的类型,例如保险单和照片。
(2)列出其他人掌握的关于你或你的家人的数据。
(3)列出如果你的数据被其他人控制或访问时可能发生的坏事。
在准备好后,将你的列表与下面的列表进行比较。
(1)个人信息类型:
● 保险单 ● 行程地图
● 房屋契约 ● 图书
● 银行账单 ● 学校作业
● 信用卡账单 ● 厨房日历
● 照片 ● 住址名册
● 个人视频 ● 文凭和证书
(2)其他人掌握的关于你和你的家人的数据:
● 保险金 ● 演出和俱乐部记录
● 会员卡积分 ● 大学记录
● 信用卡交易记录 ● 医疗文件
● 银行交易记录 ● 慈善捐款
● 学校记录 ● 俱乐部会员资格
● 时间表 ● 房屋注册信息
● 抵押贷款记录 ● 公司工资
● 纳税记录 ● 信用评级
● 酒店记录
(3)可能会发生的坏事:
● 身份被盗窃
● 子女的学校详情被披露
● 声誉受损
● 收到不合适的行为建议
● 敏感医疗信息泄露
● 抵押声明文件丢失或出现错误
● 房屋贷款错误地显示拖欠
● 信用评级出现错误导致贷款请求失败
● 会员卡积分被错误地重置为零
● 保险金计算错误
上面列举的(1)和(2)中的内容是你的一些数据资产(Data Assets)。资产是由组织控制的资源类别,并且组织预计未来将从中获得收益。数据资产是指某些组织希望从其中获得收益的数据集。因为大众疏于考虑和保护数据资产,数百万人遭受数据泄露的影响,社会也因为使用了那些不以实际需求为服务目的的昂贵技术而发展迟缓。人们需要了解他们的数据:数据所处的位置(包括物理数据和电子数据),谁可以访问这些数据,数据的准确性,以及数据在当今的数字世界中对他们意味着什么。
个人计算机的出现正在逐渐提高人们对数据作为一种资产的认识。一个早期的例子是互联网浏览器的电子书签的功能。在谷歌浏览器出现之前,当一个人发现一个有用的网站时,他可以将该网站添加到电子书签中,以便在未来快速访问。在互联网搜索功能出现之前,书签是一个人们知道、理解和信任的网站列表。个人、组织和技术都使用不同的格式存储书签。因此,迁移和交换书签成为了一项挑战。早期的计算机用户非常重视管理他们的书签。然而,随着人们将更多的书签迁移到云中,将数据从一台计算机迁移到另一台计算机的烦琐而耗时的工作就会减少。将书签迁移到云中也代表了一个初始的白名单解决方案,即允许由信誉良好的人审查书签。虽然现在更好的设备数据迁移和搜索技术已经将书签问题降级为历史问题,但这种管理数据复杂性的方法是自动化的,并且已经被合并到设备升级过程中。
选择加入白名单的反面是选择移出白名单或者进入黑名单。今天,许多浏览器都带有黑名单,当用户试图访问黑名单中的网址时,系统会以警告和免责声明来通知用户。了解如何以及何时同时应用黑名单和白名单是提高数据素养和有效管理数据复杂性的关键。例如,我们将在第7章中介绍“仅联系人模式”(Contacts-Only Mode),这种模式对移动数据传播者有帮助,它是一种只限白名单联系人(whitelisted-contacts-only)的方法,以便帮助新用户进入互联网。
与任何个人或组织资产一样,数据必须被战略性地使用。如前所述,数据的基本形式只是事实和数字的组合。但是要实现数据的价值,人们必须将数据组织成一种模型——使数据具有精致、详细和复杂的设计。
但在很多情况下,由缺乏能力或不合格的设计师设计的数据模型存在难以发现的、不可逆转的和永久的缺陷,以及效率低下的问题。这些问题隐藏在整个模型开发过程中,但不可避免地会在最终浮出水面。如果专家们没有及早发现这些问题,这些问题就会进入生产系统。到那时,要修复这些问题往往已经太晚或者要支付高昂的费用。有些无畏的组织试图进行维修,然而,他们通常无法收回维修的成本。有些人还试图在生产环境中使用有缺陷的数据系统,他们肯定会由于系统中存在太多缺陷而遭受不必要的麻烦。这些系统缺陷造成的开销会快速累积,我们称之为数据债务(Data Debt)。
与其他商业资产不同,数据资产具有独特性,适用于其他资产的一些物理定律不适用于数据资产。理解这一点可以帮助组织拥有高质量的数据,也可以提高组织决策的可靠性。大多数组织都有不一致的,甚至相互冲突的数据集、定义和应用——换句话说,有太多的数据债务。
对数据的治理我们应该少用“数据物理定律”,而是应该通过各种技术,将潜在的数据组合限制在如下三种关系中:
● 一对一
● 一对多
● 多对多
这三种关系为数据问题的解决方案提供了与软件、网络、安全等更多领域的解决方案完全不同的确定性。因此,数据相关的职业吸引了那些喜欢在相对有确定性的世界里工作的问题解决者。理解数据的特征对于理解数据对系统设计的重要性是至关重要的。以下是数据的一些特征。
● 独特的:它将在一段时间内保持其独有的形式和价值。
● 不会消耗的:可以永久访问,不会被用尽。
● 不会贬值的:和组织的其他资产相比,值得组织进一步投资。
● 具有战略意义的:具有几乎无限的用途。
● 无形的:没有实践很难想象,同时存储和传输成本还低。
● 非排他性的:同样的数据可能被误用和误解。
● 再生的:可以免费复制。
● 难以控制的:一旦泄露,几乎不可能被清理干净。
● 环保的:数据中心正在走向绿色化。
如果在互联网上搜索“数据是新石油”,你会发现超过500万份参考资料。与石油一样,数据可以被开采和精炼以提供价值。一些人扩展了这一比喻,并指出,就像石油改变了经济以及公民的生活和工作方式一样,数据也正在推动类似的变化。
虽然这些有变革性的特性很吸引人,但这绝对是看待数据资产的错误方式。例如,石油是消耗品。当石油用完时,就必须补充供应。这个过程一直持续到不再需要石油或者拥有足够多的石油为止。石油没有任何再利用的概念。它是有限的,可预测的,当它消失时,也就没有了。
然而,对于数据,这个过程几乎是相反的!在支付了收集费用之后,使用数据的相对成本会随着后续每次使用而减少。使用数据的人越多,其价值就越高。因此,我们鼓励组织重用数据并获得价值增值。增加数据的使用量显然不会破坏或损害数据。数据会保持其原始状态,除非有人故意更改数据。因此,数据是持久的,能够随着时间的推移催生一系列商品和服务。组织应该将数据视为一笔投资,而不是一笔消费。此外,油价会随着市场力量的影响而波动。而数据资产可以对市场力量做出响应,也可以通过好好管理数据和谨慎地优化数据的范围、粒度、时间框架、组合等而使其变得更有价值。
数据是强大的但未得到充分利用也没有被好好管理的组织投资。当将数据与其他组织资产进行比较时,人们很快就会发现数据是独特的。常见的情况是,使数据具有独特性的特征也保证了对数据进行利用的战略方法。
为了更好地解释数据这个概念,我们可以将其比作“土壤”(soil)。准备好一块高质量的土壤,你会发现可以在里面种植庄稼并持续丰收。我们也可以用时间来作一个更好的类比——如果春天不播撒种子,怎么能期望在秋天收获成熟的果实呢?数据和土壤一样,都需要准备,需要开发者的坚持和耐心。适合种植庄稼的物理区域是有一定限制的,这也告诉我们在处理数据时应该有同样的一些考量,特别是在规划数据重用时。
在历史的长河中,社交媒体是一个至关重要的新事物,但是它的成熟度却极低。我们可以在通信的历史背景下总结社交媒体,如表1-1所示。
表1-1 通信历史表
年份 |
发明 |
影响 |
---|---|---|
500~1500 |
飞鸽传书 |
使用信鸽发送信息 |
1792 |
电报 |
电报在准确性和速度上都击败了鸽子 |
1836 |
摩斯编码 |
改进电报系统 |
1836 |
气动导管邮件 |
改进点对点的工作流程。邮局内通过气动导管来分拣和传送邮件 |
1875 |
电话 |
逐步改善个人与个人之间的关系 |
1891 |
无线电 |
改进广播通信 |
1969 |
计算机服务 |
改进计算机与计算机之间的通信 |
1971 |
第一封电子邮件 |
通常认为是雷·汤姆林森(Ray Tomlinson)通过网络发送了第一封电子邮件 |
1978 |
第一个BBS |
公告板系统(Bulletin Board System,BBS)允许用户群体见面和聊天 |
1989 |
WWW |
万维网(World Wide Web)诞生 |
1994 |
第一个博客 |
由一位在美国斯沃斯莫尔(Swarthmore)大学读书的学生首次发表 |
1997 |
“3度分离”理论 |
“3度分离”是指任意两个人之间可以通过3个人连接起来——从“6度分离”理论的6人减少至3人 |
虽然许多人不认为数据是一种资产,但社交媒体认为数据是一种资产。社交媒体公司用于获利的数据并不是他们自己的数据,而是用户把个人数据给了他们,他们才拥有了能获利的数据。
在现代资本主义社会中,技术在过去、现在和将来总是经济目标的一种表现形式。
有句话说:“如果你不为一个产品付费,那么你就是在以其他方式为这个产品提供价值。”换句话说,企业通过使用你在其提供的产品或服务中留下的数据获利。这就是你成为一个PIDD的方式。不了解这一情况的人允许大型科技公司继续利用他们的数据,而美国的司法系统已经允许这种情况存在。美国地方法官保罗·格雷瓦尔(Paul Grewal)驳回了一项诉讼,因为他认为用户选择免费服务就是默认同意服务提供方挖掘用户数据并用其获利。格雷瓦尔法官在判决中指出:
到目前为止,大多数人都知道谷歌是谁,谷歌在做什么。谷歌为美国和世界各地的数十亿在线用户提供服务……由于来自用户的收入很少,谷歌可以通过在产品中销售广告来营利,这些广告很大程度上依赖于用户的个人身份信息……在这个模式中,用户是真正的产品。
我们知道这些大型科技公司的名字,并每天都听到它们的消息。它们分别是Facebook、苹果(Apple)、亚马逊(Amazon)、奈飞(Netflix)和谷歌(Google),其首字母缩写为“FAANG”。FAANG是一个可怕的名字,也是一个可怕的概念。在并不久远的过去,这些公司提供的商品和服务与他们今天提供的大不相同。表1-2展示了Facebook多年来是如何描述自己的。
表1-2 Facebook的自我描述
年份 |
描述 |
---|---|
2004 |
Facebook是一个通过大学的社交网络连接人们的在线通讯录 |
2005 |
Facebook是一个通过学校的社交网络连接人们的在线通讯录 |
2006 |
Facebook是一个社交工具,它将你和你周围的人联系起来。Facebook是由许多独立的网络小组组成的,比如学校、公司和地区 |
2007 |
Facebook是一个社交工具,它将你和你周围的人联系起来。你可以在Facebook中上传照片或者发布笔记,从你的朋友那里获得最新的新闻,在你的个人主页上发布视频,标记你的朋友,使用隐私设置来控制谁能看到你的信息,加入网络小组来了解其他人的生活、学习或工作 |
2008 |
Facebook是一个社交工具,它将你和你周围的人联系起来。你可以使用Facebook了解朋友和家人,分享照片和视频,控制在线隐私,与老同学重新联系 |
2008 |
Facebook会帮助你与你生活中的人建立联系和分享生活 |
2009 |
Facebook赋予了人们分享生活和让世界更加开放、互联的权利 |
2013 |
Facebook的使命是赋予人们分享生活和让世界更加开放、互联的权利 |
2017 |
Facebook的使命是赋予人们建立网络社区和让世界变得更紧密的权利 |
2017 |
Facebook的使命是赋予人们分享生活和让世界更加开放、互联的权利 |
2019 |
Facebook的使命是帮助你与朋友和家人保持联系,发现这个世界上发生了什么,并分享和表达那些对你来说很重要的东西 |
2020 |
Facebook的使命是赋予人们分享生活和让世界更加开放、互联的权利 |
Facebook起初是一个大学时代的项目,但它很快发展成为世界上最强大的科技公司之一。一开始,Facebook像许多基于互联网的新产品一样运行——睁大眼睛,渴望探索互联网的力量,吹捧社交连接和分享。但是在2004年,就有早期迹象表明Facebook会变成什么。在接下来的几年里,Facebook扩大了用户群,成为世界上增长最快的、最富有的公司之一。Facebook创始人兼首席执行官马克·扎克伯格(Mark Zuckerberg)曾说:“4000个‘傻瓜’愿意放弃个人信息,加入他开发的令人兴奋的新网络。”
要充分理解社交媒体的动机,必须从理解社交媒体的基础知识开始。什么是社交媒体?韦氏词典(Merriam Webster)将社交媒体定义为电子交流形式,如社交网络和微博客网站。用户创建在线社区,以分享信息、想法、个人数据、视频等内容。
理解社交媒体的关键是要认识到社交媒体公司的别有用心——他们是营利性企业。想想看,在2017年,苹果公司、Facebook、谷歌、维瑞森(Verisign)和VISA的每名员工平均为公司创造了超过100万美元的收入!可见,组织通过影响和塑造他人行为来获利,这是个巨大的商机。
社交媒体公司是如何让我们给他们提供这么多的数据的呢?答案是,通过从有价值的服务到点击诱饵和许多其他形式的技巧。如果你在社交媒体上花过一点时间,你就会熟悉这些“点击诱饵”(clickbait)——文章图片和标题中都有诱人的提示。杰弗里·海特(Jeffrey Haidt)对这一点以及社交媒体对人们造成的一些身体、心理和社会影响进行了很好的研究。点击这些文章是为了让用户产生一种叫作多巴胺的神经递质。多巴胺与快乐无关,它是对快乐的一种期待;它是对幸福的追求,而不是幸福本身。
同样的原则也适用于为什么我们把这么多东西交给了社交媒体。例如,我们发布一张自拍来预测“赞”(likes)和“跟随”(follows)的数量。或者,我们持续在自己的主页信息流中无限地滑动浏览,远远超过了无聊的程度,期望通过拇指的滑动能得到快乐。
社交媒体公司的收入来自广告商。Facebook和谷歌从广告中获得了他们收入的很大一部分。因此,社交媒体公司有动力创造尽可能多的方式来“吸引”人们,并让他们留在自己的平台上。
想想看,社交媒体公司鼓励在线对话并从参与者那里获取数据。“鼓励”可能是用词不当——社交媒体公司设计他们的网站来制造和促进人们的参与,以获得参与者交出的大量的信息。这些公司是有目的地使人“上瘾”,旨在激励用户生成数据。
其他从社交媒体中获益的人还包括那些有影响力的人和雇用他们的公司。2018年,使用关键意见领袖(Key Opinion Leader,KOL)等有影响力的人进行营销的公司获得了520%的投资回报。Instagram的活跃用户达到了10亿,许多年轻人的购买都依赖于KOL的建议。这些有影响力的人的粉丝通常不到10万,但大部分帖子仍然出自他们之手。有影响力的人和社交媒体是营销推广的新尝试,可能成为监管和审查的盲点。我们将看到人们越来越关注这些更有效地使用社交媒体的有影响力的人士。
在线广告的关键在于用户数据的收集。组织可以通过“用户数据”了解用户的一切。该行业通常将用户数据分为三大类:显式数据和声明数据,隐式数据和推断数据,以及第三方数据(即从数据代理公司获得的数据)。
显式数据(又称为声明数据)是用户自愿提供给服务商的任何数据。用户数据是人们在注册服务时提供的信息,可以把它看作是用户的个人资料信息。在线服务商会询问这些信息,比如你的名字、年龄、地点、性别、喜欢和不喜欢的内容。服务商要求用户不考虑后果地放弃这类数据。
隐式数据是服务商在不需要用户直接输入的情况下收集的数据,例如浏览历史记录。在线服务商想知道你在一个网页上停留了多久,你点击了什么广告,你如何移动鼠标,以及你的播放列表中有哪些歌曲。一般情况下,服务商会收集你在网上所做的一切,并出于不同的目的进行分析。这是谷歌分析产品的基础。一些网站利用它来最大化收入,另一些网站则用它来完善人们的参与体验。
推断数据是基于显式数据和隐式数据的组合进行推断而得到的数据。通过复杂的算法对用户进行分类,并确定是否应该向某用户展示服装广告或者旅行广告。一旦组织处理了用户信息,他们就会准备好转售这些信息。第三方经纪人将数据出售给其他组织,这些组织会将这些信息用于增强他们自己的数据,并将其用于潜在的新客户。
面对新的和看似不同的内容,社交媒体可以消耗用户无数的时间。我们必须明白,除了一些非营利组织外,社交媒体公司的存在就是为了找到从用户那里提取数据的新方法。要想正确地看待这个问题,需要了解社交媒体公司的盈利来自:(1)用户可能注意到的社交媒体上的内容;(2)用户点击社交媒体上的一个单词或图像并跳转到目标网页。这种简单的数据价值实现的方式被定义为参与。用户参与了,钱就来了,这也为未来的投资提供了一个初步的基础。
为了对在线信息做出负责任的决定,用户必须了解在网上发布信息可能产生的后果。为了有资格申请加入一些执法部门工作,人们必须将他们社交媒体账户的密码交给相关部门。把你的密码给官方,可以让他们阅读你过去所撰写和发布的内容,并深挖你所有的对话。这些机构有正当的理由要求你提供密码,并在非常隐私的层面上来了解你的所有情况。
一些人会保护他们的数据,但另一些人则不知道社交媒体公司会积极获取他们的数据。大多数人在不知情的情况下为数据矩阵(Data Matrix)(更多内容参见第2.3.3小节)提供数据。在进入互联网之前,人们必须了解以下因素:
● 管理成本 ● 分析成功的成本
● 时间承诺 ● 搞砸的代价
● 流失客户 ● 社交媒体管理平台
● 长期承诺 ● 与网络分析相结合
● 外部支持 ● 社交媒体失误的补救措施
● 正确归因 ● 数字骚扰
● 执行审查 ● 机会成本
● 数字跟踪
大多数人都意识到,今天的人更有可能体验社交网络,而不是学习数据素养。因此,我们提倡那些负责任的成年人通过定期的数据讨论来保持交流渠道的开放(更多内容请参见第6章)。
说到数据需求和“数据文盲”之间的交集问题,物联网(Internet of Things,IoT)是一个更可怕的领域。图1-3是对物联网的描述。
图1-3 物联网
物联网这个术语描述了任何连接到互联网的设备。物联网设备是独特的,和我们通常理解的计算机不同,这些设备是用以测量一些微小而独特的信息的小型计算机。例如,物联网设备可以测量电力设备移动的速度或消耗的功率,以及其他有用或有利可图的信息。普通计算机和物联网设备之间的另一个区别在于,用户并不直接操作物联网设备,而是由其他的电子设备(如智能手机、平板电脑和笔记本计算机)控制这些物联网设备。下面列出了一些标准的物联网设备。
● 数字控制系统 ● 监控摄像头/婴儿监视器
● 烤面包机 ● 集装箱和物流跟踪系统
● 人工耳蜗 ● 智能手机和扬声器
● 互联设备 ● 无线库存跟踪器
● 冰箱 ● 交通万物连接(V2X)
● 土壤监测系统 ● 紧急通知系统
● 建筑能源系统 ● 超高速无线网络
● 可穿戴技术 ● 生物识别网络安全扫描仪
● 智能工厂设备 ● 智能家居和安全系统
● 自动的农业设备
物联网的一个更令人不安的方面是,大多数人都没有认识到物联网存在问题。软件开发人员已经证明,物联网设备在安全方面非常糟糕,以至于物联网的整个产品线都被列入了美国政府的监管名单。物联网设备通常被安装在有人的区域,以便抓取各种数据。当某个组织在全球范围内部署数十亿个物联网设备时,其中的传感器就创建了一个网格,使该组织能够监视和控制几乎任何可以想象到的东西。农民们可以在田间管理巨大的联合收割机,父母可以在孩子睡觉时监控他们,房主也可以在他们外出度假时控制家里的温度。随着时间的推移,发明家将使用这些和更高级版本的传感器来实现更有创造性和有益社会的能力。然而,无论这些设备对社会多有用,都有其缺点。
物联网设备存在缺点的示例之一就是亚马逊公司生产的环形相机(Ring Camera)。环形相机的全方位拍照/摄像服务为客户提供了一些卓越的功能,例如告诉主人是否有人在家门口。该系统还可以录制视频,以便以后观看和分享。重要的是,这些设备会共享它们的数据,所以亚马逊公司收集了大量关于你、你的财产和你周围环境的数据。令人不安的是,目前还不清楚这些数据去了哪里,以及谁可以访问它们。如果这是一次性数据,大多数人会不予理会。但这些设备会全天候收集数据,数据量非常庞大。环形相机和其他物联网设备收集的关于个人的信息已经达到了一个让人们对个人隐私担忧的水平。
像环形相机这类设备的终端用户许可协议(End User License Agreements,EULA)允许公司及其员工不受限制地随意访问私人数据。通过同意EULA,人们允许亚马逊等公司监视任何签署协议的人。例如,EULA允许亚马逊和执法部门在任何时候查看环形相机收集的视频。毫不奇怪,亚马逊已经开发出了专门的软件,将视频信息“拼接”在一起。
当与来自同一社区的其他环形相机收集的视频结合使用时,执法部门可以对社区活动有一个实时和全景的了解。例如,环形视频片段(Ring Video Footage)可以显示一个小偷从一户走到另一户。从大多数方面来看,这是一种非凡的能力,对帮助执法部门保护社区的安全至关重要。但是,还有其他很多人们不理解或没有注意到的方面。就像为什么通用人脸识别技术失败了?为什么和聊天机器人对话还不令人满意?什么能够帮助人们理解这些能力的优缺点?答案都在于“数据素养”。
大多数人没有意识到他们的数据的价值,也不知道这些数据落入他人之手所造成的伤害。更糟糕的是,今天的“数据专家”并不知道他们在本质上只是从某一个角度在看待数据,而没能从整体的角度来处理数据,也没能理解从数据中获取价值的过程。此外,当组织使用的数据模型设计不当时,数据债务就会增加。对于那些旨在收集用户数据的产品(社交媒体和物联网),服务供应商们通过精致的组合和包装,让PIDD几乎全部沉沦,没有能力和机会去对抗监视资本主义。更糟糕的是,那些服务供应商这样做是为了做广告(说得好听些这是广告,说得难听些其实是对大众的控制)。
本章最后提供两个数据小知识。
数据小知识 # 2
数据比人们所理解的要复杂得多。大多数人仅从一个角度接触数据,而没有发现其他角度。这将导致不正确的看法、误解、失误,更重要的是资源分配不当。正如我们的同事Lewis经常说的那样:“你无法有效地涉猎数据!”
数据小知识 # 3
数据是一项宝贵的资产!我们需要认识到我们拥有什么,以及能用它做什么。