数据分析思维通识课带你看透数据真相

978-7-115-65511-0
作者: 郭炜周瑶
译者:
编辑: 佘洁
分类: 其他

图书目录:

详情

数据分析的智慧其实就潜藏在我们的日常生活与职业生涯中,它无处不在。设想当你 审视报告中的数字时,是否洞悉了那些数字背后隐藏的故事?它们的增长或减少,又向我们透露了怎样的信息?购房选址的策略,购车时机的选择,这些看似寻常的决策,实则都能在数据的指引下变得更为明智。本书巧妙地从纠正基本的数据认知误区启程,逐步深入至统计学的奥秘、人工智能的前沿,并巧妙融合数据叙事与思维工具的运用,旨在将抽象的数据理论转化为生活中触手可及、工作中行之有效的智慧宝典,让“冷冰冰”的数据知识跃然成为解决实际问题的“金钥匙”。 本书面向的读者群广泛,它适合具有数据分析需求的技术高管、首席数据官、数据分析师、产品经理,以及软件研发人员和运营人员阅读,同时也适合作为高等院校相关课程 的参考书,可为学生提供一扇深入了解数据分析世界的窗,助力他们在未来的职业道路上稳健前行。

图书摘要

版权信息

书名:数据分析思维通识课:带你看透数据真相

ISBN:978-7-115-65511-0

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


版  权

著    郭 炜 周 瑶

责任编辑 佘 洁

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

数据分析的智慧其实就潜藏在我们的日常生活与职业生涯中,它无处不在。设想当你审视报告中的数字时,是否洞悉了那些数字背后隐藏的故事?它们的增长或减少,又向我们透露了怎样的信息?购房选址的策略,购车时机的选择,这些看似寻常的决策,实则都能在数据的指引下变得更为明智。本书巧妙地从纠正基本的数据认知误区启程,逐步深入至统计学的奥秘、人工智能的前沿,并巧妙融合数据叙事与思维工具的运用,旨在将抽象的数据理论转化为生活中触手可及、工作中行之有效的智慧宝典,让“冷冰冰”的数据知识跃然成为解决实际问题的“金钥匙”。

本书面向的读者群广泛,它适合具有数据分析需求的技术高管、首席数据官、数据分析师、产品经理,以及软件研发人员和运营人员阅读,同时也适合作为高等院校相关课程的参考书,可为学生提供一扇深入了解数据分析世界的窗,助力他们在未来的职业道路上稳健前行。

前  言

为什么写这本书

在数学的浩瀚海洋中,我们从基础算术游弋至高深的高等数学,但你是否想过,在日常生活和工作中我们又究竟用到这些知识中的多少?又有多少人真正掌握了数据分析的思维方式呢?

让我们先思考几个问题。

抛硬币连续10次正面朝上,下一次反面朝上的概率会更高吗?

计算机行业就业前景好,平均薪资高,是否就应该选择从事计算机行业?

大模型目前备受关注,投身其中创业是否就有较高的成功率?

某城市平均房价从5万元/m2跌到4.2万元/m2,随后升至4.5万元/m2,这意味着房价上涨,应该出手买房吗?

某住宅小区均价3万元/m2,而全市平均房价为4.5万元/m2,这是否预示着该小区会有很大的升值空间?

如果你拥有数据分析思维,就会发现这些问题的答案大多是否定的。本书旨在通过深入浅出的方式,将复杂的理论与日常生活中的例子结合,用通俗易懂的语言为你娓娓道来,帮助你在未来的工作和生活中培养数据分析思维,以全新视角审视世界。

在大数据和人工智能时代,数据、工具和算法虽丰富,但真正稀缺的是数据分析的逻辑——数据分析思维。

本书将数据分析的相关知识串联起来,从数据分析基础到大模型,从基本理论到复杂算法,希望以此拓宽你的认知边界,让你知道原来可以利用这些方法来分析问题,从而积极主动地挖掘隐藏在数据背后的真相,发现谬误,避开陷阱,更科学地决策,从而提升自身竞争力。

数据分析思维的实际应用

下面给你讲3个故事,这些故事能帮助你理解数据分析思维在日常工作和生活中的重要性。

故事1:抛硬币

小时候,我和小伙伴们玩一个简单的游戏——抛硬币。我连续抛10次都是正面朝上,所以我开始认为下一次反面朝上的概率会更高,结果连输了5根冰棍。事实上,每一次抛硬币的结果都是独立的,下一次是正面还是反面朝上的概率依旧是各50%。这就是典型的“赌徒谬误”,它告诉我们,不要被表面现象迷惑,要用理性的眼光看待随机事件。

故事2:买贵的小区的房子还是便宜小区的房子

假设你所在城市的房子均价从每平方米5万元跌到4.2万元,后来又升至4.5万元,很多人会认为这是未来房价上涨的信号,应该买房。实际上,均价并不能代表每个区域的房价,在不同的区域,房价的走势可能与整个城市平均房价的走势完全相反,这就是著名的“辛普森悖论”。在1.1节,你就会看到这个有意思的现象。第2章将解决你应该买贵一些的小区的房子,还是买便宜小区的房子的问题。

故事3:计算机行业的选择

很多人决定从事计算机行业,是因为他们听说这个行业的工作前景好、薪资高。确实,计算机相关职位的用人需求较大,但很多职位的薪资分布不是平均分布或正态分布,而是呈典型的“拉普拉斯分布”,只有顶级程序员才拿着非常高的薪资。如何正确选择合适的行业,打造自己的核心竞争力?你在第2章将找到答案。

通过以上3个故事,你可能已经开始理解数据分析思维的重要性了。这种思维方式不仅能帮助你在日常生活和工作中做出更明智的决策,还能给个人的职业发展带来巨大优势。

本书主要内容

1.数据分析基础

澄清常见的数据分析误区,普及基础数据概念,培养基本的数据分析思维,激发你对数据分析的兴趣。

2.数据预测与验证方法

借用日常生活和工作中的一些简单场景,解释高深的数据分析算法,理论结合实际,让你理解其本质。

3.常用数据分析模型与理论

结合实际案例,介绍如何将数据分析思维应用到生活和工作的具体决策中。例如,如何选择正确的行业?如何让用户量快速增长?如何选择投资赛道?从理论到应用,让你真正地做到活学活用。

4.有效地用数据说话

培养读者用数据分析思维影响他人的能力,使每个人都能成为数据分析师。

5.利用AI大模型快速分析数据

在大数据和人工智能时代,学会使用AI大模型进行高效数据分析、快速撰写报告等,“大模型+大数据”能让我们事半功倍。

读者对象

学生:如果你正在学习数据分析,是统计学或相关专业的学生,那么本书将是你课堂知识的补充,可以帮助你更好地理解和应用所学的理论。

职场新人:对于刚刚进入职场的新人,本书将帮助你快速掌握数据分析的基本技能,让你在工作中脱颖而出。

经验丰富的专业人士:即便你已经在行业中工作了很多年,本书仍能为你提供新的视角和方法,帮助你提升数据分析能力,做出更科学的决策,避免职业危机。

创业者和管理者:本书将教你如何通过数据分析发现商机、优化策略,利用数据驱动业务发展。

数据分析师、数据爱好者:无论你是出于兴趣还是职业发展的需要,本书将为你提供一套完整的数据分析思维构建体系,让你的数据分析之路更加顺畅、高效。

致  谢

本书的成功付梓离不开许多人的帮助和支持。

首先,我要感谢我的家人,他们在我写作期间给予我无尽的支持和鼓励。没有他们的理解和包容,本书不可能完成。

其次,我要感谢Apache社区的同人们,特别是DolphinScheduler和SeaTunnel社区的专家朋友。他们提供的宝贵建议和反馈,以及丰富的实际案例和经验,使得本书的内容更加生动和实用。

我还要特别感谢“极客时间”和人民邮电出版社的编辑团队,他们的专业指导和辛勤工作使得本书的整体质量得到了极大的提升。

最后,我要感谢所有读者,是你们的热情和支持激励我完成这本书。我希望本书能帮助你们更好地理解和应用数据分析思维,在未来的工作和生活中取得更大的成功。

让我们一起踏上数据分析思维的探索之旅,共同揭开数据的神秘面纱,探寻隐藏在数字背后的真相和智慧。这将是一段充满惊喜和收获的旅程,我期待与你们分享这一切!

资源与支持

资源获取

本书提供如下资源:

本书思维导图;

异步社区7天VIP会员。

要获得以上资源,您可以扫描右侧二维码,根据指引领取。

提交错误信息

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,单击“发表勘误”,输入错误信息,单击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的错误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。

如果您所在的学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”(www.epubit.com)是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互动,以及传统出版与数字出版的融合发展。

“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域40余年的发展与积淀。异步图书面向IT行业以及各行业使用IT技术的用户。

第0章 数据思维

0.1 数据洞察万物规律

数据无处不在,每个人都会觉得自己多多少少懂一些数据。但细究起来,你能够拍着胸脯说自己真正懂数据吗?

就拿我自己的经历来说,小时候我曾和小伙伴玩抛硬币游戏,我认为硬币有两面,抛20次至少应该有八九次是正面向上的,我就跑去和别人打赌抛20次至少8次向上,最后我输得很惨,请别人吃了好几顿冰棍。同样,在赌博中和别人赌大小,大概率也会输得很惨。这背后其实有深层次的数据逻辑和数学理论支撑,你在接下来的内容中将具体学习这个理论——“大数定律”。

在管理中,我也曾听下属夸耀说,竞争对手的平均客单价只有10万元,而我们的平均客单价有100万元,暗示我们服务的都是高端客户。但是我做了用户访谈后发现,我们还有很多客单价只有3~5万元的单子,而一个1000万元的单子拉高了整体的平均值。

如果我没有做深入的用户调研,可能就会按照100万元的客单价来制定战略规划,进而对公司造成不利影响。

当时我对平均值理解得不够,差点出了差错。同样,如果你不深入了解这些数字背后的逻辑,也可能会做出错误的决策。因此,我在第1章讲平均值时就会告诉你,“被幸福”“被加薪”等现象就是这类错误统计理念所导致的。

另外,现在有很多“数据科学家”会给你提供各种算法预测服务,更有甚者,直接给你绘制一条“增长曲线”,向你展示未来投资回报率会有多高,要求你进行基金投资或者对你所在的部门加大投入,并声称根据“大数据算法”进行这些投入之后,能给你或你的公司带来多少回报。

但是等你真的投入之后,你才发现实际情况远非如此。于是,你会认为“数据预测”都不靠谱。其实这也是片面的,毕竟在人家给你的数据报告中既可能存在“幸存者偏差”,也可能有“因果倒置”问题。所以在接下来的内容中,我希望通过通俗易懂的例子让你充分了解这些基本知识,这样当下次“数据科学家”给你“号脉”时,你就可以辨别他们是“真科学家”还是“伪科学家”了。

所以你看,数据无处不在,你需要很好地认识数据,这样才能让数据更好地指导你的生活。而数据背后的规律究竟是什么呢?答案是算法。

0.2 数据背后的规律是算法

现在的数据分析算法和过去的数据分析算法有所不同,现在有了大数据和小数据之分(如图0-1所示)。有人说大数据结合人工智能才是未来,也有人认为小而传统的逻辑数据才接近真理。那么,谁对呢?

图0-1

我既做过小数据也做过大数据,在我看来,这两种趋势的结论都有其正确性,只是应用场景不同。

在大数据领域,我们针对的是个人的数据,虽然数据量很大,但是每行数据蕴含的信息量(即熵)很小,因此我们会运用很多人工智能领域的数据挖掘算法,帮助我们在浩如烟海的数据里找到其中的珍珠。

而小数据往往是在企业经营范围内产生的,数据量很小,但是蕴含巨大的价值(熵),所以分析时要更谨慎,因为每一个数据的背后都隐藏着大量的知识。我们只有了解了数据背后的规律,才能真正掌握数据的命脉。

以大数据和小数据为例。抖音的推荐算法就是典型的大数据应用代表。抖音需要在复杂多变的环境中找到你喜爱的视频并推荐给你,不断增强你的体验,让你爱不释手。如果抖音没有一个很好的推荐算法,它是很难有今天的市场地位的。

但是对于抖音背后的母公司字节跳动而言,它的上市数据、经营收入、人员成本等小数据同样重要。这些数据会影响字节跳动的整体估值,以及员工持股的最终价值。

所以你看,即便在字节跳动这种拥有海量数据的顶尖互联网公司,大数据和小数据也依旧要两手抓。大数据为业务做支撑,小数据则是内核动力,两者缺一不可,只是应用场景不同。

在本书中,我既会向你介绍小数据的基本概念,也会教你大数据算法的基本原理,让你不再对那些看似复杂的专有名词和算法感到陌生,帮助你轻松跨入数据分析和算法的大门。

0.3 对数据最重要的是分析和表达

但是,仅了解算法是不够的。数据具有复杂性,同样的数据可以从很多不同的角度来诠释,诠释得特别好的人,我们称其为数据分析师。此外,作为管理者还必须了解数据分析的常识,这样才能透过现象看本质。

给你讲一个典故:平江人李元度本来是一介书生,曾国藩命令他领兵作战,结果他每仗必败。曾国藩非常愤怒,准备写奏折弹劾他,奏折上便有“屡战屡败”这样的字眼。后来曾国藩的一位幕僚为李元度求情,把“屡战屡败”改为“屡败屡战”,使李元度免于受罚。

你看,即便是失败,不同的解释会让结果完全不同。数据也是如此,你如何看待这个数据及其背后的解释,往往会让你得到不同的结论。

因此,当我们有了数据和算法后,就好比手里握着一块“璞玉”,还不能够完全发挥作用。我们需要通过有效的数据分析和表达,让数据产生影响力。在本书中,我会带着你学习如何清晰地表达数据,帮助你成为别人眼中的“数据分析师”。

小结

本章可以看作一次课前预习,通过本章我想告诉你,我们常常对数据持有一种想当然的态度,但实际上,我们对数据还缺乏深入的理解。万物背后都是数据,它不是某种噱头,数据就是这么无处不在。

认识到数据对我们的生活很重要仅是第一步,更重要的是理解数据背后的规律,即算法。就像客观世界背后蕴含着哲理一样,通过学习本书,你将能够从数据算法中领会到生活的哲理。比如在接下来的内容中你会发现,原来“物以类聚,人以群分”这句话是有数学算法支持的,而电影《飘》中的“tomorrow is another day”也是有数据算法依据的。我希望你在学完这本书后,不要把它仅仅当成一个知识库,而是通过它培养自己时时思考数据规律的习惯。

最后,当你有了思考数据规律的习惯后,我希望你更进一步去有效地表达数据,利用数据正确地影响他人,跨入数据分析师的门槛。在这样一个纷繁复杂的世界,如果你拥有一个清晰、优雅的数据观,就能更透彻地理解事物和表达观点。

数据就是“外行看热闹,内行看门道”。只有洞察数据真谛的人,才能真正掌握自己的命运和企业的命脉,最终获得生活和事业上的成功。因此希望你通过学习这本书,对自己的生活有一个新的认知,洞察数据背后的逻辑和趋势。

思考

你在生活或工作中有过被数据误导的经历吗?明白真相后这些经历又给你带来哪些收获呢?

第1章 了解数据背后的真相

1.1 平均值:不要被平均值骗了,它不能代表整体水平

从理论上讲,平均值有多种类型。仅在数学领域,就有算术平均值、几何平均值、平方平均值、调和平均值和加权平均值等。因此当有人提及平均值时,你应该谨慎地询问:“你指的是哪种平均值?”

当然,在日常生活中提到的平均值默认都是“算术平均值”,也就是“一组数据中所有数据之和再除以数据的个数”。这个概念不难理解。但在这里,你可以先思考一下,算术平均值有什么局限性吗?

我先给你一道极其简单的数学题,假设我们有3个数,分别是0、1和20,这3个数的平均值不难计算,答案是(0+1+20)/3=7,这个平均值和之前的3个数之间是不是差距挺大的?

所以,有时候平均值并不能代表整体水平。

1.1.1 平均值在什么情况下才有价值

平均值到底在什么情况下才有价值呢?在回答这个问题之前,我先给你讲个故事。

昨天下楼时,我听到小区两位大妈在聊天:“这次期末考试,班级语文的平均分是71分,我孙子考了85分,表现不错吧!”在工作中,我偶尔也会听到同事说:“我们客户的平均客单价是1000元,竞争对手只有500元,我们的客户比竞争对手的高端多了。”这些说法都对吗?还真不一定。

为了更好地解释这个问题,让我以学生的平均分为例。假设班级里20名学生的考试成绩呈现两极分化的现象,如图1-1所示,一半孩子的成绩都在95分以上,而另外近一半孩子的成绩只有三四十分,我们很容易计算出这20名学生的平均成绩是71.05分(见图1-1中的实线)。

图1-1

看上去孩子的85分比平均分71.05分高了很多,但你仔细看会发现,这个分数在高分学生里其实是最低的,整体来看也只是处在班级中等水平。

同理,看上去这家企业的平均客单价很高——平均1000元,但如果你的数据是由1个客单价为1万元的客户和10个客单价为100元的客户贡献的(总收入11 000元/11人=1000元/人),而竞争对手的数据是由11个客单价为500元的客户贡献的,那么实际上你的竞争对手才是真正拥有高客单价的企业。

你可能会觉得这些例子都太极端了,其实我是想阐明一个观点:平均值是基于所有样本数据计算得到的,容易受到极端值的影响。在很多情况下,平均值不具备代表性,它无法真实、准确地反映数据的整体情况。

更进一步地说,平均值仅在数据呈均匀分布或正态分布的情况下才有意义。如果忽略整个数据的分布情况,那么这个平均值其实是缺乏意义的。这就是为什么你在读某些统计分析报告时会觉得自己“被加薪了”或“被幸福了”。

现在你明白了吗?在一些复杂情况下,我们很难确定人群分布情况,此时若直接使用平均值,是很难准确反映整体真实情况的。

1.1.2 分组结论和整体平均值不是一回事

怎样才能准确反映真实情况呢?

以平均薪资为例,你肯定会好奇:拿那么高薪水的都是什么人啊?你也肯定想查看更详细的数据,诸如具体的岗位、工作年限、所在城市等。掌握了这些信息,你才了解你和他人薪资差距的具体原因。

比如在一线城市工作3年的Java程序员的月平均工资是2万元,而你的月工资是1万元,那确实存在差距,这个判断比起之前一刀切就精确多了。

你可能已经注意到,在思考这个问题时,你已经在不知不觉中采用了分组的逻辑。你应该也发现了,分组中得到的平均值和从整体中得到的平均值是不一样的,分组中得到的平均值更具参考价值。

上面这个例子很好理解,我现在要顺着它抛出一个观点:整体平均值不能代表各分组情况,分组结论和整体平均值可能会大相径庭。

明白了吗?别急,我再通过一个例子反面论证一下这个观点。假如NBA有两位球员——球员A和球员B,他们的投球表现如图1-2所示。

图1-2

这里我简单描述一下,先说2分球的情况:球员A,2分球总共投了250个,投中200个,命中率80%;球员B,2分球总共投了100个,投中90个,命中率90%。也就是说,以2分球的命中率来看,球员B更厉害一些。

对于3分球,球员A一共投了50个,投中5个,命中率10%;球员B一共投了150个,投中50个,命中率约33.3%。无论是2分球还是3分球,球员B都比球员A的投球命中率要高。看上去也是球员B比球员A厉害,对吧?

问题来了,从整体命中率来看好像不是这样的。计算一下这两位球员的整体平均值(也就是整体命中率),如图1-3所示。

图1-3

球员A总共投了300个(250个2分球,50个3分球),共投中205个(200个2分球,5个3分球),整体命中率约68.33%;球员B总共投了250个,投中的2分球和3分球加到一起共140个,整体命中率是56%。这么看来,球员B比球员A的投球命中率要低呀。

看到这个结果,你是不是很诧异?

球员B的2分球和3分球命中率都比球员A高,整体命中率却比球员A低,是不是让人大跌眼镜?如果你是篮球爱好者,你应该会注意到NBA不统计整体命中率,而是分别统计2分球和3分球的命中率。

1.1.3 辛普森悖论的启示

NBA为什么不统计整体命中率呢?因为这样统计出来的结果不准确。这里我们可以引入一个著名的理论——辛普森悖论,它描述的就是这个现象。辛普森悖论由E.H.辛普森在1951年提出,简单来讲就是,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。

我以NBA球员命中率的例子给你分析辛普森悖论产生的原因。首先,2分球和3分球的投球能力根本不同,这两个投球数本身就不应该直接相加。其次,虽然球员B厉害,但是其60%的投球都是命中率比较低的3分球,而在数量上,命中率较高的2分球就投得少了,由于3分球的命中率是明显低于2分球的命中率的,这样就拉低了他的整体命中率,造成了总体上的劣势。

简而言之,就是“质”(命中率)与“量”(投球数)是两个维度的数据,如果全部合并成“质”(命中率)这个维度的数据,就会导致错误的结论。

再举一个例子,某游戏公司开发了一款游戏,分为Android和iOS两个版本,而这两个系统又都有手机版本和平板版本。一名数据分析师在查看用户的付费数据后,发现整体上Android付费率比较高。他直接向老板报告:“我们Android版的用户付费率要高于iOS版的用户付费率,我们应该大力发展Android客户端!”这个数据是真实的,但是结论很可能是错误的。

深入分析后我们会发现,这名数据分析师也是错误地把“质”(付费率)和“量”(用户数)简单合并,是一种过于简化的做法。因为还有可能出现这样一种情况:尽管Android版无论是平板还是手机的付费率分别都比iOS版低,但由于Android手机的用户(注意,只是手机用户)比较多,所以把Android付费率整体拉高了。其实细分下去,iOS平板和手机的付费率都比Android高,只是整体付费率低而已。你若还有疑虑,可以对照上面统计NBA球员投篮命中率的例子,自己再推演一番。

因此,我简单总结如下:看到一个平均值时,你必须保持警惕,看看它的数据构成情况,而不是简单地用平均值来代表整体。生活是具体的,如果你想获得更准确的数据,应该进行分组分析。因为辛普森悖论告诉我们,有时候,在分组比较中都占优势的一方,在总评中反而可能是失势的一方。但请注意,只是“有时候”。

正如最近我读到的一些文章所述,税率改革后我们的整体工资税率实际上提高了,而不是降低。这也是同一个道理,即用整体平均值去掩盖个体不同区间税率变化。我们应该使用更细致的数据来评估实际结果的好坏。

除此之外,辛普森悖论也给了我们一个启示:每次小范围内的输赢与整体上的输赢没有直接关系。

这也是辛普森悖论的一个推论,将来你要使用数据分析做决策时,小到打牌,大到做投资,不要过于计较局部的得失,而是要在关键时刻敢于在大概率有把握的事情上大胆下注。

小结

当他人提及平均值时,你首先要和他确认究竟是哪种平均值。当然,日常生活中我们提到的平均值多指算术平均值。其次,算术平均值特别敏感,它很容易受到极端数据的影响。在很多选秀节目中,评委在计算分数时会去掉一个最高分和一个最低分,这是同一个道理。

你也一定要认识到,整体平均值仅在数据均匀分布或正态分布时才有意义。如果不考虑整个数据的分布情况,只提平均值是没有价值的。

最后,我们讨论了辛普森悖论。这是一个在工作和生活中常见的现象,甚至我见过很多传销人员利用它来误导他人。面对这样的情况,别忘了那句话:分组结论和整体平均值可能会大相径庭

我们经常提到“质量”这个词,但是拆开看,“质”与“量”是不等价的。所以当你不被大多数人理解时,或许正是因为你选的是一条少数人走的路。平均值和辛普森悖论告诉我们要抓大放小,不要因为自己的某个单项优势而洋洋得意,也不要因为局部失败就一蹶不振。在生活中我们要有一颗平常心,我们的目标是让自己的“人生平均值”逐步提高。

数据给了你一双看透本质的眼睛,让我们持续学习、不断提高。

思考

在生活中,你还遇到过哪些与平均值和辛普森悖论相关的例子?欢迎分享,我们可以一起讨论。

1.2 大数定律与小数陷阱:生活是随机的还是有定数的

在生活中,你是否思考过这样的问题:生活到底是随机的还是有定数的?

理论上,生活中的很多事情应该像抛硬币一样,50%的机会向好的方向发展,另外50%的机会向坏的方向发展。然而,你可能连续努力多次,结果却并没有向着你预想的方向发展。于是你开始怀疑人生,说自己最近“水逆”。或者你去应聘岗位,有时一周来了好几个offer,有时却连续两三周都没有任何进展,你把它归咎于命运的安排。这真是命运的安排吗?

本节就为你揭示这背后的数据规律——大数定律和小数陷阱。希望你了解这两个数据规律后,在遇到一些所谓的“水逆”或者感到不如意时,从数据分析的层面,正确看待生活。

1.2.1 什么是大数定律

你肯定遇到过这样的场景:抛硬币来预测哪一面朝上。理论上,抛10次硬币应该有5次正面朝上、5次反面朝上,但结果可能是9次正面朝上、1次反面朝上。又或者赌徒玩轮盘赌,连续10次押小,10次都输了,但他就是不甘心,第11次接着押小,还是输了。

上面两个例子的背后就是大数定律在发挥作用。大数定律是由瑞士数学家雅各布·伯努利提出的,它的核心逻辑是:只有当随机事件发生的次数足够多时,这些事件发生的频率才会趋近于预期的概率

回到抛硬币的例子,理论上随机抛硬币时正面和反面朝上的次数应该一样多(正反面朝上的预期概率均为50%)。所以理论上抛10次应该是5次正面朝上、5次反面朝上。

但是这里有一个前提,即大数定律中提到的“随机事件发生的次数足够多”。那怎么才叫作“足够多”呢?

理解“足够多”是理解这个问题的关键。“足够多”在数学上称“无穷大”,生活中我们有时称之为“足够大”。你有没有想过,数量多大才叫“足够大”呢?10次肯定是不够的,那应该是100次还是1000次?

历史上还真有一位数学家做了这样的实验,他就是丹麦的概率论学者克里克。在第二次世界大战期间克里克曾被拘留,当时他在监狱中也无事可做,于是就做了这个抛硬币的实验来消磨时间。他一共抛了1万次硬币,还对每次抛下来的硬币是正面朝上还是反面朝上做了一个统计,统计图大概如图1-4所示。

图1-4

从这个统计图中你会发现,在最开始的几百次中,抛硬币的概率波动是非常大的。也就是说,有时连续若干次都是正面朝上或者连续若干次都是反面朝上。后面随着次数的增多,正面朝上和反面朝上的概率才越来越各自趋近于50%。

看了这个统计图,你可能就能理解为什么我们在抛硬币时,虽然理论上每次抛出正反面的概率应该各是50%,但我们抛10次却不一定是5次正面朝上、5次反面朝上了。因为我们抛硬币的次数不够多,最后反映出来的结果也并不够具有代表性。换言之,你看到的结果只是各种偶然的极端情况。

这时你可能会萌生一种想法:既然胜负概率差不多,那么不用努力,只要不停尝试,总会成功的。

请注意,这可完全不同。因为在大数定律之外,还有一个小数定律。小数定律是科学家阿莫斯·特沃斯基等人在研究“赌徒谬误”时提出的一个概念,我把它叫作“小数陷阱”。

1.2.2 什么是小数陷阱

了解了大数定律后,你可能会认为,既然随着试验次数的增多,整体趋势会趋近于50% : 50%,那么在轮盘赌游戏中,如果前面开的都是“大”,接下来就应该加倍下注“小”。因为从长远来看,出现“大”和“小”的概率应该是趋于相等,所以未来出现“小”的概率应该增大。

真会像我们预想的那样吗?

还真不一定,这就是一个典型的对大数定律的误读,即赌徒谬误,我把它叫作“小数陷阱”。

以轮盘赌游戏为例,虽然前面开的都是“大”,但后面每一次转出来“小”的概率还是不变的50%。也就是说,每次事件其实是独立且随机的,并不是说前面都开“大”,后面开“小”的概率就会增加。

大数定律的核心是“大数”,也就是说,事件必须出现足够多的次数,才能够趋近于它的期望概率。

这个“大数”要求非常高,而大多数赌徒在赌到“足够多”次数前就已经输光了。

赌场其实就是在利用大数定律赚钱,通常赌博机会被设计成51% : 49%的预期概率,赌场只赢2%,而你却100%输。

这就是赌场乐于提供各种免费的好东西来吸引源源不断的客户的原因。在赌场里,某些赌徒可能偶尔赢钱,但从整体看,只要赌博机持续运转,赌场就能稳赚不赔。

同理,如果你去买彩票,然后通过数据分析,选出以前中奖号码中较少出现的数字,认为这些数字在下次开奖时就会大概率出现,那么在了解小数陷阱后,你就应该知道这完全是一个错误的认识,运气终究只是运气而已。守株待兔究竟能有多少只兔子撞到你的木桩上,答案其实显而易见。

1.2.3 大数定律和小数陷阱给我们的启示

前文通过生活中一些常见的例子,讲解了大数定律和小数陷阱的概念。那么我们具体应该如何应用大数定律,又如何避免落入“小数陷阱”呢?

首先,关于大数定律,我们不应该盲目跟风。

在开始做某件事之前,先问问自己是否已经具备持续投入的能力。例如“炒币”现象,不少人跃跃欲试准备进场分一杯羹。但我希望你在进行任何投资之前,都要做好持续精力和金钱投入的准备。

那些你所羡慕的成功者往往不是简单地通过博弈获得收入,而是因为他们积累了大量的失败教训和经验,逐渐进入大数定律中所谓的规律部分。如果你只是盲目跟风,哪怕最初赚了一些钱,最终也可能“让靠运气赚的钱,最后靠实力全亏回去”。

其次,对于小数陷阱,我们应保持一颗平常心。

面对失败,应保持冷静,气馁或赌徒心理都是不可取的。你需要认识到,我们生活中的许多事件样本量并不大,所以“坏运气”只是偶然,并不代表你会一直不走运。

当你想孤注一掷或者彻底放弃时,不妨问问你是否已经持续努力足够久了。你要学会把一件事情放在足够长的时间轴上进行评判(尤其当这件事对你特别重要时)。当你遇到各种不如意时,保持冷静,持续在你认为能够成功的道路上努力,并且努力足够长的时间、足够多的次数,最终你会迎来“拨云见日”的时刻。

最后,希望你建立自己的“大数定律”来规避“小数陷阱”。

方法其实很简单,就是充分利用前人的经验,站在前人的实验结果和规律上,不断学习、阅读(比如学习数据思维等课程),积累经验,总结自己想要从事的行业。虽然绝大多数人是做不到在赌博中拥有足够大的“大数”的,但是没关系,你可以根据自己的生活去建立属于自己的“大数定律”,赋予生活更多必然性。

任何时候都不要放弃追求,人生只有努力才能向上,这才是你一生的“大数定律”。我想在这里送你一个成语:“慎始敬终”。“慎始”指的是开始前要做好持续投入的准备,没有想清楚就不要开始。“敬终”指的是一旦做了,就持续投入,踏踏实实地去完成。

小结

“大数定律”告诉我们,当随机事件发生的次数足够多时,其发生的频率才会趋近于预期的概率。对于一项事业,你需要持续不断地努力,才能最终达到你的期望值。而“小数陷阱”则告诉你,每个事件都是独立的,“否极泰来”需要努力足够多的次数才可能出现,做事情要少一些“赌徒心态”,多一些平常心,不要盲目跟风和下注才能获得最后的成功。

生活中最难的就是如何辨别什么是偶然,什么是必然。我们渴望把生活中的每一件事都变成必然,但实际上人的一生很短暂,我们所经历的事情很难都是必然。通过本节内容,希望你拥有一颗平常心,在上班开车途中,无论遇到一路红灯还是绿灯,都不会影响你的心情,因为这都只是“小数陷阱”而已。

人生中总有红灯和绿灯,你不会一直顺利或倒霉,但如果你不断努力,确实会更容易成功。这听起来像是“心灵鸡汤”,但是从数据分析的角度来看,生活本来就充满着各种不确定,如果你不努力,那么经历的样本太少,就很可能会遇到各种偶然的极端情况(比如一路上总是遇上红灯)。

数据给了你一双看透本质的眼睛,希望“大数定律”和“小数陷阱”有助于你未来的工作和学习。数据知识学无止境,让我们持续学习、相互鼓励、共同进步!

思考

在你的学习和工作经历中,有哪些例子符合“大数定律”,又有哪些例子体现了“小数陷阱”呢?希望你能分享出来,让我们共同站在大家的“大数定律”上更好地成长。

1.3 数据的期望值:为什么你坐的飞机总是晚点

你是不是也经常遇到这样的情景:夏日里你平时都带着伞,偶尔一天没带伞,结果就正好那天下雨了;不打车时街上到处都是空出租车,一旦你需要打车时发现全是满员的;别人的飞机都准点起飞,你坐的飞机总是晚点……

类似的情景还有很多,总之你越不希望某件事情发生,这件事情往往就会发生,而事情发生后,有的人就会抱怨自己运气不佳。但真的只是运气不好吗?这背后有深层的原因吗?

其实这种现象在业内通常被称为墨菲定律。下面我们先探讨一下它的起源,然后再聊聊它背后反映的数据分析知识。

1.3.1 墨菲的一个玩笑

1949年,美国航空工程师爱德华·墨菲参与美国空军“MX981”项目,需要将16个精密传感器安装在超重实验设备上以测试其耐压性。然而即便超重实验设备在巨大压力下发生了变形,传感器也没有任何提示。经过检查后发现,原来负责装配的人把这16个传感器全都装反了。

对此,墨菲不经意间说了一句玩笑话:“如果一件事情有可能出错,让某人去做就一定会弄错。”随后的记者招待会上,他的上司斯塔普称这句话为“墨菲定律”,并表述为:“如果有两种或两种以上的方式去做某件事情,而其中一种选择将导致灾难,则必定有人会做出这种选择。

后来,人们对墨菲定律又做了更多诠释,比如:

任何事情都不会像它表面上看起来那么简单;

所有任务的完成周期都会比你预计的长;

任何事情只要有出错的可能,就会有极大的概率出错;

如果你担心某件事会出错,那么它一定会出错。

1.3.2 背后的数学原理

墨菲定律背后的数学原理涉及一个核心概念——期望值

什么是期望值?期望值就是对可能出现的结果的概率做加权平均。举个简单的例子,你购买了一张彩票,有10%的概率赢100元,40%的概率赢50元,50%的概率什么也没有,那么这张彩票的期望值就是 10%×100+40%×50+50%×0=30元。

这30元意味着什么呢?购买1张彩票或100张彩票都不太明显,但是如果你购买10万张彩票,那么你中奖的金额很可能会接近300万元。因此,这个30元的期望值,衡量了你在足够多的试验次数下,平均每一次所能够获得的金额。

很多人在数据分析中将“均值”和“平均值”混为一谈。这里我告诉你一个简单区分它们的方法,并用英文来识别(见图1-5)。

图1-5

均值(也叫期望值)的英文是mean,它是事前预测的,这个值完全由概率分布决定,也就是我们前面所说的“对可能出现的结果的概率做加权平均”。

平均值的英文是average,它是事后统计的,等于样本值的总和除以样本的个数。

了解了二者的概念区分后,我们接下来看看二者的关系。请你先琢磨以下这句话:当样本量N趋近无穷大时,样本的平均值无限接近期望值(日常计算时相等)。这句话听起来是不是很耳熟?对,这就是大数定律(Law of Large Number,LLN)。

简单来说,期望值反映在大数定律下多次执行某件事情之后,得到的一个最可能的收益结果。例如,前面所说的购买10万张彩票可能获利300万元,平均值和期望值(或者均值)都是30元,其实就是利用了大数定律来解释这个现象。

1.3.3 解释墨菲定律

在讨论了平均值、期望值(均值)和大数定律三者的关系之后,接下来回到我们要用数据分析解释的一种现象——墨菲定律。

人类有一种心理倾向,那就是更容易记住一些不好的事情。就像飞机晚点的概率对每个人而言都是一样的,但对我来说,每次飞机晚点的经历会让我印象深刻,而在飞机没有晚点时,我的注意力往往集中在其他事情上。

现在,我们可以将坏事发生的期望定义为M,它代表了你记住这件坏事的概率,同时把坏事对你的心理影响定义为X,发生的概率为R1;再把好事发生的期望定义为N,它代表着你记住这件好事的概率,同时把好事对你的心理影响定义为Y,发生的概率为R2。根据前面所学,我们就有了图1-6所示的两个公式。

图1-6

让我们进一步抽象地分析这个问题。你是否经常担心一件坏事情的发生?比如事件A,我们假设事件A发生对你产生的心理影响是X,事件A不发生对你产生的心理影响是Y。这时候显然X是大于Y的,所以当发生事件A时,你受到的心理影响就比较大。

其实,你在担心一件事情的发生之时,这件事情应该已经具备了发生的大多数条件。我们假设事件A发生的概率是R,那么你担心这件事情发生(R1)和不担心这件事情发生(R2)的概率是不一样的,R1一定大于R2

代入前面的公式,一个我们担心的坏事情的发生期望如图1-7所示,对比后你会发现,墨菲定律其实是由我们对好事情和坏事情发生的期望值的差异造成的。简单来说,印象深刻再加上担心时提高的概率,自然也就“担心什么来什么”了。

图1-7

下面我们用墨菲定律来解释本节开头的情景。

夏天是个多雨的季节,所以你会记得要随身带伞。但恰好有一天你没带伞,并且天阴沉沉的好像会下雨,于是你十分担心,最后真的下雨了,印象自然深刻。

你着急打车的时候一般是高峰期,再加上平时高峰期也经常打不到车,于是你就更加担心,最后发现出租车全部满员,对打不到车这件事印象深刻。

工作很忙的时候,你为了赶时间总选晚上的飞机,前面只要有一个航班晚点,晚上的这个航班一定晚点,再加上一旦晚点,你回到家基本就半夜了,所以印象尤为深刻。

于是,墨菲定律就产生了。

1.3.4 如何规避墨菲定律

了解墨菲定律的成因后,我们怎样才能避免掉入“墨菲定律”的陷阱呢?

影响期望值的变量可分为两部分,分别是心理影响的大小和发生概率的大小,因此我们可以从这两个方面入手。

对于前者,我们要做的就是不断调整事情对你的心理影响的预期,让它们趋同。特别是遇到坏事情的时候,你可以通过增加B计划等方式,调整预期以降低坏事情的发生对你的心理的影响

对于后者,你可以优化流程,提高自身能力,尽可能降低事件出错的概率。

这么说可能还是有一些抽象,我们看看几个工作与生活中的具体运用。

“为大概率坚持,为小概率备份”——创业时,我们要努力为好的期望(N)坚持,同时考虑为坏的影响(X)备份,并尽力降低坏事发生的概率(R1)。

“已知的是成本,未知的才是风险”——如果坏的影响(X)已知,那么即使你按照坏事情发生的概率(R1)为100%来准备资金,这批资金也算是你付出的成本;但如果坏的影响(X)未知,那么无论坏事情发生的概率(R1)为多少,都是风险,因为你不知道坏事情究竟会造成多大的影响。

“项目风险控制”——项目管理中有各种风险管理和预防措施,风险被分为很多类型,如静态风险、动态风险、局部风险和整体风险,同时风险应对措施也被细分为很多类,这背后的核心都是为了避免墨菲定律的发生,从而让整个项目在项目经理的期望下正确运行。

“生活中的风险控制”——生活中也可以借用这种风险控制方法论。识别生活中的风险并做好准备,这样在墨菲定律生效时不至于手忙脚乱。比如提前查看天气预报、查看航班的过往准点率、预估自己乘坐航班的情况。再比如在参加重要会议时,提前预留时间。这些生活中的小事看似微不足道,但请相信,一旦你把这些小事落到实处,你对生活的掌控力就会大大提升。

数据分析解释给你的是现实背后的规律,学以致用才可以让它们发挥最大的价值。

小结

本节通过墨菲定律向你介绍了一个有趣的概念——期望值,它是对可能出现的结果的概率做加权平均得到的,期望值完全取决于概率分布。而我们通常说的平均值一般指算术平均值,也就是一组数据中所有数据之和再除以数据的个数。某件事情长期不断发生,次数足够多后会达到我们预设的期望值,这就是大数定律所描述的。

这几个概念相互依存,又各自不同。你可以将平均值、大数定律和期望值作为一个整体,进行对照学习。

对于平均值,你要学会对不同事物进行分组,用更细分的数据来看待问题。对于大数定律,要成事,我们就不能有赌徒心态,而要学会持续投入。对于期望值,平衡预期和未雨绸缪这两个理念希望你能够在生活中灵活运用。

这几个数据分析领域的基础概念告诉我们一个最朴实的道理:没有事情可以一蹴而就(平均值),我们需要努力足够多的次数(大数定律),并学会规避风险(期望值)。这样在若干年后,企业和个人才能有一份满意的企业/个人数据报表。

思考

你最近在生活中遇到过符合墨菲定律的情境吗?你觉得怎么做可以减轻和规避这类风险?欢迎分享出来,让我们共同成长。

1.4 随机对照试验:章鱼保罗真的是“预言帝”吗

你在生活中是否经历这样的巧合:在一个小型聚会上,你竟然遇到了同月同日出生的人,在慨叹缘分的同时,你可能并未意识到这只是一个高概率事件。你设计了一个新的用户界面,调查显示客户满意度明显高于旧版本,但你的领导提醒你这可能是“幸存者偏差”。又如,曾经在南非世界杯上“成功预测”德国小组赛结果的“预言帝”章鱼保罗,真的拥有预测能力吗?

要真正了解这背后的玄机,我们需要理解数据分析界伟大原则之一的“随机对照试验”。不过在进入正题之前,你得先弄清楚一个重要的概念——“随机”。你可能觉得这个概念很简单,“随机”不就是要确保每个个体被抽取的概率相同吗?但是生活中充斥着太多的“伪随机”,它们会影响我们的判断。到底什么是伪随机呢?我们接着往下看。

1.4.1 你认为的随机其实都是“伪随机”

玩一个小游戏:请闭上眼睛,快速地在0~20之间想一个数字,然后我来猜。想好了吧?我可以预测,你大概率不会选择5和15这两个数字。听起来不可思议,你不妨试一试,或者与朋友们玩一玩这个小游戏。

为什么我会确信你大概率不会选择5和15呢?因为人脑在选择随机数时,会刻意规避一些有规律的数字,这反而让这些随机数变得“不随机”了。

同样,用户反馈的例子也很典型。大部分用户其实并不愿意花时间填写调查问卷,一般积极填写的都是对这个产品感兴趣的,或者使用频率比较高并且希望其能有所改进的人。因此,这样往往会产生“伪随机”问题。

所谓伪随机,就是看上去过程是随机的,但实际上是确定的。例如计算机的随机数是通过确定性算法计算得出的;让你随意想一个数字,这个数字往往也是根据个人习惯和偏好想出来的。它们都属于伪随机数。

换言之,如果我们选择样本时的随机程度不够,或者对数据的理解不够深入,就会出现一些“小确幸”:我们可能会误以为幸运和缘分等出现的概率还挺高的。

其实不然,以前面提到的聚会为例,如果聚会人数超过50人,那么有两个人生日是同一天的概率高达97%。即使是20人的小聚会,至少两人生日相同的概率也高达41%。你可以参考图1-8所示的计算过程。

图1-8

1.4.2 随机对照试验帮助你去伪存真

在了解“随机”这个概念后,我们接下来进入本节的主题——随机对照试验。无论是临床医学、基因遗传学,还是互联网黑客增长理论中的A/B测试,随机对照试验都扮演着至关重要的角色。它帮助我们解决了一个关键问题,就是我们如何通过少量的数据来验证更广泛的规律

随机对照试验是由现代统计学之父、数据分析的鼻祖——罗纳德·艾尔默·费希尔在《试验设计》一书中提出的,他通过一个很简单的例子验证了一件事情是否真实可信。

这就是著名的奶茶试验,它巧妙地阐释了随机对照试验的原理。故事发生在20世纪20年代的英国,一位女士坚称:“先放红茶和先放牛奶的奶茶的味道完全不一样,我能尝出它们的区别。”恰好数据分析界的学者费希尔也在场,他提议通过试验来鉴别这位女士所述的真伪。

于是,费希尔进行了试验:他在那位女士看不见的地方,准备了两种不同冲泡方法的奶茶。他把奶茶随机摆成一排,共10杯,让女士随机品尝奶茶并说出其冲泡方式,结果那位女士的回答完全正确。据此费希尔得出结论:这位女士真的掌握了某种方法,可以分辨出按不同方法冲泡的奶茶。

注意,为什么费希尔要用随机排列的方式来做这个试验呢?你想想,假设只给那位女士一杯先放红茶的奶茶,那么即使她判断正确也不能证明她有准确分辨奶茶的能力,因为她有50%的成功概率,这不能排除运气的成分。

那么将两种奶茶交替给那位女士,如果她每次都能猜中,这能证明她的分辨能力吗?我的答案还是否定的。因为只要有某种规律存在,她只需要猜中第一杯奶茶,自然也就能知晓后面的结果了。同理,类似连续给5杯先放红茶的奶茶,再连续给5杯先放牛奶的奶茶的方法也是行不通的。

因此,只有在随机的情况下这个公式才成立:

如果给那位女士1杯奶茶,那么她偶然猜对的概率是1/2,也就是50%;

如果随机给那位女士5杯奶茶,那么她都偶然猜对的概率就是,大约3.1%;

如果那位女士随机品尝了10杯奶茶,那么她偶然猜对的概率就是,大约0.1%,如图1-9所示。

图1-9

试验结果是那位女士成功识别了随机选取的10杯奶茶,如果她没有任何分辨方法,纯粹靠猜的话,只有0.1%的成功概率,这是很难做到的。因此,费希尔认为那位女士的确掌握了某种可以分辨奶茶冲泡顺序的方法。

奶茶试验就是随机对照试验的雏形,正式的随机对照试验中会对研究对象进行随机分组,并设置对照组。随机分组是双盲设计的前提条件,也就是研究者和受试者均无法知晓分组结果,最终通过结果来证明试验是否真的有效。

你要记住,随机对照试验有两个关键要素:一是“随机”,二是“对照

1.4.3 幸存者偏差并不是随机对照试验

此时你可能有些困惑,前面提到的章鱼保罗的预测不就是一种随机对照试验吗?如果它在随机的10组比赛中全部猜对,是不是就真的具备了预测能力呢?并非如此。接下来我要向你介绍一个特别容易与随机对照试验混淆的概念——幸存者偏差

幸存者偏差就是当取得资讯的渠道仅来自幸存者时,得出的结论可能会与实际情况存在偏差。因为看上去结果的确由随机对照试验产生,但在逻辑上是错误的,这其实是在用结果来倒推整个前期数据的产生过程。

幸存者偏差这个概念最早可以追溯到第二次世界大战期间,当时有各种地面防空作战和空战,在密集的炮火下,战机机身上几乎所有地方都有可能中弹,统计学家需要研究战机被击中的部位,从而确定哪些部位需要额外加强装甲。

对返航的战机进行弹痕分析后发现,飞机机翼被打穿的弹孔较多(如图1-10所示),由此得出结论:应该加强机翼的装甲防护。

图1-10

但对返航的战机样本来说,这其实说明即使机翼中弹,战机也有很大的概率能够返航。对于那些弹孔不多的部位(比如驾驶舱、油箱和机尾),当这些部位中弹后,战机很可能连飞回来的机会都没有,而这并没有被统计,这就是所谓的“看不见的弹痕最为致命”。

让我们将注意力拉回到“预言帝”章鱼保罗的身上(见图1-11),它其实并非如我们想象那样拥有神奇的预测能力。

图1-11

你要知道:当样本量足够大时,总会出现一个“幸运儿”,它能够“碰巧”正确预测所有场景。世界杯的预测也是如此,这样大规模的赛事吸引了很多人和生物参与结果预测,如此大的样本量自然就诞生了本次预测的“幸运儿”,只是它碰巧被命名为章鱼保罗罢了。没有章鱼保罗,我们可能会有另一个“幸运儿”猫咪汤姆(这当然只是一个虚构的名字)。

在章鱼保罗的故事之外,其实有许多预测者“牺牲”在了随机概率的海洋里,它们不够“幸运”,不能被我们看见,只有章鱼保罗足够幸运,成为能够被我们看到的“幸存者”。另外,从章鱼保罗自身的预测记录来看,你会发现其实我们只是看到了它预测成功的部分,而忽略了它也有预测不成功的时刻,这也是另一种幸存者偏差。

回想一下我们在讨论大数定律时的一个例子。如果我们让全世界的人来玩抛硬币游戏,每人抛10次,总会有人连续10次都是硬币正面朝上,我们就可能称他为“赌神”,误以为他可以控制抛硬币的结果,这与章鱼保罗的情况是一样的。

实际上,“预言帝”和“赌神”并不存在,我们看到的只是大样本数据背后的“幸存者”。

因此,要验证章鱼保罗的预测能力,应该从一开始就把它安置在一个没有任何信号干扰的环境,让它连续预测10次,这样它的成功概率是0.1%,我们还可以通过提高预测次数来检测它是不是真的拥有那么神奇的预测能力。

因此当你再听到类似于“读书无用论”“工作都是别人的好”这样的论调时,请你保持警惕,运用本节介绍的知识思考:这些说法到底是不是一种幸存者偏差?当你遇到一些“成功学大师”向你兜售一些成功心法时,不要盲从所谓的权威。如果有可能,我们尽量站得更高一些,从多个经济周期的维度来评判某个事物或个人。

最后,我们不应仅关注从成功者那里学习如何成功,而应更多地从失败者那里总结他们为什么会失败,因为成功往往就是一个想方设法避免失败的过程。别人的成功你不一定能复制,但别人踩过的坑,你若不注意,很大概率你也会因此摔跤。

小结

回顾一下本节内容,我给你介绍了随机随机对照试验,也解释了幸存者偏差的含义。

随机对照试验已被广泛应用于临床医学、遗传学和A/B测试中——验证一个理论和假设的有效性,这是一个巨大进步。但你知道吗?即便是遗传学家孟德尔,他的遗传学理论实验都存在着问题(尽管他的理论是正确的)——因为他只选取了对他有利的豌豆样本来支撑他论文的观点,而不是采用随机对照试验。

在工作和生活中,一定要注意不能犯同样的“错误”,即用非随机的结果来证明自己的观点,更不能用幸存者偏差——用结果倒推原因,来解释自己的一些结论。

我们不仅要避免犯错,也要学会“发现错误”,从失败中学习。当别人向你兜售一些貌似合理的论调时,希望你对那些“沉默”的数据留一个心眼,在看向闪闪发光的成功数据时,也要意识到有很多“话少”甚至“不说话”的数据的存在。

正因为存在这些“沉默”的数据,我们很难从现实世界中得到完整的数据集。因此我的目标不是简单地教会你各种各样的数据分析知识和理论,而是希望你能够对这些数据分析方法有更好的理解,最终帮助你在生活中做出更有效的决策。

思考

你在工作和学习中是否遇到过幸存者偏差的情况?你是如何识别的?欢迎你分享对幸存者偏差的看法,让我们共同探讨!

1.5 指数和KPI:智商是怎么计算出来的

在日常生活中,我们经常希望用一个数字来衡量一个复杂的事物,这样即便是外行,也能迅速了解某个事物的概况和分布。

什么数字可以满足这个苛刻的要求呢?答案是指数。

简单来说,凡是能用指数描述的,都是一些需要长期观察或者大范围衡量的事物。它像一把尺子,通过测量,你就能知道现在这个事物所处的状态。因此,生活中我们经常看到各种各样的指数,从空气污染指数到股票市场的上证指数,从用户忠诚度指数到智商(Intelligence Quotient,IQ)等。

指数本身的定义很简单,就是变量值除以标准值再乘以100(见图1-12)。

图1-12

接下来让我们思考一下,如果让你设计一个数字来代表上海证券交易所整体的股票行情,你会怎么做呢?

如果你只选一只股票来代表整个上海证券交易所的股票行情,就会出现很多问题。比如这家上市公司的股票退市了,怎么办?或者这家上市公司进行了一些股票的增发/除权,突然之间股票价格变化非常大,这能代表当时所有股票的行情吗?

显然,单只股票是无法代表整体行情的,这时候就轮到指数登场了。

1.5.1 简单的指数:上证指数

接下来以上海证券综合指数(简称上证指数)为例,带你看看一个标准指数的构成。

首先,它得有标准值,也就是分母。注意,这个标准值不仅是一个数值,也对应一个具体的时间点。比如,新的上证指数就是以2005年12月30日为基日(即基准日),以当日所有样本股票的市值总值为基期,以1000点为基点作为分母的。

其次,它还得有一个加权的计算公式,这个计算公式如下:以基期和计算日的股票收盘价(如当日无成交,则沿用上一日的收盘价)分别乘以发行股数,相加后求得基期和计算日股票市价总值,计算日股票市价总值与基期股票市价总值相除后乘以100即得计算日股价指数(见图1-13)。

图1-13

看上去很简单,就是当前市值除以基期市值,但上证指数还包含一套修正规则,这是非常重要的。因为一个指数不仅仅是一个数学公式,它还反映了一套管理规范。

对上证指数而言,股票要有样本池,样本池可不是随机选择的,而是由上海证券交易所精心挑选,包括若干大盘股和蓝筹股,以进行综合计算。

由于样本池中的单一股票会因非市场交易因素(例如配股、送股等)发生价格变动,但是由这些非市场交易因素导致的股票价格变动都不计算在这个指数的变化范围内,所以就得用图1-14所示的公式来进行修正。

图1-14

通过上证指数这个例子,我希望你能够明白,指数公式本身并不复杂,关键在于你要如何制定一套能够保持指数有效性的规则。指数不是一条一使劲就能变长的橡皮筋,而是一把相对精准的尺子。

1.5.2 较复杂的指数:用户忠诚度指数

我们看看一个比上证指数更复杂一些的例子。在互联网分析领域,我们经常遇到所谓的用户忠诚度指数。

顾名思义,用户忠诚度指数用于衡量用户对某种行为的忠诚度。这个指数和上证指数就不太一样了,它类似我们日常使用的大多数指标,其复杂性在于对忠诚度的定义。例如,若把忠诚度定义为在第N日/周/月后回访的用户行为指标与初始行为指标的比率,则用户忠诚度指数就会如图1-15所示。

图1-15

这个公式看上去也很简单,但是在理解层面相较于上证指数的计算公式,其实更难。

比如,什么叫初始行为指标?如果我们把初始行为指标定义为访问某个App或网站的活跃用户数,那么用户忠诚度指数就是留存率。

但是问题又来了,什么是活跃用户数呢?打开视频App看1秒钟算活跃吗?如果第2秒就退出了,那么应该不是活跃用户。是不是看5秒以上的用户就是活跃用户了呢?这些问题其实非常复杂。

另外,对用户忠诚度而言,我也可以说今天在京东买了大闸蟹,过了一周后,我又在京东买了大闸蟹,那么我在京东上对大闸蟹的用户忠诚度就很高。如图1-16所示,我们可以选择各种各样的条件进行用户忠诚度分析。

在我们的日常工作中经常出现类似用户忠诚度这样的指数。这些指数往往有一个明显的特征:看上去公式定义很简单,但是对公式的解释却非常复杂,需要依赖具有大量业务经验的人员通过“数据治理”过程才能准确定义。而这个数据治理过程需要内外部专家共同建立一套公司级别的共识(类似上证指数修正方法),才可以让一个指数持续有效。

图1-16

1.5.3 复杂的指数:智商

上证指数和用户忠诚度指数都是用一个数字来衡量一组数字,那么现在难题来了:如何使用数字化手段来衡量一个复杂的事物呢?比如衡量一个人的聪明程度。

这件事情听起来很复杂。首先,正如我们之前提到的,要制定某些维度来衡量一个人的智力本身就是一项挑战。其次,人不是一成不变的,随着年龄的增长,人的智力水平也会发生变化。

我们能否用一个固定公式来衡量所有年龄段的人?显然不可行。如果用成人的智力标准刻板地衡量一个孩子,很可能会错过一些具有特殊天赋的孩子。

20世纪初,法国心理学家比奈和他的学生编写了世界上第一套智力量表,后来心理学家推孟把这套量表引进美国,将其修订为斯坦福-比奈智力量表,并使用标准测试题得出的心理年龄与生理年龄之比,作为评定智力水平的指数,这个比值被称为智商(IQ)。

如图1-17所示,这个公式就是现在网上大多数人会告诉你的智商计算方法,但这个算法其实是不准确的。通过这个公式,我们虽然能看到神童的IQ很高,但也会发现随着个人经验的增长,用这个公式计算出的智商反而越来越低。也就是说人会越活越笨,这不符合实际情况。

图1-17

因此目前最流行的智商计算方法是韦克斯勒的离差智商,它的基本原理类似于正态分布。

韦克斯勒智力量表是一条平均值为100、标准差为15的正态分布曲线。在用韦克斯勒的方法测量智商时,你首先需要完成一组标准测验题,之后再将你的得分与韦克斯勒正态分布表(韦氏量表,见图1-18)进行对照,这样就能得出你的智商了。

图1-18

当然,基于年龄差异,韦氏量表也分为韦氏成人智力量表、韦氏儿童智力量表和韦氏幼儿智力量表,用于检测所有年龄段的人的智商。

根据标准差知识可知,正负3个标准差,即6个σ,就能覆盖人类99.7%的情况。大多数人的智商分布在55和145之间。如果你的智商测试得分达到100分,那么你已经比较聪明了;如果达到130分,可以说你已经相当聪明;如果达到150分,感谢你还在阅读本书,因为你就是那个罕见的天才。这就是现代智商的计算方法。

相信你也发现了,智商的计算在指数计算中是非常复杂的:既要有复杂的标准测试题,也要将其与全人类的智力分布情况进行比对,最终得到一个合理的标准分值。

要制作一把尺子来衡量人类这种复杂生物的智力水平,很难。

所以在工作和生活中,当我们设定某个指数,比如KPI时,注意不要仅关注公式的建立,还要制定一系列定义如何调整的制度算法,否则即使很多项目最后KPI完成了,但目的并没有达成。

为了更直观地理解,让我给你讲个小故事。有一天,小王发现路边有两个人在忙碌地干活:一个人在前面挖坑,坑挖完后,后面那个人赶紧跑过去把坑重新填上。小王就很疑惑,这不是在瞎忙吗!于是小王上前询问二人为什么要这么干。最后一问才知道,原来负责种树的那个人请假了,只剩下挖土和填坑二人组各自完成自己的KPI。

(由AI生成)

所以最近新流行的管理方法OKR(Objective and Key Result,目标与关键成果),其实就是为了规避KPI管理的一些缺点,OKR在某种程度上借鉴了指数建立和调整的规则:建立好“O”之后,“K”和“R”可以进行动态监测和调整,并为之建立一套分层和计算调整体系。这里最关键的是K的定义和相关针对O的调整方法,这与指数的定义和管理方法类似。如果这套方法没有定义好,不管是KPI还是OKR,都无法获得好的管理效果。

小结

本节介绍了指数,指数是数字化现实社会的一种常见的衡量方式。仔细想一想,从我们个人的高考标准分到衡量每一个人工作的OKR或KPI,再到衡量国家发展状况的居民消费价格指数(Consumer Price Index,CPI),这些数字都是指数在各种不同场景下的表现。

我们讨论了三个具体的指数示例,希望你能明白指数不是一个简简单单的加权平均值,它背后映射了一套管理思维逻辑。即使是在像上证指数一样有着复杂多变的股票价格的环境下,我们也需要一套标准的统计规则。而对于更复杂的情况(比如衡量人的智商),我们则需要结合所学的多种数据分析方法和工具,设计一个基于实验结果的指数计算方法,这样才能够更客观地评估。

但在生活和工作中,很多人为了得到一个可衡量的数字,可能会轻率地做出决策。比如公司在对员工进行评估时,就是简单地套用一个标准公式,这样的评估往往是不尽如人意的。一定要基于细致的业务流程和实验数据,这样才能得到科学合理的结论。

因此,我希望你在学习本节内容后,一方面,在衡量事物时,不要轻率地创造出一组数字来代表它。另一方面,我希望你更加坚定地相信,数字是可以衡量世间万物的。毕竟连如此复杂的人类都可以用数字来衡量,还有什么是不能被数字衡量的呢?

思考

你在日常生活和工作中还会遇到哪些指数呢?它们属于我所讲的指数类型的哪一种?它们的定义和调整规则是什么?欢迎你分享出来,让我们一起提高。

1.6 因果陷阱:星座真的可以判定你的性格吗

前面讲了数据分析的基本方法,但掌握了这些方法后,还有很重要的一步,那就是理解数据背后的逻辑,否则分析数据就像算命先生看手相一样,直接就告诉你一个结论。比如以下根据“数据分析”得出的耳熟能详的结论,让我们仔细审视它们的可信度。

学术派观点:打篮球会让人长高,喝咖啡能长寿,不吃早餐会导致肥胖。

网红派观点:爱笑的女孩通常运气都不会太差(很暖心,对吧),《奇葩说》中讨论的“会撒娇的女人更好命”。

这些结论听起来都很有道理,甚至很多还有数据统计报告的支持,但仔细思考背后的数据和逻辑,就会发现它们往往缺乏依据,甚至经常出现因果倒置、因果无关的情况。

这种对数据的滥用其实是最危险的,因为其中的问题往往隐藏得非常巧妙。如果你不深究其中的逻辑,往往会被数据欺骗从而得出错误的结论,甚至引导你做出错误的行为。

因此,本节为你总结了最常见的6种数据误用陷阱,这些陷阱会导致错误的因果结论。

1.6.1 因果倒置——鸡叫导致天明

第一种数据分析错误就是最常见的因果倒置,这在公务员考试中也有专门的考题。

天亮了鸡就开始打鸣,但我们不能说是鸡打鸣导致了天亮,否则就是典型的因果倒置。而在实际应用中,我们往往会忽略这个逻辑。比如,我们在一些医学统计报告中看到“不吃早餐会导致人肥胖”,甚至还有大量的统计数据表明肥胖的人通常不吃早餐。

数据的确是同步发生的,但这不代表这些数据之间存在因果关系,实际上,可能会出现因果倒置的情况——肥胖的人早上不饿,所以不吃早餐;而较瘦的人新陈代谢较快,晚上消耗多,早上就会感觉饥饿,所以吃早餐。

如果你没有理解这个逻辑,只是很简单地觉得吃早餐就不会变胖(于是早上吃很多高热量食物),那么你的体重肯定涨得更快。

同样,很多统计数据表明,选择多种投资方式的人往往比只从事本职工作的人更富有,现在流行做投资,做一个有“被动收入”的人。

相应地,很多人会认为多种投资方式会让人更加富有,其实这也是一种因果倒置。通常,只有在拥有一定财富之后,我们才会考虑尝试多种投资方式。所以如果你目前财务状况不佳,盲目尝试多种投资方式,不仅不会让你更加富有,反而有可能遭受更大损失。

我们对事实逻辑的误解,把事件的结果当成原因,会导致我们得到一些荒唐的结论(比如鸡打鸣导致天亮)。如果我们按照这个结论来行动,则不仅得不到预期结果,甚至可能造成严重的危害。

因此,我们看到数据结果时,一定要仔细推敲其中的业务逻辑,同时进行反向测试。以吃早餐能不能让人减肥为例,我们可以选两组类似的人群去做随机对照试验,一组吃早餐,另一组不吃早餐,其他时间的用餐量和活动量都一致,最终观察不吃早餐到底能不能减肥。如果发现这两组人的体重没有太大差异,就说明吃不吃早餐和减肥之间没有任何因果关系。

1.6.2 相关性而非因果关系——吸烟真的致癌吗

第二种常见的数据分析错误是将数据相关误认为因果关系。这类例子非常多,比如曾经广泛流传的一个说法:“喝咖啡能够长寿”,国内外的媒体都报道过。

但结论未必正确。因果是一种非常强的逻辑关系,我们在初中就学过,因是果的充分条件,而不是必要条件。也就是说,因果关系意味着如果我们做了A,那么一定会导致B的发生。在数据领域这其实是非常难证明的,我们可以通过数据实验证明B的发生和A没有关系,但是很难证明A的发生就是B发生的充分条件,即原因,因为它们之间有可能只是数据相关关系,而不是因果关系。

是不是感觉有点复杂?没关系,让我用一个你熟悉的例子来进一步解释。我们经常听说吸烟会导致癌症。但是吸烟真的会致癌吗?

我并不是要替吸烟者辩护,从健康角度来讲,吸烟的确有害健康。但是从科学角度来讲,尽管医学家、统计学家在过去的几十年里做了非常多的研究,但是到目前为止,我们还没有确凿的统计学证据可以说明吸烟直接导致癌症。因为致癌因素太多了,你无法将吸烟和癌症直接联系起来。

现代统计学的奠基人费舍尔对吸烟会导致肺癌的结论提出了质疑,他只承认吸烟和肺癌之间有相关性,但是从科学角度来讲,我们的确不能说吸烟就会导致肺癌。

数据看上去是正确的,但是如何解释数据需要沉思熟虑。两件事情即使相关,也无法说明它们之间有因果关系。我们的大脑容易记住有逻辑性的事物,所以我们经常将相关性“套上”因果的外壳,这是不对的。

因果关系需要通过大量实验来验证,只有当A发生时B一定会发生(且不受其他因素的干扰),才能说明A导致B的发生。而这在现实中是难以做到的,就像前面提到的吸烟导致肺癌,如果想要严格证明这一点,就必须找到若干对同卵双胞胎(确保他们的基因相似),让他们的饮食和活动完全一样。然后让其中一组吸烟,另一组不吸烟,同时确保他们相互不知道这是在测试(确保对照试验的公正性),最后只有吸烟组得了肺癌才可能通过数据证明吸烟真的导致肺癌。实验困难程度可想而知。所以我们在工作和生活中,不要轻易下因果关系的结论,相关性并不等于因果关系。

1.6.3 遗漏X变量——找到背后真实原因

我们在进行数据分析后发现几个数据之间存在相关性,虽然无法确认它们是因果关系,但在深入分析数据的过程中,我们有时能揭示相关的真实原因,从而解决问题。我把这个过程称为寻找遗漏的X变量。

这里有一个很有趣的例子,某岛上的居民有一个奇怪的信仰:他们坚信虱子有益于身体健康。因为经过数百年的观察,这里的人发现身体健康的人身上通常有虱子,而生病的人身上没有虱子。

科学家们也发现了同样的数据,但这并不代表岛上居民的“虱子让人健康”的信仰就正确。后来经过自然学家实地考察发现,原来这里几乎所有人的身上都有虱子,但如果有人发烧,随着体温升高,虱子会因为受不了高温而离开人体。

因此,看上去是虱子让人健康,其实是高温导致虱子不再栖息在人的身上。所以,岛上居民的结论应该是:看到身上没有虱子的人应该让他尽快就医,因为他生病了。原始部落没有体温计,这个结论的确可以帮助他们,而不是盲目地相信“虱子让人健康 ”。

再给你举个例子,现在大家都非常重视母乳喂养,但母乳喂养应该持续多久呢?世界卫生组织在《婴幼儿喂养指南》中建议母乳喂养两年或更长时间。相关研究也表明,与非母乳喂养的婴幼儿相比,母乳喂养的婴幼儿患某些传染病的风险更低,死亡率也更低。

然而,研究人员在一些研究中发现,对于接受母乳喂养时间更长的婴幼儿来说,营养不良的风险更高。这个结论正确吗?我们应该缩短母乳喂养的时间吗?1997年,美国约翰斯·霍普金斯大学的研究人员专门对此进行了分析,发现真实原因是收入较低的家庭通常其他食物非常有限,所以更倾向于接受更长时间的单一母乳喂养。

因此,没有充足的辅食才是导致婴儿营养不良的原因,现在新生儿家庭都已经知道,除了母乳喂养,后期增加辅食才能让孩子更健康。

当我们在日常生活和工作中发现两个数据强相关时,即使不能将它们视为因果关系,也可以顺藤摸瓜探索可能的原因,再通过业务逻辑或实验来验证这个可能的原因是否为真实原因。没有业务逻辑支持的数据,只是数字而已。没有数据支持的业务逻辑,也只是纸上的一张业务逻辑图。

但即使我们识别了两个事件的因果关系,也可能因为整体的对象选择、覆盖范围以及时间长度而做出错误的推断。下面介绍三个误区。

1.6.4 以偏概全——伯克森悖论

第一个误区是统计数据本身因果逻辑成立,但是以偏概全。统计学有一个特别著名的理论——“伯克森悖论”,描述的就是这个现象。

伯克森悖论指的是当不同个体被纳入研究样本的机会不同时,研究样本中的两个变量XY表现出统计相关,而总体中的XY却不存在这种相关性。听上去是不是有点复杂?没关系,下面通过两个具体的例子来帮助你理解。

第一个例子是著名的“海军与平民死亡率”。在1898年的美西战争期间,美国海军的死亡率是9%,而同期纽约市民的死亡率为16%。美国海军征兵部门就拿这些数据向公众宣传:加入海军其实比待在家中更加安全。

这个逻辑显然是错误的,但是错误不在于具体数据,而在于这两组数据其实没有可比性。因为海军的主要构成是年轻人,他们身强体壮,不会出现太多身体疾病;而纽约市民包括新出生的婴儿、老年人、病人等,这些人无论身处何处,死亡率都会高于普通人。

因此,不能简单地说参军比待在家中更加安全,同样也无法证明待在家中就比参军更安全,因为比对的对象不是同一个人群,这就是伯克森悖论。

同样,一些城市女孩会觉得对她热情的男生往往外表不够吸引人,外表帅气的男生对她则不够热情。但帅不帅并不是导致男孩热不热情的原因,实际上,只有外表帅气或者对女生热情的男生才有更多机会和女孩接触。如图1-19所示,仅从局部看整体,这样的逻辑是不对的。

图1-19

我们在工作中也会遇到类似的情况。例如,我们经常通过一些调查问卷采访一些使用者,以评估营销效果。

假设我们有以下用户访谈数据:购买某品牌产品的 100 人中,有 72% 的人表示在一个月内看过这个品牌的广告 ;而在未购买该品牌产品的 300 人中,有 76% 的人表示在一个月内没有看到过这个品牌的广告。

通过这些数据我们能获得什么呢?我们可以得出结论说广告提高了我们的用户转化率吗?不可以,因为实际购买的人会对广告更有印象,而没有购买的人也许看了广告,只不过没有印象而已。因为统计范围不同,所以我们不能根据这些数据给出用户转化率较高的结论,然后大幅提高广告投放。

即便数据看上去存在因果关系,我们还要确保数据集的可比性,这样才可以得出最终的结论。

1.6.5 控制数据范围——神枪手谬误

神枪手谬误是一种典型的由控制数据范围而导致错误的数据逻辑。这种谬误在生活中很常见,所以我在这里再强调一下。

有时,统计结果可能是被操纵的,操纵者将某些机缘巧合之下得到的比较好的结果的相关数据放到一起,以证明一个不成立的观点,如果你更换一组数据,就没有办法证明这个因果关系。例如一些小众的牙膏制造商,为了证明自己的牙膏比其他牙膏有效果,只把好的结果公之于众。同样,一些“伪学术论文”引用的数据可能也不是基于多次统计的结果,而是仅选取最优的结论给出。

因此,在查看最终数据分析报告时,一定要警惕它的数据是不是先有枪眼再画的靶子,或是先找到满意的结果再给你展示统计数据。我们需要的是基于大量的随机样本得出的结果。

1.6.6 时间长度不足——替代终点问题

在分析和统计数据时,时间长度不足也会造成数据统计结果不准确,这在学术上叫作“替代终点问题”( surrogate endpoint problem)。

例如我们想要检测某种药物是不是可以延年益寿,就需要投入大量的时间和资金,因为我们必须等待服用药物的人去世后才能知道药物对他们寿命的影响。

因此对于现在各种各样的保健品,如果它们的主要卖点是可以延年益寿的话,那么很大程度上是在收割“智商税”,因为这种测试难以完全实现。即使服用这些保健品的人最终长寿,也不能代表两者之间存在因果关系,而可能只是前面提到的相关性。

同理,风险投资人在选择创业公司时,往往依赖大方向判断和团队辨识,而不是依赖具体数据来表明某创业公司是否可靠。因为创业公司成立的时间较短,其数据往往不能代表趋势,这就是替代终点问题。

小结

学习了因果陷阱之后,让我们重新审视本节开头的那些问题。

打篮球真的能让人长高吗?这很可能是因为长高的人都会去打篮球,而不是打篮球让人长高——因果倒置。

喝咖啡可以长寿吗?经常喝咖啡的人一般是白领,他们的营养供给更高,所以他们长寿,而不是因为喝咖啡让他们长寿——相关性而非因果关系。

吃不吃早餐其实与你肥不肥胖没有什么关系,运动习惯和健康状况才与你的肥胖有关系——相关性而非因果关系。

爱笑的女孩通常运气都不会太差?事实上可能是因为运气好,她们才更爱笑——因果倒置。

会撒娇的女人更好命?女人的命运其实与她的伴侣或者周围的人和环境有关系,而不仅仅是她会撒娇——需要找到遗漏的X变量。

在本章前面部分,我介绍了很多数据分析方法,你可以迅速将这些方法应用到自己的工作中。本节其实是换了个思路,强调了数据本身的局限性。数据相关并不等于因果关系,对于数据分析和决策来说,我们需要懂业务,才能揭示真相,否则很容易被数据误导。

数据分析就像一门中西医结合的医学,既要求你掌握数据分析方法,也要求你熟悉算法模型和工具。最终,它要求你像老中医一样,能够对业务有深刻的理解和把握,才能得出正确的结论。

思考

本节讨论了因果与相关性之间的区别和数据分析误区,那么你觉得星座真的可以决定个体性格吗?你觉得这是一个什么类型的问题呢?

相关图书

AI Agent 开发实战:MCP+A2A+LangGraph 驱动的智能体全流程开发
AI Agent 开发实战:MCP+A2A+LangGraph 驱动的智能体全流程开发
计算流体力学大串讲轻松解锁CFD     从公式到代码的奇妙之旅
计算流体力学大串讲轻松解锁CFD 从公式到代码的奇妙之旅
计算机组成原理(基于x86-64架构)
计算机组成原理(基于x86-64架构)
内网攻防实战图谱:从红队视角构建安全对抗体系
内网攻防实战图谱:从红队视角构建安全对抗体系
Joy RL:强化学习实践教程
Joy RL:强化学习实践教程
Coze入门:7天玩转扣子智能体
Coze入门:7天玩转扣子智能体

相关文章

相关课程