人工智能初学者指南

978-7-115-51378-6
作者: [美]约翰·保罗·穆勒(John Paul Mueller )[法]卢卡·马萨罗(Luca Massaron)
译者: 张燕妮 刘芳 李林朋
编辑: 胡俊英

图书目录:

详情

本书从多个维度来介绍人工智能,全书共计20章,分为6个部分,分别从人工智能简介、人工智能的用途、人工智能软件、人工智能硬件、人工智能的未来、人工智能对社会的贡献等方面介绍了人工智能。本书适合对人工智能感兴趣的各类人士阅读,全书内容丰富,讲解细致,能够让读者全面地了解人工智能,为其进一步深入人工智能领域打下良好的基础。

图书摘要

版权信息

书名:人工智能初学者指南

ISBN:978-7-115-51378-6

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

著    [美]约翰·保罗·穆勒(John Paul Mueller )

     [法]卢卡·马萨罗(Luca Massaron)

译    张燕妮 刘 芳 李林朋

责任编辑 胡俊英

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315


John Paul Mueller and Luca Massaron

Artificial Intelligence For Dummies

Copyright © 2018 by John Wiley & Sons, Inc.

All right reserved This translation published undcr liccnse.

Authorized translation from the English language edition published by John Wiley & Sons.Inc.

本书中文简体字版由John Wiley & Sons公司授权人民邮电出版社出版,专有出版权属于人民邮电出版社。

版权所有,侵权必究。


“达人迷”图书是畅销欧美近30年的经典书系,得到了亿万初学者的认可。本书秉承了“达人迷”系列图书一贯的优点,既简洁易懂又能够广泛地带领读者了解并学习到人工智能相关的知识要点。

2017年被称为“AI应用的元年”,这意味着人工智能正在迎来技术的革命,同时也在吸引着越来越多的人才进入。如何紧跟时代的步伐,跨入AI新纪元,变得愈加重要。本书由浅入深地带领读者揭开人工智能神秘的面纱,涉及算法、软硬件、自动化、AI医疗、数据分析、机器学习、深度学习、机器人、无人机、自动驾驶汽车、AI寒冬、太空中的AI等热点话题,同时以事实依据破除AI炒作,帮你清楚地认知真实的人工智能。

本书内容深入浅出,适合人工智能初学者、对人工智能感兴趣的读者、普通高校学生以及想要在该领域投资或想转行进入人工智能领域的读者阅读。


John Mueller是自由撰稿人和技术编辑。至今他已经出版了100多本书和600余篇文章,主题涵盖网络、人工智能、数据库管理以及具体编程等。他近期的著作囊括数据科学、机器学习和算法等主题。他作为技术编辑帮助70多位作者改进了他们手稿的内容。John还为各种杂志提供技术编辑服务,提供各种咨询,并编写认证考试题目。感兴趣的读者可以访问他的博客,你也可以通过John@JohnMuellerBooks.com联系到他。

Luca Massaron是一位专门从事多元统计分析、机器学习和消费者洞察的数据科学家和市场研究总监,具有10多年的解决现实问题的经验以及通过应用推理、统计、数据挖掘和算法为利益相关者提供数据的经验。他对有关数据和分析的一切充满热情,并热衷于向专家和非专家展示数据驱动的知识发现的潜力。Luca Massaron和John Mueller合作编写了多本图书,例如Python for Data Science For Dummies、Machine Learning For Dummies以及Algorithms For Dummies。他非常推崇极简理念,他相信通过简单的术语理解并实践相应学科的要点可以获得很多东西。


感谢我的妻子Rebecca,虽然她已经走了,但她的精神与我写的每一本书和页面上出现的每一个词同在。感谢她对我的信任和支持。

感谢技术编辑Russ Mullen,他的工作大大提升了本书内容的准确性和深度。Russ Mullen总是为我提供新的内容素材,他也会检查我所写作内容的准确性。

感谢我的经纪人(Matt Wagner),首先他帮助我拿到了出版合同,并处理了大多数作者没有真正考虑到的各种细节,有这么一个好的搭档真的太幸福了。

还有许多人通读或部分阅读了本书,以便帮助我改进方法,测试代码示例,并提供读者希望的输入。无偿志愿者提供的帮助太多,在此无法一一提及。在此特别感谢Eva Beattie和Osvaldo Téllez Almirall的付出,他们全程参与并阅读了整本书,还无私地献身于这个项目。

最后,我要感谢Katie Mohr、Susan Christophersen以及其他编辑和制作人员。


我首先要感谢我的家人:Yukiko和Amelia,感谢他们在我写作本书的几个月中,对我的支持和耐心的关爱。

我感谢Wiley的所有编辑和工作人员,特别是Katie Mohr 和 Susan Christophersen,他们在出版“达人迷”这套图书的所有阶段都表现出极强的敬业精神。


今天人们已经很难避免提及人工智能(AI),我们在电影、图书、新闻和网络中都能发现人工智能。人工智能是机器人、自动驾驶汽车、无人驾驶飞机、医疗系统、网上购物网站以及影响你生活方方面面的其他各种技术的一部分。

许多有关人工智能的真的、假的专家信息也铺天盖地而来。有些人认为人工智能是可爱的、模糊的, 另一些人则认为它是人类潜在的屠戮者。信息来源如此之广,因而你很难区分真实的和想入非非的产物。很多关于人工智能的宣传来自科学家、企业家和商人过度的、不切实际的期望。人工智能被人们声称是生活中必不可少的技术,如果你觉得自己好像真的不了解这个技术,那么你需要阅读本书。

选择媒介仅仅是一个起点,你可能会发现多数有用的技术都是枯燥的。当然没人会对它们吹毛求疵,人工智能更像是平凡的无处不在。今天,你可能正在以某种方式使用人工智能。事实上,你可能在很多不同的方面依赖人工智能,只是你没有注意到,因为它太平凡了。本书会帮你了解这些非常真实的、基本的人工智能用途。智能恒温器是一个普通的家用电器,但它却是一些人为之恐惧的人工智能技术的极为实用的产品。

当然,本书也涵盖了人工智能各种酷炫的用途。例如,你可能不知道有一种医疗监测设备竟能预测什么时候你的心脏可能会出问题,但它确实存在。人工智能助力无人机、自动驾驶汽车,并使所有类型的机器人成为可能。今天,你看到人工智能被用于各种太空应用,在人类未来的太空冒险中,人工智能将发挥更重要的作用。

与人工智能的很多书相比,本书也告诉你人工智能在哪里工作和如何工作的真相。事实上,人工智能从来不能从事某些基本的活动和任务,并且直到未来也不能完成某些其他任务。有些人试图告诉你,对人工智能来说某些活动是可能的,但本书将剔除所有炒作因素,告诉你为什么人工智能不可能从事这些活动。本书也将告诉你人类永远是最重要的,而事实上,人工智能将使人类变得更重要,因为某些方面的人工智能将帮助人类以无法想象的方式超越自我。

本书首先帮助你理解人工智能,尤其是人工智能在工作时需要什么以及为什么它过去失败了。你也会在本书中读到一些有关人工智能问题的基础知识以及为什么有些情况下这些问题几乎是无法解决的。当然,你也会发现一些问题的解决方案并了解科学家如何使用人工智能来寻求答案。

一门技术要生存,就必须有一组能实际工作的固定应用。对富有远见并投资该技术的投资者来说,他们要求有所回报。过去,人工智能没有获得决定性的胜利,就是因为它缺少某些特性。同时,人工智能也苦于无法获得超前发展:真正的人工智能需要等待当前硬件的发展以获得真正的成功。今天,你可以在各种计算机应用和自动化流程中发现人工智能。人工智能也被医疗领域所倚重,并被用于改善人机交互。人工智能也与数据分析、机器学习和深度学习有关。有时这些术语可能会令人困惑,但本书能够帮助你发现这些技术是如何相互关联的。

今天,人工智能有了一个真正光明的未来,因为它已经成为一项必不可少的技术。本书也将揭示未来人工智能可能发展的道路。本书讨论的各种趋势都基于现在人们真正想要做的方向。新技术虽然还没成功,但因为人们的不懈努力,总有一天会成功。

当你阅读本书时,会注意到空白处的图标,这些图标标识你可能感兴趣(有时也许不是)的资料,以下简要描述了书中的每种图标。

 

技巧非常重要,因为它们帮助你节省时间或执行某些任务而不需要大量的额外工作。本书提供的技巧主要是节省时间的技巧或资料链接(链接指向你为了从人工智能学习中获得更大的收益而应该了解的资源)。

 

虽然不想听起来像长辈的说教或某些人情绪激烈的控诉,但你应该避免做任何带有警告图标的事情。否则,你会发现自己陷于某种令人害怕的有关人工智能的虚假信息当中。

 

无论何时看到这个图标,你都要考虑还有更先进的技巧或技术。这些有用的信息也许包含了你需要创建或使用人工智能的解决方案,但你可能发现这些信息的相关文字太枯燥了。无论任何时候,只要你愿意,都可以跳过这些信息。

 

如果你没从某一章或某一节中得到任何其他的东西,请记住这个图标标记的内容。如果你要成功地与人工智能打交道,这段文字通常包含了你必须知道的基本过程或核心信息。

本书不是你的人工智能发现之旅的终点,它只是个开始。我们提供在线资源,以便本书更灵活、更好地满足你的需求。如果作者收到你的邮件,我们可以回答问题并告诉你人工智能或其相关技术的更新对本书内容的影响。事实上,你还可以获得所有下列超酷的资源补充。


备忘录:你还记得在学校里通过记笔记可以更好地掌握所学的知识么?很好,备忘录就像笔记。它为你提供一些其他人不知道的有关人工智能任务的特殊笔记。你可以在“达人迷”(Dummies)网站,通过搜索 “Artificial Intelligence For Dummies Cheat Sheet”,来得到本书的备忘录。 该备忘录包含了非常简洁的信息,例如所有与人工智能、机器学习和深度学习相关的缩略词和相关含义。

更新:变化时有发生,例如,当我们写这本书时,我们可能没有看到将要发生的变化。在过去,这将意味着本书将过时和不再那么有用,但现在通过在“达人迷”(Dummies)网站上搜索“ Artificial Intelligence For Dummies”,你将得到有关本书的更新内容。

除了这些更新之外,还可以在作者的博客中找到读者问题的答案和与本书相关的技术演示。


是时候开始发现人工智能,看看它能为你做什么了。如果你对人工智能一无所知,建议从第1章开始。你可能不想阅读书中的每一章,但是从第1章开始,能帮助你理解书中其他章节中所需要的人工智能基础知识。

如果你阅读本书的目的主要是了解今天人工智能被用于何处,建议从第5章开始。第2部分的材料将帮助你了解今天人工智能主要被用于何处。

拥有一些人工智能高级知识的读者可以从第9章开始,本书的第3部分包含了你将会用到的最先进的资料。如果你不想知道底层人工智能是如何工作的(不是作为一个开发者,而仅仅是一个对人工智能感兴趣的人),你可以跳过这一部分。

好的,如果你想知道今天或将来人们使用人工智能的超神奇的方式,仅此而已,那么建议你从第12章开始阅读。本书的第4部分和第5部分向你展示了人工智能不可思议的使用方式。第4部分主要是关于人工智能的硬件,第5部分则更关注人工智能未来的用途。


概要

发现人工智能可以为你做什么

考虑数据如何影响人工智能的使用

理解人工智能如何依赖算法有效地工作

看看专用硬件如何使AI更好地工作


本章概要

AI 的定义及其历史

在实践中使用AI

透视 AI 炒作

AI 与计算机技术

人工智能(AI)多年来有几次错误的开始和停滞,一部分原因是人们没有真正理解AI是什么,甚至不明白它能做什么。主要的问题是:电影、电视节目和书籍共同导致了人们对AI能做什么抱有错误的希望。此外,人类倾向于人性化(赋予人类特性)技术,使得AI似乎必须超其能力去做更多。所以本书开始的部分首先定义AI究竟是什么、它不是什么以及今天它如何与计算机联系在一起。

 

当然,你对AI的期望基于你如何定义AI、你所拥有的实现AI的技术以及你的AI目标。因此每个人眼中的AI都不一样。本书采用了折中的方案,尽可能从多个不同的角度观察AI。本书定义AI时,力争做到既不受鼓吹者的蛊惑,又不被诋毁者的消极情绪所影响,以便从技术的角度得到对AI的更好的理解。因此,你在本书读到的可能与你期望的有所不同,这很好,重要的是考虑技术真正能为你做什么而不是期望它做不可能的事。

在使用任何有意义和有用的术语之前,你必须先定义它。毕竟如果没有人同意其含义,那么这个词就仅仅是一个字符集合,而不是一个术语。使用在不同时期以不同方式经常出现在新闻中的技术术语来定义习语(单从它的组成成分来看,其意义并不清晰)非常重要。

 

说AI是人工智能,这并没有真正告诉你任何有意义的事情,这也是为什么针对这个词有这么多的讨论和分歧的原因。当然,你可以说人工的(artificial)意味着人为的,不是来源于自然资源。但智能(intelligence)一词充其量是模棱两可的。即使你不一定同意下面章节中AI的定义,但本书是基于此定义来使用AI这个词,所以了解这个定义将帮助你更容易理解书中的其他部分。

人们用多种方式来定义智能(intelligence),但你可以认为智能包括下列活动中的智力行为。

列表容易变得很长,但即使是这样也比较容易被任何接受它的人解释为可行的。正如你从列表中看到的,智能通常伴随着计算机系统所能模仿的过程,是仿真的一部分。

(1)根据需要设定目标。

(2)评估所支持目标的所有当前已知信息的价值。

(3)收集可以支持目标的附加信息。

(4)处理数据使其形式与现有信息的形式一致。

(5)定义现有信息和新信息之间的关系和真值。

(6)确定目标是否实现。

(7)根据新数据和新数据对成功概率的影响来修改目标。

(8)根据需要重复步骤2~步骤7,直到实现目标(目标可真实实现)或耗尽实现目标的可能性(目标不可能实现)。

 

即使你能创建算法并提供数据访问来支持计算机的处理过程,但计算机实现智能的能力仍是严重受限的。例如,计算机无法理解任何东西,因为它依赖于机械过程,该过程以严格的机械方式使用纯数学来操作数据。同样,计算机不易分辨真理与谬误(详见第2章)。事实上,没有计算机能够完全实现智能列表中描述的任何心理活动。

作为智能真正包含的一部分,对智能进行分类也是很有帮助的。人类不是只使用一种智能,而是依靠多种智能来完成任务。

哈佛大学的Howard Gardner已经定义了很多类型智能,了解它们有助于将其与计算机能模拟的智能任务的类型联系起来(表1-1 列出了这些智能类型的改良版并辅以说明)。

表1-1 智能类型

类型

模仿潜力

人类工具

描述

视觉空间

模型、图形、图表、照片、绘图、三维建模、视频、电视和多媒体

类似水手和建筑师等人所使用的物理环境智能。为了能够移动,人类需要了解他们的物理环境——也就是维度特征。每个机器人或便携式计算机智能都需要这种能力,但这种能力往往难以模拟(如自动驾驶汽车)或精度较差(就像扫地机器人,它们的智能移动依赖于碰撞)

身体协调

中到高

专业设备和实物

就像外科医生或舞蹈演员的身体运动,需要精确的身体意识。机器人通常使用这种智能来执行重复任务,通常比人类具有更高的精度,但有时不那么优雅。重要的是区分人类能力的增强(如外科手术装置可增强外科医生的体能)与真正独立的运动,前者仅仅是数学能力的证明,因为它依赖于外科医生的输入

创造性

艺术作品、新思维、新发明、新乐曲

创造力是发展新的思维模式的行为,它会产生艺术、音乐和写作形式的独特作品。真正意义上的新产品是创造力的结果。AI可以模拟现有的思维模式,甚至可以组合现有的思维模式以创建看似独特的模式,但实际上只是基于现有模式的数学运算版本。为了创造,人工智能需要拥有自我意识,这需要内省智能

人际关系

低到中

电话、声频会议、视频会议、写作、计算机会议和电子邮件

与他人的互动发生在多个层面,这种形式的智能可以基于别人的经验获得、交换、给予和处理信息。计算机能够回答基本问题是基于输入的关键字,而不是因为它们理解问题。获取信息并定位恰当的关键字,然后基于关键字提供信息是一种人际关系智能行为。在查找表中交叉引用术语,然后根据表所提供的指令来演示逻辑智能,不是人际关系智能行为

内省

书籍、创意材料、日记、隐私和时间安排

了解自己的兴趣,并基于这些兴趣设定目标是只有人类才拥有的智能。计算机只是机器,它没有欲望、兴趣、想法和创造力。AI使用一组算法处理数字输入并提供输出,它不明白它所做的任何事情,也不理解它所做的任何事情

语言

游戏、多媒体、书籍、录音机和口语

文字是沟通的必要工具,因为口头和书面信息交流比任何其他形式都快得多。这种形式的智能包括理解口头和书面的输入,根据输入得到答案,并提供一个可理解的输出。多数情况下,计算机几乎不能将输入解析为关键字,完全不能真正理解请求,其输出响应也可能完全无法理解。人类的口头和书面语言智能由大脑的不同部位控制,这意味着,即使是人类,那具有较高书面语言智能的人也不一定同样具有较高的口头语言智能。计算机目前不具备区分书面和口头语言的能力

逻辑数学

逻辑游戏、调查、谜团和脑筋急转弯

计算结果、执行比较、探索模式和查找关系是计算机当前所擅长的领域。当你看到在一场游戏中计算机战胜了人类,这主要是因为7种智能类型中的逻辑数学智能。当然,你可能还会看到其他类型的智能,但逻辑数学智能是重点。仅仅在一个领域对人类和计算机的智能进行评价并不是个好主意

正如前一节所描述的,首先要理解的概念是AI与人类智能没有真正的关系。当然,一些AI被建模为模仿人类智能,但仅是模仿而已。想到AI时,需注意到目标探索、用于达成该目标的数据处理和为了更好地理解目标的数据获取之间的相互作用。AI根据算法得到一个结果,该结果可能与人类的目标或实现这些目标的方法无关。基于此,可以将AI分为4种。


人类过程与理性过程

人类处理过程跟理性处理过程的结果并不相同。之所以说一个过程是理性的,是因为它总是能基于当前信息,给出理想的权衡,做正确的事情。简而言之,理性过程就是遵照书本,并假设书本是真正正确的。人类处理过程包括本能、直觉和其他不一定出现在书本中的因素,有些甚至没有体现在现存数据中。举例来说,理性驾车总是遵循法律。然而,交通不是理性的。如果你严格遵守法律,最终可能会因为别的司机不严格遵守法律而被困住。为了成功,自动驾驶汽车必须像人一样灵活驾驶而不是理性驾驶。


定义人工智能的类别提供了一种考虑AI用途和应用方式的方法。一些用于分类AI的系统是模糊不清的。例如,有的将AI分为强的(能适应各种情况的通用智能)或弱的(设计为执行特定任务的具体智能)。“强”人工智能的问题在于它不能执行好任何任务。而“弱”人工智能则太具体,无法独立执行任务。将AI分为两种类型,即使在普通情况下也不能满足需求。由Arend Hintze推广的4种分类方法为理解AI提供了更好的基础。

本章的前面几节有助于从人类的角度理解智能,了解现代计算机完全不能模拟这种智能,更不用说让它们自己变得智能化。然而创造智能机器的愿望由来已久,跟人类一样古老。在宇宙中不感到孤单是一个强烈的愿望,人类希望有机器能与之交流且没有人类之间交流的矛盾。当然,一本书不能涵盖整个人类历史,所以下面章节简要概述了现代AI探索与发展的历史。

早期的计算机仅仅是:计算工具。它们模仿人类的运算能力,以便执行基本的数学任务,如加法运算。逻辑推理是后来增加的能力,能通过比较(如确定一个值是否大于另一个)进行数学推理。然而,人类仍需要定义执行运算的算法,以正确的格式提供所需的数据,然后解释结果。在1956年夏天,多门学科的科学家参加了在达特茅斯学院举行的研讨会。他们预测要研发出像人类一样思考的机器至少需要一代人的努力,但他们错了。直到现在,我们才意识到机器能像人类一样有效地进行数学运算和逻辑推理,但计算机在达到与人类接近的智能水平前,必须掌握至少6种智能。

达特茅斯学院陈述的问题和其他与硬件相关的努力都剑指硬件,即运算处理能力必须足够快,以便创建模拟。然而,这并不是问题的全部。硬件虽在考虑的范畴中,但你不能模拟自己不理解的过程。即便如此,AI今天有些成绩还是因为硬件最终强大到足以支持所需的计算。

 

这些早期尝试中最大的问题(今天仍然是应注意的问题)是我们没有很好地理解人类的推理过程以便创建各种模拟过程,即使这种模拟是可能的。再次探讨本章早些时候描述的载人飞行问题。莱特兄弟的成功是因为理解了鸟的飞行原理而不是简单的模仿鸟类,从而创建了空气动力学学科。因此,当有人说下一个AI伟大变革即将到来,却没有具体说明可能涉及的过程,那么变革很快到来是不可能的。

专家系统首次出现在20世纪70年代,并在20世纪80年代因为使用专家知识来减少AI带来的计算要求而再次获得发展。这个时期涌现了一批有代表性的专家系统,包括基于规则的(使用if...then凭借经验进行决策)、基于框架的(将通用信息组织为相关层次的数据库,称为框架)和基于逻辑的(依赖于集合理论来建立关系)。专家系统的出现非常重要,因为它们是第一个真正有用并成功实现的AI。

 

今天,你仍能在实际应用中看到专家系统(虽然它们不再被称为专家系统)。例如,应用程序中的拼写和语法检查就是一种专家系统。尤其语法检查器更是典型的基于规则的专家系统。在这个方面,值得我们细心发现,以便了解专家系统在日常应用中仍存在的实际使用。

专家系统的一个问题是它们很难创建和维护。早期用户必须学习专门的编程语言如List Processing(LisP)或Prolog。一些供应商看到了商机,通过提供类似VP-Expert(依赖基于规则的方法)的产品,使经验不足的或还是新手的程序员也能创建或维护专家系统。然而这些产品通常使用极少的知识库提供极其有限的功能。

在20世纪90年代,专家系统这个术语开始消失,出现了专家系统失败了的说法,但事实是,专家系统如此成功以至于它们与所支持的应用程序已经融为一体。以字处理器为例,你曾经需要单独购买语法检查程序如RightWriter,但现在字处理器都内置了语法检查器,因为经证明语法检查器虽然并不总是准确但非常有用。

AI的冬天是指投向AI的资金被缩减的时期。通常在AI的发展中,AI支持者们夸大其词,引诱有很多钱但没有技术知识的人进行投资。当AI没有达到预期时,就会引来批评,并最终导致投资缩减。多年来,这样的周期不断重复,不断地破坏真正的进步。

因为机器学习的出现,AI正处在新一轮的炒作阶段。机器学习是帮助计算机从数据中学习的技术。让计算机从数据中学习意味着不是依赖于人类程序员来设置操作(任务),而是从演示计算机如何运行的例子中直接学习如何操作。这好比通过示范来教育孩子应该如何去做。机器学习是有缺陷的,因为计算机经过粗略的学习后,可能学到的是不正确的操作。

研究机器学习的科学家分为5派,每一派都基于不同的视角(详见本章后面的1.4“避免AI炒作”部分)。现在最成功的是深度学习,它是一种力图模仿人脑的技术。深度学习是可行的,因为有功能强大的计算机和更聪明的算法,社会数字化产生的大数据集以及来自谷歌、脸书、亚马逊和其他从AI复兴中受益的企业的巨额投资。

人们说因为深度学习的出现,AI的冬天已经过去,现在这是事实。然而,当你环顾四周去观察人们看待AI的方式时,你很容易就会发现,除非支持者降低华而不实的说法,否则最终会进入另一个批评阶段。AI可以做令人惊奇的事情,但只是寻常的惊奇,正如下节所述。

今天,你会发现AI有很多实际用途。唯一的问题是AI工作得太好,以至于你都没意识到它的存在。事实上,你可能会很惊讶地发现家中的很多设备都已经使用了AI技术。例如,一些智能恒温器能根据你手动控制温度的习惯来为你创建温度设置方案。同样,用于控制某些设备的语音输入设备会学习你说话的方式以便能更好地与你交互。AI肯定会出现在你的车里,也一定会出现在你的工作场所。事实上,AI的应用数以百万计。即使AI应用在自然界中相当戏剧化,却容易被人们视而不见。下面是几种你可能会看到的AI的使用方式。

本章提过很多次AI炒作。然而,本章并没有解开所有炒作的面纱。如果你看了电影如“她(Her)”和“机械姬(Ex Machina)”,你可能会被导向认为AI比其实际更强大。问题是,实际上AI尚在幼年阶段,而电影里所演示的任何应用都是过度活跃的想象力的创造性输出。

你可能听说过“奇点”,它代表了媒体或电影中暗示的时刻。“奇点”的本质是机器学习中的五大学派的主算法,为了理解资源,机器必须像人类一样学习,使用本章前面1.1.1节中所讨论的7种智能。以下是机器学习的五大学派。

机器学习的最终目标是组合五大学派的技术和策略,以创建一个可以学习任何事情的单一算法(主算法)。当然,实现这一目标还有很长的路要走。即便如此,像Pedro Domingos一样的科学家仍在向着这个目标不懈努力。五大学派可能无法提供足够的信息来实际解决人类的智力问题,反而使事情变得更不清楚,所以为五大学派创建主算法可能仍不会产生“奇点”。基于这一点,你可能会惊讶有多少人不知道他们自己如何思考或者为什么他们会以某种方式思考。其实,任何你听到的有关AI能统治世界或AI比人类更先进的说法都是假的。

你需要有某种计算系统、一个包含所需软件的应用程序和一个知识库,才能使AI工作。计算系统可以是内置芯片的任何系统。事实上,对某些应用程序来说智能手机就像台式电脑一样。当然,如果你是亚马逊(Amazon),你想为特定顾客的下一次购买决定提供建议,智能手机就不行了,因为你需要一个很强大的计算系统以支持这个应用。计算系统的大小与你预期AI执行的工作量成正比。

应用程序也可能在大小、复杂度,甚至位置上发生变化。例如,你是一个企业,你想分析客户数据以便决定如何更好地宣传自己,你可以依靠基于服务器的应用程序来执行这个任务。另一方面,如果你是客户,你想在亚马逊上找到自己想购买的产品,不需要调用计算机上的程序,亚马逊服务器上的基于Web的应用程序将帮助你实现这个功能。

知识库的位置和大小也是变化的。数据越复杂,你从中获取的就越多,但需要操作的也越多。在知识管理方面,天下没有免费的午餐。位置和时间之间的相互作用也很重要。网络连接允许你在线访问大量知识库,但网络连接的延迟也花费了时间。相对来说,本地数据库虽然很快,但多数情况下容易缺乏细节。


本章概要

将数据视为通用资源

获取和操作数据

查找数据的谬误

定义数据获取限制

数据不是一个新概念,每个计算机应用程序都有与之相关的数据。数据的形式多种多样,有些有组织结构,有些则没有,但数据量发生了变化。有人发现今天我们获取的数据如此之多,多到令人害怕,并且几乎涉及多数人生活的方方面面,有时人们甚至没有意识到这一点。此外硬件的进步和算法的改进使得数据成为当今AI的通用资源。

在使用数据前,首先要获取数据。今天,应用程序既像以前一样手动地收集数据,也使用新方法自动地收集数据。然而这不是一个一种收集技术到两种收集技术的问题,收集方法正在逐渐从全手工变为全自动。

原始数据直接用于分析,通常效果不好。本章还将帮助你了解操作、整理数据以便满足特定要求的必要性。你还将了解定义数据真值以便保证分析结果与应用程序的最初目标相匹配的必要性。

有趣的是,你也会遇到数据采集受限制的问题。目前还没有技术能通过心灵感应来获取人的思想。当然还有别的限制,多数你可能已经知道但可能还没考虑过。

大数据革命不仅仅是厂商用于表示存储数据、分析数据新方法的流行词,它已经是一个日常现实和时代的驱动力。你可能已经从科学的或商业的出版物中听说过大数据,甚至想知道这个术语的真正含义。从技术的角度来说,大数据指的是大量的、复杂的计算机数据,庞大和复杂到应用程序不能通过使用额外存储或提高计算机性能来处理的大数据。

大数据意味着数据存储和操作的革命。它影响你能从数据中能获取什么(除了做得更多,你可以完成得更好)。从人类的角度来看,计算机使用不同的格式来存储大数据,但对计算机来说,数据只是0和1组成的数据流(计算机核心语言)。根据如何产生和使用数据,你可以将数据视为结构化数据和非结构化数据两种。有的数据结构清晰(你清楚地知道它包含什么,以及哪里能找到需要的数据片段),而有的数据是非结构化的(你知道它包含什么,但却不知道它是如何组织的)。

典型的结构化数据是数据库表,数据表中的信息被排列成列,每列包含一种特定类型的信息。数据结构通常是经过设计的,你有选择地收集数据并将它记录在正确的位置。例如,你可能想在特定数据库的特定表的特定列中存放购买某个产品的人数。就像图书馆一样,如果你知道自己需要什么数据,就可以立即找到它。

非结构化数据包括图像、视频和声音等记录。你可以使用非结构化的形式存储文本,以便能标记它的大小、日期和内容类型等特征。通常,你不知道数据在非结构化数据集中出现的位置,因为数据是由0和1组成的数据序列,这个数据序列能被应用程序解释或可视化。

  

将非结构化的数据转换为结构化的数据需要花费大量的时间和精力,并且可能涉及很多人的工作。大数据革命中的多数数据是非结构化的原样存储,除非某人使它结构化。

丰富而复杂的数据存储不是一夜之间冒出来的。开发存储大数据的技术花费了很长时间。此外还需要花时间来扩散产生和传输数据的技术,也就是计算机、传感器、智能手机、因特网和万维网服务器等。接下来的部分将帮助你理解今天是什么使数据成为了通用资源。

1965年,因特尔和仙童半导体公司(Fairchild Semiconductor)的创始人戈登·摩尔(Gordon Moore)发表了一篇题为(Cramming More Components Onto Integrated Circuits《在集成电路上增加更多组件》)的文章,其中写到:在接下来的10年里,集成电路上的组件的数量将每年翻倍。那时,主要的电子器件是晶体管。集成电路(IC)中能集成更多晶体管意味着电子设备的功能更强、更实用。这个过程被称为集成化,是一个电子器件小型化的过程(使相同电路更小)。今天的计算机并不都比10年前的计算机小很多,但它们确实能力更强。移动电话也是一样的。虽然它们的尺寸与以前的移动电话一样,但它们能够完成更多任务。

多年来,摩尔在文章中所说的成为了事实,半导体行业称之为摩尔定律。正如摩尔所预测的,头10年里,每年组件数量都翻倍了。1975年,摩尔修正了他的声明,预测组件数量将每两年翻一倍。图 2-1 显示了翻倍的效果。翻倍率仍然有效,但普遍认为不会持续太长时间,顶多到2020年左右。从2012年开始,半导体公司可以实现的小型化与预期的速度增长开始不匹配。

图2-1 CPU中集成越来越多的晶体管

在使用二氧化硅成分的集成电路上集成更多元件存在物理障碍,因为你只能将器件做这么小。然而,正如文章The chips are down for moore’s law中所描述的,创新仍在继续。未来,摩尔定律可能不再适用,因为工业将转向使用一种新的技术(例如使用光学激光器代替晶体管制作元件)。重要的是,自1965以来,每两年增加一倍的组件,在数字电子领域取得了巨大进步,在数据的采集、存储、操作和管理方面产生了深远的影响。

摩尔定律对数据有直接影响。从更智能的设备开始。设备越智能,扩散越广(今天无处不在的电子设备即是证据)。扩散越广,价格就越低,创建了一个无止境的循环,促使功能强大的计算器和小传感器的应用无处不在。随着计算机内存的增大和存储数据的硬盘容量变大,数据的可用性进一步得到了扩展,例如网站、交易记录、测量、数字图像和其他类型的数据。

科学家因为要进行科学实验,所以需要比普通人更强大的计算机。在没有人发明大数据这个术语之前,他们已经开始处理大量的数据,那时因特网并没产生像今天一样多的大量数据。记住大数据不是软件和硬件供应商创造的流行词,而是拥有很多科学领域的基础,如天文学(太空任务)、卫星(监视和监视)、气象学、物理学(粒子加速器)和基因组学(DNA序列)。

虽然AI应用可以专门研究一个科学领域,例如IBM的Watson,它拥有令人印象深刻的医疗诊断能力,因为它可以从数百万份关于疾病和医学的科学论文中学习,实际AI应用程序通常比较平凡。实际的AI应用主要是识别物体、沿着路径移动或理解人们对它说的话。数据对实际AI复兴的贡献并非来自经典科学的数据源。

现在,因特网产生和传播大量的数据。我们现在每天产生的数据量大概是2.5×1018字节,大部分是非结构化数据,如声频和视频。所有这些数据都与人类的日常活动、情感、经历和关系有关。通过分析这些数据,AI很容易学习像人一样推理和行动。下面是一些有趣的关于数据的例子。

每天,用户使用多个设备连接到因特网,这些设备会存储新的个人数据。现在有一些置于家中的私人助理,如Amazon Echo 和其他集成的智能家居设备能够方便地调节居家环境。这些仅仅是冰山一角,因为许多其他日常生活的常用工具正在相互连接(从冰箱到牙刷),并且能够处理、记录和传输数据。物联网(Internet of Things, IoT)正在成为现实。专家估计,到2020年互联的设备将是人口数的6倍,而研究团队和智囊团已经在重新审视这些数据。

人类正处于前所未有的数据量中,这些数据由越来越小但功能强大的硬件产生。这些数据越来越多地被计算机处理和分析,这有助于数据的传播与发展。数据无处不在,以至于它的价值不再只限于它包含的信息(例如存在公司数据库中的数据控制着公司的日常操作),还可以用于创建新值。这样的数据被称为“new oil”,这些新的价值主要取决于应用程序如何修理、存储和检索数据,以及如果借助智能算法可以真正地使用它。

算法和人工智能改变了数据游戏。正如前一章提到的,人工智能的算法已经尝试了多种不同的方法,从简单算法到基于逻辑的符号推理,再到专家系统。近年来,又转为神经网络,其中最成熟的形式是深入学习。随着这一方法的出现,数据从由预订算法处理的信息变为将算法塑造成有效算法的工具。数据从原材料变成了解决问题的工匠,如图 2-2所示。

图2-2 目前的人工智能解决方案中,更多数据意味着更加智能

例如,你的小猫照片变得越来越有用,不仅是因为它能描述可爱的小猫,而且是因为它能够成为AI学习中的一部分,以帮助AI发现更多的一般概念,例如什么特征代表一只猫,或者理解什么是可爱。

很大程度上,像谷歌这样的公司可以利用免费数据(如网站内容或公开的文本和书籍中的内容)训练自己的算法。谷歌的蜘蛛软件爬行网络,在网站间跳转,检索网页的文本和图像内容。谷歌将部分数据作为搜索结果返给用户的同时,也使用人工智能算法从数据中提取其他信息,并从中学习以实现其他目的。

处理词的算法能帮助谷歌人工智能系统理解和预测你的需求,即使你没有使用一组关键词而是使用平常的、不清晰的自然语言(我们日常使用的语言,通常是不清晰的)来描述你的需求。现在,如果你尝试不使用关键词来向谷歌搜索引擎提出问题,你会发现它通常能回答正确。自2012年以来,随着蜂鸟(Hummingbird)更新的引入,谷歌能更好地理解同义词和概念,这已经超出了其获得的原始数据,而是人工智能的结果。谷歌使用的一种更先进的算法名为RankBrain,它直接从每天数百万的查询中学习,并回答模糊或不清晰的搜索查询,即使查询使用了俚语、口语或有错误。RankBrain 尚未处理所有的查询,但它从数据中学习如何得到更好的搜索结果。目前它已经处理了谷歌搜索引擎的15%的查询,在未来,这个百分比可能会是100%。

仅有大量的数据尚不足以创造一个成功的人工智能算法。现在,人工智能算法不直接从原始数据中提取信息。大多数算法依赖外部收集和分析前的操作。当一个算法收集有用信息时,它可能不代表正确的信息。接下来的部分将从全局的角度帮助你理解如何收集、操作和自动化数据收集。

数据来源广泛,最普通的数据资源来源于人们某一时刻输入的信息。即使当一个系统自动收集购物网站的数据时,人们最初也会输入信息。顾客点击各种物品,将它们加入购物车,指定特征(如尺码)和数量,然后付款。购物后,顾客会对购物体验、产品质量、快递服务进行评级并作出评论。简而言之,每次购物体验也是一个数据收集过程。

今天很多数据资源来源于人类的输入,人类也提供手动输入。你打电话或去办公室找专业人员会晤,接待员收集你会晤的相关信息。这种人工收集的数据最终会录入以分析为目的的数据库。

数据也由传感器收集,这些传感器可能以任何形式存在。例如,许多设备基于物理数据收集,例如手机检测正在窗口中查看对象的人数。人脸识别软件能潜在地识别重复的顾客。

然而,传感器几乎可以从任何事物中创建数据集。天气预报服务依赖检测环境情况的传感器创建的数据集,这些传感器检测降雨、温度、湿度和云层等环境数据。机器人监控系统通过不断地分析监测传感器收集的数据来帮助纠正机器人操作中的小缺陷。一个传感器配上一个小的人工智能应用程序,可以告诉你今晚晚餐什么时候烹饪好。传感器收集数据,而人工智能程序应用规则来帮助确定何时烹调好食物。

“可靠”这个词看似很容易定义,实则很难。当产生的结果与预期的一致时,可认为是可靠的。可靠的数据源会产生平淡无奇的数据结果,没人会被结果震惊。以你的观点,多数人在复查数据时不打着哈欠然后睡着,就算好事了。种种意外使数据值得分析和复查。因此,数据具有二元性。我们需要可靠的、平凡的、完全可以预期的数据来证实我们已经知道的,但意想不到的数据才是收集数据的意义所在。

不过,因为你不想数据远远超出常规,所以数据必须经过严格的复查。在获取数据时,必须保持平衡。数据必须符合一定的限制(详见本章2.3节)。它也必须符合具体的判断准则(详见本章2.4节)。数据必须以预期的间隔出现,并且所有输入的数据记录的字段必须是完整的。

  

在某种程度上,数据的安全性也会影响数据的可靠性。数据的有效性有几种形式,当数据到达时,你能确保它在预期范围内并以特定的形式出现。但存储之后,除非你能保证数据保持预期的形式,否则可靠性会降低。篡改数据的实体会影响可靠性,使数据不可靠,以后可能无法用于分析。确保数据的可靠性意味着获取数据后,没有人篡改它,以便使其符合预期值(使结果平凡并符合预期)。

人类会犯错,这是人的特质之一。事实上,指望人类不犯错是不合理的。然而,很多应用程序设计假定人类不会犯任何类型的错误。设计期望每个人都会遵守规则。然而,绝大多数用户在做对其没有直接帮助的事情时,会因为忙或没时间而压根不阅读规则。

对于将州名输入表单的例子,如果你只提供了文本字段,一些用户可能输入整个州的名字,如Kansas。当然,有些用户可能会拼错词或大写出错,如Kansus 或 kANSAS。再考虑其他可能的问题,人们和机构有各种方式来完成任务。出版业的人可能使用美联社(AP)风格输入Kan。有些年龄较大且习惯政府印刷局(GPO)风格的人可能输入Kans。相对应的还有一些其他缩写。美国邮政局(USPS)使用KS,但美国海岸警卫队使用KA。同时国际标准化组织(ISO)使用US-KS。请注意,这仅仅是一个州名的输入,或者在你阅读本节前,你会认为这相当简单。很显然,州名不会随意改变,你可以在表单上提供一个下拉列表框以便用户选择特定格式的州名,从而一举消除缩写不同,拼写错误和大写错误等问题。

  

下拉列表框可以很好地处理数据输入中数组类数据问题。使用下拉列表框可以保证人们在输入这些字段时非常可靠,因为他们只能选择某一项默认条目。当然,仍会有人选择错误的条目,这时双重检查就发挥了它的作用。一些新的应用程序会将ZIP(邮政编码)与城市和州的条目进行比较,以查看是否匹配。如果不匹配,用户会被要求再次提供正确输入。这种双重检查很烦人,但用户不太可能经常遇到它,所以它不会太烦人。

即使有交叉检查和静态输入,人类仍然有足够的空间来犯错。例如,数据输入也可能有问题。当用户需要输入2.00,你可能会看到2或2.0或2.,或任何其他可能的条目。幸运的是,输入解析和重新格式化将解决这个问题,你可以在没有用户帮助的情况下,自动执行这项任务。

不幸的是,重新格式化不能纠正错误的数字输入。你可以设置范围检查来部分减少这类错误,如顾客不可能买-5块肥皂。正规的方法是把出售变为退回。但用户可能仅仅是犯了个错误,你可以提供一个关于该值的正确输入范围的消息声明。

有些人认为自动数据收集解决了所有与数据集相关的人类输入的问题。事实上,自动化数据收集确实有很多好处:

然而,说自动数据收集能解决所有问题是不正确的。自动数据收集仍依赖传感器、应用程序和人类设计的计算机硬件,它们只收集人类决定收集的数据。由于人类对自动化数据收集的限制,收集结果包含的信息往往少于设计者所预期的。因此,随着设计者试图解决输入问题,自动数据收集处于不断变化的状态。

自动数据收集亦受累于计算机系统的硬件和软件的错误,相比其他计算机设置,软件方面出问题(当系统显然在工作,却不提供期望的结果时)的概率更大。当自动数据收集系统工作时,输入的可靠性远远超过人类的可靠性,但如果软件出现问题,系统往往无法识别所存在的问题,而人可以,所以自动收集的数据集最终可能包含质量平平甚至糟糕的数据。

有的人在谈及数据时使用术语“操纵(manipulation)”,给的印象是,数据在某种程度上被不择手段或以不正当的方式修改。修剪这个术语也许更合适,使数据形状好,更适合使用。然而,无论你使用什么术语,原始数据很少满足处理和分析的要求。要想从数据中获取信息,你必须修剪它以满足特定的需要。以下各节具体讨论数据修剪。

要正确回答一个给定的问题,你必须掌握所有的事实。你可以在没有掌握所有事实的情况下,猜到一个问题的答案,但答案可能对也可能错。通常,一个人没有掌握所有的事实就做决定(实质是回答一个问题),会被认为“贸然断定”。在分析数据时,由于缺少数据,你可能会跳过思考,直接得到结论。数据记录是数据集(包含所有数据)中的一个条目,它包含用于回答问题的事实字段。每个字段都包含一个表示单个事实的单一数据类型。如果该字段为空,则你回答问题所需的数据中将缺少该特定的数据记录。

  

作为处理丢失数据过程的一部分,你必须知道数据丢失。识别数据集是否丢失信息实际上是相当困难的,因为它要求你在低级别查看数据。大多数人都不准备这样做,即使拥有所需的技能,这个过程也太耗时。通常,数据丢失的第一个线索是你的问题从算法和关联的数据集中得到的荒谬答案。如果算法被正确使用的话,数据集必定是错误的。

当数据收集过程没有包括回答特定问题所需的所有数据时,就会出现问题。有时,你最好还是放弃一个数据项,而不是使用一个毁坏严重的数据项。如果发现数据集中的某个特定字段缺少90%或更多的数据,则该字段将变得无用,你需要将其从数据集中删除(或找到某种方法来获取所有相关数据)。

毁坏较轻的字段可能是因为下面两个原因之一丢失数据。随机丢失的数据往往是人为或传感器错误的结果,会在整个数据集中的数据记录缺少条目时发生。有时一个简单的小故障会导致数据毁坏。在某种类型的广义故障期间,会相继丢失数据。数据集中的整个数据段都缺少所需的信息,这意味着结果分析可能会变得相当歪曲和不真实。

修复随机丢失的数据是最简单的。你可以简单地使用中值或平均值作为替代。这样数据集虽然不是完全准确的,但它仍可能会很好地工作,以获得合理的结果。在某些情况下,数据科学家使用一种特殊的算法来计算缺失值,这花费计算时间,但可以使数据集更精确。

修补相继丢失的数据很难,这几乎是不可能的,因为你没有任何可进行猜测排序的相邻数据。如果你能找到丢失数据的原因,有时可以重建它。但是,如果不能重建的话,你可以选择忽略该字段。不幸的是,某些结果如果需要利用该字段,这意味着你可能需要忽略数据记录的特定序列,而这有可能导致错误的输出。

数据集中的每个数据记录都记录着数据,但它可能无法与你的其他数据集中的数据保持一致。例如,一个数据集字段中的数值数据可能是浮点类型(带小数点),而是另一个数据集中的却是整数类型。在组合两个数据集之前,字段的数据类型必须相同。

当然,也可能会发生各种其他类型的不一致。例如,日期字段因格式化方式多样化而臭名昭著。若要比较日期,数据格式必须相同。然而,日期也有潜在的不一致:看起来相同,但实质不一样。例如,一个数据集中的日期可能以格林尼治标准时间(GMT)为基础,而另一个数据集中的日期则可能使用其他时区。在比较时间之前,必须将它们对齐到同一时区。当一个数据集中的日期有的来自使用夏令时(DST)的地区,有的来自不使用夏令时的地区,数据就会显得很怪异。

即使数据类型和格式都相同,也会出现数据的不一致。例如,一个数据集中的字段可能与其他数据集中的字段不匹配。某些情况下,这些差异很容易纠正。一个数据集中可能将名字和姓氏视为单个字段,而另一个数据集中可能使用独立的字段来分别存放名字和姓氏。解决的办法是:更改字段信息以保证所有数据集使用单个字段来存放名字和姓氏,或者全部使用独立的字段来分别存放名称和姓氏。不幸的是,数据内容中的许多不一致都很难弄清楚。事实上,完全有可能你根本就搞不清楚。但是,在放弃之前,请考虑下列这些可能的解决方案。

一些组织认为,数据永远不会过多,但是数据的过量与数据不足一样都是问题。为了有效地解决问题,AI 只需要足够的数据。简洁明了地定义你想解决的问题,正如使用正确的算法(或算法集成)一样。当然,有太多数据的主要问题是,找到解决方案需要更长的时间,有时你会得到令人困惑的结果,因为你只见树不见林。

  

作为你创建分析所需数据集的一部分,你可以创建原始数据的副本,而不是直接修改它。始终保留原始的未经改动的数据,以便你以后可以使用它进行其他分析。此外,为分析创建正确的数据输出可能需要多次尝试,因为你可能会发现输出不符合自己的需求。重点是创建一个只包含分析所需数据的数据集,但要记住数据可能需要特定的修剪以确保得到所期望的输出。

一种观点认为:人类习惯多角度审视数据。事实上,在某些情况下,人们会将数据曲解到无用的地步(一个数据谬误)。计算机无法区别真实与不真实的数据,因为它所看到的只是数据。创建一个像人类一样思考的AI,即使可能,也非常困难,因为人类能够处理谬误而计算机不能。你能做到的最好的办法是将错误数据看作是异常值,然后过滤掉它,但是这种技术不一定能解决问题,因为人类仍然会使用数据并试图根据存在谬误的数据来确定真相。

  

关于创建污染较少的数据集的一个常见的想法是:不允许人类输入数据,而是通过传感器或其他方法收集数据。然而,传感器和其他机械输入方法反映了它们的人类发明者的目标和特定检测技术的极限。因此,即使是机器衍生或传感器衍生的数据也会产生谬误,而AI很难检测和克服这种谬误。

下面以车祸为主例,说明5种可能出现在数据中的谬误。事故试图描绘的概念不一定总是出现在数据中,它们可能以不同于我们所讨论的方式出现。事实是,在查看数据时,通常需要处理这些类型的事情。

委员会谬误在于尝试彻底地用虚假信息替代真实信息。例如,当填写事故报告时,有人可以说,太阳晃了他们的眼睛,使他们没有看到撞到的人。实际上,也许这个人被别的东西分心了,或者根本没有考虑开车(可能正在想一顿丰盛的晚餐)。如果没有人能反驳这一理论,那么这个人可能会受到较轻的指控。不过,问题是数据也会受到污染。其效果是,现在保险公司将根据错误的数据来计算保费。

  

虽然看起来委员会的谬误完全可以避免,但实际不是。人类会说“善意的小谎言”,以避免他人的尴尬或以最少的个人努力来处理问题。有时,委员会型的错误是基于错误的输入或传闻。事实上,委员会谬误的来源太多,很难想出一个可以完全避免这种谬误的方案。但总的来说,委员会谬误是我们经常能够避免的谬误。

遗漏谬误是指一个人在陈述的每一个事实中都讲了真话,但却遗漏了一个重要的事实,而这会改变对整个事件的看法。再以事故报告为例,有人说他撞到了一只鹿,他们的汽车也受到了严重损害。他如实地说路是湿的;接近黄昏,所以光线较差;他刹车有点晚;鹿是突然从路边的灌木丛中跑出来的。结论是这件事只是个意外。

然而,这个人却遗漏了一个重要的事实。他当时正在发短信。如果执法人员知道他正在发短信,就会将事故原因变为疏忽驾驶。司机可能被罚款,保险理赔员在将事故录入数据库时也会使用不同的事故原因。与委员会型谬误一样,因此产生的错误数据将影响保险公司如何调整保费。

  

避免遗漏谬误几乎是不可能的。是的,有人可能故意在报告中遗漏事实,但也可能有人只是忘记把所有的事实都包括进去。毕竟,很多人在事故后都很慌乱,所以很容易失去冷静,只报告那些印象深刻的事实。即使一个人事后还记得其他细节并报告,数据库也不可能包含完整的事实。

当多方从多个有利的角度查看事件时,就会出现视角的偏差。例如,在涉及行人的事故中,驾驶员、被车撞的人以及目击事件的旁观者,都有不同的视角。即使假设每个人都如实述说所知道的事实,负责调查的警官也会从不同的人那得到不同的事实。事实上,经验表明,这种情况几乎总是如此,警官提交的报告必须在涉事各方中保持中立,真实程度随警官个人经验的增多而增强。换言之,该报告将接近真相,但不够接近AI。

在处理视角问题时,考虑有利位置非常重要。汽车司机可以看到仪表板,并且知道事故发生时汽车的状况,这是其他两方缺乏的信息。同样,被车撞的人拥有看司机的面部表情(意图)的最好视角。旁观者则处于看司机是否试图停车,并评估司机是否试图转弯等问题的最佳位置。每一方都必须根据所看到的数据进行报告,而不得因为利益隐瞒数据。

  

视角也许是最危险的谬误,因为任何试图在这个场景中推导出真相的人,最后只能取各种故事的折中而结束,永远不会得到完全正确的事实。一个人在查看信息时可以依靠直觉和本能来获得近似真相的信息,但是 AI永远只是使用平均值,这意味着人工智能总是处于显著的劣势。但是,避免角度谬误是不可能的,因为无论事件有多少目击者,你所能得到的最好的结果只是事实的逼近,而不是真实的事实。

还有另一种谬误需要考虑,它也是一个视角问题。考虑一下这种情况:你是一个生活在1927年的聋人。每周,你花费一个小时或更多时间去电影院看一部无声电影,你会感觉跟其他人一样。你可以像其他人一样去体验这部电影,没有区别。1927年10月,你看到一个通知,说剧场正在升级,以支持一个音响系统,这样它就能够播放有声电影。通知说,这是有史以来最好的事情,几乎所有人都同意这个观点,除了你,现在你会觉得自己像一个二等公民,不同于其他人,甚至几乎被排斥在剧院外。在聋人的眼里,那通知是谬误,添加音响系统是最坏的事情,而不是最好的事情。问题是,看起来很普遍的真理未必适合每一个人。对每一个人都适用的真理只是一个神话,是不存在的。

偏见的谬误发生在某人能够看到真相,却由于个人的顾虑或信仰而无法真正看到它。例如,回顾前面提到的事故,司机可能会把注意力完全集中在道路的中间,而无法注意到路边的鹿。因此,当鹿突然决定跑到道路中间,试图穿越马路时,司机就没有时间反应。

偏见的原因很难分析界定。例如,司机没有看见鹿,会导致一场真正的意外事故,这意味着鹿被灌木丛遮挡了。然而,司机也可能因为注意力不集中而导致疏忽驾驶,司机还可能短暂分心了。简而言之,司机没看见鹿不是问题;相反,为什么司机没有看到鹿才是问题所在。在许多情况下,在创建用于避免偏见的算法时,确认偏见的原因非常重要。

  

理论上,避免偏见谬误总是可能的。然而,在现实中,所有的人都有各种偏见,而这些偏见总会导致扭曲数据集的谬误。只是让一个人真正地看,然后脑中记下看到的东西,这是一项艰巨的任务。人类依靠过滤器来避免信息过载,而这些过滤器也是偏见的来源,因为它们阻止人们真正看到事物的真相。

5种谬误中,参考标准实际上不是任何错误的结果,而是理解的结果。当一方描述某事,如事故之类的事件,而第二方缺乏事件相关经验时,就会出现参考标准谬误,细节变得混乱或完全被误解。依赖于参考标准错误的喜剧套路比比皆是。一个著名的例子是艾伯特和卡斯特罗提出的“谁在一垒?”请到YouTube查看相关信息。当一个人缺乏经验知识时,让他去理解另一个人所说的是不可能的。

另一个参考标准谬误的例子也发生在一方无法理解另一方时。例如,一个水手在海上遇到暴风雨。也许是季风,但假设暴风雨很猛烈,可能危及生命。即使使用视频、访谈和模拟器,在危及生命的暴风雨中出海的经历也无法传达给那些没有亲身经历过风暴的人,因为那些人没有参考标准。

  

避免参考标准谬误的最好办法是确保涉事各方能够制定类似的参照标准。为了完成这项任务,各方需要类似的经验知识,以确保将数据准确地从一人传达给另一个人。但是,当使用数据集记录静态数据时,如果查看数据的人缺少所需的经验知识,仍会发生参考标准谬误。

AI总会遇到参考标准的问题,因为AI必然缺乏创造经验的能力。获取知识的数据库并不完全相同。虽然数据库可以包含很多事实,但经验不仅基于事实,而且是现有技术无法复制的推论。

似乎每个人都在无意识或无理由地获取你的数据,你是对的,确实如此。事实上,很多组织看似没有目的或意图地收集、分类和存储每个人的数据。根据“数据从不睡觉”,世界正在以每天 2.5×1018字节的速度收集数据。这些日常数据以各种形式出现,如下所示。

数据采集已成为全世界各地组织的麻醉剂,有些人认为收集最多的组织会赢得奖品。然而,数据采集本身并没有什么成就。由道格拉斯·亚当斯(Douglas Adams)撰写的《银河漫游指南》(The Hitchhiker’s Guide to the Galaxy)清楚地说明了这个问题。在这本书中,一个超级生物种族建立了一台超级计算机来计算 “生命、宇宙和一切问题”的答案。最终答案是42,但42并不能真正解决任何问题,因此一些生物抱怨说,所有用于计算答案的数据的收集、分类和分析并没有产生一个有用的结果。书中的计算机是有感知的,它告诉人们,答案是正确的,但他们需要先知道问题,才能使答案有意义。数据采集可以无限量地进行,但要提出正确的问题,就算有可能,也是非常艰巨的。

  

任何组织在数据采集方面需要解决的主要问题都是提出问题以及为什么这些问题是重要的。修剪数据以便回答你需要回答的问题。例如,如果你在镇上经营一家商店,你可能需要回答下列问题:

还可以列出更多问题,针对特定的业务创建问题列表是至关重要的。创建列表后,必须验证每个问题是否真的重要的,即提出一个需求,然后确定你需要什么信息来回答问题。

  

当然,试图手动收集所有这些数据是不可能的,这就是自动化的作用所在。看起来,自动化将产生可靠的、可重复的和一致的数据输入。然而,自动化数据采集的许多因素都会产生不太有用的数据,例如以下情况。

还有许多其他问题需要考虑(这足以写一本书)。当你将收集不良、格式不正确的数据与不能真正解决问题的算法结合在一起时,所获得的结果可能会引导你的业务朝错误的方向发展,这就是为什么 AI 经常被归咎于不一致或不可靠的结果。提出正确的问题,获取正确的数据,执行正确的处理,然后正确地分析数据,都需要数据采集是可信赖的工具。


相关图书

智能驾驶之激光雷达算法详解
智能驾驶之激光雷达算法详解
AI艺术极简教程:零基础生成绘画、摄影、设计
AI艺术极简教程:零基础生成绘画、摄影、设计
AIGC从入门到实战:ChatGPT+Midjourney+Stable Diffusion+行业应用
AIGC从入门到实战:ChatGPT+Midjourney+Stable Diffusion+行业应用
开启创意之门:AIGC创作一本通
开启创意之门:AIGC创作一本通
低代码打造RPA——Power Automate Desktop基础实战
低代码打造RPA——Power Automate Desktop基础实战
机器人传感技术
机器人传感技术

相关文章

相关课程