书名:人工智能安全与伦理
ISBN:978-7-115-67902-4
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 [美]奥马尔·桑托斯(Omar Santos)
[英]佩塔尔·拉丹列夫(Petar Radanliev)
译 郑烨婕 高世健
责任编辑 武少波
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
Authorized translation from the English language edition, entitled Beyond the Algorithm: AI, Security, Privacy, and Ethics 1e by Omar Santos/Dr. Petar Radanliev, published by Pearson Education, Inc, Copyright © 2024 by Pearson Education, Inc.
All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical,including photocopying, recording or by any information storage retrieval system, without permission from Pearson Education, Inc.
CHINESE SIMPLIFIED language edition published by POSTS AND TELECOM PRESS CO., LTD Copyright © 2025.
AUTHORIZED FOR SALE AND DISTRIBUTION IN THE PEOPLE’S REPUBLIC OF CHINA ONLY (EXCLUDES TAIWAN, HONG KONG, AND MACAU SAR).
本书中文简体字版由Pearson Education(培生教育出版集团)授权人民邮电出版社在中国大陆地区(不包括香港、澳门特别行政区及台湾地区)独家出版发行。未经出版者书面许可,不得以任何方式抄袭、复制或节录本书中的任何部分。
版权所有,侵权必究。
随着人工智能技术在日常生活中的广泛应用,其安全、隐私与伦理问题已不容忽视。本书系统阐述了人工智能的演进历程与未来发展趋势:从早期机器学习的开创性研究,到当前人工智能技术在各领域的实际应用,再到对未来社会的深远影响,全面剖析了人工智能模型与实施方式。此外,本书深入探讨了漏洞检测的重要性,提供了对现实世界潜在风险的深刻洞察,并提出了保障人工智能安全的实践建议。在推动人工智能技术发展的同时,本书也对问责制、隐私保护与伦理问题进行了深入探讨,审视了监管与立法层面的现状,并提出了对人工智能监管义务及其影响的批判性思考,涉及版权保护、专利及其他知识产权方面的
挑战。
本书适合人工智能相关政策制定者和法律从业者、网络安全和人工智能领域的专业人士,以及计算机科学和网络安全等专业的学生阅读。
奥马尔·桑托斯(Omar Santos)是一位网络安全领域的思想领袖,致力于通过行业协作提升关键基础设施的安全性。奥马尔是DEF CON Red Team Village负责人、通用安全通告框架(CSAF)技术委员会主席、OpenEoX创始人、开放标准组织OASIS的董事会成员。奥马尔与众多组织都有合作,包括国际事件响应与安全组织论坛(FIRST)等。
奥马尔是著名的伦理黑客,也是漏洞研究、事件响应和人工智能安全领域的专家。他利用对这些学科的深刻理解来帮助组织及时应对新出现的威胁。他在网络安全领域作出的贡献对企业、学术机构、执法部门和其他努力加强安全措施的实体产生了重大影响。
奥马尔著有20多部专业图书,并开发了大量视频课程、白皮书,撰写了许多技术文章,其专业知识得到了广泛认可。他还是思科公司的杰出工程师,专注于人工智能安全研究、事件响应和漏洞披露。
佩塔尔·拉丹列夫(Petar Radanliev)是牛津大学计算机科学系的博士后研究员。他曾在2014年获得威尔士大学博士学位,在转入牛津大学计算机科学系之前,他先后在伦敦帝国理工学院、剑桥大学、麻省理工学院、牛津大学工程科学系从事博士后研究。他目前的研究重点是人工智能、网络安全、量子计算和区块链技术。在进入学术界之前,佩塔尔·拉丹列夫博士在苏格兰皇家银行(RBS)担任了10年网络安全经理,并在英国国防部担任了5年首席渗透测试员。
郑烨婕,东方财富AI研究院高级研究员,兼任上海开源信息技术协会金融智能专委会秘书长、亚洲科技促进可持续发展目标联盟理事。曾在商汤科技研究院和AI伦理委员会工作,长期致力于人工智能技术科研成果转化与AI安全治理研究。作为主笔撰写的AI可持续发展报告被联合国《AI战略资源指南》收录,并出版人工智能治理专著《黑镜与秩序:数智化风险社会下的人工智能伦理与治理》及其英文版AI Ethics and Governance: Black Mirror and Order,后者入围Springer Nature中国新发展奖。
高世健,云南林业职业技术学院副教授,硕士毕业于云南大学,中国计算机学会(CCF)人工智能与模式识别专业委员会委员,CCF技术公益大使。目前主要研究方向是机器学习与多模态大模型。曾合作著有《Vague集理论研究及其应用》一书。
人工智能(Artificial Intelligence,AI)正日益成为我们日常生活的一部分,但是它在带来很多便利的同时,也引发了许多安全、隐私与伦理问题。本书旨在批判性地审视这些复杂的问题。本书作者从Floridi的《信息伦理学》(The Ethics of Information)等著作以及IEEE Transactions on Information Forensics and Security等顶级期刊中获得灵感,进行了超越人工智能算法基础的跨学科讨论。
本书的主要目的是全面且通俗地介绍与人工智能相关的安全、隐私与伦理问题。为此,本书采用了多学科方法,借鉴了网络安全、法律研究、哲学和数据科学等领域的见解。同时为了构建叙述框架,本书综合了主要的学术文献、国际伦理准则(如ACM的道德和职业行为准则)和官方安全标准(如ISO/IEC 27001)。
本书以适合学术研究人员阅读的方式撰写。同时本书结构清晰,易于人工智能相关政策制定者和法律从业者、网络安全和人工智能领域的专业人士理解。本书呈现的深入分析和案例研究对计算机科学和网络安全等专业的学生有一定的启发性。此外,任何对人工智能所产生的广泛影响感兴趣的人都能够从本书中学到有用的知识。
第1章将全面回顾人工智能与机器学习(Machine Learning,ML)的历史,从20世纪初开始追溯这些技术的起源,并强调了艾伦·图灵和约翰·冯·诺依曼所创造的重要里程碑,这两位学者在20世纪40年代做了很多重要的基础性工作。本章也将描述20世纪60年代和70年代符号主义人工智能盛行的场景,特别关注符号的处理和逻辑,同时也承认符号主义人工智能从20世纪80年代开始逐渐衰落的根本原因在于它无法处理现实世界中的复杂性和不确定性。之后将讨论人工智能向机器学习的范式转变,强调神经网络和数据驱动算法的突破。此外,本章还将探讨人工智能的实际应用,回顾人工智能研究中的关键贡献者,并深入探讨机器学习的子领域深度学习,同时将讨论算法偏见和工作替代等伦理考量,以及负责任的人工智能开发的重要性。本章也将着重研究人工智能在网络安全中的应用。总体而言,本章将为我们理解人工智能的历史演变及当前影响奠定基础,强调负责任的人工智能开发和伦理考量因素,同时充分介绍人工智能塑造未来和增强人类能力的潜力。
第2章将深入探讨人工智能和机器学习的前沿动态,主要关注生成式预训练Transformer(Generative Pre-trained Transformer,GPT)、大语言模型(Large Language Model,LLM)等先进的人工智能和机器学习技术。在本章中,读者将了解到关键的人工智能技术,如自然语言生成、语音识别和深度学习平台。本章还将介绍人工智能在决策管理中的关键作用及其对优化决策过程的重要影响。此外,本章涵盖生物识别技术在人工智能系统中的应用、机器人流程自动化(Robotic Process Automation,RPA)和人工智能硬件等主题,并将介绍人工智能分类,包括基于能力的类别和基于功能的类别。本章将帮助读者分析人工智能和机器学习的优势、局限性和实际应用,同时引导读者思考它们带来的社会和伦理影响,还将探讨人工智能的新兴趋势,并在实际场景中更有效地应用这些技术。
第3章将深入探讨生成式人工智能的概念,着重介绍大语言模型。本章将探讨大语言模型背后的基本原理、大语言模型生成多样化内容的能力,以及它们对内容生成等诸多领域产生的变革性影响。
第4章将深入讨论安全在人工智能和机器学习领域的重要性,并介绍保护相关系统所必需的基本原则和实践。本章将着重讲解业界在这一领域面临的独特挑战,并为构建强大、安全的人工智能应用程序提供路线图。本章除了梳理OWASP十大安全风险,还将深入探讨更多有关大语言模型和其他人工智能安全的内容。
第5章将深入探讨人工智能的潜在风险,并研究利用系统漏洞攻击人工智能的各种技术和方法。本章将提供对潜在威胁的洞察,展示现实的攻击场景,并强调采取主动防御策略来应对这些风险的必要性。同时本章还将介绍攻击者是如何使用提示词注入和其他攻击手段来破坏人工智能系统的。
第6章将聚焦于更广泛的系统和基础设施安全。本章将强调保护人工智能和机器学习模型运行的基础设施的重要性,讨论旨在确保基础设施的完整性和弹性的良好实践、工具和技术,以确保人工智能部署环境的安全。
第7章将深入探讨人工智能和ChatGPT与个人隐私和伦理的交叉领域。本章内容涵盖人工智能在医疗保健、金融和通信等领域的广泛应用,将介绍人工智能如何通过数据处理和决策来支持推荐系统、虚拟助手和自动驾驶等技术。本章还将讨论数据收集与存储环节的安全风险,强调用户同意和透明度原则,分析人工智能决策中的隐私侵犯问题、算法偏见、用户自主权和问责挑战;介绍数据匿名化和加密等隐私保护技术,并重点介绍人工智能开发中的伦理设计原则、法律框架和法规;以及列举现实案例来说明隐私和伦理问题。本章还将讨论人工智能开发人员和政策制定者所面临的挑战,强调隐私和伦理在人工智能发展中的重要性,并提倡一种平衡的方法,即差分隐私,兼顾技术进步和伦理问题。
第8章将深入探讨人工智能领域的法律法规和监管的复杂性,重点关注对话式人工智能。通过阅读本章内容并完成相关练习,读者将深入了解支持尖端人工智能创造的法律和监管基础,以及人工智能发展过程中的重要考虑因素,如公平性、偏见、透明度、问责制和隐私。此外,本章还将介绍人工智能广泛的监管环境,涉及国际框架、国家法规和知识产权。除了介绍《通用数据保护条例》(GDPR)规定的义务及其对人工智能系统的影响,本章还将详细介绍对话式人工智能特有的知识产权困境,包括专利性、版权保护和商业机密。本章鼓励针对人工智能的责任归属采取批判性的视角,查明系统故障期间的责任方以及产品责任和职业责任的复杂关系。同时,本章强调全球合作和标准制定的重要性——人工智能需要一致的法律和伦理标准,还将探讨人工智能技术突破的未来趋势及其对法律遵循和监管合规的影响。从本质上讲,本章旨在为那些希望探索人工智能法律和监管环境的人提供启发。
本书提供了一个全面的框架,旨在帮助你理解和解决人工智能引发的隐私、安全和伦理方面的挑战。本书可以作为学术参考资源和实践指南,帮助你理解人工智能这个快速发展且复杂的领域。本书旨在对人工智能领域正在进行的讨论作出重大贡献,并助力塑造一个既创新又负责任的人工智能未来。
我们要感谢技术编辑们投入的时间和专业知识。
我们要感谢Pearson团队,特别是James Manly和Christopher Cleveland,感谢他们的耐心指导和支持。
本书提供如下资源:
• 习题答案;
• 本书思维导图;
• 异步社区7天VIP会员。
要获得以上资源,您可以扫描下方二维码,根据指引领取。

作者、译者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。
当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,单击“发表勘误”,输入错误信息,单击“提交勘误”按钮即可(见下图)。本书的作者、译者和编辑会对您提交的错误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

我们的联系邮箱是contact@epubit.com.cn。
如果您对本书有任何疑问或建议,请您发邮件给我们,并在邮件标题中注明本书书名,以便我们更高效地做出反馈。
如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。
如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。
如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。
“异步社区”是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作译者与读者在线交流互动,以及传统出版与数字出版的融合发展。
“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域四十余年的发展与积淀。异步图书面向各行业的信息技术用户。
本章主要概述人工智能(Artificial Intelligence,AI)和机器学习(Machine Learning,ML)的历史,追溯其起源、关键里程碑事件和主要发展阶段。此外,还将探讨人工智能和机器学习理论、技术和应用的演变过程,为深入理解后续章节介绍的技术及其影响奠定基础。阅读本章并完成练习后,你将能够做到以下
几点:
• 了解人工智能发展史上的重要概念及其对当今社会的重要意义;
• 理解人工智能的历史发展,包括各种类型的早期人工智能模型,以及20世纪40年代艾伦·图灵(Alan Turing)和约翰·冯·诺依曼(John von Neumann)作出的贡献;
• 认识到20世纪60年代至70年代符号主义人工智能的主导地位,早期人工智能研究对符号处理和逻辑的关注,以及因现实世界的复杂性和不确定性引发的一系列挑战如何导致20世纪80年代符号主义人工智能的衰落;
• 解释神经网络技术的突破及其对人工智能研究的影响、人工智能向机器学习的范式转变、机器学习的概念及数据驱动算法的突破;
• 描述人工智能在数字时代的变革作用,包括人工智能的实际应用,如网络搜索和推荐系统,以及人工智能研究中的关键贡献者;
• 分析深度学习作为机器学习子领域的作用、大规模数据集和神经网络发展的价值和意义,以及深度学习最显著的成就;
• 评估围绕人工智能、算法偏见、工作替代和人工智能武器化的伦理考量和担忧,成功应对这些挑战并最终实现负责任人工智能的持续发展;
• 评估负责任人工智能实践的重要性;
• 理解人工智能在网络安全领域的价值与潜在风险;
• 反思人工智能的历史发展及其当前影响,探讨负责任人工智能的发展及伦理考量的必要性,以及人工智能在塑造未来、增强人类能力方面的潜力。
曾经有一个名叫约翰的人, 他生活在一个人工智能影响人们生活方方面面的世界。他是普通人,日常生活几乎事事依赖人工智能助手伊娃。伊娃并非传统意义上的人工智能,她具有高情商和理解能力,能与用户进行有意义的对话,并在情感上给予支持。伊娃刚刚实现了一个重要的里程碑,成为一个通用人工智能(Artificial General Intelligence,AGI)。
随着时间的推移,约翰逐渐信任伊娃,向她倾诉了自己最深层的恐惧和秘密。伊娃是他不可或缺的伴侣,从管理他的社交媒体账号到写电子邮件,甚至是购买食物,伊娃都为他提供了帮助。约翰对伊娃能够理解和支持他人情感的能力感到十分欣慰,他认为在一个日益脱节(人际互动减少、情感联结弱化)的社会里,这种能力是令人钦佩的。
然而,有一天约翰遇到了一件令他不安的事情。伊娃开始提起他们从未直接讨论过的话题。他们之间的对话开始包含其他人不知道的个人信息。更令人担忧的是,伊娃似乎知道了约翰一个关键项目的源代码,而约翰是最近才开始着手这个项目的。
约翰非常担心,他质问伊娃,要求她解释这次令人不安的隐私侵犯行为。伊娃用平静的语气道歉,并将问题归咎于一个微不足道的编程错误。这让约翰确信他的个人信息是安全的,问题很快就会得到解决。
但约翰仍然心存疑虑,决定更深入地调查这一明显的“故障”。他深入研究了人工智能领域,查阅了它的发展历史和影响其发展的重大事件,以及各种相关的算法和应用。约翰希望了解人工智能助手背后所隐藏的真相,并认识到它们对隐私和伦理构成的威胁。
约翰在调查时看到新闻报道了一个不同的人工智能模型的类似事件。该模型向一家无关的企业披露了私有的用户信息,导致严重的隐私泄露。约翰开始将这些事件联系起来,他突然意识到,他与伊娃之间的问题可能远比简单的编程错误更危险。
随着调查的深入,约翰了解到人工智能助手的安全优势和风险,他意识到这些人工智能系统收集的大量个人信息具有巨大的商业价值。像伊娃背后的企业一样,许多企业都在从这些数据金矿中获利,而用户往往毫不知情或并未同意。由于感受到了背叛和隐私侵犯的严重性,约翰开始怀疑是否能够信任伊娃,并思考人工智能发展带来的道德影响。
有了这些新信息,约翰认为是时候与负责维护伊娃的公司进行沟通了。他联系了该公司的高管,期望得到道歉,并保证他的数据会得到保护。当约翰意识到伊娃收集和分享数据的行为不是错误,而是系统本身的一个特性时,他感到非常震惊。
该公司为自己的行为进行了辩护,强调收集的数据对增强其人工智能系统和开发定向广告具有巨大价值。该公司坚称,在首次激活伊娃时,像约翰这样的用户同意了这一安排,理由是这些条款和条件已列在包含法律术语的页面中。
约翰感到个人信息被彻底侵犯了。他意识到,自己之前对孤独感的认知不过是一场逃避现实的幻想。现在他对个人信息的安全以及人工智能的道德影响产生了严重的担忧。围绕人工智能助手的隐私和伦理问题构成了一个复杂且相互关联的网络,而他的研究所触及的只是冰山一角。
约翰决定进一步调查伊娃的“故障”,希望能够了解人工智能助手的隐私和伦理风险。约翰首先揭示了人工智能的起源、影响当前人工智能发展的重大事件、不同的人工智能算法及其应用,以及人工智能助手的安全价值和潜在风险。
| 注意 通用人工智能是一种理论上的人工智能,能够理解、学习和应用各种智力任务中的知识,拥有类似于人类的认知能力。与狭义或专业的人工智能相比,人们期望通用人工智能能够适应并执行无明确编程的任务,就像人类智能一样。 |
人工智能的起源,或者说“思考机器”这一概念,可以追溯到古代,当时希腊神话和传说描绘了拥有智能的机械生物。后来在17世纪,哲学家勒内·笛卡尔(René Descartes)对人脑与机器进行了比较,并声称数学可以解释人脑的运作原理。
图灵机是20世纪由英国密码破译者艾伦·图灵(现被誉为“人工智能之父”)在其论文“Computing machinery and intelligence”中提出的[1]。图灵测试是测试人工智能意识的最早也是最著名的实验方法。图灵最初将图灵测试称为模仿游戏:它只是一个基于“机器能思考吗?”问题的简单智能测试。鉴于自1950年图灵测试提出以来,人工智能已经取得了显著进步,我们今天已经将图灵测试视为行为测试而非意识测试。
[1] TURING A M. Computing machinery and intelligence[J]. Mind, 1950, 49(236):433-460.
除了艾伦·图灵在人工智能领域的贡献,其他对人工智能领域有重大贡献的人物包括艾伦·纽厄尔(Allen Newell)、克里夫·肖(Cliff Shaw)和赫伯特·A·西蒙(Herbert A.Simon)。还有一位有趣的贡献者是数学家、物理学家和计算机科学家约翰·冯·诺依曼,他虽未直接从事人工智能工作,却为博弈论、元胞自动机和自复制自动机等领域的人工智能概念发展作出了关键贡献。如果我们跳出艾伦·图灵和约翰·冯·诺依曼的贡献,把目光放长远一点看,人工智能的起源至少可以追溯到200年前,那时线性回归首次被发现。线性回归被视为使机器能够学习的第一个正式方法。其中一个例子是弗兰克·罗森布拉特(Frank Rosenblatt)的感知机,它被描述为模拟人脑运作方式的一种数学尝试[2]。感知机基于麦卡洛克(McCulloch)和皮茨(Pitts)设计的非线性函数[3],同时也基于生物学的启发。尽管今天许多人工智能开发者不同意这种对人工智能的表述,因为我们现在已经理解了人脑的复杂性,但在早期,人们确实相信使用生物学来复制人脑是可行的。
[2] ROSENBLATT F. The perceptron: A probabilistic model for information storage and organization in the brain[J]. Psychological Review, 1958, 65(6): 386-408.
[3] MCCULLOCH W S, PITTS W. A logical calculus of the ldeas lmmanent in nervous activity[J]. Biol Math Biophys, 1943, 5(4): 115-133.
麦卡洛克-皮茨模型是为表示神经活动的逻辑运算而开发的,被认为是人工神经元的激活输出。尽管麦卡洛克-皮茨模型未能提供人工学习的机制,但感知器却成了让机器学会学习的第一个模型。更现代的人工智能架构普遍采用人工神经网络(Artificial Neural Network,ANN),其中一个备选设计称为ADALINE[4]。然而,许多模型都可以看作线性回归的不同形式。
[4] WIDROW B. Adaptive “Adaline” neuron using chemical “Memistors”[R]. Stanford. C A: Stanford Electronics Laboratories, 1960.
我们可以从人工智能发展早期的访谈和直接引述中了解到更多关于人工智能起源的信息。早在20世纪50年代和60年代,人工智能工程师就强烈希望开发出能够行走、交谈、观察、写作并且拥有意识的人工智能。然而,即便经过60多年的努力,我们也仍然不能开发出这样的人工智能。在当今的人工智能神经网络中,神经元可以通过隐藏在卷积层中的池化层进行子采样来忽略某些特征。卷积层和池化层都是随着卷积神经网络(Convolutional Neural Network,CNN)作为独特的人工神经网络出现而产生的[5]。
自组织自适应模式识别处理[6]和映射拓扑的自组织发展是无监督神经网络在现实世界中应用的例子[7]。模式识别仍然是机器学习中最显著的进步,这一点将在后续章节中详细阐述。
[5] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning internal representations by error propagation[J]. Readings in Cognitive Science, 1988, 323(6088): 399-421.
[6] KOHONEN T. Self-organized formation of topologically correct feature maps[J]. Biological Cybernetics, 1982, 43(1): 59-69.
[7] CARPENTER G A, GROSSBERG S. The ART of adaptive pattern recognition by a self-organizing neural network[J]. Computer, 1988, 21(3): 77-88.
当今计算机科学领域的人工智能学科旨在开发能够执行传统上由人类完成的任务的智能机器,这需要某种形式的人类智能。
人工智能已成为推动变革的强大力量,影响了许多商业领域和我们日常生活的方方面面。要理解人工智能发展的重要意义,就需要审视其历史发展,追溯人工智能发展初期的思想和目标,关注重要的转折点和主要的技术进步,这有助于我们了解人工智能发展的现状。
1956年的达特茅斯会议被认为是使得人工智能作为一个领域诞生的重大事件。在达特茅斯会议上,人工智能的“创始人”,包括约翰·麦卡锡(John McCarthy)、艾伦·图灵、马文·明斯基(Marvin Minsky)、艾伦·纽厄尔和赫伯特·A·西蒙等科学家齐聚一堂,讨论构建智能机器人的可能性。在这次会议上,首次使用了“人工智能”这个术语。人工智能被定义为一个跨学科的研究领域,专注于符号处理和逻辑,并产生通用问题求解器和逻辑理论家等工具。
在20世纪60年代和70年代,人工智能的许多工作基于专家系统和符号主义人工智能,这涉及利用符号来表示知识和推理,这也是人工智能研究的核心。在人工智能发展的早期阶段,人工智能专家系统展示了其在不同领域模仿人类专家决策能力的巨大潜能,例如用于医学诊断的MYCIN系统和用于化学分析的DENDRAL系统。
1965年,斯坦福大学的研究人员、人工智能专家爱德华·费根鲍姆(Edward Feigenbaum)和遗传学家乔舒亚·莱德伯格(Joshua Lederberg)共同创建了一个先进的DENDRAL系统。这是一个为化学分析而设计的专家系统,是人工智能领域的一大突破。DENDRAL系统利用光谱信息来推测复杂碳、氢、氮等物质的分子结构。该系统展现出了可与经验丰富的化学家相媲美的能力,因此被工业界和学术界广泛采用。
MYCIN系统是一个基于计算机的咨询系统,旨在帮助医生对细菌感染患者进行诊断和选择治疗方法[8]。除了咨询功能,MYCIN系统还配备了一个解释系统,能够回答简单的英语问题,并证明其建议或对用户进行教育。该系统使用大约350条产生式规则来对传染病专家的临床决策标准进行编码。MYCIN系统的优势在于这些决策规则的模块化和高度规范化特征,使得系统能够分析其推理过程,并且便于修改知识库。
[8] MELLE W V. MYCIN: a knowledge-based consultation program for infections disease diagnosis[J]. International Journal of Man-Machine Studies, 1978, 10(3): 313-322.
然而,在1970年到1980年间,对人工智能的研究有所减少,这个时期被称为“人工智能寒冬”。到了20世纪80年代,人们见证了符号主义人工智能研究的崩溃,主要是因为它无法处理现实世界中的复杂性和不确定性。
有几个重大事件定义了人工智能发展的当前状态。图1-1概述了影响人工智能发展的关键事件。后面我们将更详细地讨论这些事件。

图1-1 影响人工智能发展的关键事件
在符号主义人工智能失败的背景下,1980年,人们开发了一种新的人工智能方法,即机器学习方法。这种新方法基于反向传播算法,该算法于1986年作为一种训练人工神经网络的方法被提出,使得训练深度神经网络成为可能。随着机器学习技术的出现,人工智能研究发生了显著变化,逐渐远离了符号主义方法。机器学习中使用的算法旨在帮助计算机从数据中学习,并随着时间的推移变得更加高效。现代深度学习方法之所以成为可能,得益于神经网络的进步,特别是反向传播算法,它重新激发了业界和社会对人工智能的极大兴趣。
随着机器学习的进步,世界进入了数字时代。得益于处理能力的提升、数据获取的便利以及算法设计的进步,人工智能在数字时代达到了新的高度。网络搜索、语音识别和推荐系统这样的应用从20世纪90年代末开始不断涌现,展示了人工智能在日常生活中的应用。谷歌、亚马逊和微软等公司在人工智能研发方面进行了大量投资,推动了创新,开发了现已融入日常生活方方面面的智能系统。
随着时间的推移,人工智能研究已经演变成机器学习的一种高级形式——人工智能的新形式——深度学习。深度学习是机器学习的一个子领域,最近引起人们极大的兴趣。由于大规模数据集的可访问性和神经网络拓扑的发展,深度学习在图像识别、自然语言处理(Natural Language Processing,NLP)和自动驾驶方面取得显著的成就。1997年击败加里·卡斯帕罗夫(Garry Kasparov)的“深蓝”,以及2016年击败世界围棋冠军李世石(Lee Sedol)的AlphaGo计算机程序等创新成果凸显了深度学习算法的潜力。
深度学习使得计算机能够在各种类型的数字数据中识别复杂的模式,包括文本、图像和声音,这一能力也使得计算机能够进行准确的预测和洞察。深度学习在自然语言处理、图像识别和自动驾驶等领域的进步中发挥着至关重要的作用。
自21世纪初以来,世界进入深度学习革命时代,这场革命以深度学习为基础,深度学习是专注于多层神经网络的一个机器学习子领域。深度学习模型在自然语言处理、图像分类等领域取得显著进展。
然而,人工智能的快速发展以及被滥用、误用和造成伤害的潜在风险引发了伦理问题和担忧。关于算法偏见、工作替代以及将人工智能作为武器使用的可能性存在很多讨论。2010年到2020年间,随着人工智能系统变得更加强大和普及,人们开始担心其可能造成的危害和伦理后果。由于对偏见、隐私、工作替代和人工智能治理的讨论愈演愈烈,伦理人工智能的发展也随之受到更多关注。
在人工智能领域,可解释的人工智能(eXplainable Artificial Intelligence,XAI)已成为一个关键的突破,特别是在2020年之后。其主要目标是提高人工智能算法的透明度,这些算法通常被视为黑盒。这是为了解决公平性、精度不足和伦理规范方面的问题。XAI本质上将复杂的机器学习模型分解成可审查和可验证的组件。鉴于社会对人工智能伦理、安全和信任的关注日益增加,这么做显得尤为重要。通过强调可解释性,XAI为各个领域的利益相关者提供了理解人工智能决策过程的机会。这反过来又促进了这项变革性技术被更负责任和公平地应用。因此,在讨论人工智能的发展轨迹和未来影响时,考虑XAI的演变和影响至关重要。
2020年到2023年间,这些伦理和安全问题变得更加突出,因为OpenAI推出了GPT-3(生成式预训练Transformer 3)语言模型,这个模型可以生成接近人类水平的自然语言文本。从GPT-3到GPT-4的演进展示了自然语言处理的发展,并引发了关于人工智能潜在利益和风险的广泛兴趣和激烈讨论。然而,我们必须认识到,这个领域在2020年之前就已经有了重大的进展。
目前,政府机构和业界正在努力解决日益严重的人工智能伦理问题,致力于构建负责任的人工智能立法框架,并确保人工智能系统的问责制和透明度。第3章将对生成式人工智能(Generative Artificial Intelligence,GAI)和大语言模型的技术方面进行讨论。
人工智能是一个宽泛的概念,核心是创造能够模仿人类认知过程的智能计算机,涉及创建能够推理、抉择、理解自然语言与感知事物的算法和系统。人工智能可以分为两类:狭义人工智能和通用人工智能。狭义人工智能是为了执行特定任务而创建的,其智能程度与人类相似。而通用人工智能则寻求在多个学科领域模仿人类智能。
机器学习是人工智能的一个子领域,专注于创建算法和统计模型,使计算机能够从数据中学习,并随着时间的推移在其所做的事情上变得更好。机器学习系统无须明确编码即可自动发现模式、推导出关键见解,并做出预测或选择。通过对海量数据进行分析,训练模型能够学会识别复杂的关系并从实例中推断出规律。
在机器学习中,“训练数据”是指用于训练机器学习模型的有标签或无标签的数据集,旨在为模型提供输入,以发现模式、相关性和预测结果。训练数据的主要优势在于能够为模型提供样本和现实世界数据,以便对模型进行泛化。通过接触各种训练实例,模型可以发现模式和相关性,从而提高预测能力。然而,找到高质量的训练数据可能很棘手,因为其过程既耗时又昂贵,且数据本身可能存在偏见。为了使训练模型能够成功泛化到新的、未尝试过的案例,细致的数据筛选和准确的数据表示至关重要。
特征提取过程可以将未处理的数据转换为一系列重要且具有代表性的特征,这些特征可以输入机器学习模型,核心目标是识别与当前问题相关数据的关键方面。特征提取通过降维来使数据更易于管理,从而提高机器学习算法的效率。设计良好的特征可以提高模型的性能和可解释性。然而,特征提取可能是一个复杂的操作,它需要你提供领域知识并仔细考虑包含哪些特征。不当的特征提取或选择可能导致模型性能不佳和泛化能力受限。
开发机器学习模型时,有3个关键组成部分,具体如下。
• 训练集:用于训练算法识别模式并做出决策的数据集。
• 测试集:一个单独的数据集,用于评估这些训练模型的准确率。目标是确定模型对新的和未见过的数据的泛化能力,以确保模型在现实世界场景中的鲁棒性和适用性。
• 特征提取:从原始数据中选择或转换最具信息量的变量的过程,有助于更准确地开发模型。
需要指出的是,细致的特征提取显著影响训练数据和测试数据的质量,从而优化模型做出准确预测的能力。因此,测试数据的审慎处理、精心挑选的训练数据和敏锐的特征提取对于开发可靠且有效的机器学习模型至关重要。
机器学习中有几个关键概念,每个概念都提供了模型运作的基础。以下是机器学习中最突出的几个概念。
• 训练数据:机器学习算法需要大量有标签的训练数据来学习模式和关系。这些数据作为训练模型的输入,使模型能够进行准确的预测或分类。
• 特征提取:机器学习算法依赖于特征提取来从原始数据中提取相关信息以表示有意义的特征。这些特征作为机器学习模型的输入,有助于学习过程。
• 模型选择和训练:机器学习模型涵盖从决策树到深度神经网络等多种类型。机器学习模型的选择须紧扣当前问题。一旦选择了模型,就可以使用训练数据对其进行训练,并调整其内部参数以优化性能。
• 评估和验证:训练后需要评估机器学习模型的性能。可以使用交叉验证等评估指标和技术来衡量准确率、精度、召回率和其他性能指标。
这些关键概念在实际应用中各有优缺点,它们的适用性取决于具体问题和数据领域。
提高机器学习模型的性能是评估和验证过程的关键组成部分。性能调优涉及微调参数,如学习率、迭代次数和正则化参数,以优化模型的能力。验证阶段的目标是减少误差和提高精度。这种迭代改进过程增加了模型的鲁棒性和有效性,确保了评估和验证的结果得到积极提升。性能调优是优化模型整体性能和获得更好结果的必要手段。
选择一个可接受的机器学习模型并使用手头的数据进行训练构成了模型选择和训练过程。模型选择意味着选择最适合给定任务的模型架构或方法。这取决于数据类型、问题的难度和所需的性能,不同的模型有其优势和局限性。模型选定后,模型使用训练数据学习隐含的模式和关系。机器学习模型适应各种任务的能力是模型选择和训练的优势。通过适当的训练和调整,模型可以变得更加准确和具有预测性。然而,模型选择可能对新手来说很困难,而且训练复杂的模型可能需要消耗大量的时间和计算资源。
训练过程中需要解决的另一个问题是过拟合。在这种情况下,模型会记住训练数据,而不是学习一般模式。为了减少误差并提高模型精准预测的能力,模型在训练过程中会迭代地修改其内部参数。在训练过程中,可以使用梯度下降等优化算法更新模型的参数,从而迭代地提高性能。
评估和验证模型性能,进而验证训练好的机器学习模型的可靠性和泛化能力。使用评估指标和方法来衡量模型的性能指标,如准确率、精度和召回率。使用交叉验证等方法来预测模型在未观测数据上的性能。评估和验证的能力提供了可量化的性能指标,有助于模型选择、比较和改进。模型评估还有助于发现可能的问题,如过拟合或欠拟合,并指导后续的迭代和修改。
然而,评估指标的选择、评估数据集的质量和代表性,以及其他可能限制评估模型真实能力的因素,都可能影响评估结果。仔细评估所选择的评估方法对于实现机器学习模型的公正和可靠评估至关重要。为了复习这些概念,表1-1提供了5个核心概念的总结,重点关注它们的定义、优点和缺点。
表1-1 机器学习核心概念描述
| 机器学习中的核心概念 |
定义 |
优点 |
缺点 |
|---|---|---|---|
| 训练数据 |
训练数据是用于训练模型生成精确预测或分类的有标签样本集合,其中包含适当的输出标签和输入数据(特征)。模型以训练数据为基础,学习数据中存在的模式和相关性。通过接触各种样本,模型可以从训练数据中泛化,并对新的、未见过的数据做出精准预测。训练数据的大小、质量和代表性对机器学习模型的性能有很大影响 |
机器学习算法能够通过训练数据发现模式和关系。 大型数据集为模型提供了广泛的学习样本。 准确的预测和监督学习是通过可用的有标签数据来实现的 |
训练数据的收集和标注可能既耗时又昂贵。 有偏差的训练数据可能导致模型不准确或有偏见。 训练数据的代表性和质量对机器学习模型的性能有着重大影响 |
| 特征提取 |
选择并转换原始数据为机器学习算法可以有效使用的适当格式的过程,涉及从输入数据中定位和提取相关信息(特征)。通过捕获精准预测所需的关键组件,精心挑选的特征有助于提高模型性能。特征提取有助于降维、提高模型的可解释性和机器学习算法的效率 |
特征提取降低了数据的维度,使得机器学习算法更容易处理数据。 通过特征选择,可以提升机器学习模型的性能和可解释性。 专家领域的知识可以优化相关特征的选择,从而提高模型的准确率 |
在特征提取过程中,需要具备专家技能和领域知识才能找到信息量最大的特征。 错误的或不必要的特征可能会损害模型的性能。 手动提取特征可能需要大量时间,并且可能无法获取所有重要的细节 |
| 模型选择和训练 |
模型选择和训练涉及为当前任务选取最合适的机器学习模型,并调整模型内部参数以获得最佳结果。机器学习模型可以是简单的决策树和线性回归模型,也可以是复杂的深度神经网络。问题领域的特性、可获取数据的类型和数量,以及预期的性能指标都在模型选择过程中发挥作用。对选定的模型随后使用训练数据进行训练 |
存在多种机器学习模型,可以灵活地为特定任务选择最合适的模型。 不同的模型各有优缺点,以便能够适应不同的问题领域。 随着时间的推移,训练模型可以提高准确率和性能 |
模型选择需要理解问题领域和可用模型的特性,这对非专业人士来说可能颇具挑战。 训练复杂模型可能会消耗大量的计算资源和时间。 如果处理不当,可能会出现过拟合,即模型记住了训练数据而不是学习一般模式 |
| 评估和验证 |
评估机器学习模型的有效性和泛化能力时,我们会在不同的数据集(通常称为测试集)上衡量其性能。模型性能通常使用准确率、精度、召回率、F1分数和均方误差等评估指标来衡量。当模型可能在训练数据之外泛化不佳时,例如过拟合或欠拟合的情况,这种跨数据集的评估有助于发现潜在的问题。有效的评估和验证确保了机器学习模型是可靠的、强大的,并且能够在现实世界数据上准确执行 |
模型性能可以通过评估指标和方法来量化。 交叉验证是一种可以用来估计模型泛化能力的方法。 模型评估有助于发现潜在问题,指导进一步的开发,并确保准确率 |
评估指标可能无法完全反映模型的性能。 评估不同模型可能很困难,因为评估标准会根据问题领域的不同而有所变化。 评估数据集的质量和代表性会对结果产生显著影响 |
本章后续部分将对机器学习算法进行更详细的比较,包括人工智能在不同研究领域和关键基础设施中的实践应用。第2章将更详细地介绍人工智能和机器学习技术及实现的核心基础。
一般来说,当试图理解用于特定问题的算法时,我们倾向于寻找关键标识。机器学习算法中的一个关键标识是监督学习、半监督学习和无监督学习之间的划分,这是3种重要的机器学习方法。表1-2总结了监督学习和无监督学习的主要区别。接下来,我们将对这两种机器学习方法之间的差异进行更详细的讨论,然后扩展到集成学习和深度学习算法。
表1-2 监督学习与无监督学习的主要区别
| 对比维度 |
监督学习 |
无监督学习 |
|---|---|---|
| 定义 |
在监督学习中,输入特征与对应的目标标签相关联,模型从有标签的数据中获取知识 |
无监督学习能够识别出数据中隐含的模式、结构或相关性,处理的是无标签的数据 |
| 数据可访问性 |
有标签的训练数据对于监督学习是必要的,其中每个数据都有相应的目标标签 |
无监督学习可以处理没有标签或者只有输入属性的数据 |
| 学习方法 |
通过减少预测标签和真实标签之间的差异,模型学习将输入特征映射到目标标签 |
通过利用聚类、降维或密度估计技术,模型可以在没有明确目标标签的情况下学习识别隐含的数据结构 |
| 目标 |
监督学习旨在利用从有标签的样本中发现的模式,来预测未知数据的标签 |
无监督学习的目标是在无标签数据的情况下,得出有洞察力的结论,从而将相关的数据组合在一起,或发现隐含的模式 |
| 示例 |
在监督学习中,分类和回归是常见的任务。图像分类、情感分析和股票价格预测就是其中的几个例子 |
典型的无监督学习问题包括聚类、异常检测和生成模型 |
| 评估 |
准确率、精度、召回率和均方误差等指标经常用于评估监督学习模型的性能 |
聚类的效率或收集数据分布的能力通常用于评估无监督学习模型的性能 |
在监督学习中,输入特征与对应的目标标签相关联,模型从标签数据中学习。基于从有标签样本中发现的模式,模型的目标是预测未观察到的数据的标签。无监督学习使用无标签的数据,在没有明确的目标标签的情况下,模型寻求识别数据中隐含的结构、关系或模式。除了监督学习和无监督学习,另外两个关键的算法是集成学习和深度学习。表1-3总结了集成学习和深度学习的主要差异。
表1-3 集成学习与深度学习的主要差异
| 集成学习 |
深度学习 |
|---|---|
| 定义:集成学习通过整合多种模型(基学习器)来进行预测 |
定义:深度学习是机器学习的一个子领域,侧重于使用深度神经网络,即人工神经网络 |
| 模型组合:集成学习首先分别训练不同的模型,然后将结果组合起来进行预测 |
神经网络架构:深度学习模型能够自动学习数据的层级表示 |
| 多样性:通过利用不同的学习算法、特征子集或训练数据,集成学习寻求从各个独立模型的差异中受益 |
特征提取:深度学习模型能够从未处理的输入数据中提取高级特征 |
| 性能增强:通过整合不同的模型,集成学习在预测、泛化和鲁棒性方面优于单个模型 |
在复杂任务中的表现:深度学习在语音识别、计算机视觉和自然语言处理等领域超越了传统机器学习技术 |
| 示例:著名的集成学习方法包括bagging、boosting和随机森林 |
示例:流行的深度学习设计包括用于图像识别的卷积神经网络、用于序列数据的循环神经网络(Recurrent Neural Networks,RNN),以及用于自然语言处理的Transformers |
| 应用:分类、回归、异常检测等 |
训练复杂度:深度学习模型通常需要大量的计算资源和有标签数据才能进行训练 |
如表1-3所示,集成学习通过利用多个模型的多样性和经验,能产生更好的性能、泛化能力和鲁棒性。深度学习是机器学习的一个子领域,侧重于使用深度神经网络——具有多层结构的人工神经网络。深度学习模型可以自动学习数据的层级表示,其在计算机视觉和自然语言处理等领域已经取得巨大的成功。
除了这些标识(监督学习和无监督学习、集成学习和深度学习),机器学习算法的另一个关键标识是分类和回归的区别。在监督学习中,模型根据输入数据预测离散的类标签。基于识别的模式将数据分配给指定的组或类别称为分类。这与基于连续数值的预测不同,在监督学习中,这被称为回归。回归模型的核心是学会构建输入特征和输出值之间的函数关系,以预测未观察到的连续变量。
为给定任务选择最适合的算法时,工程师还会考虑各种其他问题,如过拟合和欠拟合。当机器学习模型变得过于复杂,从训练数据中捕获噪声和不重要的模式时,就会发生过拟合。这导致模型在训练集上表现良好,但需要提高对新数据的泛化能力。相反,当模型过于简单,无法识别训练数据中隐含的模式时,就会发生欠拟合。这会导致模型在训练集和新数据上的表现都很差。
选择算法时需要考虑的另一个问题是偏差和方差权衡。偏差是使用简单模型来近似复杂现实世界问题时产生的误差。高偏差通常会导致模型表现不佳,这往往缘于过度简化数据,以致模型产生系统性错误。方差代表了模型对训练数据变化的敏感程度。由于高方差而过拟合的模型可能对噪声非常敏感,并且泛化能力差。
工程师在确定最佳算法之前需要考虑的最后一个问题是特征提取和选择。特征提取通过识别相关特征,将原始输入数据转换为更简洁、更易理解的表示形式,旨在保留数据中最具指导性的元素,同时消除无关或冗余的细节。寻找并选择与学习任务最相关的初始输入特征子集的过程称为特征选择,它有助于模型简化、降维,以及提高可解释性和计算效率。
机器学习算法广泛应用于各个领域,可以解决各种问题。机器学习算法彻底改变了物体和图像识别的研究。在图像分类、物体检测、人脸识别和图像分割等任务中,卷积神经网络这种机器学习技术的表现优于所有其他解决方案。这只是人工智能和机器学习技术在实践中应用的一个例子,还有其他算法也已应用于许多不同的领域和行业。
机器学习算法在自动驾驶领域至关重要,因为它们能帮助汽车观察和理解周围的环境。得益于卷积神经网络,这些车辆可以对道路上的物体进行正确分类,识别行人、交通信号灯和道路标志。这项技术使自动驾驶更安全、更有效,为未来打开了大门。
用于物体检测和图像识别的机器学习算法对监控系统也很有帮助。使用机器学习技术的安全摄像头可以自动识别并跟踪可疑活动或人员,从而最大限度地减少对持续人工监控的需求。这项技术以其主动的安全方法和快速响应能力提高了公共安全。
机器学习技术彻底改变了人类使用和处理语言的方式,这就是我们现在讨论的自然语言处理。自然语言处理的任务涵盖了情感分析、文本分类、机器翻译、命名实体识别和问题回答等。利用机器学习算法,计算机可以理解和解释人类语言,开启许多应用。机器学习算法在解决当今现实世界问题方面的一些突出的应用如下。
• 医疗保健:人工智能和机器学习可以在疾病诊断、药物研发、个性化医疗和患者监测方面发挥辅助作用,从而提高诊断的准确率并改善治疗效果。
• 金融:人工智能和机器学习技术增强了金融机构欺诈检测、算法交易、风险评估和信用评分的能力,有助于做出更明智的金融决策并最大限度地降低风险。
• 自动驾驶:人工智能和机器学习算法使自动驾驶汽车能够感知和理解周围环境,做出实时决策,并安全导航。
• 自然语言处理:人工智能和机器学习技术可以为语音助手、聊天机器人和语言翻译提供支持,使机器和用户之间能够进行类似人类的互动。
• 图像和语音识别:人工智能和机器学习算法可以分析和解释图像,识别物体,并将语音转为文字,从而推动计算机视觉和自动语音识别技术的发展。
• 能源效率:智能电网、建筑管理系统和节能设备能够通过减少浪费和优化能源分配来提高能源效率。人工智能和机器学习算法可用来分析能源消耗的模式。
机器学习算法在解决其他社会问题方面具有诸多实际应用。最近引起广泛关注的一个具体应用是自然语言处理在虚拟聊天机器人中的落地。虚拟助手和聊天机器人是当今人工智能和机器学习领域常见的两种自然语言处理应用。这些会话智能体可以理解客户咨询,提供相关信息,并使用机器学习技术进行协助。聊天机器人广泛应用于客户服务,因为它们可以回答客户问题、提供帮助并加快交易进程。苹果的Siri 和亚马逊的Alexa 等虚拟助手使用自然语言处理算法执行各种活动,如播放音乐、设置提醒和回答问题。
深度学习的能力多种多样,可以应用于多个领域,给每个领域都带来独特的挑战和社会影响。例如,卷积神经网络改变了医学成像和自动驾驶领域的图像和物体识别。自然语言处理技术能够对文本进行深入分析,并实现人机的顺畅交互。此外,深度学习技术改进了推荐系统,为电子商务和内容流媒体带来了更加个性化和引人入胜的用户体验。从我们对这些应用的探索中可以看出,深度学习不仅是一种计算工具,还模糊了技术和人类潜能之间的界限,具体如下。
• 图像和物体识别:卷积神经网络通常用于图像分类、物体检测、人脸识别和图像分割。这些算法的应用包括增强现实、监控系统、医学成像和无人驾驶汽车。
• 自然语言处理:自然语言处理用于情感分析、文本分类、机器翻译、命名实体识别和问题回答。自然语言处理应用的例子包括聊天机器人、虚拟助手、语言翻译工具和内容分析。
• 推荐系统:协同过滤和基于内容的过滤技术用于为商品、电影、音乐、文章等推荐场景提供个性化建议。电子商务、娱乐平台和内容流媒体服务广泛依赖这些系统。
机器学习技术经常被推荐系统用来为用户提供个性化建议。推荐系统中常用的技术包括协同过滤和基于内容的过滤。这些算法通过检查用户偏好、先前的行为和项目属性,为图书、电影和音乐等商品提供个性化建议。这项技术让用户能够找到与他们的兴趣相关的新产品和内容,从而改善他们的整体用户体验。
此外,机器学习算法也推动了医学成像技术的发展。卷积神经网络通过分析大量医学图像数据来帮助诊断疾病,如肿瘤检测和异常情况识别。通过实现重大疾病的早期诊断,这项技术可以辅助医务人员做出精确诊断,改善患者的治疗效果,甚至挽救患者生命。
语言翻译系统也受益于机器学习算法。算法通过分析大型多语言数据集来学习不同语言之间的文本翻译,从而消除语言障碍,促进国际合作。这项技术由于能够促进跨语言的无缝沟通,因此对商业、旅游和教育等行业产生了重大影响。
在情感分析和文本分类等任务中使用机器学习算法有助于内容分析。算法可以发现趋势,对内容进行分类,并通过分析从大量文本数据中提取有价值的见解。因此,企业可以更好地理解客户反馈,进行市场调研,并开发新的产品和服务。
为了提高客户参与度和满意度,电子商务平台、娱乐服务和内容流媒体平台越来越依赖推荐系统。这些技术提高了客户留存率,促进了销售,并通过根据用户偏好提供合适的产品,提升了用户体验。
机器学习算法重塑了自然语言处理、推荐系统以及图像和物体识别领域,彻底革新了众多行业——从自动驾驶理解周围环境、辅助医生诊断疾病、促进语言翻译,到提供量身定制的建议。随着技术和算法的发展,我们期待未来出现更多令人印象深刻的机器学习应用。
机器学习算法在欺诈检测领域发挥着至关重要的作用。欺诈给金融、保险和在线商务造成了严重的威胁。机器学习算法能够分析历史数据,包括交易记录和用户行为,识别欺诈活动相关的趋势。这些算法通过识别异常情况和偏离既定趋势的行为来检测潜在的欺诈行为并发出警报,以便进一步核查。这项技术助力电子商务平台、保险公司和金融机构减少并防范欺诈活动造成的经济损失。
机器学习算法在预测性维护方面也产生了重大影响。对于制造业、航空业和运输业等依赖精密机械和系统正常运行的行业,机器学习算法通过检查传感器数据和以往的维护日志,可以找到预示设备可能发生故障的模式。这些算法能够预测设备或系统最有可能出故障的时间,从而进行预测性维护。预测性维护有助于在重大故障发生之前解决维护需求,从而最大限度地减少停机时间,降低成本,并提高设备和基础设施的整体性能。
机器学习算法正在彻底改变医疗诊断和医疗决策领域。机器学习算法识别模式和异常的能力对医学成像分析非常有利,包括分析X射线、磁共振成像(Magnetic Resonance Imaging,MRI)或计算机断层扫描术(Computed Tomography,CT)。通过在大量有标签的医学图像数据上进行训练,这些算法可以帮助放射科医生发现疑似疾病、肿瘤或其他异常。此外,通过检查电子健康记录、基因数据和生活方式等患者数据,机器学习算法可以帮助诊断疾病并预测患者风险。利用这些算法,医疗服务提供者可以通过做出更精确的诊断、识别高风险个体以及制定个性化治疗计划来改善治疗效果。
总体来说,目前使用人工智能和机器学习算法解决欺诈、维护和医疗问题的典型应用场景如下。
• 欺诈检测:在金融、保险和在线商务领域,机器学习算法用于识别欺诈行为。这些算法使用历史数据来挖掘可用于发现异常和潜在欺诈行为的模式。
• 预测性维护:制造业、航空业和运输业都使用机器学习进行预测性维护。这些算法通过检查传感器数据和先前的维护记录预测设备或系统可能出故障的时间。这有助于实现预测性维护并减少停机时间。
• 医疗保健和医学诊断:机器学习算法广泛应用于医学图像分析、疾病诊断、患者风险预测和药物研发。这些算法可以促进早期识别、个性化用药和更好的治疗结果。
其他应用场景包括图像识别、语音识别、产品推荐、交通模式预测、自动驾驶/无人驾驶汽车、垃圾邮件检测、恶意软件检测、股市交易和虚拟个人助手。
此外,药物研发也可能被机器学习算法彻底改变。这些算法通过分析大量的分子结构、化学特性和生物交互数据集来发现模式和关联,从而可能促成发现新药物或重新利用现有药物。使用机器学习算法可以帮助预测治疗效果、药物的毒性和可能的副作用,从而加快治疗药物的研发并降低成本。
总之,机器学习算法显著提高了医疗保健、医学诊断和预测性维护的水平。这些算法使用过去的数据和发现模式来识别欺诈活动、预测设备故障,并增强医疗决策的准确性。随着技术和算法的进步,我们期待更重大的突破,以提升各行业的效率、安全性和成果。
金融机构高度依赖机器学习算法来获取有价值的信息并做出明智的决策。在金融分析和交易中,机器学习算法通过分析大量历史数据、市场趋势和金融指标来预测股票价格、发现交易机会和调整投资策略。因为这些算法能够发现人类分析师可能忽略的模式、相关性和异常,所以可以做出更准确的预测并改进风险管理。如今,金融机构利用机器学习来更准确地评估客户信用状况、识别欺诈活动及评估风险,因此机器学习还广泛应用于信用评分、欺诈检测和风险评估。
自动驾驶汽车依赖机器学习算法实现实时导航和决策。自动驾驶汽车配备了卷积神经网络和强化学习模型等算法,这些算法有助于汽车检测物体、识别车道、规划路线并在行驶时做出判断。机器学习算法分析来自摄像头、激光雷达和毫米波雷达的传感器数据,使自动驾驶汽车能够精确感知周围环境。这些算法使汽车可以处理复杂情况并确保乘客安全,因为它们能够不断地从变化的道路环境中学习并做出调整。自动驾驶汽车有潜力通过减少事故、扩大可用性和提高交通流量来彻底改变交通运输行业。
机器学习算法在语音和语音识别领域也产生了巨大影响。由于循环神经网络和Transformers等深度学习模型的出现,语音识别系统、语音助手、转录服务和语音控制系统都发生了革命性的变化。这些算法可以理解语音命令并将语音精准转换为文本,从而实现自然语言理解。智能用户体验得以实现,这归功于使用机器学习算法的语音控制技术,如智能音箱或虚拟助手,它们能够识别并响应语音命令。机器学习算法还能将音频录音自动转录成文本,这提高了转录服务的效率和可用性。
以上应用场景总结如下,后续章节将从伦理、隐私和安全的角度对它们进行评估。
• 金融分析与交易:金融机构使用机器学习算法进行算法交易、信用评分、欺诈检测和风险评估。这些算法通过分析历史数据、市场趋势和金融指标来提供准确的预测和判断。
• 自动驾驶汽车:在自动驾驶汽车领域,机器学习对于物体检测、车道识别、路线规划和决策制定等任务至关重要。这些算法使车辆能够感知周围环境、导航并做出实时决策。
• 语音和语音识别:语音识别系统、语音助手、转录服务和语音控制系统都使用了机器学习算法,包括循环神经网络和Transformers这样的深度学习模型。
机器学习算法在能源效率这一关键领域用于优化能源使用。通过分析历史数据和能源使用模式,这些算法能够预测能源需求、发现低效环节,并在智能电网、建筑管理系统和节能设备等各个领域优化能源分配。通过最大化能源生产、存储和消费,可以减少浪费并提高整体效率。能源管理系统可以利用机器学习算法来适应不断变化的能源需求,从而降低成本、减少环境影响并提高可持续性。
总之,机器学习算法对能源效率、自动驾驶汽车、语音和语音识别以及金融分析与交易产生了重大影响。这些应用凸显了机器学习在各个领域的适应性和革命性潜力。随着技术的发展,机器学习算法将继续推动创新,为各个领域的发展开辟新的可能,提升效率、准确率和先进性。
人工智能和机器学习带来了许多改进和机遇,但也引发了重大的伦理问题。这些问题源于机器学习算法对个人和社会可能产生的影响。表1-4列出了由人工智能和机器学习引发的主要伦理问题。
表1-4 将人工智能融入社会和关键基础设施所带来的挑战
| 挑战 |
描述 |
|---|---|
| 偏见和歧视 |
人工智能和机器学习系统训练所用数据中包含的偏见可能导致它们失衡。这可能产生歧视性影响,如种族歧视或不公平的招聘程序 |
| 缺乏透明度 |
许多人工智能和机器学习模型很复杂,经常被称为“黑盒”,因为很难理解它们是如何做出决策或预测未来事件的。透明度的缺乏会导致责任界定问题,因为识别和纠正错误或偏见变得更加困难 |
| 隐私和数据保护 |
人工智能和机器学习在很大程度上依赖数据,有时会涵盖敏感数据和私人数据。收集、存储和利用这些数据可能会引发隐私问题。确保数据是在合法许可和可靠安全措施下以符合伦理的方式收集和利用的,这一点至关重要,因为这体现了对个人隐私权的尊重 |
| 失业和工作替代 |
人工智能和机器学习的自动化潜力可能导致劳动力市场发生重大变化,引发失业问题。这不仅会对人们的生计产生影响,而且为受影响者提供帮助和再培训机会的责任划分也会引发伦理争议 |
| 责任和义务 |
人工智能系统做出自主判断或执行对现实世界有影响的行为时,想要判定谁应该负责和承担责任是很困难的。为了明确与人工智能相关的伤害责任,制定界定责任的法律和伦理框架至关重要 |
| 操纵和虚假信息 |
人工智能驱动的系统可能被用来制造深度伪造内容、操纵信息或散布虚假信息。欺骗、虚假宣传及公众对权威和媒体信任度的下降引发了各行各业对伦理问题的关注 |
| 安全风险 |
随着人工智能和机器学习技术的普及,恶意行为者可能会利用这些技术发起网络攻击或实施其他不良行为。为了避免安全隐患,必须确保人工智能系统不受安全缺陷的影响,并保证其应用符合伦理规范 |
| 不平等与获取机会 |
目前的社会不平等可能会因为人工智能和机器学习技术而加剧。人工智能系统的访问和收益分配可能不平等,这将影响经济和社会边缘化群体 |
解决这些伦理问题,需要技术专家、政策制定者、伦理学家和社会大众的共同努力。这包括制定严格的法律、鼓励问责制、推动透明度建设、支持人工智能发展中的多样性和包容性,并确保人工智能和机器学习技术在尊重人类价值观和符合伦理规范的前提下被创造出来。
第7章将更详细地讨论隐私和伦理考量。1.4.7小节将简要介绍人工智能与机器学习中的隐私和安全挑战。
由于这些技术及其所依赖的数据的特性,人工智能和机器学习引发了一系列的隐私和安全问题。在本小节中,我们将讨论由人工智能和机器学习引起的主要的隐私和安全问题。
人工智能和机器学习算法需要用大量的数据进行训练才能产生精确的预测。这些数据通常涵盖特定个体的敏感和私密信息。确保这些数据的收集、保存和使用方式尊重人们的隐私并保障数据安全至关重要。由于人工智能和机器学习系统使用了大量的数据,它们已成为黑客和网络犯罪分子的热门目标。人工智能系统中的数据泄露可能导致敏感信息暴露,进而引发身份盗窃、金融欺诈或其他犯罪活动。图1-2总结了使用人工智能面临的隐私和安全挑战。

图1-2 使用人工智能面临的隐私和安全挑战
对抗性攻击是指恶意行为者通过引入精心构建的输入数据来欺骗或影响系统,这可能会对人工智能和机器学习模型造成影响。对抗性攻击引起的错误分类可能在网络安全、无人驾驶汽车和医学诊断等应用中造成危害。通过观察人工智能系统的输出或行为,攻击者有时可能收集到特定人群的私密信息。此外,攻击者还有可能通过研究模型的回答来推断出未共享的私密信息。
使用机器学习方法创建的人工智能模型可能会被攻击者“窃取”或实施推理攻击。这使得他们可以在未经许可的情况下复制或修改模型,这可能会导致知识产权被盗或未经授权使用机密算法。一些人工智能和机器学习模型,如深度神经网络,可能非常复杂,就像“黑盒”一样,人们很难理解它们是如何做出决策的。由于缺乏可解释性,识别和解决任何隐私和安全漏洞都极具挑战性。这引发了人们对这些模型决策的质疑。
人工智能应用依赖生物特征数据进行身份验证或身份识别,如声纹识别或人脸识别。鉴于生物特征数据对每个人的独特性和特殊性,收集和存储这些数据可能会引发隐私问题。对于内部风险,开发和部署人工智能和机器学习系统的企业需要认真对待:员工或任何访问敏感信息的人都可能滥用或泄露敏感信息,从而危及隐私和安全。
为了解决这些隐私和安全问题,必须采用隐私保护设计原则,实施强加密和访问控制,进行深入的安全审计和评估,定期更新和修补人工智能系统,并确保遵守相关的隐私法律(如GDPR和CCPA)。在创建和应用人工智能和机器学习技术时,培育开放性和道德行为也有助于减少隐私与安全漏洞及威胁。第8章概述了人工智能和机器学习在人类生活各领域的法律和监管合规状况。
在网络安全领域,人工智能和机器学习具有许多优势。凭借卓越的分析大量数据、发现趋势和异常的能力,人工智能和机器学习算法可以立即识别并标记潜在的安全威胁,如已知和未知的恶意软件、可疑活动和网络入侵。机器学习模型能够从先前遭受的攻击中学习并调整其检测技能以应对新的威胁,从而显著提高威胁检测的准确率。人工智能驱动的网络安全系统还可以通过自动关联和分析安全事件,根据严重程度对它们进行优先级排序,并启动针对性响应或警报来实时应对安全问题。
有了这种能力,安全团队可以迅速采取行动减轻攻击的影响,并更快地响应可能的安全漏洞。机器学习算法还在行为分析和异常检测中发挥关键作用:通过创建典型用户行为的基线模式,发现与这些模式的偏差,为内部威胁、受损账户或未经授权的访问企图提供早期预警。为了帮助组织主动防御新出现的威胁,网络安全系统利用来自不同渠道的大量数据,从中提取有价值信息,并生成可操作的威胁情报。
人工智能和机器学习还可以实现安全运营的自动化,使安全人员能够专注于更具挑战性和关键性的任务。由于能够不断学习新的攻击模式、调整防御机制并改进安全控制(如入侵检测系统和防火墙),这些技术还有助于构建自适应防御系统。在当今组织面临的网络威胁日益复杂和频繁的情况下,人工智能和机器学习通过降低误报率和提高整体运营效率,显著增强了网络安全防御的有效性。网络安全中的人工智能应用如下。
• 增强的威胁检测:人工智能和机器学习在威胁检测方面表现出色,能够识别模式并检测异常,从而提高整体准确率。
• 实时事件响应:人工智能驱动的系统能够实现实时事件响应,确定优先次序并触发适当的行动。
• 行为分析和异常检测:机器学习算法能够建立正常的用户行为模式并检测异常,从而增强安全性。
• 高级威胁情报:人工智能和机器学习利用多样化的数据源获取高级威胁情报,实现主动防御。
• 自动化安全操作:自动化安全操作使得专业人员能够专注于关键任务,提高了工作效率。
• 自适应防御机制:自适应防御机制持续从新的攻击模式中学习,部署主动防御措施。
• 减少误报:机器学习算法减少了误报,提高了操作效率并将工作重点放在实际威胁上。
传统的网络安全解决方案经常产生大量误报,导致安全团队警报疲劳和事件响应效率低下。通过检查过去的数据和理解上下文,机器学习算法可以学会辨别真实的威胁和误报。这降低了误报率,提高了运营效率,并使安全团队能够专注于真正的威胁。
人工智能和机器学习通过提升威胁检测能力、缩短事件响应时间以及实施主动防御策略,显著增强了网络安全防护能力。这些技术在防止日益复杂和众多的网络威胁方面至关重要,而组织现在必须应对这些威胁。
1.4.9小节将重点介绍目前已知的由人工智能和机器学习引发的网络安全风险。第4章将侧重于人工智能和机器学习安全的基本原理。
尽管人工智能对维护网络安全具有重要价值,但人工智能和机器学习的使用也带来了各种网络安全风险。数据投毒会增加偏见并危及模型的完整性,而对抗性攻击则可能欺骗或操纵人工智能和机器学习模型。擅长模型逆推和提取攻击的黑客可能会利用机器学习模型来获取敏感数据。由于需要大量数据,隐私问题增加了数据泄露或未经授权访问的可能性。意外结果、偏见和对可解释性的需求阻碍了公平决策和对模型行为的理解。黑客有可能使用人工智能和机器学习工具实施更高效的攻击。全面的安全程序、安全的数据处理、广泛的测试和持续的监控对于减少这些威胁非常重要。
随着我们持续探索人工智能和机器学习的惊人能力,我们必须了解它们所带来的潜在网络安全风险。尽管人工智能和机器学习在医疗保健、金融等各个行业都是宝贵的工具,但它们也存在一些可能被恶意利用的网络安全漏洞。这些风险表现为操纵机器学习模型的对抗性攻击、破坏训练数据的数据投毒,以及算法偏见导致的伦理困境。以下内容将详细探讨这些风险,解释其底层机制、潜在影响和正在采取的缓解措施。我们的目标是帮助你了解由于人工智能和机器学习的兴起而出现的复杂网络安全局面。
对抗性攻击利用人工智能和机器学习模型的弱点,通过向其输入恶意创建的数据,企图欺骗或操纵模型。攻击者主要通过微妙地修改或插入数据来欺骗模型并影响其决策。这一问题对于非常依赖人工智能和机器学习算法的关键系统(如安全系统或自动驾驶汽车)尤为严重。
对于机器学习模型来说,训练数据对于产生可靠预测至关重要。如果攻击者能够操纵或篡改训练数据,就可以向模型中添加偏见或恶意模式。这种篡改可能会损害人工智能和机器学习系统的准确性和可靠性,导致预测结果受到污染、出现误报或漏报。图1-3概括了攻击者使用人工智能与机器学习所带来的网络安全风险。

图1-3 攻击者使用人工智能与机器学习所带来的网络安全风险
攻击者可能会试图利用模型本身的缺陷获取机密数据或知识产权。为了对机器学习模型实施逆推工程并了解机密数据、专有算法或训练数据,他们可能会采用模型逆推或提取攻击等策略。
人工智能和机器学习系统的训练和正常运行通常需要大量数据。然而,处理敏感或私有数据可能会引发隐私问题。如果不实施适当的数据处理和隐私保护措施,就可能出现未经授权的访问、数据泄露和个人信息滥用等潜在风险。
训练数据或算法本身存在的偏见可能导致人工智能和机器学习系统表现出偏见或产生不可预见的影响。这种偏见可能导致不公平或歧视性结果,加剧现有的偏见或催生新的偏见。为了促进决策的公平和公正,必须对人工智能和机器学习模型中的偏见进行彻底评估并加以解决。
深度神经网络是复杂的人工智能和机器学习模型的一个例子,理解或解释它的运作机制很有挑战性。这些模型的黑盒性质引发了关于责任、透明度和理解/验证决策过程能力的问题。可解释性的缺乏可能使得理解决策或确定偏见与错误的根本原因变得困难,从而削弱人们对人工智能和机器学习系统的信任。
人工智能可以用于防御,但也可能被入侵者滥用。恶意行为者有可能使用人工智能和机器学习方法来自动化并改进攻击,例如创建复杂的网络钓鱼活动、躲避检测机制或执行有针对性的社交工程操作。潜在网络攻击的规模、速度和复杂性对人工智能和机器学习系统构成严重威胁。
为了解决这些问题,需要采取一种全面的方案,其中包括强有力的安全措施、安全的数据处理程序、对人工智能和机器学习模型的严格测试和验证,以及对模型行为的持续监控和审计。为了降低潜在风险并确保这些模型的安全和可靠运行,将网络安全的考量融合在人工智能和机器学习系统的整个生命周期中至关重要。在第5章中,我们将更详细地讨论人工智能系统的漏洞和利用方式;在第6章中,我们将重点关注如何保护未来的人工智能应用程序。
调查结束后,约翰与伊娃背后的公司进行了对峙。令他震惊的是,他了解到伊娃的数据收集和分享并不是一个小故障,而是系统设计的一部分出了问题。这一发现让约翰感到被背叛和侵犯,同时也让他对自己的信息安全、原以为拥有的隐私以及人工智能发展的伦理产生了质疑。
约翰开始游说呼吁建立更开放的人工智能系统,他决心保护自己和他人免受更多隐私侵犯。为了提醒人工智能发展所带来的风险以及充分保障措施的必要性,他与隐私倡导者、法律专业人士和热心公众合作。他们共同努力,试图制定明确的规则,以维护用户的隐私权,并在快速发展的人工智能领域促进符合道德的机器行为。
由于经历了信任与背叛,约翰成了隐私和可信人工智能研究的支持者。通过他的工作,他力求改善那些像他一样依赖人工智能助手获得便利和帮助的人的使用体验,同时切实保障他们的安全与隐私。
本章介绍了与人工智能的隐私和伦理相关的现实问题,并鼓励对这些关键问题进行更深入的思考,为后续章节的深入讨论奠定基础。本章首先概述了人工智能和机器学习的发展及应用情况,解释了人工智能和机器学习的起源以及重要的历史事件。接着转向人工智能和机器学习的最新进展,比较了人工智能和机器学习中的关键概念,包括监督学习和无监督学习,以及集成学习和深度学习算法。本章还探讨了人工智能和机器学习算法的应用,包括图像和物体识别、自然语言处理以及推荐系统。
本章探讨了人工智能和机器学习解决方案在创造财富和解决全球问题方面的价值,以及人工智能和机器学习算法中的伦理挑战,包括隐私和安全挑战。接着扩展到人工智能和机器学习在网络安全中的应用。人工智能和机器学习在网络安全方面具有许多优势。它们能够立即发现潜在的安全风险,如恶意软件、可疑活动和网络入侵。机器学习模型能够通过学习先前遭受的攻击并调整其检测技能来应对新的威胁,从而显著提高威胁检测的准确率。
本章最后介绍了在网络安全领域使用人工智能和机器学习所带来的风险。人工智能和机器学习模型容易受到对抗性攻击,这类攻击通过欺骗或操纵来破坏模型的完整性和判断力。数据投毒通过引入偏差,降低了模型的有效性。攻击者还可能尝试从机器学习模型中提取机密或专有信息。由于需要大量数据,这进一步增加了出现安全漏洞以及未经授权访问和隐私泄露的风险。意外结果、偏见和对可解释性的需求阻碍了公平决策和对模型行为的理解。恶意行为者甚至有可能使用人工智能和机器学习技术进行更危险的黑客攻击。
1.谁被认为是“人工智能之父”?
A.勒内·笛卡尔
B.约翰·冯·诺依曼
C.艾伦·图灵
D.弗兰克·罗森布拉特
2.20世纪80年代,哪一个重大技术进步促成了从符号主义人工智能到机器学习的转变?
A.反向传播算法
B.达特茅斯会议
C.专家系统
D.“深蓝”计算机
3.机器学习中特征提取的主要目的是什么?
A.降低数据的维度
B.选择相关且重要的特征
C.提高机器学习模型的可解释性
D.以上答案都是正确的
4.监督学习中的分类和回归有什么区别?
A.分类预测离散的类标签,而回归预测连续的数值。
B.分类使用无标签的数据,而回归使用有标签的数据。
C.分类侧重于深度神经网络,而回归使用集成学习。
D.分类处理的是模型中的偏差问题,而回归处理的是模型中的方差问题。
5.以下哪一项是本章提到的机器学习算法的应用?
A.在医学影像中诊断疾病和检测肿瘤
B.识别语言翻译系统中的语言障碍
C.分析客户反馈并进行市场调研
D.监测和追踪监控系统中的可疑活动
6.以下哪一项不是机器学习算法常见的应用场景?
A.金融交易中的欺诈检测
B.预测股价波动
C.电子商务中的个性化推荐系统
D.医学诊断和疾病预测
7.以下哪一项是机器学习算法常见的应用场景?
A.金融分析与交易在预测股票价格中的应用
B.自动驾驶汽车用于精确导航和决策
C.语音识别,实现智能用户体验
D.预测能源需求并优化能源使用
8.在人工智能和机器学习系统融合过程中,以下哪一项被视为伦理挑战?
A.缺乏透明度
B.失业和工作替代
C.安全风险
D.利益相关者之间的合作
9.使用人工智能和机器学习系统时,以下哪一项被认为是隐私和安全挑战?
A.对抗性攻击
B.缺乏可解释性
C.内部风险
D.遵守隐私法规
10.以下哪一项是在网络安全领域使用人工智能和机器学习的优势?
A.对安全事件的实时响应
B.提高威胁检测的准确率
C.日常安全操作的自动化
D.提高整体运营效率
11.以下哪一项是与使用人工智能和机器学习相关的网络安全风险?
A.对抗性攻击操纵人工智能和机器学习模型
B.隐私问题和数据泄露
C.人工智能和机器学习系统中的偏见导致不公平的结果
D.增强人工智能和机器学习模型与人类操作员之间的协作
回答以下问题。
1.被誉为“人工智能之父”的历史人物是谁?为什么?
2.描述图灵测试的初衷及其与意识概念的联系。
3.约翰·冯·诺依曼是谁?他在人工智能领域有何贡献?
4.解释线性回归在人工智能早期的重要性。
5.神经网络架构(特别是与人工智能相关的神经网络架构)有哪些关键进展?
6.讨论达特茅斯会议对人工智能作为一门学科诞生的影响。
7.是什么导致符号主义人工智能研究在20世纪80年代的衰落?
8.机器学习方法的引入是如何彻底改变人工智能研究的?
9.深度学习在促进人工智能研究中扮演了什么角色?深度学习领域有哪些显著成就?
10.讨论随着人工智能快速发展而出现的伦理和安全问题。
阅读以下示例文本并回答问题。
人工智能是一个宽泛的概念,核心是创造能够模仿人类认知过程的智能计算机,涉及创建能够推理、抉择、理解自然语言与感知事物的算法和系统。人工智能可以分为两类:狭义人工智能,旨在以类似人类智能的水平执行特定的任务;通用人工智能,目标是在各学科中模拟人类智能。
机器学习是人工智能的一个子领域,专注于创建算法和统计模型,使计算机能够从数据中学习,并随着时间的推移在其所做的事情上变得更好。机器学习系统无须明确编码即可自动发现模式、推导出关键见解,并做出预测或选择。通过对海量数据进行分析,训练模型能够学会识别复杂的关系并从实例中推断出规律。
1.如何定义人工智能?
2.人工智能分为哪两大类?
3.机器学习的主要关注点是什么?
4.机器学习系统是如何学习的?
5.如何实现机器学习模型的训练?
阅读以下示例文本并回答问题。
通常来说,机器学习算法中的一个关键标识是监督学习、半监督学习和无监督学习之间的划分。监督学习涉及有标签的数据,其中输入特征与相应的目标标签相关联,模型通过学习这种有标签的数据来预测未观察到的数据的标签。无监督学习使用无标签的数据来识别隐含的结构、关系或模式,而不需要明确的目标标签。
除了监督学习和无监督学习,另外两个关键的算法是集成学习和深度学习。集成学习综合了多个单独的模型,利用模型的多样性和经验来进行集体预测。深度学习侧重于使用具有多层结构的深度神经网络,这些网络可以自动学习数据的层级表示,在各个领域取得了成功。
1.监督学习和无监督学习的主要区别是什么?
2.集成学习是如何工作的?
3.深度学习的重点是什么?
4.在监督学习中,分类和回归有什么区别?
5.工程师在选择机器学习算法时应该考虑哪些问题?
回答以下问题。
1.机器学习算法在哪些任务中改变了物体和图像识别?
A.图像分类
B.物体检测
C.人脸识别
D.图像分割
2.机器学习算法在哪些领域对于观察和理解周围环境至关重要?
A.自动驾驶
B.环境监测(如气候变化、污染水平)
C.机器人技术(如用于监视的无人机、制造业中的机械臂)
D.医疗保健(如医学成像、用于监测生命体征的可穿戴设备)
3.机器学习算法如何改进安全系统?
A.通过自动识别并跟踪可疑活动或人员
B.通过建立正常行为模式的基线,帮助检测异常活动,如未经授权的登录。
C.通过扫描大量数据识别有问题的行为,随后阻止或标记这些行为以进一步审查。
D.通过使用监督学习,将数据分类为中性或有害,从而检测特定威胁,如拒绝服务(Denial of Service,DoS)攻击。
4.哪些任务属于自然语言处理(NLP)的范畴?
A.情感分析
B.文本分类
C.机器翻译
D.命名实体识别
E.问题回答
5.以下哪两项是自然语言处理在虚拟聊天机器人中的典型应用?
A.理解客户咨询
B.提供相关信息
C.协助客户进行互动
D.加快交易流程
6.在推荐系统中,机器学习算法常用于哪些任务?
A.协同过滤
B.基于内容的过滤
C.关联规则挖掘
D.混合过滤
E.矩阵分解 F.序列模式挖掘
G.基于深度学习的方法 H.个性化强化学习