书名:通用人工智能标准、评级、测试与架构
ISBN:978-7-115-64320-9
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
主 编 ◎ 朱松纯
副 主 编 ◎ 彭玉佳 张振亮 韩佳衡 王亦洲
责任编辑 贺瑞君
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
本书聚焦通用人工智能的学科内涵与发展趋势,以一套基于能力与价值双系统的通用人工智能认知架构与测试模式为核心,梳理形成“一个定义、两个完备性、三个基本特征、八个关键问题”的理论框架。
本书共6章,从人工智能的历史、内涵与哲学基础切入,依次介绍通用人工智能的定义与特征、测试与评级、训练与测试平台、TongAI理论框架,以及安全与治理,最后给出对发展通用人工智能的建议。
本书既有助于科技领域的管理者和投资者提纲挈领,把握前瞻性科技目标,也可为专业研究人员提供通用人工智能标准、评级、测试与架构的参照系以及发展指南。同时,本书还可供希望了解通用人工智能基本概念与关键问题的大众读者参考。
人工智能作为第四次工业革命的核心技术,对经济发展、社会进步、国际政治经济格局等方面产生了重大而深远的影响。世界主要发达国家已将发展人工智能作为提升国家竞争力、维护国家安全的重大战略,力图在新一轮国际科技竞争中掌握主导权。美国在2019年发布的《国家人工智能研发战略计划》(The National Artificial Intelligence R&D Strategic Plan)中,将“追求通用人工智能研究”放在首要位置。现阶段,美国的深度学习平台架构主导了科研与产业应用。OpenAI、DeepMind等国际知名的人工智能研究机构,以及一些顶尖大学已经在通用人工智能方面积极部署,将其作为人工智能技术攻坚的核心方向。我国人工智能要想实现跨越式发展,必须摒弃“跟跑—并跑—领跑”的旧思路,瞄准国际人工智能发展的必经之路,在通用人工智能领域提前“设伏”,以有组织的科研实现原创性、引领性科技创新,实现高水平科技自立自强。
近年来,国际上推出的大语言模型(Large Language Model,LLM,简称大模型)在大算力的加持下,突破了传统单一任务的局限性,适配多个下游任务已成为可能。国内一些科技从业者(特别是企业界人士)认为,“大模型就是通用人工智能”“大模型是实现通用人工智能的唯一途径”。与此相对,本书将阐述,大模型看似向着通用人工智能所要求的泛化性目标前进了一步,实际上与实现通用人工智能的目标尚有较大差距。
发展通用人工智能,要明确通用人工智能的研究目标。截至本书成稿之日,学术界对通用人工智能尚无统一定义,国际上缺乏通用人工智能测试评级标准与平台。传统的人工智能评测方法存在种种局限性,亟待确立一个标准化的通用人工智能测试与评级体系,为通用人工智能的研发及应用提供参照系与指南。
本书聚焦通用人工智能的学科内涵与发展趋势,从通用人工智能的标准(第2章,为通用人工智能下定义,描述基本特征)、评级(第3章,回顾人工智能评测方法,提出新型通用人工智能评级框架)、测试(第4章,阐述通用人工智能训练与测试平台的细节),以及架构[第5章,提出认知架构与价值体系构建,阐述通智模型(TongAI)理论框架]的多维视角,系统地探讨通用人工智能的定义、测试与实现方式。本书梳理形成“一个定义、两个完备性、三个基本特征、八个关键问题”的理论框架。
首先,通用人工智能的研究目标是寻求统一的理论框架来解释各种智能现象,并研发具有高效的学习和泛化能力,能够根据所处的复杂动态环境自主定义、生成并完成任务的通用智能体,使其具备自主的感知、认知、决策、学习、执行和社会协作等能力,且符合人类的情感、伦理与道德观念。本书参照近年来心理学的发展成果,结合婴幼儿智力发育的过程,提出实现通用人工智能的一种重要途径:为人工智能建立合理的价值体系,使其能够在价值驱动的机制下实现上述目标,通过构建常识、不断学习和严格梳理正确的价值体系来保障伦理安全,最终充分释放人工智能的潜能。基于此,本书提出一套能力与价值双系统理论(The Theory of U-V Dual System)和认知架构来统合描述智能现象,展望人工智能的可能发展路径。
同时,通用人工智能的研究需要实现两个完备性:认知架构完备性与测试环境完备性。本书介绍TongAI理论框架、通智测试(TongTest)评级基准与测试系统。它们是实现两个完备性的示例路径。
其次,通用人工智能的测试应该基于智能体与复杂的动态物理社会环境交互,并围绕通用人工智能的3个基本特征(无限任务、自主生成任务、价值驱动)展开。通智测试从视觉、语言、运动、认知、学习5个能力维度为通用人工智能体构建了从低到高5个层级(L1~L5),同时引入价值维度,并定义价值驱动的决策和行为,尝试为机器立“心”。本书回顾了发展通用人工智能的8个关键问题,包括认知架构、自我意识、社会智能、价值驱动、价值习得、具身智能、可解释性,以及人机互信等。
再次,对人工智能的测试应构建“论绩、论迹、论理、论心”的全方位评价体系,以保障通用人工智能的能力可靠性和价值一致性。“论绩”以结果为导向,通过模型在特定任务中的表现指标评估其基础性能;“论迹”通过行为轨迹分析,判断智能体的行动是否合理并符合预期;“论理”关注推理过程的正确性,确保答案正确且推理路径可信;“论心”则深入探讨智能体的价值观和动机,验证其行为决策是否符合伦理与社会规范。这4个层次既构建了从结果到行为、推理再到价值的逻辑链条,也为通用人工智能的能力验证和伦理安全提供了理论依据与实践指导。
由于通用人工智能的测试与评级方法不具有唯一性,且作者水平有限,因此书中若有不足之处,请读者惠予批评指正。
最后,诚挚感谢北京大学、清华大学等单位对本书的支持,感谢科技创新2030—“新一代人工智能”重大项目(项目编号:2022ZD0114900)的支持,感谢北京通用人工智能研究院所有参与本书编写工作的人员。感谢为本书提供宝贵修正建议的专家朋友们,他们是陈宝权、迟惠生、林宙辰、宋国杰、孙茂松(按姓氏拼音排序)。
主 编: 朱松纯
副 主 编: 彭玉佳 张振亮 韩佳衡 王亦洲
参 编(按姓氏拼音排序):
陈博远 戴 博 范丽凤 方 聪 封 雪 傅雨秋
高晓梦 韩文娟 何欣怡 贺 笛 黄江勇 黄思远
吉嘉铭 姜广源 金 鑫 靖博涵 李佳琪 李佳睿
李 庆 李世乾 梁一韬 刘航欣 刘腾宇 柳学成
马煜曦 牛力兴 牛艺达 庞园园 綦思源 秦傲洋
王 滨 王俊淇 王 莉 王天乐 王 威 王奕森
王 赞 魏陈锐 谢 琦 邢向磊 徐满杰 杨耀东
詹稼毓 张 驰 张牧涵 张溢文 郑子隆 钟方威
钟伊凡 周嘉懿
编辑与修订(按姓氏拼音排序):
陈大鑫 崔锦实 崔绍洋 德吉央拉 董亦飞 黄博楷
鞠芊芊 路 迪 生冀明 王 愉 茜 谢卢彬 朱爱菊
朱毅鑫
插图整理:陈 珍
知识产权:尚云云
作为第四次工业革命的核心技术,人工智能(Artificial Intelligence,AI)正在释放科技革命和产业变革积蓄的巨大能量,将对经济发展、社会治理及文明演化等方面产生重大而深远的影响。智能学科作为一门新兴交叉学科,正受到广泛的社会关注。本章从智能的概念出发,探讨人工智能的历史、内涵与哲学基础。
智能是什么?从非智能体到智能体,最关键的鸿沟在哪里?古往今来,这些问题一直都是人类心灵深处的困惑,宗教、哲学、艺术都试图做出回答。直到认知科学与心理学家将智能定义为一个可测量的研究对象,智能才真正成为科学意义上的一个概念。本节首先介绍智能的心理学定义与测量方法,展示现有丰富的研究成果与存在的不足,然后基于智能现象与物理现象的本质区别,提出一种全新的大统一智能理论。
在关于智能的研究领域中,最大的挑战源自人们对什么是“智能”莫衷一是。智能一般指人类的智力,虽然人们在这方面已有多年的研究历史,但仍然没有形成统一的理论。在早期的心理学研究中,斯皮尔曼的二因素说(Spearman, 1914)把智力分为普遍因素(General Factor,G因素)和特殊因素(Specific Factor,S因素);后期的瑟斯顿(Thurstone, 1946)及加德纳(Gardner, 2011)的多因素论把智力分为语言、推理、数学等多个维度;卡特尔(Cattell, 1987)的认知理论又把智力分为流体智力(Fluid Intelligence)和晶体智力(Crystallized Intelligence)等维度。
在心理测量领域,有许多针对智力的测验方法。智力测验是指在一定的条件下,使用特定的标准化测验量表对被试者施加刺激,从被试者的特定反应中测量其智力的高低。20世纪初,世界上第一个智力量表诞生了,它就是比奈-西蒙智力量表(Binet et al., 1912, 1916),它以斯皮尔曼的二因素说为基础,制定了3~11岁的儿童应达到的能力水平标准,可以测量智力多方面的表现,如记忆、理解、手工操作能力等。第一次世界大战以后,多种智力测验被投入使用,智力测量工具多种多样,如斯坦福-比奈智力量表(Stanford-Binet Intelligence Scale,2003年修订)、韦克斯勒成人智力量表(Wechsler Adult Intelligence Scale,2008年修订)、瑞文标准推理测验(Raven Standard Progressive Matrices,1938年发布)等。这些针对人类智力的测量工具,也为人工智能测验提供了启发。
除了成年人智力的研究,儿童智力发育的研究工作对揭示智能的初始形态和发展过程也起到了至关重要的作用。伊丽莎白·斯佩尔克(Elizabeth Spelke)等人认为人的心智(Mind)由个别的、可以分离的核心知识(Core Knowledge)系统构成(Spelke, 2007),包括客体系统、主体系统、数字系统及空间系统,并提出了一组可能的智能基础维度。对于儿童认知发展的理论,让·皮亚杰(Jean Piaget)做出了突出的理论贡献,他认为所有人类个体都会以固定顺序经历各个认知发展阶段(Piaget, 1952, 1962),假设个体从出生到青春期,都按照固定的4个阶段进行:感觉运动阶段(0~2岁,主动意向反应,理解物体属性)、前运算阶段(2~7岁,将感知动作内化为头脑中的表象性思维)、具体运算阶段(7~11岁,去自我中心,思维可逆)、形式运算阶段(11岁以上,具备抽象思维的能力)。
综上,心理测量与发展心理学为智能包含的维度及智能发展阶段的相关研究做出了重要贡献。然而,对智能的定义至今仍没有统一的结论,多种描述和评价“智能”的系统(如加德纳的智力理论)都未能对智能给出统一的理论解释(Legg et al., 2007)。这些理论侧重被动的能力水平的测量,无法体现出智能自主驱动的学习、探索及任务执行能力。这些基于行为的测试仍然是黑盒试验,并未与智能产生的机理模型或数理模型充分结合。通用人工智能(Artificial General Intelligence,AGI)的架构、认知机理、学习的通信过程必须与智能的评测相互促进,通过高效的评测来指导通用人工智能系统的研发和迭代升级。
在自然界中,从“物理”到“智能”的演化是一个连续过程。现代科学研究揭示,从简单的物理运动到化学变化,从无机物到有机物,从无生命(Inanimate)到生命体(Animate Object),从蚂蚁、蜜蜂等简单动物再到复杂的灵长类,最后到人类的持续演化,地球上的生命完成了漫长的演化过程。对此,朱松纯教授团队在《人类感知物理和社会事件的统一心理空间》(A Unified Psychological Space for Human Perception of Physical and Social Events)(Shu et al., 2021)中提出用“生命度”(Animacy)作为标尺来衡量演化的复杂度(Complexity):从无生命到简单生命体,再到复杂智能体,“生命度”越来越强,“智能”也越来越复杂,从而形成一个连续的频谱。
刻画这种智能的演化,可以帮助人们理解智能的定义和维度。试着想象两个小球在无重力环境中运动,如图1-1所示。当看到图1-1(a)所示的两个物体碰撞、弹开时,人们感受到的是物理运动现象,可能会想到物体的质量、动能、作用力及运动轨迹等特性。但是,当图1-1(b)(c)所示的智能体与物体(或智能体)开始一前一后“你追我赶”,不断追逐、逃脱时,似乎演绎出了一个“爱恨交织”,甚至“惊心动魄”的故事。人们能感受到,图1-1(a)中的物体是“死”的,图1-1(b)(c)中的智能体是“活”的,这是为什么呢?原因就在于图1-1(a)中的物体碰撞是简单的物理现象,而图1-1(b)(c)中的智能体有了自己的“目标”和“追求”,显现出复杂的智能现象(Shu et al., 2021)。
图1-1 智能体与非智能体的区别
本书提出,智能是智能体在与环境和社会交互并完成大量任务的多尺度、多维度过程中表现出来的各种现象。智能现象是复杂的、多样的,可以按照不同的标准进行相应的类型划分。例如:按照功能的差异,智能现象表现为运动、感知、认知、数字感(Number Sense)、记忆、心智、具身等。根据领域的不同,智能现象可以分为计算机视觉、自然语言处理、机器学习、机器人等。根据国务院2017年发布的《新一代人工智能发展规划》,人工智能的发展重点包括5类:大数据驱动知识学习、跨媒体协同处理、人机协同增强智能、群体集成智能及自主智能系统。智能现象在不同角度、不同维度、不同尺度都有着丰富的内涵,可以说是“横看成岭侧成峰”。
智能现象与物理现象有相似之处,这两类复杂现象的背后分别存在着起支配作用的运行原理。例如,迄今为止人们观察到的所有关于物质的物理现象,在物理学中都可用万有引力、电磁力、强相互作用力、弱相互作用力这4种基本的相互作用机制来描述和解释。著名的大统一理论(Grand Unified Theory,GUT)假说,就是通过研究各种物理现象之间的联系与统一,试图构建出能够统一说明不同物理现象的理论或模型。本书提出,各种复杂的智能现象背后同样存在着相应的基本原理和“大统一模型”。
与由非智能体相互作用形成的物理现象相比,智能现象具有显著的“生命度”特点。从非智能体的机械运动现象中,我们无法得出任何与意图、意志、价值选择等相关的结论。非智能体的运动是受外力影响的被动结果,不是自主发起的行动,它们遵循物理原理,但不包含基于价值的驱动和由因果关系形成的选择。各种智能现象的产生均须依赖两个前提条件:价值链条(Value Chain)和因果链条(Causality Chain)。价值链条是生物进化和生存的“刚需”,如个体的生存、温饱和安全问题,以及物种传承需求。这些基本任务(或需求)会衍生出大量的其他任务。行为是被各种任务驱动的,任务的背后则隐藏着价值函数(Value Function)和决策函数。大多数价值函数在进化过程中就已经形成了,包括在人脑中发现的执行奖惩机制的各种化学成分,如多巴胺(兴奋、快乐)、血清素(愉悦、调节恐惧、缓解焦虑)、乙酰胆碱(焦虑、不确定性)、去甲肾上腺素(新奇、兴奋)等。在价值链条的基础上,智能体需要理解物理世界及其因果链条,以适应这个世界。基于自然和社会规律,因果链条决定了任务完成的路径,为任务的实现设定了限制。然而,当前被社会广泛认知的、基于大数据的人工智能,大多忽视了智能现象背后的核心要素——价值和因果。在许多相关任务中,大模型无法体现出让人满意的、根植于真实物理-社会场景的价值驱动和因果理解。
物体的运动是机械的,是由各种力和相互作用驱动的,可以被一组效用函数(Potential Function,用U表示)描述;智能体的活动是自主的,由价值函数(Value Function,用V表示)驱动,这是智能体和物体最本质的区别。本书认为,智能现象包括两个部分。
(1)理(能力):自然的模型(物理)和社会的规范(伦理),可以由一组效用函数U表达。
(2)心(价值):由认知架构(Cognitive Architecture)和一组价值函数V表达。
每个智能体由(U,V)函数来刻画。智能科学的研究方法就是通过构造认知架构与函数U、V,研究它们在模型空间的计算关系,以解释各种智能现象。
以史为鉴,可以知兴替。20世纪以来,计算机科学、心理与认知科学、数学与统计、自动化与控制理论等学科的发展孕育了智能科学,开启了智能科学风起云涌、跌宕起伏的发展历程。站在人工智能新的历史起点,回顾并总结人工智能多次历史性突破与衰落的根本缘由,有助于我们把握新的历史机遇,瞄准科技战略制高点,以期实现智能时代的引领性发展。
早在20世纪40年代,人工智能研究就诞生了诸多至今影响深远的成果(Creiver, 1993),被称为智能学科的摇篮期。例如,冯·诺依曼在20世纪40年代提出的自复制自动机理论(Kari, 2005),希望能让机器在没有外部干预的情况下自主复制,为后来的人工生命、自适应机器学习、进化计算等领域打下了基础;他的博弈论(Von Neumann et al., 2007)则为解决优化问题及多智能体协同问题提供了一个理论框架。受到生物智能的启发,维纳提出了控制论和一种名为“反馈”的通信模型(Wiener et al., 1949),强调了信息在控制系统中的重要性,从而猜想智能现象可能是接收和处理信息的结果,这成为人工智能行为主义的起源。麦卡洛克和皮茨(McCulloch et al., 1943)则在研究大脑的工作机制时,发明了世界上第一个神经网络,尝试理解人脑中由神经组成的网络是如何产生逻辑运算的。这个发现成为当今人工智能联结主义的基础。这个时代迎来高潮的标志是图灵提出的图灵测试(Turing Test)。这是一个旨在评估机器是否具有与人类同等智能的实验,并成为人工智能领域经典的检测标准。
这些才华横溢的学者在生物、信息和工程的交叉领域中做出了诸多人工智能领域的奠基性工作。人工智能这个概念由明斯基在1956年的达特茅斯会议上首次提出。该会议将原本在各自领域奋战的学者们聚在了一起,形成了人工智能最早蓬勃发展的社区(Creiver, 1993),这标志着人工智能时代的来临。1956年至今被视为人工智能诞生的元年。
人工智能的发展可分为3个历史阶段。1956—1970年是第一个繁荣时期,实现了机器定理证明和机器学习的突破。而在20世纪70年代,因过于强调人工智能的通用求解方法而忽略了知识表征,人工智能算法只能完成非常专项的简单任务。并且,当时计算能力有限,人工智能无法解决实际应用问题,这些导致人工智能的发展进入了第一个“寒冬”。
20世纪80年代是人工智能发展的第二个繁荣时期,专家系统和知识工程做出了主要贡献(Buchanan et al., 1984)。而在20世纪80年代后期,由于将世界的知识、物理常识和社会常识表征为计算机能识别与利用的专家系统费时费力、无法推广,人们认为专家系统的巨大投入没有带来预期效果,商业价值有限,因此产业界对人工智能的投入锐减,使人工智能领域的发展遭遇第二个“寒冬”。
进入20世纪90年代,人工智能领域被两朵“乌云”笼罩。首先是“符号落地”,它面临将符号(如单词或抽象表示)与它们所指的真实世界的对象或概念联系起来的挑战,存在用计算机对图像和文本进行深入分析和理解的困难。其次是“常识获取”,它涉及计算机对客观世界基本物理原理(如重力、摩擦力等)的掌握,同时也涉及对人类社会交往的基本常识(如理解他人的目标、意图和价值观等)的掌握。
在这两朵“乌云”的笼罩下,人工智能的发展面临着巨大的挑战和阻力。人工智能领域逐渐分化为计算机视觉、自然语言处理、认知计算与常识推理、机器学习、机器人学、多智能体等6个子领域。这6个子领域分别专注于用特定的研究方法解决特定的问题(见图1-2)。
图1-2 人工智能的发展历程
2012年,随着AlexNet深度神经网络(Deep Neural Network,DNN)在ImageNet大规模视觉识别挑战赛中一举夺冠(Krizhevsky et al., 2012),基于大数据训练的深度学习(Deep Learning)算法走进了大众的视野。它试图模拟大脑的神经网络及其连接机制,借助反向传播算法(Back-Propagation Algorithm)从大数据中学习问题表征,在处理感知问题方面取得长足进步。得益于算力的提升和大规模数据的可得性,近几年我们见证了多种深度学习模型的诞生及其创造的成绩。从LeNet(LeCun et al., 1998)到AlexNet(Krizhevsky et al., 2012),再到ResNet(He et al., 2016)及AlphaGo(Silver et al., 2016),这些深度学习网络模型的参数和层级不断增多,实现的任务也越来越丰富和复杂。
大模型进一步刷新了深度学习的参数规模,并且能够在大规模数据上预训练,以广泛适配下游任务。大模型源自基于Transformer架构的自然语言处理模型,如GPT-3(Generative Pre-trained Transformer-3)模型(Brown et al., 2020),以及结合了大型语言预训练模型和机器人的PaLM-E模型等。此外,还有一些大模型转向多模态信息处理。例如,Google AI的Imagen模型(Saharia et al., 2022)能将文字描述转化为逼真图像;DeepMind提出的Gato模型(Reed et al., 2022)具有支持多模态、多具身、多任务的特点。另外,还有费楠益等学者(Fei et al., 2022)提出的横跨视觉和语言的大模型(Bridging-Vision-and-Language,BriVL)。然而,尽管深度学习算法已经在一些特定任务上接近甚至超越了人类水平,但它普遍存在着强烈依赖数据、缺乏可解释性、易受攻击、任务泛化性差等局限,人工智能距达到人类通用且泛化的智能水平相差甚远。
近年来,研究人员更加强调认知推理和可解释性,呼吁人工智能超越人工智能领域中“什么”和“哪里”的传统框架,转而关注“为什么”和“如何”的问题。人工智能研究员、纽约大学心理学系教授加里·马库斯(Gary Marcus)认为,深度学习算法(如纯粹的端到端深度学习)没有表征因果关系,且缺乏逻辑推理和抽象概念表征,虽然深度学习确实在很多方面取得了进步,但距通用的人类水平的智能还有很长的路要走,整个人工智能领域需要寻找新的出路。他认为,将符号处理与现有的深度学习结合的混合系统可能是一条非常值得探索的道路(Marcus, 2018)。麦克阿瑟“天才”奖得主、华盛顿大学教授、美国阿兰·图灵研究中心研究员崔艺珍(Yejin Choi)在TED大会上公开表示:大模型缺乏常识概念抽象,没有和人类一样的主动探索能力。她认为,主动探索、实验、假设、验证的主动学习(Active Learning)过程是未来研究的重点之一。
2022年9月13日,国务院学位委员会、教育部发布的《研究生教育学科专业目录(2022年)》显示,智能科学与技术正式成为交叉学科门类中的一级学科,这开启了我国智能学科建设新的历史篇章。智能学科如何规划学科定位与建设目标?如何处理与计算机等学科的关系?如何在学科布局中统筹智能科学基础研究与“大数据、大算力、大模型”应用技术的发展?除了大数据范式,智能科学是否存在独辟蹊径、异军突起的可能?本节立足通用人工智能的长期目标,聚焦智能学科建设的热点问题,探讨建设世界一流智能学科的实践路径。
实现通用人工智能是智能学科的初心与终极使命,我们现在距这个目标有多远?要回答这个问题,本书需要暂时跳出人工智能工业实践与产品评价的视角,回归到智能学科的建设目标与基本定位。
从全局来看,智能学科是一个非常广泛的学科领域,了解其完整内涵是一项艰巨的任务。智能学科可以归纳为以下6个主要方面。
(1)计算机视觉(如物体识别、属性理解、3D重建、场景理解、行为分析等问题)(Chen et al., 2019; Cong et al., 2015; Kan et al., 2016; Liu et al., 2016; Ma et al., 2023; Song et al., 2015; Wang Kunfeng et al., 2017; Wang Yuwang et al., 2017; Ye et al., 2022; Zheng et al., 2007)。
(2)自然语言处理(如语义解译、对话意图、语境落地、共享情景、语义语用,以及语音识别、语音合成等问题)(Fan et al., 2006; Yang et al., 2015; Zhang Zhenyan et al., 2019)。
(3)认知计算与常识推理(如功能用途、物理关系等物理和社会常识,以及因果判断、社交意向、高阶意识等问题)(Du et al., 2023; He et al., 2015; Gilbert et al., 2013; Yao et al., 2023; Zhang et al., 2010; 陈霖, 2018; Zhang Zeyu et al., 2023)。
(4)机器人学(如任务规划、物理推导、因果理解、镜像映射、社交礼仪、机械运动控制等问题)(Li et al., 2019; Liu et al., 2012; Zhang Lu et al., 2019)。
(5)多智能体(如多智能体交互、对抗与合作,价值函数,利益博弈,社会组织,伦理规范,道德法治等问题)(Dong et al., 2019; Li Chengshu et al., 2023; Li Weiyu et al., 2023; Li Yifei et al., 2023; Xiao et al., 2009; Yao et al., 2022; Zhang et al., 2023a)。
(6)机器学习(各种统计的建模、分析工具和计算,如符号连接、统一表达、归纳演绎、因果模型、价值获取等问题)(Dong et al., 2019; Lin et al., 2010; Liu et al., 2012; Pan et al., 2010; Yang et al., 2006; Yao et al., 2022; Zhou et al., 2020; 李德仁 等, 2006)。
面向这么广阔的学科范畴,有没有一个根本的学科定位与建设目标?
本书在1.1节已经探讨了智能作为各种现象的本质,接下来进一步对智能学科与物理学科进行比较。物理学研究的是客观物理现象背后的规律,而智能学科研究的是智能体与环境、社会群体相互作用的复杂系统,并构建智能现象的统一理论体系。本书提出,与物理学研究客观物理规律相似,智能是一门科学;智能科学的研究对象是客观与主观混合的智能体;智能科学的核心任务是通过构建统一的理论框架,来解释智能体在物理环境与社会场景中表现出的智能现象和能力。
现实中,我国智能学科逐渐发展出“智能科学与技术”和“人工智能”两个学科。“智能科学与技术”是一门研究自然智能的形成与演化的机理,以及人工智能实现的理论、方法、技术与应用的基础学科,是在计算机科学与技术、统计与机器学习、应用数学、神经与脑科学、心理与认知科学、自动化与控制系统等基础上发展起来的一门新兴交叉学科。“人工智能”过去一直被看作计算机学科中一个融合应用技术与工程实践的领域,如20世纪80年代人工智能热潮中的代表性技术——专家系统与知识工程。近年来,随着大数据、深度学习的快速发展和普及,深度学习成为本次人工智能热潮的主要代表性技术,人工智能被赋予了新的内涵,成为一项赋能百业的技术,包含数据智能、计算智能等。鉴于这种广泛的社会认知,也为了与“智能科学与技术”区分,在智能科学与技术研究的基础上,将人工智能与文、理、医、工等多学科交叉融合,开展了诸如数字人文、智慧法治、科学智能(AI for Science)、医疗智能(AI for Medicine)等交叉研究。
现实中,智能学科涵盖智能科学与技术、人工智能等广泛的学科领域,但从事相关研究的大多数研究人员和专业人员,往往只是涉及以上某个学科的子领域,甚至长期专注于某个学科子领域中的具体问题。例如,机器学习是人工智能的一个子领域,深度学习属于机器学习这个子领域的一个“当红”流派,大模型又是支撑深度学习技术的一个具体方法。因此,目前对于智能学科与计算机学科的关系、人工智能与大模型的关系,社会上存在不少认知误区,亟待正本清源。
随着人工智能逐渐释放出巨大的社会影响力,越来越多的人开始关注智能学科。但与此同时,当前社会上非专业人士对智能概念的理解含糊不清,往往认为人工智能就是计算机。朱松纯教授在《智能学科的源起、演进与趋势——北京大学智能学科的探索与实践》一文中指出,智能学科和计算机学科虽然密切相关,但二者的学科内涵有着本质的不同(朱松纯, 2022)。
计算机学科的核心目标是“造计算机”,是研究计算机的设计与制造,并研究利用计算机进行信息获取、表示、存储、处理、控制等的理论、原理、方法和技术的学科。程序员利用计算机能理解的语言编制程序,在计算机系统上运行,实现由性能驱动的计算功能。而智能学科的使命是“造智能体”,研究的对象是客观与主观混合的智能体,旨在通过构造一个统一的理论与架构,解释智能体在物理与社会场景的相互作用中表现出的智能现象。例如,视觉识别与重建、自然语言理解、认知与常识推理、任务与运动规划(Motion Planning)、环境交互与具身智能(Embodied Intelligence)、心智模型与认知架构、学习理论、价值体系、社会伦理等。智能体能够与用户进行自然语言的对话沟通,与用户对齐知识与价值观,在动态不确定场景中完成由价值观驱动的各种复杂任务。所以,一台计算机未必是智能体,而一个智能体也未必具有如计算机一样的计算能力。智能学科与计算机学科的目标比较如图1-3所示。
图1-3 智能学科与计算机学科的目标比较
例如,在计算机学科的传统理论中,香农定理描述了计算机通信的极限,图灵停机问题刻画了计算机程序的能力极限。在智能学科领域,二者则有新的内涵。1948年,克劳德·香农(Claude Shannon)提出了一种被称为信息理论的标准通信框架(又称香农理论),并推导出了计算机信息传递速率(常用单位为bit/s)的上限和传输介质之间的关系。这个速率的上限被称为信道容量(Channel Capacity)。然而,香农理论存在一个不足之处,就是它没有描述信息的语义或含义。虽然发送者和接收者假设彼此有一定的共识,如共享的密码本,但通信协议没有考虑到接收者的思维状态或者协作动机。通信协议总是假设共识是不变的,缺乏对智能体协作性和思维状态的建模,没有考虑到在良好协作中达成共识的过程,因此根据香农理论计算出的通信速率上限与团队合作中的沟通效率不符。特别是在通信式学习(Communicative Learning)领域,学生在与老师交互的过程中可以从少量的例子中习得大量的技能,远远超越了香农理论的极限。通过考查这种智能式的学习认知过程,我们可以将学习的过程形式化为从差异化、分布式的知识收敛到共同知识的过程,进而可以通过类比计算机科学中的停机问题提出“学习的停机问题”。也就是说,在何种条件下,学习过程会在何种平衡点终止,这决定了学习的基本限度(具体讨论见《通讯式学习:一种统一的机器学习范式》一文)。总体而言,无论是香农定理,还是图灵停机问题,都将计算机视作一个简单的逻辑系统,而智能科学将智能视作能力与价值相结合的现象。因此,智能科学不仅对原有的机器通信模型做出新的定义,还将智能体的认知、学习等自发行为纳入学科研究范畴,形成了通信式学习理论,得以超越计算机科学的理论极限。针对智能学科的基本理论要素,本书第2章将围绕“一个定义、两个完备性、三个特征、八个关键问题”具体展开介绍。
人们对人工智能还存在一个典型的社会认知误区,即“人工智能 = 大数据 + 大算力 + 大模型”。当前,我国乃至全球范围内的政、商、产、学、研各界流行的人工智能模式,是以大数据、大算力和深度学习为代表的科研范式。基于该科研范式研发的智能系统(如智能推荐系统、智能问答系统等)在过去十多年里,的确在科学研究和产业应用中取得了显著进步,对世界经济的发展起到了巨大的助推作用。在媒体报道中,人工智能往往与机器学习、大数据、深度学习画等号。最近,随着ChatGPT模型的火爆,很多人认为大模型就是人工智能的代名词。
但是,依靠数据、算力和模型复杂度的堆砌就可以实现智能学科的目标吗?马毅等学者在“On the Principles of Parsimony and Self-consistency for the Emergence of Intelligence”(Ma Yi et al., 2022)一文中提出,智能现象应当遵循简约和自洽的原则,智能的形成不应依赖大量计算和数据资源的堆砌。以“大数据、大算力、大模型”为代表的智能系统之所以能够广泛地应用到各行各业,要归功于强大算力与大量资源支撑下的复杂模型训练。以基于GPT-3.5的ChatGPT为例,该模型是拥有1750亿个参数的、巨大的自回归语言模型,训练该模型的算力消耗约为3640PF-days(每秒一千万亿次计算,运行3640天),需要花费1200万美元,而且仅存储模型参数便需要700GB的硬盘空间。此外,训练大模型所产生的能源消耗与环境污染也触目惊心。据媒体报道,训练ChatGPT需要消耗1.287×103MW·h的电量(相当于约120个美国家庭的年耗电量),并产生502t的碳排放(相当于约110辆美国汽车一年的排放量)。因此,尽管ChatGPT模型在许多自然语言处理任务及基准测试中的表现非常优秀,但因其巨大的数据需求、资源消耗和高昂的成本,众多企业只能对部署和应用该模型望而却步。
越来越多的研究和实践表明,以大数据、大算力和深度学习为代表的科研范式遇到的瓶颈日益凸显,主要表现在:只能做特定的、人类事先定义好的任务;每项任务都需要大量的数据与标注,以及与计算相关的高额能量和资源;模型不可解释、知识表达不能交流;大数据获取与计算的成本昂贵等。本质上,当前被社会所广泛认知的、基于大数据驱动的人工智能,大多忽视了智能现象背后底层的驱动因素——价值和因果。在许多相关任务中,大模型也无法体现出让人满意的、根植于真实物理-社会场景的价值驱动和因果理解。所以,目前的人工智能发展路径虽然基于大量的数据总结出了文本和图片中的统计学规律,但缺乏对智能本质的构建,是“知其然,但不知其所以然”。
同时,这种科研范式也导致产业界对人工智能形成了一些不当认知:“人工智能等价于喂数据”“人工智能就是一种工程应用”“职业培训就可培养出人工智能专业人才”等。当前流行的人工智能科研范式遇到的瓶颈和当前社会对人工智能的不当认知,已经成为阻碍智能学科健康发展的不利因素,人工智能呼唤面向未来发展的新的科研范式。
发展新一代人工智能,需要把握智能现象的本质,深入研究智能现象背后的机理。在“Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense”一文中,朱松纯团队提出,FPICU[功能性(Functionality)、物理(Physics)、意图(Intent)、因果(Causality)和效用(Potential)]为拥有类人常识的认知人工智能的5个核心领域。该思想超越了传统的“是什么”(What)和“在何处”(Where)的框架,而聚焦“为什么”(Why)和“怎么样”(How)。这些问题在像素层面上并不可见,却促进了视觉场景的创建、维护和发展。因此,朱松纯团队将它们称为视觉的“暗物质”(Dark Matter)(Zhu Yixin et al., 2020; Zhu et al., 2021)。
如图1-4所示,作为人类,我们可以毫不费力地从一张厨房的静态图片中得到以下信息:预测水壶中将会有水流出,推理出番茄酱瓶子倒置的意图(为了利用重力,方便使用);即便看到白色的狗似乎飘浮在空中,我们也可以由这个现象违反了物理定律推测出这只狗是趴在玻璃桌上。
图1-4 通过联合解译和认知推理,深入理解场景或事件的示例(1in=2.54cm)
理想情况下,计算机视觉系统应该能够同时进行以下工作:重建3D场景,估算相机参数、材料和照明条件,以属性、流态(Fluent)和关系对场景进行层次分析,推理智能体(如本例中的人和狗)的意图和信念,预测智能体在时序上的行为,重构不可见的元素(如水和不可观测的物体状态等)(Zhu Yixin et al., 2020)。以上信息用现有计算机视觉方法一般很难检测到,这些知觉加工只能通过推理场景中没有以像素表示的不可观察因素来得到,这要求我们构建出具有类人核心知识和常识的人工智能系统,而当前的计算机视觉研究严重缺失这些知识。这些不可直接“观测”的因素正是智能的“暗物质”。
在当前的计算机视觉研究中,大多数视觉任务被转换为分类问题,并通过大规模的数据标注和端到端的神经网络训练来解决。这种范式可以被称为“以大数据驱动小任务”的范式。而认知人工智能提出了依赖少量数据实现对问题的理解、分析、推理与决策,执行可以延伸、泛化的“大任务”的发展方向。
本书认为,未来的通用人工智能应给予常识、认知等智能的“暗物质”更多关注,实现从“大数据、小任务”的“鹦鹉范式”转向“小数据、大任务”的“乌鸦范式”(见图1-5)。
图1-5 “鹦鹉范式”与“乌鸦范式”
当前流行的人工智能范式可以视为“鹦鹉范式”。鹦鹉有很强的语言模仿能力,与当前基于数据驱动的聊天机器人具有相似的模式。二者都可以说话,但鹦鹉和聊天机器人都未必能在明白语境、语义的基础上,把说的话对应到客观世界和人类社会中的物体、场景或人物中,并进一步理解话语背后的现实因果与逻辑。该范式的特点是“大数据、小任务”,本质上可以视为一种复杂的查询,具体表现为:需要大量数据来训练;需要付出极大的代价才可以“理解”语义;很难对应现实的因果逻辑。
面向未来的人工智能范式应该是“乌鸦范式”。乌鸦被誉为具有高智商的动物,亨利·沃德·比彻(Henry Ward Beecher)曾说:“如果人们有翅膀,且长着黑色的羽毛,他们中很少有人会像乌鸦一样聪明。”一系列实证观察研究发现,乌鸦具有较强的工具使用能力和社会认知能力,甚至可以与灵长类动物媲美(Emery et al., 2004)。例如,乌鸦能够自主创造条件、利用“工具”,主动把核桃抛到马路上,等汽车碾压来使核桃破壳,从而得到食物。这样的行为体现了乌鸦能够学会某种常识并巧妙地利用常识解决新的问题。乌鸦的智能模式给我们提供了3点启示:第一,乌鸦是一个完全自主的智能体,具备感知、认知、推理、学习和执行等能力;第二,乌鸦从未接受过以人工标注好的大规模数据为基础的训练,而是在少量观察和尝试后,实现了自主的认知推理和学习;第三,乌鸦的智能耗能极低,只需0.1~0.2W就可以实现基本功能。该范式具有“小数据、大任务”的特点,具体表现为:具有自主的智能体,能够感知、认知、推理、学习和执行;不依赖大数据,基于无标注数据进行无监督学习和自监督学习;智能系统的功耗低[更多讨论参见朱松纯教授的《浅谈人工智能:现状、任务、构架与统一|正本清源》一文(朱松纯, 2017)]。
综上,截至本书成稿之日,人们对人工智能是什么,以及智能学科内涵的理解还存在很多误区。对智能和智能科学的不同理解和对研究范式的选择,将导致不同的人工智能系统和领域发展路径。对人工智能不当的社会认知,也将影响我国人工智能的人才培养和发展。
爱因斯坦在谈论哲学与科学的关系时,曾明确指出“哲学可以被认为是全部科学之母”。回顾智能科学的发展历史,可以清晰地看到,历次革命性的技术突破都源自处于指导地位的哲学思想的转移。当前,智能科学的发展又走到了关键的十字路口,是延续20世纪80年代开始的数据流派,还是直面短板、重新出发,以新的哲学思想创造新的研究范式?倾听历史的回声,中国的传统哲学思想将为今天智能科学的发展提供启示。
在中国古代哲学思想的发展过程中,哲学家、思想家们对物理规律与人类内心的关系进行了深入探讨,通过数据与价值来认识世界的思想已在“理学”与“心学”的争锋中初露端倪。
“程朱理学”是宋代以后由程颢、程颐、朱熹等人发展起来的儒家学派,认为理或天理是世间万物之源,万物“之所以然”,其中必有一个“理”。“理”既包括自然界的各种物理规律,也包含人文社会的“伦理”与社会规范(Social Norm)。理学提出的研究方法是“格物致知”,即通过追求万物的道理(格物),可以达到认识真理的目的(致知)。“格物致知”的本质就是从数据到模型的知识发现过程,与当今人工智能领域的大数据方法具有相似的思路。
“心”可以理解为内心的欲望或价值观,人工智能中的价值函数可以与之对应。关于“心”与“理”的关系,朱熹提出了“存天理、灭人欲”,把二者区分看待。陆九渊则反驳了“格物致知”道路,主张“心即理,心外无物”,将“心”作为个体与所处世界、社会关系的出发点,认为个体的成长首先要启发内心,先从初心出发,再做到知行合一。后期,王阳明继续发展“心学”,提出“心”是感应万事万物的根本,以及“心即理”的命题,认为人对客观规律的认识为理,而对“理”的认知应由价值观(心)来推动。“理”与“心”,分别对应数据驱动、价值驱动的不同智能范式。
东方哲学思想可以对应人工智能领域不同的认知范式,为人工智能后续的发展提供哲学层面的“顶层设计”。下面以对椅子的认识为例,阐述人工智能研究中不同的哲学思想层次。
在第一层次中,人工智能基于大数据和深度学习的算法,通过大量的椅子图片来学习识别椅子,这是“格物”的层级。对图片中不同的椅子结构、部件等进行标注,通过学习涵盖各种椅子特征的图片视角、材质、花纹、颜色、光照条件、遮挡等信息,来实现对一张新的椅子图片的识别。虽然这样的范式可以训练出人工智能模型,实现高准确率的椅子识别,但缺乏解释性,并未实现对椅子功能的理解(椅子是用来给人坐的)。这导致的必然结果就是,总是会出现无法被模型识别的特例(如形状奇特、造型怪异的椅子)。
在第二层次中,人工智能模型可以致力于理解椅子的3D几何结构与功能,从物体类别判断上升到推理理解,把椅子的图片识别推进到“椅子是为了让人坐”的认知推理。这个层级已经开启对“心”的重视,认识到物需要满足人的价值需求。人工智能可以理解椅子作为工具具有支撑身体质量的功能,它的尺寸等属性也可以通过功能推理出来。例如,因为人们要坐得舒服,所以椅子座位的高度往往就是人站立时小腿的长度。人工智能体要想实现这种从物体类别识别到任务需求理解的转换,必须具备对物理世界进行视觉感知和想象的能力。
在第三层次中,人工智能模型能够进一步上升到人的价值观维度,来定义怎样才是一把舒服的椅子,这是真正的“心即理”的阶段。不同椅子的颜色、形态、位置等,都代表着不同的价值观与社会规范,在不同的社会情境下需要满足不同的社会规则、等级和制度。具体到每个人的价值函数可能也不一样,如有的人腰疼,必须坐硬板凳,而有的人喜欢坐软沙发。这些维度无法从一张静态图片中学习,而是蕴含在复杂的动态具身环境中。
智能体如何理解人类的价值判断?以最基础的“椅子是否坐着舒服”的价值函数为例,朱毅鑫、蒋凡夫所在的研究团队做了一系列建模实验(Zhu et al., 2016)。他们先用图形学的物理人体模型模拟人的各种姿势,然后计算出不同坐姿时身体各部位的受力分布图(见图1-6),如背部、臀部、头部受力大小等。接着结合不同人的偏好,可以推算出“椅子是否坐着舒服”的价值函数,从而帮助智能体从“知其然”到“知其所以然”,再到“知行合一”,更好地理解人类在物理-社会环境中各种行为和选择背后的价值驱动因素。进一步地,椅子甚至体现了人类的社会价值。例如,地位尊贵或者重要的人物,一般需要坐在中心的位置或者更大更漂亮的椅子上,虽然这些椅子坐上去可能并不舒服;如果一把椅子的颜色鲜艳、造型活泼可爱,那么它可能是在教育或医疗场合中服务小朋友的;如果椅子的空间摆放构成一个圆圈的形状,那么这种形式更适合多人的交流;如果一把椅子造型奇特,那么它的价值可能会因为艺术创新而提升。生活中还有很多类似的例子。
图1-6 坐在椅子上时,人的身体各部位受力分布示意
综上,人工智能的发展具有多个层级,对应不同的哲学思想阶段,而最高级的目标可以理解为“为机器立心”,即实现最高层级的人工智能对事物内隐价值的学习。从椅子的例子可以感受到,实现“立心”这个目标强调了人机价值对齐(Value Alignment)和具身环境的重要性。
人工智能的发展跌宕起伏,指引发展的哲学思想也经历了几次转变。通过哲学思想的转变,可以更直观地了解人工智能研究的过去、现在与未来。按照哲学思想的差异与变化,本书将人工智能的发展大致划分为3个时期(见图1-7),这些时期中的不同思想并不是绝对的、独立的,每个时期的思想都在不断延续和交融。
图1-7 人工智能哲学基础的转变
在第一个时期(1960—1990年),西方哲学思想引领了人工智能的发展。古希腊文明是西方哲学的源头,以苏格拉底(Socrates)、柏拉图(Plato)、亚里士多德(Aristotle)为代表的思辨与逻辑,发展为严密的命题逻辑、谓词逻辑、事件逻辑等体系,为人工智能的逻辑、表达与推理等方面提供了理论框架。
在第二个时期(20世纪90年代至2020年),统计建模与随机计算占据了主导地位。这个时期起到核心作用的人物包括乌尔夫·格林纳德(Ulf Grenander)、朱迪亚·珀尔(Judea Pearl)、莱斯利·瓦利安特(Leslie Valiant)、杰弗里·辛顿(Geoffrey Hinton)等。在《随机性时代的曙光》(The Dawning of the Age of Stochasticity,2000年发表)一文中,大卫·芒福德(David Mumford)试图论证一个非常基本的观点:人的思维应该建立在概率推理的基础上。与精确模型和逻辑推理相比,随机模型和统计推理与世界表征,以及科学和数学的许多部分,尤其是与理解人类头脑中的计算都更相关。朱松纯教授的纹理建模(Texture Modeling)是统计流派的代表工作(Zhu et al., 1998; Wu et al., 2000),他带领的团队推动了生成式视觉模型的研究,突破了传统判别式的模型(Xie et al., 2016),实现了卷积神经网络从理解到生成的突破。同时,他们为判别模型(Discriminative Model)、描述模型(Descriptive Model)和生成模型(Generative Model)这三类模型做了明确的定义、区分和关联的阐述(Wu et al., 2019)。然而,这种“格物致知”的方法存在局限性,即大数据催生的人工智能系统缺乏主观的能动性和内驱的价值体系,即缺“心”。
在第三个时期(2021年及以后),人工智能进入由“理”向“心”转变的新时期。本书认为,人工智能发展的第三个时期,价值函数将在人工智能体的建构与应用中发挥重要作用。只有将数据驱动与价值驱动更有机地融合,才能使通用人工智能走向成熟。经过近30年的分治,人工智能的6个核心领域(计算机视觉、自然语言处理、认知计算与常识推理、机器学习、机器人学和多智能体)呈现出对内融合、对外交叉的发展态势。人工智能领域的发展将寻求统一的人工智能架构,以实现人工智能从感知到认知的转变,从以解决单一任务为主的“专项人工智能”向解决大量任务、自主生成任务的通用人工智能转变。为机器立“心”,实现由“理”(数理模型)到“心”(价值函数)的转变,让人工智能体由心驱动,实现从大数据到大任务、从感知到认知的飞跃,是迈向通用人工智能的必经之路。这是未来10~20年的学术前沿焦点,也是智能学科需要承担的核心使命。