书名:基于机器学习的个性化推荐算法及应用
ISBN:978-7-115-64087-1
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 刘超慧 李玲玲
责任编辑 马雪伶
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
个性化推荐作为一种重要的信息过滤技术,广泛应用于电子商务、社交服务以及基于位置的服务等领域,随着数据量的爆炸式增长,原有的推荐算法存在执行效率低和数据稀疏性等问题。为了解决原有推荐算法存在的问题,本书提出了3种新的算法,分别是基于三维项集矩阵和向量的频繁项集挖掘算法、融合惩罚因子和时间权重的协同过滤算法以及基于用户属性和项目评分的协同过滤算法,并介绍了一个个性化图书推荐原型系统的构建方案。
本书结构清晰、文字流畅,适合对机器学习、个性化推荐感兴趣的读者阅读。
随着互联网技术的迅猛发展,数据的种类越来越多,体量越来越大,人们在海量的数据中找到自己真正需要的信息越发困难,导致信息过载和信息迷航问题的产生。解决信息过载和信息迷航问题,满足用户日益增长的个性化需求,非常有效的方案就是信息检索和信息过滤。个性化推荐作为一种重要的信息过滤技术,广泛应用于电子商务、社交服务、基于位置的服务等领域,成为当前解决上述问题的重要手段,能在提高互联网用户满意度和忠诚度的同时,极大提升产品的商业价值。
基于关联规则的推荐算法和协同过滤算法是个性化推荐中应用较为成功的两种技术,已经形成了完整的理论体系和成熟的应用框架。基于关联规则的推荐算法根据用户的历史记录,挖掘项目的相关性,来发现满足最小支持度和最小置信度的规则,完成对用户的个性化推荐。基于关联规则的推荐算法的优点是能发现更多的用户与项目关联关系和知识、可解释性强,但存在重复扫描数据集、时间效率低、规则难以提取、推荐质量难以保证的问题。协同过滤算法利用用户—项目评分矩阵,计算用户或项目的相似度,预测未知项目的评分,并将预测评分高的项目推荐给用户。协同过滤算法最大的优点是对推荐对象没有要求,该算法的应用领域广、干扰性小,数据越多,推荐准确度越高,但在数据稀疏性、冷启动等方面仍存在问题。
为了解决上述问题,本书对基于机器学习的个性化推荐算法及应用进行介绍,在梳理机器学习的相关理论以及个性化推荐算法的相关理论的基础上,提出如下 3种算法。
① 基于三维项集矩阵和向量的频繁项集挖掘算法。
② 融合惩罚因子和时间权重的协同过滤算法。
③ 基于用户属性和项目评分的协同过滤算法。
第7章介绍如何利用本书提出的相关理论和算法,设计并实现一个个性化图书推荐原型系统。
本书是作者多年研究与积累的成果,多个科研项目的支持使本书涉及的相关研究能够顺利开展,感谢国家自然科学基金项目(62202434)、河南省重点研发与推广专项(科技攻关)项目(232102210054、232102210033、222102210079)、河南省教育科学“十三五”规划项目(2020YB0149)、河南省高等学校重点科研项目(21A520047)、河南省杰出外籍科学家工作室项目(GZS2022011)、河南省高等教育教学改革研究与实践项目(2024SJGLX0149)、郑州市科技局创新团队项目(面向智能视频监控的云边端一体化装备研发与产业化)的大力支持。
本书介绍的相关成果受航空航天电子信息技术河南省协同创新中心资助。
在本书的写作过程中,郑州航空工业管理学院智能工程学院的孔先进、韩传福、周迅、李舶永等学生提供了大量的帮助,尤其是孔先进和韩传福,他们的研究为本书的完整性做出了贡献。此外还田阳、王一帆、刘永康、尚一卓等学生参与了本书的校正工作,在此一并表示感谢。
最后,在此致敬我的父亲,感谢他无私的爱,愿天堂没有病痛;感谢我的爱人,她非常善解人意,在我写作过程中一直陪伴我,照顾我;感谢我的女儿,她特别可爱,是我前进的动力。
虽然已经尽力做到字字斟酌、句句推敲,但由于本人水平有限,书中难免存在不妥之处,恳请广大读者批评指正。本书责任编辑的联系邮箱:maxueling@ptpress.com.cn。
刘超慧
20世纪70年代以来,互联网技术迅猛发展,全球数据量通过人们的日常生活和工作快速增长。根据国际数据公司(international data corporation,IDC)统计,近3年来,全球数据量以20%左右的年增长率增长,预计到2024年底,全球数据总量将达到142.6ZB[1],其中大部分数据来自图片、视频和音频,百度、谷歌等互联网“巨头”每天处理的数据规模都在PB级。全球数据量增长趋势如图1-1所示。
[1] ZB是数据的基本单位。数据的基本单位按照从小到大的顺序分别是bit、B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,其中1B=8bit,其余相邻单位的换算系数为210,即1024,如1KB=1024B。
图1-1 全球数据量增长趋势
随着我国网民规模急速扩大,我国数据产生量占全球数据产生量的比例越来越大。2023年8月,中国互联网络信息中心(China Internet network information center,CNNIC)发布的第52次《中国互联网络发展状况统计报告》显示,截至2023年6月,我国网民规模已达10.79亿,互联网普及率达76.4%,较2022年12月提升了0.8个百分点。其中,手机网民规模达10.76亿,网民使用手机上网的比例达99.8%。近年来我国网民规模和互联网普及率如图1-2所示。
各类互联网应用用户规模稳步增长,其中短视频、网络购物应用比2022年12月分别增长1.4%和4.6%;搜索引擎应用比2022年12月增长4.9%。
图1-2 我国网民规模和互联网普及率
由此可见,越来越多的网民通过线上购物、线上阅读、分析决策等方式,实时享受着互联网带来的便利,同时他们的个性化需求也不断增加。然而,随着互联网技术和电子商务的迅猛发展,数据量迅速增加,而且种类繁多、结构复杂、质量参差不齐,导致人们难以在海量的数据中发现自己真正需要的信息,甚至在面对浩如烟海的信息资源时,不能明确自己的需求,这就是著名的信息过载(information overload)和信息迷航(information loss)问题。为了解决上述问题,满足用户日益增长的个性化需求,很多学者和专家开展了卓有成效的研究,提出了多种有效的解决方案,具有代表性的解决方案是信息检索(information retrieval)和信息过滤(information filtering)。
信息检索又称为信息搜索,其作用是根据用户输入的搜索关键词,及时地将与关键词相关度高的信息反馈给用户。常见的百度、谷歌、雅虎等搜索引擎都可视作信息检索系统。传统的信息检索是基于关键词匹配的,要求用户在检索之前明确自己的需求,但现实中人们由于认知有限,对自己真正需要的信息不太可能全都了解。此外,传统的信息检索还存在查全率和查准率不高的问题,如处理中/英文中一词多义或一义多词的情况,即尽管不同的用户输入同一个关键词,而且检索的目的不同,但检索的结果是相同的。例如,果农输入“苹果价格”检索,可能是为了了解水果市场中苹果的价格;电子产品爱好者输入“苹果价格”检索,可能是为了了解新款苹果手机的报价。针对信息检索存在查全率和查准率不高的问题,相关研究人员提出了智能检索与知识检索。智能检索利用同义词提高检索质量,并通过主题和上下文辅助检索。知识检索是在文本挖掘技术的基础上引入语义结构,将信息按特定的方式组织、存储、提取,形成知识,通过知识进行更精准的检索。
信息检索在一定程度上提高了用户获取资源的效率,改善了用户体验,缓解了信息过载问题。然而,随着大数据技术的发展,信息过载问题日益突出,已有的信息检索方法难以满足用户的个性化需求,于是信息过滤技术出现了。信息过滤技术根据用户的兴趣爱好,对信息资源进行筛选,只将符合用户兴趣的资源呈现给用户。个性化推荐系统(personalized recommender system,PRS)作为信息过滤的一种重要应用,已被广大电子商务系统和个性化网站所采用。
个性化推荐系统通过收集用户的基本信息和行为信息,为用户进行画像,挖掘用户的偏好,然后对用户可能感兴趣的内容进行排序,将排名靠前的内容推荐给用户。与搜索引擎不同,个性化推荐系统不需要用户提供明确的需求信息,而是通过分析用户的行为,在海量信息中筛选用户可能感兴趣的信息,并主动地将这些信息推送给用户,推送的内容可以是一件商品、一部电影、一本书或一条新闻等信息。针对不同的用户,个性化推荐系统会根据其偏好和需求为其推荐不同的信息,做到“千人千面”。
综上所述,个性化推荐系统可利用人工智能技术从大量用户和产品的数据/信息中挖掘用户和产品潜在的匹配关系,为用户提供精准的推荐服务,协助用户做出决策,提升产品的商业价值。个性化推荐系统的作用如图1-3所示。
图1-3 个性化推荐系统的作用
在应用领域,许多“龙头”企业投入大量的人力和财力进行个性化推荐技术和个性化推荐系统的研发,国内外大多数的大型商务系统和个性化网站都不同程度地使用了形式各异的个性化推荐系统,并取得了良好效果。例如,京东、当当、淘宝、天猫等电子商务网站,Facebook和微博等社交平台,都在原有业务的基础上不同程度地增加了推荐功能,把具有针对性的信息推送给用户,帮助用户快速检索需要的信息、发现潜在的兴趣爱好。事实表明,推荐系统的使用显著提高了用户的满意度和用户对平台的黏度,获得了可观的经济效益。
众多优秀的个性化推荐系统使用了研究人员提出的推荐算法,其中协同过滤(collaborative filtering,CF)算法因利用了群体智能脱颖而出,获得学术领域与应用领域的广泛关注,是目前应用最成功、最广泛的个性化推荐技术之一。
20世纪90年代,Resnick等提出推荐系统的概念后,推荐系统逐步发展为一个独立的研究领域,并得到了迅猛的发展。与此同时,人工智能、知识管理、数据挖掘等领域的知识为推荐系统提供了理论支持,使个性化推荐系统在信息技术的各个领域都得到了广泛的发展和应用。
从理论上讲,个性化推荐系统是建立在海量数据挖掘基础上的一种高级智能平台,它通过记录用户的行为,分析用户的兴趣爱好,向用户推荐其感兴趣的信息,为用户提供个性化的决策服务,满足用户的个性化需求,改善用户体验。个性化推荐技术涉及信息科学、管理科学、运筹学等多门学科,其发展依赖于这些学科的协同发展。同时,个性化推荐技术的发展也为这些学科开辟了一个全新的研究领域,因此对个性化推荐技术的研究具有重要的理论意义。
在实际应用方面,个性化推荐技术已经成为众多电子商务系统的核心技术,并创造了巨大的商业价值。准确、高效的个性化推荐系统,不仅可以帮助用户在较短时间内找到感兴趣的信息,为用户提供个性化服务;而且可以将电子商务网站的浏览者变成网站商品的潜在购买者,提高网站的销售额;还有助于网站与用户建立长期稳定的关系,提高用户对电子商务网站的忠诚度。
19世纪之前信息资源相当匮乏,人们渴望能够快速地获得更多的信息,以便更好地做出决策。随着信息技术的兴起和发展,信息资源实现了高度共享,信息与知识的传播和获取变得极为高效,极大地方便了人们的工作和生活,但同时也带来了新的问题和挑战。网络用户规模的不断增长和网络应用数量的迅速增加,使得数据呈指数级增长。急剧增长的数据,远远超出了人们处理能力的范围,导致网络用户难以从海量的数据中找到真正对自己有用的信息。
解决信息过载问题的常用方法是使用搜索引擎和个性化推荐系统。搜索引擎在一定程度上缓解了信息过载,百度、谷歌等公司在商业上的成功也证明了这项技术的巨大价值,但它存在较大的局限性,如要求用户有明确的搜索需求,搜索结果缺乏个性化等。个性化推荐系统与搜索引擎不同,它不需要用户提供明确的检索信息,而是通过分析用户的行为,挖掘用户的潜在兴趣,预测用户可能感兴趣的信息,做到因人而异。尽管个性化推荐系统在个性化推荐方面取得了较大的成功,但在数据稀疏性(sparsity)、冷启动(cold start)、可扩展性(scalability)、隐私保护(privacy protect)等方面仍然存在问题,这些问题制约着推荐质量的进一步提升。
因此,为解决信息过载问题,本书探讨了基于机器学习(machine learning,ML)的个性化推荐方法,这对丰富个性化资源推荐、方法和手段具有一定现实意义。
尽管数据在快速增长,但目前大部分个性化推荐系统还是更注重热门的、受众广泛的项目的推荐,忽略相对冷门的、非主流的项目的推荐,这就是著名的“长尾效应”(long tail effect)[2] 的表现。长尾效应是信息不对称的重要表现:少量的数据占据了大多数的流量,大部分数据的使用率相对较低。在商品供需领域,长尾效应表现为商品提供方很难找到合适的商品需求方,而商品需求方也很难找到真正需要的商品。著名的帕累托法则(Pareto principle)[3] 能较好地解释长尾效应。
[2] 长尾效应是由长尾(long tail)一词引申而来的,是克里斯•安德森(Chris Anderson)在2004年10月发表的《长尾》一文中最早提出的,用来描述诸如Amazon和Netflix之类的网站的商业模式。
[3] 帕累托法则,又称二八定律,是意大利经济学家维尔弗雷多•帕累托(Vilfredo Pareto)于1897年发现的一个规律:任何一组事物中重要的因素通常只占20%,其余的80%尽管是大多数的,但是次要的。帕累托法则在经济学、管理学领域具有广泛的应用。
某电商平台的销售长尾效应曲线如图1-4所示,纵坐标表示商品需求量,横坐标表示按热门程度进行排序的商品种类。从图中可以看出,曲线的头部表示热门的商品,它们的数量相对较少,但单个商品的需求量较大;冷门的商品分布在曲线的尾部,单个商品的需求量小,但数量较多,反映在平面坐标轴上就像一段长长的尾巴,所以这种效应被称为“长尾效应”。
图1-4 某电商平台的销售长尾效应曲线
但是,随着电子商务的兴起,信息的传播变得更加快捷、高效。通过各种互联网渠道的传播,商品的销售不再受实体店销售空间的限制,几乎所有的商品都有机会售出,那些被实体店忽略的非主流商品引起人们的关注,冷门商品中也会出现爆款,使得企业逐渐关注那些零散的、非主流的商品所占的市场份额,不断通过差异化的销售方式实现企业盈利的最大化。处在长尾效应曲线尾部的商品,可能存在更高的用户黏度。如何为大量的、具有不同需求的用户提供非主流的商品呢?其关键在于“个性化”。为让用户获得符合自己兴趣爱好的小众、非主流的商品,需要使用优秀的个性化推荐系统。
传统的推荐算法一般将用户的评价作为主要的用户特征,因为热门商品受到大部分用户的关注,被购买的次数和收到的评价较多,所以最后的推荐结果经常集中在热门商品中。这样的推荐算法无法体现个性化的特性,得到的结果也并不令人满意。在实际应用中,很多行业的热门商品不一定是利润最高的商品,这就需要采取推荐算法针对用户给出更加精准的个性化推荐。
在推荐系统中,长尾问题不仅包括长尾用户,还包括长尾物品,因此采取什么推荐算法,实现对长尾物品的推荐,是一个非常具有挑战性的问题。本书将引入热门物品惩罚因子,降低热门物品的评分权重,缓解长尾效应。
人们的日常工作与生活,正越来越多地依赖信息平台的推荐,小到日常用品的选择、休闲度假目的地的选择,大到证券交易、高考志愿填报等,几乎都需要信息平台的帮助。个性化推荐系统在很大程度上依赖对用户信息(如用户浏览网页、使用在线服务、进行网络购物等行为的属性信息)的采集。采集到真实、有效的信息,对算法优化至关重要。然而,过度反馈和收集用户的信息,可能泄露用户的观点和兴趣爱好,从而造成隐私问题的产生。因此,数据隐私成为个性化资源推荐场景中的一个备受关注的问题。近年来,随着数据挖掘等相关领域的发展,有更多场景涉及敏感数据的收集和处理,带来了更严重的隐私泄露风险。
如何有效地管理隐私数据不仅是一个技术问题,还是一个社会问题和企业内部管理问题。从技术的角度出发,需要加强对隐私保护算法的研发和应用;从社会的角度出发,需要加强隐私保护意识的普及和提高,建立完善的隐私保护法律法规体系,规范企业运营和个人行为。随着大数据技术的发展,在推荐领域隐私问题变得异常突出。在推荐应用程序中,用户对指定物品的评分反映了用户的兴趣、观点、性格等。此外,推荐领域中的导航、场所查询、社交等基于位置的服务(location-based service,LBS)查询信息中不仅直接包含用户的行踪,而且隐含用户的日常行为规律信息,如家庭住址、兴趣偏好与身体状况等隐私信息,将这些信息直接泄露给不可信的第三方,会对用户隐私的安全造成严重威胁。几乎所有隐私保护方法都是以某种方式改变数据,以降低其表示的精确性(这样做是为了增强数据隐私性,其结果是让数据变得模糊,使挖掘算法不再有效)。
所以,如何运用机器学习相关原理和技术,在利用个性化推荐给用户带来便利的同时,有效保护个人信息,是一个值得研究且富有挑战性的问题。
本书针对基于机器学习的个性化推荐算法和应用进行研究,全书共8章,组织架构如图1-5所示。
图1-5 本书的组织架构