文献综述
摘要:协同过滤推荐算法从庞大的数据资源中为用户推荐其感兴趣的内容,在推荐系统中该算法得到广泛应用。但是随着用户数目和项目资源的不断增加,传统的协同过滤算法暴露出数据稀疏和冷启动等问题,大大降低了用户相似度和项目相似度计算的准确度。本篇文章介绍了协同过滤算法的基本概念,指出该算法的局限性以及在此基础上研究人员所做的一系列优化改进。
关键词:协同过滤;推荐系统;互联网;算法
一、引言
现今互联网的快速发展,大数据时代应运而生,数据资源的增长速度以几何数量级呈现,个性化推荐技术[[1]]的出现解决了庞大的用户群体对数据的需求问题,更是广泛应用于数字图书馆[[2]]、电子商务、新闻网站等系统中。协同过滤(collaborativefiltering)[[3]]在推荐系统[[4]]中最为常用,它的根本思想是根据相似的用户群体或者项目群体来向目标用户推荐其可能感兴趣的项目资源。
基于用户的协同过滤推荐算法[[5]]和基于项目的协同过滤推荐算法[[6]]是构成传统的协同过滤算法的两大主体。在基于用户的协同过滤推荐算法中,算法依据目标用户的类似用户对项目的评分来预测目标用户对该项目是否感兴趣,然而鉴于部分用户与之相关联的信息量有限,所以对相关项目的评分并不完全,导致用户-项目评分矩阵稀疏度高而不能完全体现其相对关系,从而加大了相似用户群的选择程度,降低了推荐系统的效率。若通过基于项目的协同过滤推荐算法,依靠未评分目标项目的相似项目的评分来预测目标用户对未评分项目的评分,但是当用户对项目的评分较少时,易导致忽略项目自身属性的问题,降低了推荐效率。
国外研究现状
个性化推荐技术是推荐系统的核心,其研究最早开始于国外。1992年,Goldberg等人在一篇学术论文中提出了协同过滤算法(CF),并基于此构建了首个个性化推荐系统-Tapesty邮件过滤系统[[7]],Tapestry根据用户下载的新闻内容来计算用户之间的兴趣相似度,进而利用这些相似度为用户推荐相关的新闻。协同过法推荐算法的提出对当时整个推荐系统的研究具有划时代的意义。因此Tapestry被学术界认为是第一个真正意义上的推荐系统。
1997年3月, 针对个世化推存系统,美国计算机协会ACM进行了专题报告,首次探讨了个性化推荐服务在电子商务中的应用,并且Resnick,Vafian提出了电子商务推荐系统的定义[[8]]。同一年,明尼苏达大学的研究人员创建的在线电影推荐系统MovieLens[[9]],是协同过滤技术发展中一个开创性的进步,MovieLens通过利用用户对电影感兴趣的程度与协同过滤推荐技术向用户推荐其可能感兴趣且没看过的电影。从1998年平始,ACM设立推荐系统年会,并且每年召开一次电商务讨论会,个性化推荐研究开始成为了关注的焦点。
2001年,著名电子商务网站亚马逊将推荐系统运用到其网站中,个性化推荐开始从学术研究向实际应用中迈进。亚马逊的推荐系统深入到了其各类产品中,其中最主要的应用是个性化商品推荐列表和相关商品推荐列表。个性化推荐列表采用的是基于物品的协同过滤推荐算法,该算法给用户推荐那些和他们之前喜欢的物品相似的物品。亚马逊推荐系统的应用是学术研究和工业实践相结合的典范,之后越来越多的研究者和企业工程师投入到了个性化推荐系统的实践中。其中视频网站Netflix尤为出名,它是利用用户对电影的评分信息为用户推荐电影,并于2006年开始举办著名的Netflix Prize推荐系统比赛,以征集效率更高的算法。该项赛事对推荐系统的发展起到了重要的推动作用。2007年,Google根据用户最近搜索记录去挖掘用户的兴趣爱好,从而依据关键字在在线广告AdWorks中提供个性化推荐服务。
三、国内研究现状
直至2000年左右,推荐系统才引起国内的关注,并逐渐成为计算机领域研究的热点。1999年,清华大学路海明等人提出基于多代理技术的混合智能个性化推荐服务[[10]]。2000年,北京大学余锦风等人提出了个性化定制服务。2001年,南京大学研发了个性化信息检索智能系统DOLTRL-Agent[[11]]。2003年邓艾琳等人的《基于项目评分预测的协同过滤推荐算法》[[12]];2004年余力等人的《电子商务个性化推荐研究》[[13]];2007年彭玉等人的《基于属性相似的Item-based协同过滤算法》[[14]] ;2009年许海玲等人的《互联网推拉系统比较研究》[[15]];2013年孟样武等人的《移动推荐系统及其应用》;2015年张玉洁等人的《组推荐系统及其应用》。这些优秀的系统或者论文标志着个性化推荐技术的理论研究在学术界逐渐丰富起来。
近几年,随着互联网电商的快速发展,以及Amazon个性化推荐系统的应用成功,国内电子商务网站也纷纷构建其推荐系统。2006年,当当网开始提供个性化推荐服务,用以向客户推荐书籍。2008年,淘宝网推出了个性化推荐系统,用于帮助用户从大量的商品中找到符合自己偏好的产品。2011年,百度推出了个性化推荐首页,根据用户的行为向其推将符合需求的信息。2014年,阿里巴巴开始举办“天猫”推荐算法大赛。吸引了国内外众多研究者的参加。促进了个性化推行系统的发展。
四、局限性及解决方案
传统的协同过滤推荐算法只偏重于用户相似度或者项目相似度的计算。基于用户的协同过滤算法由于用户接触信息量有限,用户-项目评分矩阵严重稀疏从而导致数据的冷启动。基于项目的协同过滤算法因为用户对项目的评分过少或者不够全面,从而在推荐过程中容易忽略项目的自身属性。
针对传统的协同过滤算法在大数据时代背景下暴露出的问题,相关研究人员对其进行了改进。针对数据稀疏性多带来的问题,计算的项目相似度准确度不高,文献[[16]]提出了一种结合类别偏好信息的item-based协同过滤算法,引出了类别偏好相似,根据类别偏好相似找出一组与目标项目类别偏好相似的候选邻居集合,再在其中搜寻最近邻,删减了与目标项目共同评分较少的项目,使得最近邻搜寻的准确性得以提高。因为传统的协同过滤推荐算法不能及时捕捉用户兴趣变化,文献[[17]]提出了一种适应用户兴趣变化的协同过滤推荐算法,该算法提出了分别基于时间和基于资源相似度的数据权重,并将它们结合在一起,然后引入基于项目的协同过滤算法的生成推荐中。文献[[18]]和文献[[19]]都提出了一种基于用户-项目的混合协同过滤算法来解决数据稀疏和冷启动的问题,通过改进相似度的计算来提高预测精度,同时在预测未评分值时,加入平衡参数对两种预测评分进行加权综合,产生推荐。
