基于协同过滤的推荐算法优化文献综述

 2022-08-16 05:08

基于聚类的协同过滤算法研究

摘要:在目前的个性化推荐算法中,协同过滤算法最为经典,是很多推荐算法的理论基础,但协同过滤算法仍然还存在一些冷启动、可扩展性等影响推荐效果的问题。其中由于推荐系统中的用户和项目数量过多时,部分难以被用户接触,而这些未被用户的接触的物品,影响力用户的体验。本课程旨在通过对协同过滤算法的改进,提高长尾物品的曝光度,进而提高用户的满意度和忠诚度。

关键词:长尾理论; 物品相似度; 协同过滤;冷门商品

  1. 文献综述

协同过滤作为推荐系统中应用最多的技术,在很多领域都得到广泛的应用。国外著名公司亚马逊、网飞等公司,是将协同过滤技术应用在电子商务领域的重要推广者,载入国内的淘宝、京东等公司,也是协同过滤算法的支持者。其中,基于用户的协同过滤算法叫做基于邻居的协同过滤算法时应用最久的算法。它属于基于内存的协同过滤,该算法最早在1992年由Goldberg等人提出。最初国外研究者将协同过滤算法应用到邮件过滤系统;后来协同过滤逐渐应用到新闻过滤系统中,直到现在协同过滤算法仍然是最受欢迎的算法。

协同过滤算法从提出到现在,在很多领域都有重大突破,在电子商务领域的突破尤为明显。大数据的和互联网时代的到来,为协同过滤的应用发展提供了机会。因而,协同过滤技术在推荐系统中的良好应用带给公司、社会的价值不言而喻。潜在的价值吸引了国内外大批的学者,相关科研文献也纷纷出现在各大平台。项亮在《推荐系统实践》一书中提到YouTube作为美国最大的视频网站,曾由于庞大的用户数量和庞大的物品数目,陷入信息过载带来的困恼[1]。研究者在推荐领域做了很多相关工作,尝试了很多推荐算法的研究与应用;相关研究人员表示YouTube目前使用的也是基于协同过滤的算法。田伟等人也认识到协同过滤算法的研究价值[2]

但是随着推荐系统规模的扩大和用户数量的激增,针对协同过滤算法所表现的数据稀疏性、冷启动和扩展性差等问题也就引起了很多学者的关注。其中,最简单的一种解决数据稀疏性的办法就是设置缺省值填充,填充时一般会将缺省值设定为所有用户评分的均值或者该项目的均值。但是这种方法的缺点在于用户对项目的评分不糊一成不变。另外数据填充的好坏,关系着推荐效果的好坏。曹占伟等人将LDA主题模型和矩阵分解结合在一起推荐,先改进LDA算法,然后利用余弦相似度得到相似度矩阵,最后在训练集上通过矩阵分解算法得到最后的推荐结果[3]。Bags等人结合Jaccard相似系数提出了两种相似度计算方法:通过RJaccard和RJMS来提高推荐结果的准确性[4]。此外在协同过滤算法的扩展性改进方面,一些学者利用据类算法来做优化:孙辉和马跃等人,运用一种新的概念来改善相似度计算,他们的新概念涵盖了用户对项目的喜爱读和关注度,并一次来对用户做聚类,改进后的方法降低了时间复杂度,提高了推荐的精准度[5]。张峻玮等人对层次聚类进行了改进,并应用于协同过滤推荐,它是对聚类后的用户群进行计算,得到每个用户的推荐结果,在聚类时利用用户之间的信息传递,从而使得该用户群内的信息共享能力增强,最后聚合这些组内的每个用户的推荐结果,较为有效的提高了腿甲的呢精准度,在执行效率等方面优于传统过滤算法[6]。赵伟等人提出一种的相似度计算方式,用新定义的用户相似度公式做用户聚类,在每个用户群里进行个性化推荐,秋季的的准确性和扩展性有较好的提高和改善[7]。魏慧娟等人对用户聚类使用二分类的K-means算法,该方法进行推荐的检索空间,是由聚类后所挑战出的最近另据组成的,提高了推荐效率和可扩展性[8]。Xue等利用聚类算法平滑数据并与协同过滤算法相结合。王明文等提出将基于用户的和基于项目的两种算法进行交叉计算,促使结果集更加稳定和准确[9]。另外,为了降低数据稀疏性问题的影响,学者提出将聚类、关联规则和贝叶斯等技术融入了 Memory-based 算法,得到Model-based 协同过滤算法[10]

在克里斯·安德森提出长尾这个概念以后,很对互联网企业发现,那些传统零售商品中的小众商品,在互联网环境下正在改变新的市场方向。亚马逊作为国际著名的互联网公司,在很早就开始注重长尾商品,调查显示:在亚马逊图书销售额中,约30%的销售收入来自那些不受关注的冷门书籍[11]。这意味这用户在种类繁多的商品中进行挑选时,选择什么样的物品已经进入一个新的商业模式探索。针对长尾这一现象,M.Ishikawa等人通过提取用户的浏览特征发现:访问特定浏览页面的前十位用户在信息传播中起着关键作用,并因此加入新的机制向用户进行长尾项目推荐。Mi zhang等人通过检索用户中暂时下相对不受欢迎,但这些物品的关注度正在提高的物品,采用新的策略进行推广,构造了一个新的用户兴趣综合得分,通过加权用户信息的相关性,调整用户对物品的兴趣度权重,使用户偏向那些不太受欢迎的物品[12]。Pang等提出了基于NSGA-II(Nondominated Sorting Genetic Algorithm II)算法的权重相似度计算方法,并同时将准确率和覆盖率作为目标函数优化推荐算法,实验表明该推荐算法在保证准确率的同时提高了覆盖率[13]。Grozin等使用基于session距离的商品聚类方法来实现交叉销售的长尾推荐,与直接使用类型、产品相似度聚类相比在归一化折损累积增益(Normalized Discounted Cumula Gain,NDCG)指标评测上效果更优[14]

国内外学者在传统推荐算法的基础上已经提出了许多的改进算法。在传统协同过滤算法中,通常采用余弦相似度或Jaccard相似度来计算物品之间的相似性。Sarwar等人提出用物品应用相关性和余弦方法来计算物品之间的相似性。Deshpande等人在Sarwar提出的优化算法基础上,将其思维推广到基于物品相似性的TopN商品推进中,即只考虑用户历史行为相似度最接近的前N个物品,该优化算法提高了推荐的准确性。Yang等人提出利用用户的行为信息,构建用户的兴趣点,利用兴趣点计算用户之间的相似性,该算法相对于传统的协同过滤算法有校提高了推荐结果的准确性。云南财经大学陈联平针对冷门商品推荐中,用户信息稀疏矩阵问题,使用Kmeans聚类对用户先进行了分类,并对用户隐形的物品信息反馈采用不同的比重[15]。西安电子科技大学韩亚敏等人对长尾推荐准确率不足的问题进行了研究,并介绍了长尾项目的群组推荐算法,使用多目标免疫算法对长尾推荐准确率进行优化,其推荐结果多样性有了明显的提升[16]

从国内外的针对基于协同过滤算法的研究来看,虽然在对冷门商品推荐上做出了各种改进,但依然存在着热门物品无法与冷门物品很好放在一起推荐的问题,推荐系统的覆盖率问题还有待进一步提高。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。