基于大数据技术的图书推荐系统的设计与实现文献综述

 2022-08-19 09:08


  1. 文献综述

(一)国内外研究现状

在互联网时代,我们每时每刻都在产生数据,比如使用各种软件听音乐、看视频、购物、聊天、看资讯等等会产生大量的行为数据。不仅如此,当下物联网的盛行,各种终端设备接入互联网,会导致平均每40个月全球的数据量就会翻倍!2016年人工智能元年的开启,明确了大数据的4V特征,即Volume(数据规模)、Varity(数据类别)、Veracity(数据质量)和Velocity(更新速度)。人们开始认识到大数据的潜在价值,人工智能成为挖掘大数据价值的工具,帮助人们从庞大的数据中获取最有益的信息。

推荐系统起初只是一种“人们提供推荐作为输入,然后系统整合并定向到合适的接收者”的技术。该术语现在有更为广泛的含义,指一切产生个性化推荐作为输出的系统,或者具有以个性化的方式引导用户在大量可能选项中找到有趣或有用的对象的效果。自20世纪90年代第一篇关于协同过滤的论文的出现,推荐系统成为一个重要的研究领域。在过去的几十年里,人们在工业和学术方面对推荐系统的发展做了很多工作。

最早的推荐系统是从美国明尼苏达大学GroupLens研究组对推荐系统MoviesLens进行的研究。随着互联网的迅速发展,我们正面临一个信息爆炸增长的时代,网络信息斑驳复杂,让人无法高效准确的选择信息。而且门户网站和搜索引擎呈现给不同人群的信息是一致的,无法满足不同人的不同需求,推荐系统应运而生。目前推荐系统技术已广泛应用于多种领域,如电子商务网站、个性化音乐网络电台、电影和视频网站、个性化阅读、个性化邮件和个性化广告等。

(二)研究主要成果

推荐系统中关键的部分是推荐算法,因为系统的性能优劣很大程度上取决于推荐算法。随着推荐系统在生活中的广泛应用,人们对于推荐系统的算法研究也越来越关注,目前推荐算法主要分为以下四种:

1.基于内容推荐,其理论依据主要来自于信息检索和信息过滤。原理是根据用户已经选择的对象来获得用户的兴趣描述,然后再将推荐对象的特征与用户的兴趣进行比较,最后将比较结果相似的推荐对象推送给用户。基于内容的推荐算法是最早应用于工程实践的推荐算法,今日头条的推荐有很大比例是基于内容的推荐算法。由于每个用户的画像是根据本身的喜好得到的,所以每个用户之间是独立的,这就排除了对某个对象“刷榜”的可能。但是推荐对象只依赖于用户过去的喜好,所以无法挖掘出用户的潜在兴趣。此外,新用户不存在喜好历史和行为特征,冷启动问题就无法避免。

2.协同过滤推荐,是推荐系统中最为成功的技术之一,其核心思想是利用与目标用户兴趣偏好相同的用户群体的兴趣情况来推荐。该算法主要有基于用户的推荐和基于物品的推荐。前者是通过各用户对于对象的评价来计算得出所有用户之间的相似度,后者是通过用户对于对象的行为来计算所有对象之间的相似度。计算相似度的算法主要有欧几里得距离、曼哈顿距离、明可夫斯基距离、余弦相似度、皮尔森相似度等。尽管协同过滤算法实现较为简单,但是其推荐依赖于准确的用户评分,因此会存在新用户的冷启动问题,并且一些对象可能得不到用户的评分,会造成稀疏矩阵问题。

3.关联规则推荐,其核心思想就是从大量的数据中寻找满足一定支持度的频繁项集,然后再依据置信度从其中找到强关联规则,最后便可以根据该规则向用户推荐其可能感兴趣的事物,最有名的例子就是“尿布和啤酒”的故事。目前较为经典的关联规则算法是Apriori算法和FP-Growth算法。Apriori算法在寻找频繁项集时计算量大,耗时长,虽然可以进行离线计算,但是仍然是一个很大的瓶颈。之后,HanJiawei等人提出基于频繁模式树(FP-Tree)的发现频繁模式的算法FP-Growth,克服了Apriori算法中存在的问题,并且在执行效率上也优于Apriori算法。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。