毕业论文课题相关文献综述
研究背景/研究目的与意义:
随着互联网尤其是移动互联网的飞速发展,上网的门槛越来越低,网站及APP的数量也是逐年增加,其中发展最迅速的无疑是微博,知乎这类的社交网站。每个人都可以在社交网络上发布信息,有文本、图片、音频、视频等等。社交网络或媒体产生大量的数据,足够的数据样本使我们有机会从中挖掘出有价值的东西。
首先,我们可以根据这些数据构建某个社交网站的用户画像,了解其中的用户组成,这对该社交网络的商业决策具有巨大价值。
其次,根据这些数据我们可以得出用户真正的兴趣,构建一个更加有效且可靠的推荐算法。目前的个性化推荐系统还是存在一些问题,如存在个性化的推荐程度不够,由于得到的用户信息单一导致个性化推荐的准确度较低,由于一些干扰信息导致推荐出错。
社交网络中的话题往往涉及一系列的概念、要素以及属性等特征,并且话题之间也具有复杂的联系,需要构建高效合理的话题模型,从而实现话题的建模、存储和管理,并为高层次的分析与预警应用提供支撑。知识图谱旨在通过可视化技术对科学知识的发展进程及结构关系进行描述,具有直观、定量等诸多优点,它给互联网上的无结构数据提供了一个结构化的存储方式,这种结构化的存储方式有助于发现实体之间的潜在关联关系。
研究现状:
已有的推荐算法分为两类:协同过滤和基于内容的推荐算法。
协同过滤:在 2009 年,Su 等人提出的协同过滤(CF)方法利用社交网络的数据来构 建用户画像,这个方法推测:两个用户同时对同一个话题感兴趣对另一个话题都不感兴趣,也可能对其他主题具有相同的兴趣。基于项目的协同过滤中对 于同一个项目的一些用户如果对同一个主题有相同的兴趣,那么这个项目中的 其他的用户也倾向于对这个主题有同样的兴趣。Sarwar 和 Shi 等人分别于 2001 年和 2009 年提出的基于邻域的方法和 Koren 和 Rendle 等人在 2008 年 提出的基于模型的方法,这两种协同过滤方法在推荐中被广泛使用。 Romero 和 Yang等人分别于 2011年和 2012年提出的协同过滤方法是使用从 Twitter 提取的用户的关注的一些内容和转发链接,构建网络结构,这些方法将网络分 析算法应用于网络结构以发现感兴趣的消息,然而,网络的构造需要检索、存 储和分析大量链接数据,因此当发布新推文时,不能以有效且可扩展的方式更新。 2010 年 Lauw 等人提出了从用户网络提取的若干特征以识别感兴趣的推文 用于推荐用户。但是这样的协同过滤方法要求每条推文在被推荐给其他用户之前能够立即获得众多用户的反馈,这就是其中存在的冷启动问题。
基于内容的推荐算法:在 2010 年,Alonso等人使用众包(并非针对特殊群体而是一个广泛的群体来收集信息)来将一组推文归类为用户感兴趣的推文或用户不感兴趣的推文,并且宣称使用的url链接对于选取用户感兴趣的推文是非常有帮助的,筛选出用户感兴趣的推文的准确率高达80%。但是,这种方法可能会将用户不感兴趣的推文(这些url链接可能会关联到用户不感兴趣的内容)错误地归类 为用户感兴趣的推文。基于内容的方法使用用户历史推文构建用户画像,这样的推荐方法通常适用于包含了很多存在与用户相关的文本的地方,例如网站。基于内容推荐有趣的推文并不容易,因为推文的大小有限。在之前的研究中,基于内容推荐的方法中主要通过使用内容分析(如 LDA 或 TF-IDF 指标)来向用户推荐用户感兴趣的推文。在 2011年,Kawamae 等人在 Twitter 中对 时间序列文本进行了主题建模,并试图随着时间的推移不断对主题进行建模。在 2010 年,Ramage提出了 Labeled-LDA 方法,使用标记信息对推文进行建模,然后构建主题的概率分布向量来表示推文的内容,根据主题向量之间的相似性,将传入的推文标记为用户感兴趣或用户不感兴趣的推文。在 2012 年,Lu 等人使用显式语义分析的方法来构建基于维基百科概念的用户画像。
关于知识图谱:知识图谱理论是由C. Hoede and F. N. Stokman最先提出的,它的基本元素是概念和概念之间的关系,知识图谱的本质是一个语义网络,通过知识图谱可以揭示概念之间的关系。使用图的方式来展现知识是知识图谱的最初目的。de Vries Robb开发了一个医学专家系统, 这个系统包含了最多20种的关系。通过使用图理论去表达ISA、PART、KIND OF等关系。Sowa提出了概念图的基本理论,它包括了大量的关系类型,例如EQU(等价)、ORD(顺序)、CAU(因果)、SKO(信息依赖) 、ALI(相似)、PAR(属性部分)等。张建立了不同语言单词之间的语义关系,他在图中注释了每个单词的语义,为每个单词建立了语义图。知识图谱也属于语义网络的一种,在后来的发展中,语义网络中也有涉及到知识图谱的部分。Su提出了一个语义搜索引擎框架,这个框架首先会创建面向领域的本体,然后利用网络爬虫去爬取信息,信息提取组建会从爬取的网页中提出命名实体,然后将它们分类到特定的主题本体下。Thanh 描述了基于图结构的语义模型去支撑搜索过程。他认为在信息处理的所有步骤中都可以利用语义,在所有的步骤中都可以用图结构去描述这些基本元素。
