基于Bucket模型的类型预测文献综述

 2022-10-27 10:10

文献综述(或调研报告):

类型预测的方法有很多,基于逻辑驱动的、基于链接驱动的、基于关联规则或自然语言处理的、基于定义类型的属性、基于消息传递机制的、基于图和潜在特征的等。

基于逻辑驱动

在语义Web推理是预测类型信息最常用的方法。例如,文献【1】中通过引用RDFS进行推理,RDFS提供了RDF数据的数据模型定义,扩展了基本的RDF词汇,描述了类和属性之间的关系,因为RDF规则集被证明是完备的,因此该规则集是推理研究中首选的规则集。在文献【2】【3】中,提出了语义Web中噪声关联数据的推理方法。

文献【3】开发了一个RaDON的工具来处理嘈杂数据网络中的逻辑矛盾,修复了数据中的错误映射,处理了关联数据中OWL的不一致性,从而完善逻辑推理的准确性。但正如文献【4】中所述,基于逻辑驱动的推断可能会增加噪声关联数据中的误差,降低数据的质量。

基于链接驱动

基于链接的类型推断旨在通过对关联数据进行链接分析来发现对象的缺失类型。在文献【5】中,作者尝试根据属性的共同性来预测数据可能的类型。该算法着力于为某个关键资源找到可能会出现的谓词从而进一步描述该资源。算法的总体思路是将知识库分为两组,一组是当前相似的资源,另一组则是不相似的资源,计算出在相似组中共同出现的谓词。在文献【6】中的作者通过维基百科页面之间的链接来检测资源的类型。他们提出了一种归纳式推理的方法,将训练集预先分成两个层次的不同类别,对于每个资源,他们使用相关资源的类作为特征,然后使用K-近邻算法标记特征空间中最接近的训练样例的实体,选取出最具权重的实体。在训练后,分类函数会对每个类别生成用于测试相似度的参考均值,然后对未定义的实体进行分类,通过计算待测个体与每个平均值的欧式距离来对他们进行分类。

Paulheim在文献【4】【7】中提出了SDType,用于基于主题类型和对象类型链接的统计分布,在大型跨域数据库中启发式地补全类型。SDType是一种简单且高度可扩展的方法。它使用资源之间的链接作为类型的指示符,将实例的输入输出作为属性。该方法需要事先分配类型,以及对每个属性都要有一个对象的条件概率分布和主题类型。每一个属性都被分配一个权重,其中最大权重仅用于单一类型的属性,而最小的权重用于所有类型中均等的属性。因此,在预测对象类型时,SDType会计算每种可能类型的置信度,满足定义的最小置信度阈值的类型会分配给对象,成为对象可能的类型预测。但基于链接的方法缺乏对关联数据中语言信息的利用。

基于关联规则或自然语言处理

基于关联规则或自然语言处理的方法。在文献【8】中,使用关联规则挖掘来找到关联数据中的对象类型的常见模式。他们展示了一个链接开放数据浏览器,该浏览器在显式资源时自动补全链接开放数据。文献【9】提出 Tipalo系统,该系统用于自动键入DBpedia实体的算法,通过解释其自然语言定义,并映射到WordNet DOLC本体来识别实体最合适的类型。在文献【10】中,作者提出了一个从DBpedia实体到OpenCyc分类系统的映射,使用信息框、文本描述等指标。文献【11】利用DBpedia中的跨语言链接来查找其他语言中某种语言的对象类型。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。