本体查询系统的基准的研究文献综述

 2022-03-22 21:01:13

文献综述

  1. 研究目的及意义

本体是特定领域中包含一套概念集合及其之间相互关系的形式化表达,本体查询借助本体对数据库进行查询,得到更丰富、更准确的查询结果。查询重写是本体查询的一种重要方法,而现有的测试基准(包括本体、查询和数据)比较有限。本研究利用广泛使用的知识图谱DBpedia,从中抽取事实、学习规则,生成完整的测试基准,对现有的查询重写系统从查询重写和查询应答两方面进行评测。合理有效的测试基准都够评估查询重写系统的性能,从而促进本体查询系统的改进和发展。

  1. 国内外同类研究概况

大型知识图谱。知识图谱包含大量描述现实世界中的事物及其联系的数据,在信息检索、知识问答、生物医疗等领域有着广泛的应用。常用的知识图谱有DBpedia [1],FreeBase [2],YAGO [3],Wikipedia [4]等。其中,DBpedia从Wikipedia中抽取大量结构化的、多语言的事实,支持SPARQL查询;Freebase于2008年提出,但是2015年谷歌公司停止了维护。

问答系统和查询应答的常用数据集。研究者提出了很多以Freebase为知识图谱的问题数据集。如,FREE917 [5]包含涉及个Freebase中的不同谓词的917个问题;SimpleQuestions [6]包含10万个简单问题,即回答该问题只需要一个元组;WebQuestions [7]包含5810个问题答案对,问题由谷歌提供的API获取,答案由亚马逊土耳其机器人回答。同样地,针对DBpedia的数据集主要由QALD(Question Answering over Linked Data)[8]和LC-QuAD [9,10]两个系列。QALD目前已经有9个版本,是为链接数据上的知识问答设计的;LC-QuAD目前有两个版本,第一个版本包含5000个问题,第二个版本包含3万个问题。多数数据集中的问题除了包含自然语言的问题外,都有其对应的逻辑形式(通常为SPARQL),这有利于直接在知识图谱上进行查询。不同的知识图谱所包含的实体和谓词及其形式是不同的,有研究者尝试将针对源知识图谱的数据集映射为目标知识图谱的数据集,如[11]将Freebase的数据集映射到Wikipedia上,[12]将针对Freebase的SimpleQuestion映射到DBpedia上。

规则学习。规则相当于数据库的概念层,用来表示一般化的、适用于大量数据结论。不同于神经网络,应用规则解决某个任务(如链接预测)得到的结果是人类可理解的、可解释的。因此,从大型知识图谱中自动化地抽取规则是很重要的。主流的规则学习的方法包括基于归纳逻辑编程的方法和基于表示学习的方法。基于归纳逻辑编程的方法中,SWARM [13],RDF2rules [14],ScaleKB [15],AMIE [16]取得了较好的效果,但是可扩展性仍然比较有限。基于表示学习的方法将实体和谓词表示为低维向量,通过得分函数来评估一个规则的质量,具有更好的扩展性,代表工作有[17],[18],[19],[20]。

查询重写。查询重写是查询应答的重要方法之一,通过将一个查询改写为多个合取查询的并集获得更丰富、更准确的查询结果。例如,表示如果x出生在z国的y城市,则x的国籍是z,如果查询某个人u的国籍,经过改写后的查询为。现有的查询系统主要有Graal [21],Drewer [22],Rapid [23]等。

本体查询系统的基准的研究概况。具有实际意义的查询和本体通常需要人工设计,导致该类基准包含的查询和本体的数量有限;而生成式的查询和本体虽然能够提供扩展性强的测试,但是不具有实际意义。LUBM(Lehigh University Benchmark)[24]是2005年提出,目前仍被语义科技社区使用的基准。LUBM由域为大学的本体、可以调节数据量大小的数据生成器、14个人工设计的查询和一些度量标准四部分组成。其中,本体和查询都是手动生成的。基于追逐方法的本体查询系统的基准ChaseBench [25]采用了按照一定策略生成的本体和问题,能够通过控制某些变量来调节其复杂度,并提供了一系列测试场景为多个系统进行评测。

  1. 评述

近年来,基于本体的数据访问不断应用于政府组织和大型公司中。与传统的关系数据库相比,本体具有更高的表达力,能够描述某个领域内的概念以及概念的实例间的关系。同时,多种基于本体的查询应答的系统被提出,而缺乏具有实际意义的、数据量大的测试基准来对现有的系统进行评测。具有实际意义的查询和本体通常需要人工设计,导致该类基准包含的查询和本体的数量有限;而生成式的查询和本体虽然能够提供扩展性强的测试,但是不具有实际意义。

知识图谱中包含大量来自现实世界中的事实,并且很多针对知识图谱的问题数据集被提出,而高扩展性的规则学习器能够从大型知识图谱中挖掘规则,这三者可分别构成大量的具有现实意义的数据、查询和本体,作为基准来对现有查询应答系统进行评测。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。