全文总字数:7526字
文献综述
0 引言随着计算机和通信技术的发展与应用,人们组织和获取信息的方式发生了天翻地覆的变化,互联网蕴含着丰富的信息资源且检索十分便捷,逐渐成为了人们获取信息资源的主要途径之一。
伴随着移动互联网和Web2.0的发展,用户生成内容(User Generated Content, UGC)模式赋予了有机会接触网络的人自我表达的话语权[1],使得每个人都成为了网络信息的生产者,大大丰富了互联网上的信息资源。
如今,基于知识互联的Web 3.0[2]时代正向我们走来,知识互联的目标是构建一个人与机器都可理解的万维网,使得人们的网络更加智能化,知识图谱(Knowledge Graph, KG)以其强大的语义处理能力与开放互联能力,可为万维网上的知识互联奠定扎实的基础,使Web 3.0提出的知识之网愿景成为了可能[3]。
同时,面对大数据环境下海量异构的信息,使用传统搜索引擎进行基于关键词的检索式构建搜索方法对普通用户而言产生了一定的难度和不便;此外,搜索引擎的返回结果不是一个简洁的准确答案,而是一个网页片段的列表,这些网页片段通常含有大量的噪声数据,用户仍然需要阅读这些网页片段乃至相应的原始网页,才能找到其所需的答案[4]。
因此,对用户使用更加友好的使用自然语言作为输入和输出的问答系统(Questing Answering, QA)得到了人们的重视和研究。
本课题的目标即是构建一个基于知识图谱的问答系统(KBQA)[5]。
本文将介绍知识图谱的发展沿革、典型的知识图谱构建过程以及基于知识图谱的问答系统的研究现状和实现方法。
1 知识图谱1.1 发展沿革1.1.1 语义网络(Semantic Networks)知识图谱的概念不是凭空产生的,其概念最早可以追溯到M. Ross Quillian 和 Robert F. Simmons于1968年提出的语义网络(Semantic Networks)[6],随后人们又提出资源描述框架RDF (Resource Description Framework)[7]、RDFS(Resource Description Framework Schema)和网络本体语言OWL(Web Ontology Language)[8]完善了语义网络的不足。
1.1.2 本体(Ontology)本体是从哲学领域引入到计算机领域的一个概念,1993年,Gruber给出了本体的一个最为流行的定义,即本体是概念化的明确的规范说明[9]。
