文献综述（或调研报告）：

关系抽取研究中出现了许多不同的方法。总体来看，这些方法可以分为两大类: 基于知识工程的方法和基于机器学习的方法。基于知识工程的方法需要融合领域知识和语言学知识，通过人工编写规则集合，构造出特定模式，利用模式匹配的方式从文本中找到相应的关系实例。基于机器学习的方法一般将关系抽取问题转化为分类问题，通过特征工程选取有代表性的特征，利用不同的机器学习算法训练分类模型，最终通过训练出的分类模型判定实体对之间是否具有语义关系。也有的研究者通过聚类的方法解决关系抽取问题，取得了一定的效果。

Craven and Kumlien（1999）提出基于远监督的关系抽取方法，即利用已有知识库蕴含的事实信息作为支撑，训练出抽取模型，在未标注的大规模语料上获取关系实例，从而补充已有知识库，他采用Yeast Protein Database作为监督源，主要抽取蛋白质和细胞、组织、疾病、药品之间的关系。从那以后，该方法逐渐流行（Bunescu and Mooney,2007；Bellare and McCallum，2007；Wu and Weld，2007；Mintz et al.，2009；Sun et al.，2011；Riedel et al.，2010；Hoffmann et al.，2011；Sun et al.，2011；Nguyen and Moschitti，2011；Surdeanu et al.，2011a）。然而这些方法大多数在学习过程中都做出了一个或者多个近似。例如许多人提议启发式地将远监督转换成传统的监督学习（比如单实例单标签）（Bellare and McCallum，2007；Wu and Weld，2007；Mintz et al.，2009；Sun et al.，2011；Nguyen and Moschitti，2011；Surdeanu et al.，2011a）。Bunescu and Mooney（2007）和Riedel et al.（2010）将远监督的关系抽取描述成一个多实例单标签问题，对于相同的元组允许有多个提及，但对每个对象不允许有多个标签。我们的研究和Hoffmann et al.（2011）相近。他们用MIML模型解决和我们相同的问题（二元关系抽取），但是他们做出了两个近似。第一，他们使用一个确定的模型，通过OR-ing分类结果，将隐藏的实例标签聚集成相应元组的标签集合。第二，他们使用了感知机类型的附加参数更新方法。

MIML学习方法还应用在了除自然语言处理之外的其他领域，例如Zhou and Zhang (2007)将MIML方法用于场景分类。在这个问题中，每个图片都和多个与捕获到的场景一致的标签相匹配。除此之外，每个图片还包括许多补丁，这些补丁组成实例的bag，和给定的图片对象相匹配。Zhou and Zhang提出了两个算法将MIML问题简化成一个传统的监督学习问题。例如在第一个算法中，通过对每一个标签创建一个独立的包，将这个问题转化成一个多实例单标签问题。因此这个方法不能描述标签之间的依赖关系。所以他们又做出了一系列的近似，例如他们假设同一个包中的所有实例共享这个包的全局标签。

基于对这一研究课题的调研，我们可以发现，对于这一问题的解决，以往的研究者已经有了一定的研究方向，这也给我们的研究提供了不小的参考价值，如何更进一步地延拓这一问题的解决方法，提出新的更加有效地解决思路，是我们思考的主要问题。

参考文献

[1] Kedar Bellare and Andrew McCallum. 2007. Learning extractors from unlabeled text using relevant databases. In Proceedings of the Sixth International Workshop on Information Extraction on the Web.

[2] Carla Brodley and Mark Friedl. 1999. Identifying mislabeled training data. Journal of Artificial Intelligence Research (JAIR).

[3] Razvan Bunescu and Raymond Mooney. 2007. Learning to extract relations from the web using minimal supervision. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics.

[4] Mark Craven and Johan Kumlien. 1999. Constructing biological knowledge bases by extracting information from text sources. In Proceedings of the Seventh International Conference on Intelligent Systems for Molecular Biology.

[5] Jenny Rose Finkel, Trond Grenager, and Christopher D. Manning. 2005. Incorporating non-local information into information extraction systems by gibbs sampling. In Proceedings of the 43nd Annual Meeting of the Association for Computational Linguistics.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于多实例多标签学习的关系抽取方法研究文献综述

参考文献

您可能感兴趣的文章

登录

注册

找回密码

参考文献

您可能感兴趣的文章