基于小样本机器学习的非结构化文本关系抽取研究

一、问题描述

大规模非结构化文本数据是指挥控制从“观察”到“行动”循环中需要的重要数据支撑。面对日益增长的非结构化文本数据，如何帮助决策者理解这些数据，快速地从海量非结构化文本中发现知识，减轻决策者的学习成本，进一步提供辅助决策，显得越来越重要。信息抽取(Information Extraction)技术的研究正是为了解决这个问题。关系抽取(Relation Extraction)是信息抽取技术的重要环节，是信息抽取领域重要的基础任务和难点问题之一，其任务是从非结构化文本中自动识别出一对概念和联系这对概念的语义关系，并构成关系三元组。关系抽取不仅有助于非结构化文本数据的管理与服务，而且对于文本内容理解具有重要支撑作用，能够将文本分析从语言层面提升到知识层面，为指挥控制的“观察”到“行动”循环过程需要的大规模知识图谱、智能问答决策提供基础理论支撑。

目前，关系抽取主要包括三大类方法：监督式机器学习、半监督式机器学习和无监督式机器学习。监督式机器学习根据已有数据训练分类器，用训练好的分类器预测关系，通常具有较好效果。但是监督式学习的不足是需要大量人工标注的训练数据，人工标注训练数据需要花费大量时间和精力，因此，相关学者提出了基于远程监督（Distant Supervision）的关系抽取方法。随着深度学习的快速发展，相关学者将深度学习模型扩展到远监督模型上，进一步推动了关系抽取研究的发展。

二、主要研究内容

目标知识建模是指挥控制的关键基础技术，目标知识建模的主要难点在于如何在大规模非结构化文本数据中抽取目标、以及目标之间的关系。特别是针对互联网大规模非结构化文本数据，由于自然语言灵活多变，同一种语义关系可以使用不同的语言表达，而同一种语言表达在不同上下文中也经常描述不同的语义关系，自然语言的歧义性对面向非结构化文本的关系抽取提出了很大的挑战，其性能一直较低，其中有许多值得研究的问题。因此，针对目标知识建模领域训练样本不足、文本语义表示复杂，主要研究包括：

针对目标知识建模领域训练样本不足的问题、研究基于远监督学习的小样本训练集自动扩展方法，实现海量无标签文本数据自动标注；
远监督学习方法在一定程度上可以扩展小样本训练集，但同时也为大规模训练集带来了噪音数据，针对该问题，借鉴强化学习的自学习能力，研究基于深度强化学习的关系抽取方法，提高机器学习技术在数据样本缺失下关系抽取效果；
指挥控制目标数据语义复杂，短句子可能包含多个关系，多个长句子可能仅包含一个关系，针对上述问题，研究基于深层注意力机制的关系抽取方法，解决复杂语义下关系抽取的效果低效问题。

三、参考技术路线

我们以指挥控制目标知识建模为研究背景，以提高小样本训练集、复杂文本语义条件下的目标关系抽取效果为目标，主要研究远监督学习、弱监督学习、深度学习、深度强化学习等关键技术。

四、研究资源

相关竞赛与数据集

信息抽取相关的会议/数据集有 MUC、ACE、KBP、SemEval 等。其中，ACE(Automated Content Extraction) 对 MUC 定义的任务进行了融合、分类和细化，KBP(Knowledge Base Population) 对 ACE 定义的任务进一步修订，分了四个独立任务和一个整合任务。

开源系统

https://github.com/parthatalukdar/junto

https://github.com/yahoo/FEL

http://community.nzdl.org/wikification/about.html

http://aksw.org/Projects/AGDISTIS.html

https://github.com/dalab/pboh-entity-linking

https://github.com/devsisters/DQN-tensorflow

https://github.com/UKPLab/emnlp2017-bilstm-cnn-crf