小样本/弱监督条件下知识抽取方法
-
date_range 29/07/2019 00:00 infosortSAlabel
小样本/弱监督条件下知识抽取方法
一、问题描述
网络空间态势感知的基础环节为知识的应用,但是,网络空间知识数据分布广泛,且大多数都以非结构化的文本来描述知识的内容。非结构化文本导致知识组织、管理困难,且使得知识不能够得到充分的运用和推理。因此,本研究内容以知识抽取为背景,主要研究在训练集不足的情况下,如何利用机器学习方法解决知识抽取的问题。
具体的知识抽取任务主要包括如下四个方面:
(1)漏洞知识抽取
在非结构化文本描述中抽取漏洞的知识表示,比如下图所示漏洞描述中可以抽取漏洞针对的公司以及对应的产品服务。在上述漏洞知识抽取基础上,可以实现2个应用:使用漏洞所属公司在过去的漏洞发生模式来预测该公司产品在未来的漏洞发生风险性;使用漏洞针对的产品服务务在过去的漏洞发生模式来预测该产品服务在未来的漏洞发生风险性。
(2)开源情报装备动向抽取
在非结构化开源情报文本描述中抽取装备的知识表示,比如下图所示社交媒体数据中可以抽取装备搭载关系、抽取装备动向等。在上述关系抽取基础上,可以实现2个应用:利用开源情报还原装备体系关系;利用开源情报抽取装备动向,了解全球装备态势。
(3)协议识别
利用高速的协议五元组流来识别协议对象?比如通过协议数据来识别源地址是否为服务器;通过协议来识别源地址是否使用Google Chrome浏览器等。
(4)文本分类
在少量样本标签、或者不存在样本标签的情况下,对文本进行分类。
针对知识抽取的上述任务,存在如下技术难点:
传统的关系抽取大部分集中在类似ACE这种公开的训练集上验证算法有效性,但这些算法模型无法直接应用在漏洞、装备知识抽取、协议分析等任务中,且上述任务目前缺乏有效训练集,难以使用目前通用的深度学习等方法。
因此,我们有效的解决技术途径如下:
将小样本/弱监督机器学习方法扩展到深度学习中来有效解决机器学习算法训练集不足的问题。
二、主要研究内容
(1)基于深度强化学习的远监督实体关系抽取方法
思想:利用元搜索等方法获取大量新的远监督训练集,针对训练集质量不高的问题,进一步利用深度强化学习来挑选训练集
(2)基于多示例多标签学习的实体关系抽取方法
思想:文本内容中通常只有几句话可以用来表示机器学习特征(多示例学习),文本内容通常包含多个关系(多标签学习)
(3)基于迁移学习的实体关系抽取方法
创新研究:能否将类似ACE等已有训练集的模式迁移到漏洞、装备知识抽取、协议分析等任务中
(4)基于多任务学习的实体关系抽取方法
创新研究:能否将人物知识抽取、装备知识抽取、漏洞知识抽取等多个任务结合起来提高机器学习性能
三、研究资源
- 相关竞赛与数据集
信息抽取相关的会议/数据集有 MUC、ACE、KBP、SemEval 等。其中,ACE(Automated Content Extraction) 对 MUC 定义的任务进行了融合、分类和细化,KBP(Knowledge Base Population) 对 ACE 定义的任务进一步修订,分了四个独立任务和一个整合任务。
- 开源系统
刘知远团队关系抽取 https://github.com/crownpku/Information-Extraction-Chinese
弱监督关系抽取Deep Residual Learning for Weakly-Supervised Relation Extraction https://www.cs.ucsb.edu/~william/
多标签多示例关系抽取 https://github.com/may-/cnn-re-tf
深度强化学习关系抽取 https://github.com/karthikncode/DeepRL-InformationExtraction