基于贝叶斯网络的内部威胁检测研究

问题描述：近几年来，大数据以及机器学习成为学术界和工业界共同关注的热点，以AlphaGo为代表的深度学习技术在围棋对弈、计算机视觉、语音识别等领域取得了巨大的成功，然而由于深度神经网络模型的黑箱式设计，其内部运行机制难以解释，学习训练需要大量标注的样本，这与人类通过小样本数据和经验知识认识世界的方式仍然具有一定的差距。2016年初，美国人工智能年会AAAI上着重讨论了未来人工智能研究应面向不确定环境，面向类人机制，能够处理复杂问题和小样本数据学习问题。几乎同一时间，Lake等学者在Science杂志上发表了一种引入贝叶斯方法的程序，它利用字符笔画间的关系，能够让机器通过小样本数据像人一样书写新的字符，且其字符分类准确率要远远高于深度学习的方法，在学术界引起广泛关注。人们逐渐意识到，深度神经网络模型并不是实现未来智能的唯一途径，能够处理不确定性，并结合领域知识对复杂问题进行建模的方法，如贝叶斯网络模型，又重新引起了人们的重视。
主要研究内容：近年来，斯诺登、曼宁等泄密事件证明，“人”的行为是网络空间安全问题的关键要素，网络空间的安全威胁将主要源于内部，特别是拥有合法权限的内部人员的恶意攻击和窃密行为，然而传统的安全方法没有考虑，也无法分析具有合法权限内部人员的恶意行为。因此，在动态、多域条件下的网络空间用户行为分析至关重要，否则将造成网络防御的巨大漏洞。贝叶斯网络可以较好的应用在态势感知以及行为分析问题中，但是在应用过程中，如何根据已有的数据和知识，构建网络有向无环的拓扑结构（Directed Acyclic Graph，DAG）和节点间条件概率影响程度（Conditional Probability Table，CPT），即贝叶斯网络学习，具有很强的挑战性。这是因为，在学习过程中，由于候选DAG结构的数量会随着节点数的增加而指数倍增加，因此BN学习是NP难问题。在实际应用中，模型的构建需要考虑数据和领域知识的结合，且搜索空间庞大，因此传统的贝叶斯网络研究，特别是模型学习研究在最近几年出现了一定的停滞。
参考技术路线：具体地，本课题以网络空间内部威胁检测为背景，以提高贝叶斯网络学习精度为目标，在现有单任务（单问题域）学习算法的基础上，通过引入多任务（多问题域）的学习框架，研究多任务条件下任务相似度计算、任务求解、以及支持知识和数据混合下学习的实现途径。研究贝叶斯网络对领域知识和用户行为的建模方法，在已有指标的基础上，结合心理域与社会域，建立了预测网络中恶意用户动机和心理。研究多任务条件下贝叶斯网络的近似推理算法，以及关键证据集的分析方法，并结合内部威胁检测应用，构造综合考虑学习算法性能和实际应用绩效的评价体系，通过公开模型数据集和实际应用实验，探索多任务条件下的模型学习有效模式，以及学习任务、领域知识和算法效能之间的关系，为不确定环境下态势感知系统的分析和设计提供理论与方法支撑，为安全防护决策提供支持。
研究资源：由于目前已有大量的贝叶斯网络学习研究，以及相关数据和构建好的实际应用模型，我们将利用这些公开的数据进行学习，并与实际模型相比较，从而对本项目的算法以及公开发表算法进行评价。比较有名的公开数据集包括：牛津大学的BN Learn（http://www.bnlearn.com/），澳大利亚人工智能协会的ABNMS数据集（http://abnms.org/bnrepo/），以色列希伯来大学的BN Repository（http://www.cs.huji.ac.il/Repository/），NORSYS软件公司的Net library数据集（http://www.norsys.com/netlibrary/），以及HUGIN公司的BN Forum数据集（http://forum.hugin.com/）等。我们将基于这些通用数据集中的贝叶斯网络模型，进行编程实验，并将软件工具包BNT（Bayes Net Toolbox for Matlab）集成到开发环境中，通过从真实模型中采样得到训练用目标数据集，通过引入一定的噪声采样产生源数据集，以便于进行多任务和迁移学习，实试验算法均在不同样本数据集上独立运行 100次进行测试。在得到学习结果后，对不同学习算法进行评价，包括计算实验得到的网络与真实网络的结构编辑距离（将算法确定的最优图结构转化为标准的网络结构所需要的平均运算总数目），以及参数的K-L散度（Kullback–Leibler Divergence，用于计算概率分布之间的距离）等。