信息安全研究 ›› 2019, Vol. 5 ›› Issue (6): 477-487.

• 学术论文 • 上一篇    下一篇

数据驱动的网络安全风险事件预测技术研究

孔斌1,吕遒健2,3,吴峥嵘2,3   

  1. 1. 北京交通大学经济管理学院
    2. 中国科学院信息工程研究所
    3. 中国科学院信息工程研究所
  • 收稿日期:2019-06-03 出版日期:2019-06-15 发布日期:2019-06-03
  • 通讯作者: 孔斌
  • 作者简介:孔斌 硕士,高级工程师,主要研究方向为网络安全标准研究、计算机检查与网络风险评估技术. pingpangfan@163.com 吕遒健 博士,助理研究员,主要研究方向为网络安全风险分析、大数据分析. lvqiujian@iie.ac.cn 中国科学院信息工程研究所 吴峥嵘 硕士研究生,主要研究方向为网络安全风险分析. wuzhengrong@iie.ac.cn

A Study on Data Driven Cybersecurity Risk Incident Prediction Method

  • Received:2019-06-03 Online:2019-06-15 Published:2019-06-03

摘要: 大规模网络安全风险事件的频繁发生给网络安全研究者们敲响了警钟,工业界及学术界理解和防御网络威胁的方式也随着风险事件种类和数量的增多而不断发生改变,现已逐渐从反应型检测转变到主动型预测上来.其中基于历史网络安全风险事件数据特征来预测网络中潜在安全风险的主动型预测手段,被认为在改善网络弹性的方面具有很大的潜力.近年来,研究机构已经开始提出了数据驱动的网络安全风险事件预测方法与技术,用以挖掘网络安全事件与多维度网络特征间的关联性,并利用机器学习、深度学习等算法预测潜在的网络安全风险事件.重点介绍了网络安全风险事件预测的背景、定义及其关键技术.此外,数据的不平衡性是数据驱动的网络安全事件预测的重要壁垒,探讨了解决该问题的相关方法.

关键词: 网络安全, 风险事件预测, 特征工程, 模型训练, 模型评估, 不平衡

Abstract: The frequent occurrence of large-scale cybersecurity risk incidents alarms the current researchers, both industry and academia have witnessed a shift in understanding and defending against the evolving cyber threats, from primarily reactive detection towards proactive prediction. Undoubtedly, the proactive prediction method based on the historical datafeature is deemed to have excellent potential for improving cyber resilience. The research institute have begun proposing cybersecurity incident prediction schemes for mining the correlation between cybersecurity incidents and multi-dimensional network features, and have predicted the potential cybersecurity risk incidents by using the machine leaning algorithms, deep learning algorithms, and so on. This paper introduces the background, definition and key technology of the cybersecurity risk incident prediction. In addition, the problems of imbalance datasets is considered a barrier for predicting the cybersecurity risk incidents by datadriven, and the methods of solving the problems has been discussed.

Key words: cybersecurity, risk incident prediction, feature engineering, model training, model evaluation, dataset imbalance