摘要: 近年来,伴随着大数据时代信息技术的飞速发展同时,信息安全研究领域也得到快速发展,越来越多的网络信息安全攻击事件不断发生和被报道。为进一步保障网络信息安全,建立大数据下的网络信息安全攻击追踪分析系统显得尤为重要。大数据下的网络信息安全攻击追踪分析系统是基于网络攻击事件的发生总会在网络上留下大量的网络攻击痕迹这一事实,借助大数据分析平台对多源海量数据快速分析处理的优势,进行多维度、多角度的关联分析,对可能发生的网络信息安全攻击事件进行预测和已经发生的网络信息安全攻击事件进行追踪及分析。其中基于大数据下的网络信息安全攻击追踪分析系统中涉及到很重要的一项技术:文本的分类。本文选择朴素贝叶斯作为文本分类算法,由于朴素贝叶斯分类算法的特征项间独立性假设在现实中一般很难满足,为了在一定的程度上放宽这一假设,本文提出了一种基于特征项改进权重朴素贝叶斯的分类方法,此分类方法基于改进卡方统计特征项选择方法和加权朴素贝叶斯分类算法相结合,充分考虑特征项对分类作用的大小和各特征项之间的依赖关系,并用语料库样本进行相应的实验。实验结果表明基于特征项改进权重朴素贝叶斯分类方法比改进前的分类效果有一定的提高。