信息安全研究 ›› 2021, Vol. 7 ›› Issue (1): 37-43.

• 学术论文 • 上一篇    下一篇

基于深度学习的暗网市场命名实体识别研究

范晓霞1,周安民1,郑荣锋2,李孟铭1   

  1. 1. 四川大学网络空间安全学院
    2. 四川大学电子信息学院
  • 收稿日期:2021-01-10 出版日期:2021-01-05 发布日期:2021-01-10
  • 通讯作者: 范晓霞
  • 作者简介:范晓霞 硕士研究生,主要研究方向为自然语言处理与信息安全. fanxxbili@gmail.com 周安民 研究员,硕士生导师,主要研究方向为安全防御与管理技术、移动互联网安全、云计算安全. zhouanmin@scu.edu.cn 郑荣锋 博士研究生,主要研究方向为网络流量分析、工控系统安全、嵌入式设备安全、网络威胁情报. scu.ele.zrfeng@gmail.com 李孟铭 硕士,主要研究方向为网络威胁情报与信息安全. limengmingx@sina.cn

Darknet Market Named Entity Recognition Based on Deep Learning

  • Received:2021-01-10 Online:2021-01-05 Published:2021-01-10

摘要: 对网络安全从业人员来说,基于暗网市场的研究扮演了一个非常重要的角色.与此同时,由于暗网市场文本数据本身的特点,针对暗网市场的命名实体识别研究面临着巨大的挑战.本文提出了一个针对暗网市场文本的命名实体识别系统(DNER),使用卷积神经网络(CNN)进行字符向量化以学习单词形态特征,使得系统能从单词级和字符级两方面学习特征.再者,本文将双向长短时记忆神经网络应用于暗网市场文本的命名实体识别,并采用CRF模型实现序列标签之间的约束性.针对暗网市场标注文本不足的问题,本文对暗网市场文本进行了词性标注.此外,本文还比较了DNER和其他基本命名实体识别模型在暗网市场文本命名实体识别的效果.实验结果显示,DNER系统在暗网市场文本的准确率达到98.59%,召回率达到93.82%,F1值达到了96.15%.

关键词: 暗网市场, 命名实体识别, 双向长短时记忆网络, 卷积神经网络, 条件随机场

Abstract: Researches on the darknet markets (DNMs) plays a vital role for cybersecurity practitioners. At the same time, named entity recognition (NER) on DNM is a challenging task because of its inherent characteristics. In this paper, we proposed DNER, a named entity recognition system on the darknet markets, using the convolutional neural network (CNN) to learn morphological features of words from character embeddings, and combining with word embeddings, which makes it benefits from both word-level and character-level features to train the dataset. Meanwhile, we combine the bidirectional long short-term memory (BiLSTM) with conditional random fields (CRF) architecture to the NER task on darknet markets. The BiLSTM network considers both the forward information of the sentence and the backward information. Moreover, we compared the performances of the CNN-BiLSTM-CRF model with other baseline models on darknet market corpus, the experimental results showed that the DNER system has achieved at 98.59% of Precision, 93.82% of Recall, and 96.15% of F1 Score on the DNM corpus.

Key words: darknet market, named entity recognition, Bi-directional long short-term memory, convolutional neural network, conditional random fields