信息安全研究 ›› 2021, Vol. 7 ›› Issue (7): 652-660.

• 学术论文 • 上一篇    下一篇

 基于中文预训练的安全事件实体识别研究

朱磊1,2 董林靖1 黑新宏1,2  王一川1,2 彭伟1 刘雁孝1 盘隆3   

  1. 1 (西安理工大学  西安  710048) 
    2 (西安理工大学陕西省网络计算与安全技术重点实验  西安  710048) 
    3 (深圳市腾讯计算机系统有限公司  广东深圳  518054)

  • 出版日期:2021-07-09 发布日期:2021-07-08
  • 通讯作者: 朱磊
  • 作者简介:朱磊 博士,讲师. 主要研究方向为数据处理 董林靖 硕士研究生.主要研究方向为数据处理与数据安全. 2191221084@stu.xaut.edu.cn 黑新宏 教授,博士生导师.主要研究方向为轨道交通信息化与数据安全. heixinhong@xaut.edu.cn 刘雁孝 博士,副教授.主要研究方向为图像秘密共享和信息隐藏. liuyanxiao@xaut.edu.cn 王一川 博士,副教授.主要研究方向为区块链与网络安全. chuan@xaut.edu.cn 彭伟 硕士研究生.主要研究方向为数据处理与数据安全. 154396224@qq.com 盘隆 工程师.主要研究方向为系统安全. hydrapn@tencent.com

Research on Chinese Named Entity Recognition Method Based on Pre-training Model for Public Safety Events

  • Online:2021-07-09 Published:2021-07-08

摘要: 为提高公共安全事件中中文命名实体识别的效率,本文对《中文突发事件语料库》进行研究,通过对预训练任务的优化和训练集的迁移学习,提出基于领域预训练的公共安全事件实体识别方法.首先,对预训练模型RoBERTa进行优化,更新安全领域词典实现数据增强,并将中文单字符的掩码机制替换为全词掩码机制,获取公共安全事件中领域实体特征和语义信息.接着,使用10万条在线新闻语料进行领域预训练,生成了公共安全领域预训练模型RoBERTa+,增强下游任务命名实体识别的能力.最后,采用双向长短时记忆网络BiLSTM获取语料文本的上下文信息特征,经过条件随机场CRF进行序列解码标注,完成公共安全领域的中文命名实体识别任务.实验结果表明,改进的模型在中文突发事件语料库中准确率平均可达到87%以上,召回率和F1值都达到了80%以上,从而证明了领域预训练可以有效提升公共安全事件中实体信息的识别能力.

关键词: 公共安全事件, 中文实体识别, 领域预训练, 双向长短时记忆网络, 条件随机场, RoBERTa预训练语言模型

Abstract: To improve the efficiency of chinese named entity recognition in public safety events, we study the "Chinese Emergency Corpus", and propose a novel domain adaptive pre-training based named entity recognition model by optimizing the pre-training subtasks and transfer learning of domain datasets. First, the dictionary of pre-training model RoBERTa is updated by adding the terms of public safety events, and the mask subtask of pre-training with single character in chinese RoBERTa model is replaced with the chinese whole word masking, which can learn the more grammatical and semantic information of public safety events. And then, 100k online news unlabeled corpus is pre-trained to enhance the ability of identify downstream named entities, and the chinese pre-training model RoBERTa+ is generated for public security. The bidirectional long short-term memory network BiLSTM is employed to acquire the contextual abstraction feature, and the entities is final recognized by the sequence decoding with the conditional random field. Experimental result shows that the proposed model reaches an accuracy rate of 87%, the recall rate and F1-value of 81%, which indicates that the domain adaptive pre-training has considerable potential for natural language processing tasks.

Key words: public security, chinese named entity recognition, domain pre-training, BiLSTM, CRF, pre-trained language model RoBERTa