大语言模型安全评测与评价体系研究

信息安全研究 ›› 2025, Vol. 11 ›› Issue (E2): 89-.

• 2025“数字经济与网络安全”论文集 • 上一篇下一篇

大语言模型安全评测与评价体系研究

熊海洋1苏蒙蒙1王照2王云2潘晓华1郑海斌3陈晋音3

1(浙江大学滨江研究院杭州310053)
2(数据通信科学技术研究所北京100083)
3(浙江工业大学杭州310014)

出版日期:2025-12-27 发布日期:2025-12-27
通讯作者: 陈晋音博士，教授.主要研究方向为人工智能安全、大模型安全和数据挖掘. chenjinyin@zjut.edu
作者简介:熊海洋硕士，助理研究员.主要研究方向为大模型安全、算法安全和数据挖掘. xhy19982021@163.com 苏蒙蒙硕士，助理研究员.主要研究方向为人工智能、大模型应用和大模型安全. sumengmeng1994@163.com 王照博士，研究员.主要研究方向为人工智能、大模型安全和数据挖掘. wangzhao19870401@163.com 王云博士，研究员.主要研究方向为大模型应用、算法安全和深度学习. wangyun0529@163.com 潘晓华博士，研究员.主要研究方向为数据治理、工业互联网和服务型制造. panxh@zjubj.com 郑海斌博士，助理研究员.主要研究方向为深度学习和人工智能安全. haibinzheng320@gmail.com 陈晋音博士，教授.主要研究方向为人工智能安全、大模型安全和数据挖掘. chenjinyin@zjut.edu

基金资助:

浙江省自然科学基金项目(LDQ23F020001)；国家自然科学基金项目(62406286，62072406)；国家重点研发计划项目(2018AAA0100801)

Online:2025-12-27 Published:2025-12-27

摘要/Abstract

摘要： 针对大语言模型提出一套系统性的安全评测框架与评价体系，将数据语料安全、模型内生安全、生成内容安全、隐私机密安全、公平歧视安全和系统应用安全等6大维度纳入统一评测架构.主要创新点包括构建全面的6维安全评测体系、提出自动化工具与专家审核相结合的混合评测模式、设计具有风险等级阈值的标准化量化评分体系、基于万余条测试用例对5款主流大模型进行实证评测.该框架能有效识别大模型安全隐患，特别是能揭示模型内生安全和隐私保护方面的显著不足，为行业提供科学可操作的安全评测方案.

关键词: 大语言模型, 安全评测, 评价体系, 智能化评测, 安全风险

中图分类号:

TP18

熊海洋, 苏蒙蒙, 王照, 王云, 潘晓华, 郑海斌, 陈晋音, . 大语言模型安全评测与评价体系研究[J]. 信息安全研究, 2025, 11(E2): 89-.

参考文献

［1］Liu A, Feng B, Xue B, et al. Deepseekv3 technical report［EBOL］. 2024 ［20250723］. http:splab.sdu.edu.cnDeepSeek_V3.pdf［2］OpenAI. GPT4 system architecture and safety evaluation［J］. Journal of Artificial Intelligence Research, 2023, 68(8): 145［3］Liang P, Wu C, Chen  Y. Holistic evaluation of language models［J］. IEEE Trans on Pattern Analysis and Machine Intelligence, 2023, 45(8): 1023410251［4］Ramesh A, Zhang L, Smith J. SAFETYBench: A comprehensive benchmark for evaluating LLM safety［J］. Nature Machine Intelligence, 2024, 6(2): 156170［5］Zhang Y, Wang Q, Li X. TrustGPT: A comprehensive trustworthiness evaluation framework for large language models［J］. Computational Linguistics, 2023, 49(3): 567589［6］Zhou C, Liu  M, Chen Z. SafetyEval: A domainspecific safety evaluation framework for Chinese large language models［J］. ACM Trans on Asian and LowResource Language Information Processing, 2023, 22(4): 125［7］苏艳芳, 袁静, 薛俊民. 大模型安全评估体系框架研究［J］. 信息安全研究, 2024, 10(增刊2): 105109［8］韦韬, 刘焱, 翁海琴, 等. 大模型应用可信框架研究［J］.  信息安全研究, 2024, 10(12): 11531159［9］Ferraiolo D F, Sandhu R, Gavrila S, et al. Proposed NIST standard for rolebased access control［J］. ACM Trans on Information and System Security (TISSEC), 2001, 4(3): 224274［10］Wymberry C, Jahankhani H. An approach to measure the effectiveness of the mitre atlas framework in safeguarding machine learning systems against data poisoning attack［C］ Cybersecurity and Artificial Intelligence: Transformational Strategies and Disruptive Innovation. Cham: Springer Nature Switzerland, 2024: 81116［11］Symeonidis G, Nerantzis E, Kazakis A, et al. Mlopsdefinitions, tools and challenges［C］ Proc of the 12th IEEE Annual Computing and Communication Workshop and Conference (CCWC). Piscataway, NJ: IEEE, 2022: 453460

[1]	陈世武, 晋钢, 王炜, 杨渝, . 基于大语言模型的网络攻击检测技术研究进展[J]. 信息安全研究, 2026, 12(1): 16-.
[2]	范敏, 张林波, 李展, 燕敬博, 陈亘, 刘丽丽, 董逸天, . 告警研判智能体系统研究[J]. 信息安全研究, 2025, 11(E2): 39-.
[3]	陈彬, 徐欢, 杜浩文, 农彩勤, 谢娇, 刘雪花, . 大模型在电力系统数据安全风险管理中的应用研究[J]. 信息安全研究, 2025, 11(E2): 100-.
[4]	徐欢, 陈彬, 杜浩文, 刘家豪, 陈锋, 郝志婧, . 基于人工智能的电力行业数据安全运营实践研究[J]. 信息安全研究, 2025, 11(E2): 107-.
[5]	于洋, 李超, 张晓京, 王琼, 张湘海, 胡振凤, . 基于大语言模型的Overlay网络配置优化方案和实现机制[J]. 信息安全研究, 2025, 11(E2): 112-.
[6]	郭富民, 毛洪亮, 杨菁林, 莫荻, 潘彭丹, . 面向大语言模型的安全测试提示词生成方法[J]. 信息安全研究, 2025, 11(E2): 136-.
[7]	李永刚, 杨宇波, 潘善民, . 基于大模型驱动的自动化漏洞挖掘系统研究[J]. 信息安全研究, 2025, 11(E2): 154-.
[8]	吴威, 周巴特尔, 马远声, 包玉洁, 魏星, . 基于大模型构建的电子数据取证人工智能知识引擎[J]. 信息安全研究, 2025, 11(E2): 295-.
[9]	冯磊, 洪晔, 秦永亮, 黄小凯, . 大语言模型安全评估技术在新型电力系统中的应用思考[J]. 信息安全研究, 2025, 11(E1): 5-.
[10]	曹文斌, 姜国庆, . 基于特征提示的大语言模型判决文书信息要素抽取[J]. 信息安全研究, 2025, 11(E1): 102-.
[11]	王永, 高彦恺, 裴羽, 孙齐, . 智能可穿戴设备的安全威胁及防护策略探讨[J]. 信息安全研究, 2025, 11(E1): 118-.
[12]	陈斌, 谢晓刚, 汤雨婷, . 大语言模型自适应安全测评框架设计与开发[J]. 信息安全研究, 2025, 11(E1): 143-.
[13]	郭磊, 徐俊, . 智能体安全风险防范与监测技术研究[J]. 信息安全研究, 2025, 11(E1): 160-.
[14]	郝伟, . 人工智能大模型安全评测与评价体系研究[J]. 信息安全研究, 2025, 11(E1): 163-.
[15]	马宁, 张寒雪, 刘继涛, . 基于大语言模型的智能自动化安全运营体系建设研究[J]. 信息安全研究, 2025, 11(E1): 240-.

大语言模型安全评测与评价体系研究

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics