信息安全研究 ›› 2025, Vol. 11 ›› Issue (E2): 89-.

• 2025“数字经济与网络安全”论文集 • 上一篇    下一篇

大语言模型安全评测与评价体系研究

熊海洋1苏蒙蒙1王照2王云2潘晓华1郑海斌3陈晋音3
  

  1. 1(浙江大学滨江研究院杭州310053)
    2(数据通信科学技术研究所北京100083)
    3(浙江工业大学杭州310014)
  • 出版日期:2025-12-27 发布日期:2025-12-27
  • 通讯作者: 陈晋音 博士,教授.主要研究方向为人工智能安全、大模型安全和数据挖掘. chenjinyin@zjut.edu
  • 作者简介:熊海洋 硕士,助理研究员.主要研究方向为大模型安全、算法安全和数据挖掘. xhy19982021@163.com 苏蒙蒙 硕士,助理研究员.主要研究方向为人工智能、大模型应用和大模型安全. sumengmeng1994@163.com 王照 博士,研究员.主要研究方向为人工智能、大模型安全和数据挖掘. wangzhao19870401@163.com 王云 博士,研究员.主要研究方向为大模型应用、算法安全和深度学习. wangyun0529@163.com 潘晓华 博士,研究员.主要研究方向为数据治理、工业互联网和服务型制造. panxh@zjubj.com 郑海斌 博士,助理研究员.主要研究方向为深度学习和人工智能安全. haibinzheng320@gmail.com 陈晋音 博士,教授.主要研究方向为人工智能安全、大模型安全和数据挖掘. chenjinyin@zjut.edu
  • 基金资助:
    浙江省自然科学基金项目(LDQ23F020001);国家自然科学基金项目(62406286,62072406);国家重点研发计划项目(2018AAA0100801)

  • Online:2025-12-27 Published:2025-12-27

摘要: 针对大语言模型提出一套系统性的安全评测框架与评价体系,将数据语料安全、模型内生安全、生成内容安全、隐私机密安全、公平歧视安全和系统应用安全等6大维度纳入统一评测架构.主要创新点包括构建全面的6维安全评测体系、提出自动化工具与专家审核相结合的混合评测模式、设计具有风险等级阈值的标准化量化评分体系、基于万余条测试用例对5款主流大模型进行实证评测.该框架能有效识别大模型安全隐患,特别是能揭示模型内生安全和隐私保护方面的显著不足,为行业提供科学可操作的安全评测方案.

关键词: 大语言模型, 安全评测, 评价体系, 智能化评测, 安全风险

中图分类号: