信息安全研究 ›› 2025, Vol. 11 ›› Issue (E2): 116-.

• 2025“数字经济与网络安全”论文集 • 上一篇    下一篇

大模型攻击技术综述

曹思玮陈广勇
  

  1. (公安部第三研究所上海200031)
  • 出版日期:2025-12-27 发布日期:2025-12-27
  • 通讯作者: 曹思玮 硕士,研究实习员.主要研究方向为网络安全和大模型. caosiwei@gass.ac.cn
  • 作者简介:曹思玮 硕士,研究实习员.主要研究方向为网络安全和大模型. caosiwei@gass.ac.cn 陈广勇 硕士,副研究员.主要研究方向为人工智能安全、网络安全等级保护和关键信息基础设施保护. chenguangyong@gass.ac.cn
  • 基金资助:
    公安部第三研究所2024年度科研优青班项目(KZC24860)

  • Online:2025-12-27 Published:2025-12-27

摘要: 随着大模型在自然语言处理、计算机视觉和多模态等任务中的广泛部署,其安全性问题已成为学术界的研究热点.首先分别探讨了利用模型内部梯度信息的白盒攻击、依赖输入输出交互的黑盒攻击、结合部分模型信息的灰盒攻击;其次详细解析了越狱攻击、幻觉攻击、提示注入攻击和逆向推理攻击等具体手法,涵盖了从对抗样本生成到模型参数窃取等多种技术路径;最后总结了攻击评估的关键指标,包括攻击成功率、查询成本、扰动幅度和语义保持度.通过对现有攻击方法和评估体系的全面分析,为提升大模型的安全性提供参考和指导.

关键词: 大模型, 攻击分类, 攻击手法, 评估指标

中图分类号: