大模型攻击技术综述

信息安全研究 ›› 2025, Vol. 11 ›› Issue (E2): 116-.

• 2025“数字经济与网络安全”论文集 • 上一篇下一篇

大模型攻击技术综述

曹思玮陈广勇

```
(公安部第三研究所上海200031)
```

出版日期:2025-12-27 发布日期:2025-12-27
通讯作者: 曹思玮硕士，研究实习员.主要研究方向为网络安全和大模型. caosiwei@gass.ac.cn
作者简介:曹思玮硕士，研究实习员.主要研究方向为网络安全和大模型. caosiwei@gass.ac.cn 陈广勇硕士，副研究员.主要研究方向为人工智能安全、网络安全等级保护和关键信息基础设施保护. chenguangyong@gass.ac.cn

基金资助:

公安部第三研究所2024年度科研优青班项目(KZC24860)

Online:2025-12-27 Published:2025-12-27

摘要/Abstract

摘要： 随着大模型在自然语言处理、计算机视觉和多模态等任务中的广泛部署，其安全性问题已成为学术界的研究热点.首先分别探讨了利用模型内部梯度信息的白盒攻击、依赖输入输出交互的黑盒攻击、结合部分模型信息的灰盒攻击；其次详细解析了越狱攻击、幻觉攻击、提示注入攻击和逆向推理攻击等具体手法，涵盖了从对抗样本生成到模型参数窃取等多种技术路径；最后总结了攻击评估的关键指标，包括攻击成功率、查询成本、扰动幅度和语义保持度.通过对现有攻击方法和评估体系的全面分析，为提升大模型的安全性提供参考和指导.

关键词: 大模型, 攻击分类, 攻击手法, 评估指标

中图分类号:

TP309.2

曹思玮, 陈广勇, . 大模型攻击技术综述[J]. 信息安全研究, 2025, 11(E2): 116-.

参考文献

［1］Wang X, Cao S, Zheng K, et al. Supervised character resemble substitution personality adversarial method［J］. Electronics, 2023, 12(4): 869［2］靳文京, 卜哲, 秦博阳. 基于序列生成对抗网络的智能模糊测试方法［J］. 信息安全研究, 2024, 10(6): 490497［3］Xue J, Zheng M, Hua T, et al. Trojllm: A blackbox trojan prompt attack on large language models［J］. Advances in Neural Information Processing Systems, 2023, 36(11): 6566565677［4］Carlini N, Tramer F, Wallace E, et al. Extracting training data from large language models［EBOL］. 2020 ［20250717］. https:xueshu.baidu.comusercenterpapershow?paperid=151h0jc0xn1e02u0pp080tc05m288830&site=xueshu_se &hitarticle=1［5］ZanellaBeguelin S, Tople S, Paverd A, et al. Greybox extraction of natural language models［EBOL］. 2021［20250717］. https:xueshu.baidu.comusercenterpapershow?paperid=1t4c0p20ee4x08y0nc0y0e60qj557159&site=xueshu_se&hitarticle=1［6］王子晨, 汤艳君, 潘奕扬. 面向取证的网络攻击者溯源分析技术研究综述［J］. 信息安全研究, 2024, 10(4): 302310［7］Burford K G, Itzkowitz N G, Ortega A G, et al. Use of generative AI to identify helmet status among patients with micromobilityrelated injuries from unstructured clinical notes［J］. JAMA Network Open, 2024, 7(8): e2425981e2425981［8］顾芳铭, 况博裕, 许亚倩, 等. 面向自动驾驶感知系统的对抗样本攻击研究综述［J］. 信息安全研究, 2024, 10(9): 786794［9］Carlini N, Tramer F, Wallace E, et al. Extracting training data from large language models［EBOL］. 2020 ［20250717］. https:xueshu.baidu.comusercenterpapershow?paperid=151h0jc0xn1e02u0pp080tc05m288830&site=xueshu_se &hitarticle=1［10］Ilyas A, Engstrom L, Athalye A, et al. Blackbox adversarial attacks with limited queries and information［EBOL］. 2018 ［20250717］. https:xueshu.baidu.comusercenterpapershow?paperid=45d483db0b356e0b7b16bb302f02f38 2&site=xueshu_se

[1]	李越挺, 江魁, . 基于LLMRAG的可信恶意URL识别方法[J]. 信息安全研究, 2025, 11(E2): 19-.
[2]	刘楠, 陶源, . 基于多任务场景的大模型网络安全等级保护知识增强方法[J]. 信息安全研究, 2025, 11(E2): 67-.
[3]	吴金宇, 张富川, 胡海生, 江泽铭, 陈树廷, 段古纳, 刘丹, 齐洪东, 杜君, . 可信计算3.0在新型电力系统AI大模型安全防护中的增强机制及应用[J]. 信息安全研究, 2025, 11(E2): 85-.
[4]	马霄, 张瑞恒, 董保开, 金忠龙, 宋锐, 王峰, 刘超, . 工业大模型内生安全风险与防护体系研究[J]. 信息安全研究, 2025, 11(E2): 94-.
[5]	刘瑞, 吴强, 陈佳珵, . 能源化工行业基于联邦学习技术的大模型建设研究[J]. 信息安全研究, 2025, 11(E2): 146-.
[6]	刘静, 王勇, 王雪, . 司法大模型细粒度能力测评体系构建研究[J]. 信息安全研究, 2025, 11(E2): 167-.
[7]	汤志伟, 罗佳莹, 俞贵琪, . 大模型安全测评评估框架研究[J]. 信息安全研究, 2025, 11(E2): 267-.
[8]	李文瑾, 祝荣吉, 骆嘉敏, 高东, 范敦球, . 从AI红队视角分析大模型安全威胁[J]. 信息安全研究, 2025, 11(E2): 299-.
[9]	熊开智, 叶马力, 岳攀, 卢嘉源, . 基于大模型的多模态攻防检测自动化编排控制系统[J]. 信息安全研究, 2025, 11(E1): 72-.
[10]	郝伟, . 人工智能大模型安全评测与评价体系研究[J]. 信息安全研究, 2025, 11(E1): 163-.
[11]	宋歌, . 基于AI的代码安全检测技术探索与实践[J]. 信息安全研究, 2025, 11(E1): 181-.
[12]	张星, . 医疗大模型数据安全保障技术及应用研究[J]. 信息安全研究, 2025, 11(E1): 229-.
[13]	李守伟, 张嘉政, 何海波, 陈明辉, . 基于区块链的大模型数据监管体系设计[J]. 信息安全研究, 2025, 11(8): 682-.
[14]	魏政, 何树果, 程度, 仇晶, 庞博文, 邢亚君, 郭媛, . 基于语义复原和大模型的无文件混淆攻击识别[J]. 信息安全研究, 2025, 11(12): 1125-.
[15]	韦韬, 仲震宇, 刘焱, 陈达, 薛见新, 胡钺琳, 余超凡, 周云浩, . 大模型驱动的高阶程序[J]. 信息安全研究, 2025, 11(11): 1008-.

大模型攻击技术综述

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics