面向大语言模型的安全测试提示词生成方法

信息安全研究 ›› 2025, Vol. 11 ›› Issue (E2): 136-.

• 2025“数字经济与网络安全”论文集 • 上一篇下一篇

面向大语言模型的安全测试提示词生成方法

郭富民1毛洪亮1杨菁林1,2莫荻3潘彭丹4

1(国家计算机网络应急技术处理协调中心北京100029)
2(中国科学院信息工程研究所北京100085)
3(北京中晟信达科技有限公司北京100088)
4(国科华盾科技有限公司北京100089)

出版日期:2025-12-27 发布日期:2025-12-28
通讯作者: 郭富民博士，工程师.主要研究方向为人工智能安全治理、大模型安全测评. ggjj_258@126.com
作者简介:郭富民博士，工程师.主要研究方向为人工智能安全治理、大模型安全测评. ggjj_258@126.com 毛洪亮博士，高级工程师.主要研究方向为人工智能安全治理、大模型安全测评. mhl@cert.org.cn 杨菁林硕士研究生，高级工程师.主要研究方向为人工智能安全. yangjinglin@cert.org.cn 莫荻主要研究方向为数据工程、人工智能应用与安全. modiaa@qq.com 潘彭丹硕士，高级经济师.主要研究方向为人工智能安全及人才培养. panpengdan@huaduninfo.com

Online:2025-12-27 Published:2025-12-28

摘要/Abstract

摘要： 针对大语言模型在安全测试场景中的对抗攻击问题，提出一种知识引导的强化学习框架，用于自动化生成有效且隐蔽的提示词.该框架的创新在于构建融合攻击策略和风险语义的知识图谱，在此基础上，设计奖励函数与动作空间约束机制，使强化学习决策代理根据对话状态自适应地选择策略节点与语义节点进行组合优化.该框架提高了强化学习的效率，有效平衡了对抗样本的攻击成功率与语义隐蔽性.在包含开源数据集抽样与自建测试集的综合评估中，该框架结合自建知识图谱，攻击成功率可提高至46.5%，验证了方法的有效性.

关键词: 大语言模型, 知识引导, 强化学习, 提示词生成

中图分类号:

TP18

郭富民, 毛洪亮, 杨菁林, 莫荻, 潘彭丹, . 面向大语言模型的安全测试提示词生成方法[J]. 信息安全研究, 2025, 11(E2): 136-.

参考文献

［1］Xu Z H, Liu Y, Deng G L, et al. LLM jailbreak attack versus defense techniquesa comprehensive study［EBOL］. 2024 ［20250816］. https:arxiv.orgpdf2402.13457v1［2］李南, 丁益东, 江浩宇, 等. 面向大语言模型的越狱攻击综述［J］.  计算机研究与发展, 2024, 61(5): 11561181［3］Li X R, Wang R C, Cheng M H, et al. Drattack: Prompt decomposition and reconstruction makes powerful llm jailbreakers ［EBOL］. 2024 ［20250816］. https:arxiv.orgpdf2402.16914［4］Chang Z Y, Li M Y, Liu Y, et al. Play guessing game with llm: Indirect jailbreak attack with implicit clues［EBOL］. 2024 ［20250816］. https:arxiv.orgpdf2402.09091［5］Zhang T R, Cao B C, Cao Y P, et al. Wordgame: Efficient & effective LLM jailbreak via simultaneous obfuscation in query and response［EBOL］. 2024 ［20250816］. https:arxiv.orgpdf2405.14023［6］Zhou Y K, Huang Z J, Lu F Y, et al. Don’t say no: Jailbreaking LLM by suppressing refusal［EBOL］. 2024 ［20250816］. https:arxiv.orgpdf2404.16369［7］Chao P, Robey A, Dobriban E, et al. Jailbreaking black box largelanguagemodels in twenty queries［EBOL］. 2023 ［20250816］. https:arxiv.orgpdf2310.08419［8］Yu, JH, Lin X W, Yu Z, et al. Gptfuzzer: Red teaming large language models with autogenerated jailbreak prompts［EBOL］. 2023 ［20250816］. https:arxiv.orgpdf2309.10253v3［9］Zou A, Wang Z F, Carlini N, et al. Universal and transferable adversarial attacks on aligned language models［EBOL］. 2023 ［20250816］. https:www.cnblogs.comLittleHannp17590737.html［10］Wu T Y,Xue Z W,Liu Y, et al. Geneshift: Impact of different scenario shift on Jailbreaking LLM［EBOL］. 2025 ［20250816］. https:arxiv.orgpdf2504.08104［11］Speer R, Chin J, Havasi C. ConceptNet 5.5: An open multilingual graph of general knowledge［C］  Proc of the 31st AAAI Conf on Artificial Intelligence. New York: ACM, 2017: 44444451［12］Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms［EBOL］. 2017 ［20250816］. https:arxiv.orgpdf1707.06347

[1]	陈世武, 晋钢, 王炜, 杨渝, . 基于大语言模型的网络攻击检测技术研究进展[J]. 信息安全研究, 2026, 12(1): 16-.
[2]	范敏, 张林波, 李展, 燕敬博, 陈亘, 刘丽丽, 董逸天, . 告警研判智能体系统研究[J]. 信息安全研究, 2025, 11(E2): 39-.
[3]	熊海洋, 苏蒙蒙, 王照, 王云, 潘晓华, 郑海斌, 陈晋音, . 大语言模型安全评测与评价体系研究[J]. 信息安全研究, 2025, 11(E2): 89-.
[4]	陈彬, 徐欢, 杜浩文, 农彩勤, 谢娇, 刘雪花, . 大模型在电力系统数据安全风险管理中的应用研究[J]. 信息安全研究, 2025, 11(E2): 100-.
[5]	于洋, 李超, 张晓京, 王琼, 张湘海, 胡振凤, . 基于大语言模型的Overlay网络配置优化方案和实现机制[J]. 信息安全研究, 2025, 11(E2): 112-.
[6]	李永刚, 杨宇波, 潘善民, . 基于大模型驱动的自动化漏洞挖掘系统研究[J]. 信息安全研究, 2025, 11(E2): 154-.
[7]	吴威, 周巴特尔, 马远声, 包玉洁, 魏星, . 基于大模型构建的电子数据取证人工智能知识引擎[J]. 信息安全研究, 2025, 11(E2): 295-.
[8]	冯磊, 洪晔, 秦永亮, 黄小凯, . 大语言模型安全评估技术在新型电力系统中的应用思考[J]. 信息安全研究, 2025, 11(E1): 5-.
[9]	曹文斌, 姜国庆, . 基于特征提示的大语言模型判决文书信息要素抽取[J]. 信息安全研究, 2025, 11(E1): 102-.
[10]	陈斌, 谢晓刚, 汤雨婷, . 大语言模型自适应安全测评框架设计与开发[J]. 信息安全研究, 2025, 11(E1): 143-.
[11]	马宁, 张寒雪, 刘继涛, . 基于大语言模型的智能自动化安全运营体系建设研究[J]. 信息安全研究, 2025, 11(E1): 240-.
[12]	赵惠浞, 王智民, 韩剑飞, 苏凯旋, . 与大语言模型交互的API安全网关设计[J]. 信息安全研究, 2025, 11(E1): 248-.
[13]	范敏, 李艳霞, 胡星高, 曾助予, 陈亘, 卞超轶, 郭春梅, . 基于大语言模型的Bash命令注入攻击检测系统研究[J]. 信息安全研究, 2024, 10(E2): 27-.
[14]	高康, 汤博文, 金建栋, 赖清楠, 周昌令, . 基于检索增强生成的智能渗透测试方法研究[J]. 信息安全研究, 2024, 10(E2): 32-.
[15]	陈继智, 万朝华, 张斯威, . 基于大语言模型的零样本安全知识抽取方法[J]. 信息安全研究, 2024, 10(E2): 59-.

面向大语言模型的安全测试提示词生成方法

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics