信息安全研究 ›› 2025, Vol. 11 ›› Issue (E2): 136-.

• 2025“数字经济与网络安全”论文集 • 上一篇    下一篇

面向大语言模型的安全测试提示词生成方法

郭富民1毛洪亮1杨菁林1,2莫荻3潘彭丹4
  

  1. 1(国家计算机网络应急技术处理协调中心北京100029)
    2(中国科学院信息工程研究所北京100085)
    3(北京中晟信达科技有限公司北京100088)
    4(国科华盾科技有限公司北京100089)
  • 出版日期:2025-12-27 发布日期:2025-12-28
  • 通讯作者: 郭富民 博士,工程师.主要研究方向为人工智能安全治理、大模型安全测评. ggjj_258@126.com
  • 作者简介:郭富民 博士,工程师.主要研究方向为人工智能安全治理、大模型安全测评. ggjj_258@126.com 毛洪亮 博士,高级工程师.主要研究方向为人工智能安全治理、大模型安全测评. mhl@cert.org.cn 杨菁林 硕士研究生,高级工程师.主要研究方向为人工智能安全. yangjinglin@cert.org.cn 莫荻 主要研究方向为数据工程、人工智能应用与安全. modiaa@qq.com 潘彭丹 硕士,高级经济师.主要研究方向为人工智能安全及人才培养. panpengdan@huaduninfo.com

  • Online:2025-12-27 Published:2025-12-28

摘要: 针对大语言模型在安全测试场景中的对抗攻击问题,提出一种知识引导的强化学习框架,用于自动化生成有效且隐蔽的提示词.该框架的创新在于构建融合攻击策略和风险语义的知识图谱,在此基础上,设计奖励函数与动作空间约束机制,使强化学习决策代理根据对话状态自适应地选择策略节点与语义节点进行组合优化.该框架提高了强化学习的效率,有效平衡了对抗样本的攻击成功率与语义隐蔽性.在包含开源数据集抽样与自建测试集的综合评估中,该框架结合自建知识图谱,攻击成功率可提高至46.5%,验证了方法的有效性.

关键词: 大语言模型, 知识引导, 强化学习, 提示词生成

中图分类号: