信息安全研究 ›› 2025, Vol. 11 ›› Issue (12): 1125-.

• 学术论文 • 上一篇    下一篇

基于语义复原和大模型的无文件混淆攻击识别

魏政1何树果2程度2,3仇晶4庞博文1邢亚君1郭媛1

  

  1. 1(北京智网数科技术有限公司北京100013)
    2(北京升鑫网络科技有限公司北京100085)
    3(清华大学网络科学与网络空间研究院北京100084)
    4(广州大学网络空间安全学院广州510006)
  • 出版日期:2025-12-12 发布日期:2025-12-04
  • 通讯作者: 程度 博士研究生,副研究员.主要研究方向为网络攻防、云计算安全、主机安全、ATT&CK攻击框架. chengdu1113@163.com
  • 作者简介:魏政 硕士,高级工程师.主要研究方向为网络安全. weizheng@pipechina.com.cn 何树果 硕士,工程师.主要研究方向为网络安全. shuguo.he@qingteng.cn 程度 博士研究生,副研究员.主要研究方向为网络攻防、云计算安全、主机安全、ATT&CK攻击框架. chengdu1113@163.com 仇晶 博士,教授.主要研究方向为信息网络安全与威胁检测. qiujing@gzhu.edu.cn 庞博文 硕士.主要研究方向为网络安全. poindon@163.com 邢亚君 硕士.主要研究方向为网络安全. xingyj02@pipechina.com.cn 郭媛 硕士,工程师.主要研究方向为网络安全. trfancy@163.com
  • 基金资助:
    国家自然科学基金项目(U24A20336,62272114);国家科技重大专项基金项目(2022ZD0119602);鹏程实验室重大攻关项目(PCL2024A05);北京市科技计划项目(Z231100005923012);广州市科技计划项目(2024A03J0399)

Fileless Obfuscation Attack Recognition Based on Semantic Recovery and  Large Language Model

Wei Zheng1, He Shuguo2, Cheng Du2,3, Qiu Jing4, Pang Bowen1, Xing Yajun1, and Guo Yuan1
  

  1. 1(Beijing Pipe China Digital Co., Ltd., Beijing 100013)
    2(Beijing Shengxin Network Technology Co., Ltd., Beijing 100085)
    3(Institute of Network Science and Cyberspace, Tsinghua University, Beijing 100084)
    4(School of Cyberspace Security, Guangzhou University, Guangzhou 510006)
  • Online:2025-12-12 Published:2025-12-04

摘要: 近年来,随着无文件攻击方法和策略的进一步提升,无文件恶意攻击识别的相关研究也备受关注.其中,无文件混淆攻击作为一种新型的隐蔽式、动态式和复杂化攻击,能快速绕开现有的攻击引擎和规则式框架.为此,提出了一种基于动态局部执行和语义分析树指导的攻击脚本复原方法,以实现对混淆代码的复原.其次,基于大模型在攻击理解和语义识别上的高效性,结合大模型实现高效的无文件代码识别与分类.为进一步缓解大模型在大文件代码和长篇章识别上的不足,还提供了一种语义代码压缩策略以实现对关键攻击语义的保留.实验结果表明,提出的语义复原和大模型识别方法比现有方法提高10%左右的精确率和准确率,并同时提高了攻击识别效率.

关键词: 无文件攻击, 混淆攻击, 大模型, 语义树分析, 语义压缩

Abstract: With the continuous advancement of fileless attack techniques and strategies, research on identifying fileless malicious attack has garnered significant attention. Among these, fileless obfuscation attack, as a new type of covert, dynamic, and complex attack, can rapidly bypass existing attack engines and rulebased frameworks. To address this problem, this paper proposes an attack script restoration method guided by dynamic partial execution and semantic analysis tree guidance, enabling the restoration of obfuscated code. Furthermore, leveraging the efficiency of large models in attack understanding and semantic recognition, we integrate large models to achieve efficient identification and classification of fileless code. To further alleviate the limitations of large models in handling large code files and long passages, we also provide a semantic code compression strategy to retain critical attack semantics. Experimental results demonstrate that our proposed semantic restoration and large model identification methods can enhance effectiveness by around 10% compared to existing models and methods, while maintaining efficient attack identification efficiency.

Key words: fileless attack, confusion attack, large language model, semantic tree analysis, semantic compression

中图分类号: