信息安全研究 ›› 2024, Vol. 10 ›› Issue (9): 795-.
姬旭张健毅赵张驰周子寅李毅龙孙泽正
Ji Xu, Zhang Jianyi, Zhao Zhangchi, Zhou Ziyin, Li Yilong, and Sun Zezheng
摘要: 大语言模型从模型本身和推理中检索知识以生成用户所需的答案,因此评价大语言模型的推理能力成为热点.然而,尽管在隐语方面大语言模型表现出较好的推理与理解能力,但在诸如电信诈骗等特殊领域隐语理解能力、推理能力的评价尚未出现.针对此问题,设计并实验了首个针对特殊领域隐语的大语言模型评估系统,同时提出了包含许多特殊主题的首个隐语数据集.针对数据交叉匹配问题和数据计算问题,分别提出了协同调和算法和基于指示函数的数据感知算法,从多角度评价大语言模型的表现.实验证明,该系统可以灵活、深入地评估大语言模型问答的识别准确性.同时,结果首次揭示了大语言模型基于提问风格和线索的识别准确性变化.设计系统可以作为一种审计工具帮助提高大语言模型的可靠性和安全性.
中图分类号: