大语言模型因其出色的文本理解和生成能力,被广泛应用于自然语言处理领域并取得了显著成果,为社会各界带来了 巨大的便利.然而,大语言模型自身仍存在明显的安全问题,严重影响其应用的可信性与可靠性,是安全学者需广泛关注的问 题.文中针对大语言模型自身的安全问题,首先从基于大语言模型的恶意应用问题切入,阐述提示注入攻击及其相应的防御方 法;其次,介绍大语言模型幻觉带来的可信问题,对幻觉问题的量化评估、幻觉来源和缓解技术是当前研究的重点;然后,大语言 模型隐私安全问题强调了个人及企业数据的保护问题,一旦在进行人机交互时泄露商业秘密和个人敏感信息,将可能引发严重 的安全风险,当前研究主要通过可信执行环境和隐私计算技术来进行风险规避;最后,提示泄露问题关注攻击者如何窃取有价 值的提示词进行获利或通过个性化提示词泄露个人隐私.提升大语言模型的安全性需要综合考虑模型隐私保护、可解释性研 究以及模型分布的稳定性与鲁棒性等问题.
大型语言模型(LargeLanguageModel,LLM)指包含数 百亿甚至更多参数,并经过大规模文本数据训练的语言模型. 研究者们发现,通过扩大预训练语言模型的参数量和数据量, 大语言模型能够在效果得到显著提升的同时,展示出许多小 模型不具备的自然语言理解和通过文本生成解决复杂任务的 能力,如 GPTG3,PaLM,Galactica和 LLaMA 等.其中,作为 代表性的大语言模型,ChatGPT基于其超强的人机对话能力 和任务求解能力,已经被广泛应用于医疗、金融、法律、教育等 领域,并带来了巨大的社会效益和经济效益.然而大型语言 模型目前仍面临自身安全问题,严重威胁其应用的可信性与 可靠性,如大语言模型的恶意应用问题、幻觉问题、隐私安全 问题与提示词安全问题等.