Safety for Large Language Models (LLMs) has been an ongoing research focus since their emergence and is even more relevant nowadays with the increasing capacity of those models. Currently, there are several guardrails in place for all public LLMs and multiple proposed datasets for training safety classifiers. However, training these safety classifiers relies on large quantities of labeled data, which can be problematic to acquire, prone to labeling errors, or often include synthetic data. To address these issues, we suggest a different approach: utilizing semi-supervised learning techniques, which leverage both labeled and unlabeled data, to improve the performance on the safety task. We analyze the improvements that these techniques can offer for both prompts given to Large Language Models and the responses to those requests. Moreover, since augmentation is the central part of semi-supervised algorithms, we demonstrate the importance of using task-specific augmentations, which significantly increase the performance when compared to general-purpose augmentation techniques.


翻译:自大型语言模型(LLMs)问世以来,其安全性一直是持续的研究焦点,随着模型能力的不断提升,该议题在当今显得尤为重要。目前所有公开的大型语言模型均已部署多重防护机制,且已有多个用于训练安全分类器的数据集被提出。然而,训练这些安全分类器依赖于大量标注数据,这些数据的获取往往存在困难,容易产生标注错误,且常包含合成数据。为解决这些问题,我们提出一种创新方法:运用半监督学习技术,通过同时利用标注与未标注数据来提升安全任务的性能表现。我们分析了这些技术对大型语言模型输入提示及其生成响应的安全性能改进效果。此外,鉴于数据增强是半监督算法的核心环节,我们论证了采用任务特异性增强策略的重要性——与通用增强技术相比,该方法能显著提升模型性能。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
32+阅读 · 5月18日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员