This paper introduces RiskCards, a framework for structured assessment and documentation of risks associated with an application of language models. As with all language, text generated by language models can be harmful, or used to bring about harm. Automating language generation adds both an element of scale and also more subtle or emergent undesirable tendencies to the generated text. Prior work establishes a wide variety of language model harms to many different actors: existing taxonomies identify categories of harms posed by language models; benchmarks establish automated tests of these harms; and documentation standards for models, tasks and datasets encourage transparent reporting. However, there is no risk-centric framework for documenting the complexity of a landscape in which some risks are shared across models and contexts, while others are specific, and where certain conditions may be required for risks to manifest as harms. RiskCards address this methodological gap by providing a generic framework for assessing the use of a given language model in a given scenario. Each RiskCard makes clear the routes for the risk to manifest harm, their placement in harm taxonomies, and example prompt-output pairs. While RiskCards are designed to be open-source, dynamic and participatory, we present a "starter set" of RiskCards taken from a broad literature survey, each of which details a concrete risk presentation. Language model RiskCards initiate a community knowledge base which permits the mapping of risks and harms to a specific model or its application scenario, ultimately contributing to a better, safer and shared understanding of the risk landscape.


翻译:本文介绍了风险卡(RiskCards),这是一个结构化评估和文档化与语言模型应用相关风险的框架。与所有语言一样,由语言模型生成的文本可能是有害的,或者用于造成伤害。自动化语言生成不仅增加了规模的因素,而且还增加了生成文本的更微妙或新发的不良倾向。先前的工作确定了许多不同参与者对语言模型的伤害范围,现有的分类法确定了语言模型造成的伤害类别,基准测试建立了这些伤害的自动化测试,模型、任务和数据集的文档标准鼓励透明报告。然而,没有一个以风险为中心的框架来记录某个模型的使用所涉及到的用于展示伤害的复杂场景,在这些场景中,某些风险跨模型和上下文共享,而其他风险则是特定的,某些条件可能需要才能使风险表现为伤害。RiskCards通过提供一个通用框架来评估在特定方案中使用给定语言模型的风险来解决这个方法论上的差距。每张风险卡清晰说明了风险表现为伤害的路线,它们在伤害分类法中的位置以及示例提示-输出对。虽然RiskCards被设计为开源,动态和参与型,但我们提供了从广泛文献调查中获取的“入门级”RiskCards,其中每个都详细说明了一个具体的风险呈现方式。语言模型的风险卡启动了一个社区知识库,允许将风险和伤害映射到特定模型或其应用场景,最终为风险领域提供更好、更安全和共享的理解。

0
下载
关闭预览

相关内容

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务
专知会员服务
17+阅读 · 2022年2月26日
专知会员服务
32+阅读 · 2021年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
12+阅读 · 2023年5月22日
Arxiv
0+阅读 · 2023年5月21日
Arxiv
0+阅读 · 2023年5月19日
Arxiv
23+阅读 · 2021年10月11日
VIP会员
相关VIP内容
AAAI 2022 | 基于预训练-微调框架的图像差异描述任务
专知会员服务
17+阅读 · 2022年2月26日
专知会员服务
32+阅读 · 2021年10月9日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员