【纽约大学 Ethan Perez 博士论文】在预训练语言模型中发现和修正不良行为，217页pdf，，Finding and Fixing Undesirable Behaviors in Pretrained Language Models - 专知VIP

会员服务 ·

7

预训练模型 · 自然语言处理 · 博士论文 ·

2022 年 3 月 16 日

【纽约大学 Ethan Perez 博士论文】在预训练语言模型中发现和修正不良行为，217页pdf，，Finding and Fixing Undesirable Behaviors in Pretrained Language Models

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

自然语言处理(NLP)有望为各种有影响力的应用提供工具，从自动摘要到问答系统和会话助手。最近，由于预训练语言模型的出现，NLP已经发生了革命性的变化。Radford et al. 2018a, 2019;Devlin et al. 2019;Brown等人，2020]。我们使用“自监督”的学习目标来训练PLM——只对无标签文本进行预测任务，比如下一个单词预测或缺词预测。因此，PLM能够从大量的互联网文本中学习，在许多NLP任务中获得强大的性能。尽管自监督的目标取得了成功，但它们面临着一个根本的限制:它们训练PLM以与人类偏好不一致的方式行事。PLM学会重复互联网上的错误信息、攻击性笑话和个人联系信息，很难控制或引导PLM生成的文本。接下来，我们展示了基于PLM的分类器在预测人们喜欢的文本方面是有效的。因此，有可能使用这样的分类器作为一个学习信号来自动校正PLM。我们展示了这种方法来训练高质量的检索系统，使用检索增强生成(RAG)在各种任务中获得强大的性能。即使在这样的训练之后，一些不良行为也可能在训练过程中未被发现。因此，我们更进一步，通过使用其他PLM，从PLM中产生一些诱发不良行为的输入，从而预先地发现并修复这些行为。总的来说，我们发现，让PLM与人类偏好保持一致的一些最强大的工具是PLM本身。

成为VIP会员查看完整内容

18

相关内容

预训练模型

预训练模型

预训练模型是深度学习架构，已经过训练以执行大量数据上的特定任务（例如，识别图片中的分类问题）。这种训练不容易执行，并且通常需要大量资源，超出许多可用于深度学习模型的人可用的资源。

何为机器学习公平性？Tel-Aviv大学最新《机器学习公平性》综述论文阐述七大类公平机器学习算法

何为机器学习公平性？Tel-Aviv大学最新《机器学习公平性》综述论文阐述七大类公平机器学习算法

专知会员服务

55+阅读 · 2022年3月28日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

23+阅读 · 2022年3月19日

【布朗大学David Abel博士论文】A Theory of Abstraction in Reinforcement Learning

【布朗大学David Abel博士论文】A Theory of Abstraction in Reinforcement Learning

专知会员服务

25+阅读 · 2022年3月16日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

【ICML2021】计算机视觉中的自注意力机制，谷歌伯克利166页ppt教程

专知会员服务

135+阅读 · 2021年7月22日

【斯坦福大学】可信任机器学习课程，附课件

专知会员服务

47+阅读 · 2021年5月13日

【AAAI2021】缓解语言模型政治偏见

专知会员服务

22+阅读 · 2021年2月6日

【EMNLP2020】自然语言生成，Neural Language Generation

【EMNLP2020】自然语言生成，Neural Language Generation

专知会员服务

39+阅读 · 2020年11月20日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知会员服务

25+阅读 · 2020年4月20日

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

专知会员服务

18+阅读 · 2020年3月3日

何为机器学习公平性？Tel-Aviv大学最新《机器学习公平性》ACM-CSUR综述论文阐述七大类公平机器学习算法

何为机器学习公平性？Tel-Aviv大学最新《机器学习公平性》ACM-CSUR综述论文阐述七大类公平机器学习算法

专知

1+阅读 · 2022年3月29日

AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

PaperWeekly

1+阅读 · 2022年3月17日

错误的语法会对BERT模型准确性产生影响吗？

错误的语法会对BERT模型准确性产生影响吗？

AI前线

0+阅读 · 2022年1月22日

评估语言模型的句法能力

评估语言模型的句法能力

TensorFlow

1+阅读 · 2022年1月11日

打破语言模型黑盒子：谷歌对BERT来了一次「语法测试」

打破语言模型黑盒子：谷歌对BERT来了一次「语法测试」

新智元

0+阅读 · 2021年12月13日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

15+阅读 · 2019年7月16日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

专知

41+阅读 · 2017年12月10日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

mTOR信号通路对DNA双链断裂损伤修复的调控机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

移动社会网络中基于信任关系的情境感知推荐研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向用户意图的行为轨迹搜索与推荐系统

国家自然科学基金

4+阅读 · 2013年12月31日

父母教养方式对儿童非故意伤害倾向的影响及其心理机制探讨

国家自然科学基金

0+阅读 · 2013年12月31日

驾驶员认知分心的脑电图相关性分析与检测

国家自然科学基金

2+阅读 · 2013年12月31日

间歇性爆发性障碍患者愤怒情绪调控的DNA甲基化机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

用户自适应的社会标签生成和优化模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

大型语义辞典的自动生成及在文本分析中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

基于因果图的一致性规划研究

国家自然科学基金

2+阅读 · 2011年12月31日

CALI: Coarse-to-Fine ALIgnments Based Unsupervised Domain Adaptation of Traversability Prediction for Deployable Autonomous Navigation

CALI: Coarse-to-Fine ALIgnments Based Unsupervised Domain Adaptation of Traversability Prediction for Deployable Autonomous Navigation

Arxiv

0+阅读 · 2022年4月20日

Impossible Triangle: What's Next for Pre-trained Language Models?

Arxiv

0+阅读 · 2022年4月20日

Bridging Cross-Lingual Gaps During Leveraging the Multilingual Sequence-to-Sequence Pretraining for Text Generation

Arxiv

0+阅读 · 2022年4月16日

Vision-and-Language Pretrained Models: A Survey

Vision-and-Language Pretrained Models: A Survey

Arxiv

3+阅读 · 2022年4月15日

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Arxiv

31+阅读 · 2021年11月1日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

Beyond Accuracy: Behavioral Testing of NLP models with CheckList

Arxiv

11+阅读 · 2020年5月8日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

VIP会员

相关主题

预训练模型

自然语言处理

相关VIP内容

何为机器学习公平性？Tel-Aviv大学最新《机器学习公平性》综述论文阐述七大类公平机器学习算法

何为机器学习公平性？Tel-Aviv大学最新《机器学习公平性》综述论文阐述七大类公平机器学习算法

专知会员服务

55+阅读 · 2022年3月28日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

23+阅读 · 2022年3月19日

【布朗大学David Abel博士论文】A Theory of Abstraction in Reinforcement Learning

【布朗大学David Abel博士论文】A Theory of Abstraction in Reinforcement Learning

专知会员服务

25+阅读 · 2022年3月16日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

【ICML2021】计算机视觉中的自注意力机制，谷歌伯克利166页ppt教程

专知会员服务

135+阅读 · 2021年7月22日

【斯坦福大学】可信任机器学习课程，附课件

专知会员服务

47+阅读 · 2021年5月13日

【AAAI2021】缓解语言模型政治偏见

专知会员服务

22+阅读 · 2021年2月6日

【EMNLP2020】自然语言生成，Neural Language Generation

【EMNLP2020】自然语言生成，Neural Language Generation

专知会员服务

39+阅读 · 2020年11月20日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知会员服务

25+阅读 · 2020年4月20日

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

专知会员服务

18+阅读 · 2020年3月3日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】以人为中心的强化学习

任务规划与地形分析：现代复杂环境作战导航体系

认知优势：人工智能在国家安全决策中的核心作用

大模型赋能的具身智能：决策与具身学习综述

相关资讯

何为机器学习公平性？Tel-Aviv大学最新《机器学习公平性》ACM-CSUR综述论文阐述七大类公平机器学习算法

何为机器学习公平性？Tel-Aviv大学最新《机器学习公平性》ACM-CSUR综述论文阐述七大类公平机器学习算法

专知

1+阅读 · 2022年3月29日

AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取

PaperWeekly

1+阅读 · 2022年3月17日

错误的语法会对BERT模型准确性产生影响吗？

错误的语法会对BERT模型准确性产生影响吗？

AI前线

0+阅读 · 2022年1月22日

评估语言模型的句法能力

评估语言模型的句法能力

TensorFlow

1+阅读 · 2022年1月11日

打破语言模型黑盒子：谷歌对BERT来了一次「语法测试」

打破语言模型黑盒子：谷歌对BERT来了一次「语法测试」

新智元

0+阅读 · 2021年12月13日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

15+阅读 · 2019年7月16日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

新智元

23+阅读 · 2019年2月27日

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

专知

41+阅读 · 2017年12月10日

相关基金

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

mTOR信号通路对DNA双链断裂损伤修复的调控机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

移动社会网络中基于信任关系的情境感知推荐研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向用户意图的行为轨迹搜索与推荐系统

国家自然科学基金

4+阅读 · 2013年12月31日

父母教养方式对儿童非故意伤害倾向的影响及其心理机制探讨

国家自然科学基金

0+阅读 · 2013年12月31日

驾驶员认知分心的脑电图相关性分析与检测

国家自然科学基金

2+阅读 · 2013年12月31日

间歇性爆发性障碍患者愤怒情绪调控的DNA甲基化机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

用户自适应的社会标签生成和优化模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

大型语义辞典的自动生成及在文本分析中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

基于因果图的一致性规划研究

国家自然科学基金

2+阅读 · 2011年12月31日

相关论文

CALI: Coarse-to-Fine ALIgnments Based Unsupervised Domain Adaptation of Traversability Prediction for Deployable Autonomous Navigation

CALI: Coarse-to-Fine ALIgnments Based Unsupervised Domain Adaptation of Traversability Prediction for Deployable Autonomous Navigation

Arxiv

0+阅读 · 2022年4月20日

Impossible Triangle: What's Next for Pre-trained Language Models?

Arxiv

0+阅读 · 2022年4月20日

Bridging Cross-Lingual Gaps During Leveraging the Multilingual Sequence-to-Sequence Pretraining for Text Generation

Arxiv

0+阅读 · 2022年4月16日

Vision-and-Language Pretrained Models: A Survey

Vision-and-Language Pretrained Models: A Survey

Arxiv

3+阅读 · 2022年4月15日

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Arxiv

31+阅读 · 2021年11月1日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

Beyond Accuracy: Behavioral Testing of NLP models with CheckList

Arxiv

11+阅读 · 2020年5月8日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

微信扫码咨询专知VIP会员