Ever-evolving Language Models的训练和评估的终身基准：TemporalWiki (TemporalWiki: A Lifelong Benchmark for Training and Evaluating Ever-Evolving Language Models) - 专知论文

会员服务 ·

0

基准 · 知识 · 持续学习 · 维基百科 · wikidata ·

2023 年 4 月 12 日

TemporalWiki: A Lifelong Benchmark for Training and Evaluating Ever-Evolving Language Models

翻译：Ever-evolving Language Models的训练和评估的终身基准：TemporalWiki

Joel Jang,Seonghyeon Ye,Changho Lee,Sohee Yang,Joongbo Shin,Janghoon Han,Gyeonghun Kim,Minjoon Seo

from arxiv, published at EMNLP 2022

Language Models (LMs) become outdated as the world changes; they often fail to perform tasks requiring recent factual information which was absent or different during training, a phenomenon called temporal misalignment. This is especially a challenging problem because the research community still lacks a coherent dataset for assessing the adaptability of LMs to frequently-updated knowledge corpus such as Wikipedia. To this end, we introduce TemporalWiki, a lifelong benchmark for ever-evolving LMs that utilizes the difference between consecutive snapshots of English Wikipedia and English Wikidata for training and evaluation, respectively. The benchmark hence allows researchers to periodically track an LM's ability to retain previous knowledge and acquire updated/new knowledge at each point in time. We also find that training an LM on the diff data through continual learning methods achieves similar or better perplexity than on the entire snapshot in our benchmark with 12 times less computational cost, which verifies that factual knowledge in LMs can be safely updated with minimal training data via continual learning. The dataset and the code are available at https://github.com/joeljang/temporalwiki.

翻译：语言模型（LMs）在世界变化时变得过时；通常它们无法执行需要在训练时缺失或不同的最新事实信息的任务，这种现象称为时间错位。这是一个特别具有挑战性的问题，因为研究社区仍然缺乏一个一致的数据集，以评估LM对经常更新的知识语料库（例如Wikipedia）的适应性。为此，我们介绍了TemporalWiki，这是一个终身基准，专门用于训练和评估不断发展的LM，其利用英语Wikipedia和英语Wikidata之间连续快照的差异进行训练和评估。因此，该基准允许研究人员定期跟踪LM在每个时刻保留先前知识和获取更新/新知识的能力。我们还发现，通过持续学习方法在差分数据上训练LM的困惑度在我们的基准测试中可实现与镜像整个快照相似或更好的结果，而计算成本仅为12倍，这证实了LM中的事实知识可以通过持续学习以最小的训练数据安全地更新。数据集和代码可从https://github.com/joeljang/temporalwiki获取。

0

相关内容

【ICML2023】终身语言预训练与分布式专业化专家

【ICML2023】终身语言预训练与分布式专业化专家

专知会员服务

27+阅读 · 2023年5月26日

终身学习如何构建？NeurIPS2022《终身学习机》教程，70页ppt

终身学习如何构建？NeurIPS2022《终身学习机》教程，70页ppt

专知会员服务

46+阅读 · 2023年1月26日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

23+阅读 · 2022年3月19日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

神经网络的持续终身学习综述论文

专知会员服务

44+阅读 · 2021年5月19日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

73+阅读 · 2020年7月28日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知会员服务

97+阅读 · 2020年5月31日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

LibRec 精选：推荐系统的常用数据集

LibRec 精选：推荐系统的常用数据集

LibRec智能推荐

17+阅读 · 2019年2月15日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

非线性Schordinger方程及其相关问题的变分方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于Realized GARCH框架的波动率和相关性模型理论和应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

多铁性六角铁氧体巨磁电耦合效应微观机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

低秩矩阵复原的Schatten-q(0<q<1)正则化理论与算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

miR-454诱导人乳腺癌细胞增殖的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

解析链格孢菌诱导棉花叶片衰老过程中基因的转录调控及信号通路变化

国家自然科学基金

0+阅读 · 2012年12月31日

基于粒子滤波的航空发动机气路部件突变故障诊断方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

广义Fermat猜想与相关的丢番图方程

国家自然科学基金

1+阅读 · 2009年12月31日

Learning without Forgetting for Vision-Language Models

Arxiv

0+阅读 · 2023年5月30日

Contextual Object Detection with Multimodal Large Language Models

Arxiv

0+阅读 · 2023年5月29日

Contrastive Learning Based Recursive Dynamic Multi-Scale Network for Image Deraining

Arxiv

0+阅读 · 2023年5月29日

DeCoR: Defy Knowledge Forgetting by Predicting Earlier Audio Codes

Arxiv

0+阅读 · 2023年5月29日

Modularized Zero-shot VQA with Pre-trained Models

Arxiv

0+阅读 · 2023年5月27日

Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging

Arxiv

0+阅读 · 2023年5月26日

SPEED: Experimental Design for Policy Evaluation in Linear Heteroscedastic Bandits

Arxiv

0+阅读 · 2023年5月25日

Optimizing Reusable Knowledge for Continual Learning via Metalearning

Arxiv

15+阅读 · 2021年6月9日

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering

Arxiv

20+阅读 · 2021年5月27日

L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks

L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks

Arxiv

16+阅读 · 2020年3月30日

VIP会员

文章信息

相关主题

相关VIP内容

【ICML2023】终身语言预训练与分布式专业化专家

【ICML2023】终身语言预训练与分布式专业化专家

专知会员服务

27+阅读 · 2023年5月26日

终身学习如何构建？NeurIPS2022《终身学习机》教程，70页ppt

终身学习如何构建？NeurIPS2022《终身学习机》教程，70页ppt

专知会员服务

46+阅读 · 2023年1月26日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

23+阅读 · 2022年3月19日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

神经网络的持续终身学习综述论文

专知会员服务

44+阅读 · 2021年5月19日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

73+阅读 · 2020年7月28日

零样本文本分类，Zero-Shot Learning for Text Classification

零样本文本分类，Zero-Shot Learning for Text Classification

专知会员服务

97+阅读 · 2020年5月31日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

LibRec 精选：推荐系统的常用数据集

LibRec 精选：推荐系统的常用数据集

LibRec智能推荐

17+阅读 · 2019年2月15日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

相关论文

Learning without Forgetting for Vision-Language Models

Arxiv

0+阅读 · 2023年5月30日

Contextual Object Detection with Multimodal Large Language Models

Arxiv

0+阅读 · 2023年5月29日

Contrastive Learning Based Recursive Dynamic Multi-Scale Network for Image Deraining

Arxiv

0+阅读 · 2023年5月29日

DeCoR: Defy Knowledge Forgetting by Predicting Earlier Audio Codes

Arxiv

0+阅读 · 2023年5月29日

Modularized Zero-shot VQA with Pre-trained Models

Arxiv

0+阅读 · 2023年5月27日

Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging

Arxiv

0+阅读 · 2023年5月26日

SPEED: Experimental Design for Policy Evaluation in Linear Heteroscedastic Bandits

Arxiv

0+阅读 · 2023年5月25日

Optimizing Reusable Knowledge for Continual Learning via Metalearning

Arxiv

15+阅读 · 2021年6月9日

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering

Arxiv

20+阅读 · 2021年5月27日

L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks

L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks

Arxiv

16+阅读 · 2020年3月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

非线性Schordinger方程及其相关问题的变分方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于Realized GARCH框架的波动率和相关性模型理论和应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

多铁性六角铁氧体巨磁电耦合效应微观机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

低秩矩阵复原的Schatten-q(0<q<1)正则化理论与算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

miR-454诱导人乳腺癌细胞增殖的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

解析链格孢菌诱导棉花叶片衰老过程中基因的转录调控及信号通路变化

国家自然科学基金

0+阅读 · 2012年12月31日

基于粒子滤波的航空发动机气路部件突变故障诊断方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

广义Fermat猜想与相关的丢番图方程

国家自然科学基金

1+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员