Relation classification (sometimes called 'extraction') requires trustworthy datasets for fine-tuning large language models, as well as for evaluation. Data collection is challenging for Indian languages, because they are syntactically and morphologically diverse, as well as different from resource-rich languages like English. Despite recent interest in deep generative models for Indian languages, relation classification is still not well served by public data sets. In response, we present IndoRE, a dataset with 21K entity and relation tagged gold sentences in three Indian languages, plus English. We start with a multilingual BERT (mBERT) based system that captures entity span positions and type information and provides competitive monolingual relation classification. Using this system, we explore and compare transfer mechanisms between languages. In particular, we study the accuracy efficiency tradeoff between expensive gold instances vs. translated and aligned 'silver' instances. We release the dataset for future research.


翻译:关系分类(有时称为“Expractice ”) 需要可靠的数据集来微调大型语言模型以及评估。 数据收集对印度语言具有挑战性,因为印度语言在形式上和形态上各不相同,而且不同于像英语这样的资源丰富的语言。 尽管最近对印度语言的深层基因化模型感兴趣,但公共数据集仍然无法很好地满足关系分类的要求。 作为回应,我们提出了IndoRE,这是一个21K实体的数据集,用三种印度语言加英语标注的黄金句子。我们从基于多语言的BERT(mBERT)系统开始,该系统收集实体的位置和类型信息并提供竞争性的单一语言关系分类。我们利用这个系统,探索和比较不同语言之间的转移机制。特别是,我们研究昂贵黄金案例与翻译和校正的“ilver”案例之间的准确性效率权衡。我们为未来研究发布数据集。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
121+阅读 · 2020年11月20日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
89+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
A Survey on Data Augmentation for Text Classification
Arxiv
5+阅读 · 2019年11月22日
VIP会员
相关VIP内容
相关资讯
Top
微信扫码咨询专知VIP会员