Automatic readability assessment (ARA) is the task of evaluating the level of ease or difficulty of text documents for a target audience. For researchers, one of the many open problems in the field is to make such models trained for the task show efficacy even for low-resource languages. In this study, we propose an alternative way of utilizing the information-rich embeddings of BERT models with handcrafted linguistic features through a combined method for readability assessment. Results show that the proposed method outperforms classical approaches in readability assessment using English and Filipino datasets, obtaining as high as 12.4% increase in F1 performance. We also show that the general information encoded in BERT embeddings can be used as a substitute feature set for low-resource languages like Filipino with limited semantic and syntactic NLP tools to explicitly extract feature values for the task.


翻译:自动可读性评估(ARA)是评估目标受众文本文件的易读性或难易程度的任务。对于研究人员来说,实地许多尚未解决的问题之一是使经过培训的任务模型显示出效力,即使是低资源语言也是如此。在本研究中,我们建议了另一种方法,通过综合易读性评估方法,利用手工艺语言特征的BERT模型中信息丰富的嵌入方式,利用人工制作的语言特征。结果显示,拟议方法在使用英语和菲律宾数据集进行可读性评估方面优于经典方法,在F1性能中取得了高达12.4%的增长。我们还表明,BERT嵌入中输入的一般信息可以用作菲律宾语等低资源语言的替代特征,菲律宾语的语具有有限的语义和合成NLP工具,以明确提取任务特性值。

0
下载
关闭预览

相关内容

一个旨在提升互联网阅读体验的工具。 readability.com/
专知会员服务
88+阅读 · 2021年6月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
ERNIE Tutorial(论文笔记 + 实践指南)
AINLP
30+阅读 · 2019年8月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
0+阅读 · 2021年9月30日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关VIP内容
专知会员服务
88+阅读 · 2021年6月29日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
ERNIE Tutorial(论文笔记 + 实践指南)
AINLP
30+阅读 · 2019年8月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
相关论文
Arxiv
0+阅读 · 2021年9月30日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
3+阅读 · 2018年3月2日
Top
微信扫码咨询专知VIP会员