In this work, we introduce a corpus for satire detection in Romanian news. We gathered 55,608 public news articles from multiple real and satirical news sources, composing one of the largest corpora for satire detection regardless of language and the only one for the Romanian language. We provide an official split of the text samples, such that training news articles belong to different sources than test news articles, thus ensuring that models do not achieve high performance simply due to overfitting. We conduct experiments with two state-of-the-art deep neural models, resulting in a set of strong baselines for our novel corpus. Our results show that the machine-level accuracy for satire detection in Romanian is quite low (under 73% on the test set) compared to the human-level accuracy (87%), leaving enough room for improvement in future research.


翻译:在这项工作中,我们在罗马尼亚新闻中引入了讽刺检测程序。我们收集了来自多个真实和讽刺性新闻来源的55,608篇公共新闻文章,组成了一个无论语言和罗马尼亚语言都用于讽刺性检测的最大社团之一。我们提供了文本样本的正式分解,这样,培训新闻文章的资料来源不同于测试性新闻文章,从而确保模型不会仅仅因为过度装配而取得高性能。我们用两种最先进的深层神经模型进行实验,为我们的新材料建立了一套强有力的基线。我们的结果显示,罗马尼亚的讽刺性检测机级精确度(测试集中不到73%)与人级精确度(87 % )相比相当低,为未来研究留下足够的改进空间。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
123+阅读 · 2020年9月8日
【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing
专知会员服务
65+阅读 · 2020年7月12日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2018年7月25日
Arxiv
13+阅读 · 2020年10月19日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
4+阅读 · 2018年12月20日
Arxiv
3+阅读 · 2018年6月5日
Arxiv
8+阅读 · 2018年4月12日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2018年7月25日
相关论文
Arxiv
13+阅读 · 2020年10月19日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
4+阅读 · 2018年12月20日
Arxiv
3+阅读 · 2018年6月5日
Arxiv
8+阅读 · 2018年4月12日
Top
微信扫码咨询专知VIP会员