In this work, we introduce a corpus for satire detection in Romanian news. We gathered 55,608 public news articles from multiple real and satirical news sources, composing one of the largest corpora for satire detection regardless of language and the only one for the Romanian language. We provide an official split of the text samples, such that training news articles belong to different sources than test news articles, thus ensuring that models do not achieve high performance simply due to overfitting. We conduct experiments with two state-of-the-art deep neural models, resulting in a set of strong baselines for our novel corpus. Our results show that the machine-level accuracy for satire detection in Romanian is quite low (under 73% on the test set) compared to the human-level accuracy (87%), leaving enough room for improvement in future research.


翻译:在这项工作中,我们在罗马尼亚新闻中引入了讽刺检测程序。我们收集了来自多个真实和讽刺性新闻来源的55,608篇公共新闻文章,组成了一个无论语言和罗马尼亚语言都用于讽刺性检测的最大社团之一。我们提供了文本样本的正式分解,这样,培训新闻文章的资料来源不同于测试性新闻文章,从而确保模型不会仅仅因为过度装配而取得高性能。我们用两种最先进的深层神经模型进行实验,为我们的新材料建立了一套强有力的基线。我们的结果显示,罗马尼亚的讽刺性检测机级精确度(测试集中不到73%)与人级精确度(87 % )相比相当低,为未来研究留下足够的改进空间。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
78+阅读 · 2020年12月22日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
多高的AUC才算高?
ResysChina
7+阅读 · 2016年12月7日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
VIP会员
相关VIP内容
专知会员服务
78+阅读 · 2020年12月22日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】用TensorFlow实现LSTM社交对话股市情感分析
机器学习研究会
11+阅读 · 2018年1月14日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
多高的AUC才算高?
ResysChina
7+阅读 · 2016年12月7日
Top
微信扫码咨询专知VIP会员