Traditional toxicity detection models have focused on the single utterance level without deeper understanding of context. We introduce CONDA, a new dataset for in-game toxic language detection enabling joint intent classification and slot filling analysis, which is the core task of Natural Language Understanding (NLU). The dataset consists of 45K utterances from 12K conversations from the chat logs of 1.9K completed Dota 2 matches. We propose a robust dual semantic-level toxicity framework, which handles utterance and token-level patterns, and rich contextual chatting history. Accompanying the dataset is a thorough in-game toxicity analysis, which provides comprehensive understanding of context at utterance, token, and dual levels. Inspired by NLU, we also apply its metrics to the toxicity detection tasks for assessing toxicity and game-specific aspects. We evaluate strong NLU models on CONDA, providing fine-grained results for different intent classes and slot classes. Furthermore, we examine the coverage of toxicity nature in our dataset by comparing it with other toxicity datasets.


翻译:传统毒性检测模型侧重于单一语句水平,而没有更深入地理解上下文。我们引入了CONDA,这是一个用于游戏中毒性语言检测的新的数据集,可以进行联合意图分类和空缺填充分析,这是自然语言理解的核心任务。该数据集由来自1.9K已完成的Dota 2匹配聊天日志12K对话的45K语句组成。我们提出了一个强有力的双语级毒性框架,处理语句和象征性模式,以及丰富的背景聊天历史。该数据集是一场彻底的游戏中的毒性分析,全面了解语句、符号和双层的背景。在NLU的启发下,我们还运用其测量毒性的度量来评估毒性和游戏特有方面。我们评估了CONDA的强力NLU模型,为不同的意向类别和档级提供了精确的结果。此外,我们通过将这些数据与其他毒性数据集进行比较,审视了我们数据集中的毒性特性的覆盖范围。

0
下载
关闭预览

相关内容

Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
13+阅读 · 2020年10月19日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
VIP会员
相关资讯
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员