Traditional toxicity detection models have focused on the single utterance level without deeper understanding of context. We introduce CONDA, a new dataset for in-game toxic language detection enabling joint intent classification and slot filling analysis, which is the core task of Natural Language Understanding (NLU). The dataset consists of 45K utterances from 12K conversations from the chat logs of 1.9K completed Dota 2 matches. We propose a robust dual semantic-level toxicity framework, which handles utterance and token-level patterns, and rich contextual chatting history. Accompanying the dataset is a thorough in-game toxicity analysis, which provides comprehensive understanding of context at utterance, token, and dual levels. Inspired by NLU, we also apply its metrics to the toxicity detection tasks for assessing toxicity and game-specific aspects. We evaluate strong NLU models on CONDA, providing fine-grained results for different intent classes and slot classes. Furthermore, we examine the coverage of toxicity nature in our dataset by comparing it with other toxicity datasets.


翻译:传统毒性检测模型侧重于单一语句水平,而没有更深入地理解上下文。我们引入了CONDA,这是一个用于游戏中毒性语言检测的新的数据集,可以进行联合意图分类和空缺填充分析,这是自然语言理解的核心任务。该数据集由来自1.9K已完成的Dota 2匹配聊天日志12K对话的45K语句组成。我们提出了一个强有力的双语级毒性框架,处理语句和象征性模式,以及丰富的背景聊天历史。该数据集是一场彻底的游戏中的毒性分析,全面了解语句、符号和双层的背景。在NLU的启发下,我们还运用其测量毒性的度量来评估毒性和游戏特有方面。我们评估了CONDA的强力NLU模型,为不同的意向类别和档级提供了精确的结果。此外,我们通过将这些数据与其他毒性数据集进行比较,审视了我们数据集中的毒性特性的覆盖范围。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Arxiv
12+阅读 · 2021年6月21日
VIP会员
相关资讯
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Top
微信扫码咨询专知VIP会员