With the rise of voice chat rooms, a gigantic resource of data can be exposed to the research community for natural language processing tasks. Moderators in voice chat rooms actively monitor the discussions and remove the participants with offensive language. However, it makes the hate speech detection even more difficult since some participants try to find creative ways to articulate hate speech. This makes the hate speech detection challenging in new social media like Clubhouse. To the best of our knowledge all the hate speech datasets have been collected from text resources like Twitter. In this paper, we take the first step to collect a significant dataset from Clubhouse as the rising star in social media industry. We analyze the collected instances from statistical point of view using the Google Perspective Scores. Our experiments show that, the Perspective Scores can outperform Bag of Words and Word2Vec as high level text features.


翻译:随着语音聊天室的兴起,一个巨大的数据资源可以提供给研究界,用于自然语言处理任务。语音聊天室的主持人积极监测讨论,用冒犯性语言将参与者除名。然而,由于一些参与者试图寻找解释仇恨言论的创造性方法,这使得仇恨言论的发现更加困难。这使得在俱乐部等新的社交媒体中仇恨言论的发现具有挑战性。据我们所知,所有仇恨言论数据集都是从Twitter等文本资源中收集的。在本文中,我们迈出了第一步,从Chabhouse(社交媒体行业新兴明星)那里收集重要的数据集。我们用Google透视计分析从统计角度收集的事例。我们的实验显示,“视野评分”可以超越Words和Word2Vec(Words和Word2Vec)的高级文本功能。

1
下载
关闭预览

相关内容

ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
计算机 | 中低难度国际会议信息8条
Call4Papers
9+阅读 · 2019年6月19日
计算机 | 中低难度国际会议信息6条
Call4Papers
7+阅读 · 2019年5月16日
人工智能 | 国际会议信息6条
Call4Papers
4+阅读 · 2019年1月4日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
14+阅读 · 2021年6月30日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Arxiv
5+阅读 · 2018年10月4日
Arxiv
8+阅读 · 2018年4月12日
VIP会员
相关资讯
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
计算机 | 中低难度国际会议信息8条
Call4Papers
9+阅读 · 2019年6月19日
计算机 | 中低难度国际会议信息6条
Call4Papers
7+阅读 · 2019年5月16日
人工智能 | 国际会议信息6条
Call4Papers
4+阅读 · 2019年1月4日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
相关论文
Top
微信扫码咨询专知VIP会员