The rise of social media has led to the increasing of comments on online forums. However, there still exists invalid comments which are not informative for users. Moreover, those comments are also quite toxic and harmful to people. In this paper, we create a dataset for constructive and toxic speech detection, named UIT-ViCTSD (Vietnamese Constructive and Toxic Speech Detection dataset) with 10,000 human-annotated comments. For these tasks, we propose a system for constructive and toxic speech detection with the state-of-the-art transfer learning model in Vietnamese NLP as PhoBERT. With this system, we obtain F1-scores of 78.59% and 59.40% for classifying constructive and toxic comments, respectively. Besides, we implement various baseline models as traditional Machine Learning and Deep Neural Network-Based models to evaluate the dataset. With the results, we can solve several tasks on the online discussions and develop the framework for identifying constructiveness and toxicity of Vietnamese social media comments automatically.


翻译:社交媒体的兴起导致在线论坛的评论增加。 但是,仍然存在一些对用户来说没有信息内容的无效评论。 此外,这些评论对人们也具有相当的毒性和伤害性。在本文中,我们创建了建设性和有毒言语检测数据集,名为UIT-ViCTSD(越南建设性和有毒言语检测数据集),有10,000个附加说明的评论。关于这些任务,我们建议建立一个建设性和有毒言语检测系统,在越南NLP作为PhoBERT中采用最先进的传导学习模式。有了这个系统,我们分别获得了78.59%和59.40%的F1分数,用于对建设性和有毒言语进行分类。此外,我们实施了各种基线模型,作为传统的机器学习和深神经网络模型来评估数据集。通过这些结果,我们可以解决关于在线讨论的几项任务,并自动开发确定越南社会媒体评论的建设性和毒性的框架。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【TED】什么让我们生病
英语演讲视频每日一推
7+阅读 · 2019年1月23日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
综述 | 事件抽取及推理 (上)
开放知识图谱
87+阅读 · 2019年1月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
干货 | 为你解读34篇ACL论文
数据派THU
8+阅读 · 2018年6月7日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
Arxiv
2+阅读 · 2021年6月9日
VIP会员
相关VIP内容
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
【TED】什么让我们生病
英语演讲视频每日一推
7+阅读 · 2019年1月23日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
综述 | 事件抽取及推理 (上)
开放知识图谱
87+阅读 · 2019年1月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
干货 | 为你解读34篇ACL论文
数据派THU
8+阅读 · 2018年6月7日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
Top
微信扫码咨询专知VIP会员