Survivors of sexual harassment frequently share their experiences on social media, revealing their feelings and emotions and seeking advice. We observed that on Reddit, survivors regularly share long posts that describe a combination of (i) a sexual harassment incident, (ii) its effect on the survivor, including their feelings and emotions, and (iii) the advice being sought. We term such posts MeToo posts, even though they may not be so tagged and may appear in diverse subreddits. A prospective helper (such as a counselor or even a casual reader) must understand a survivor's needs from such posts. But long posts can be time-consuming to read and respond to. Accordingly, we address the problem of extracting key information from a long MeToo post. We develop a natural language-based model to identify sentences from a post that describe any of the above three categories. On ten-fold cross-validation of a dataset, our model achieves a macro F1 score of 0.82. In addition, we contribute MeThree, a dataset comprising 8,947 labeled sentences extracted from Reddit posts. We apply the LIWC-22 toolkit on MeThree to understand how different language patterns in sentences of the three categories can reveal differences in emotional tone, authenticity, and other aspects.


翻译:幸存者经常在社交媒体上分享他们的性骚扰经历,揭示他们的感受和情感,并寻求建议。我们观察到在Reddit上,幸存者经常分享长篇帖子,描述了(i)性骚扰事件,(ii)它对幸存者的影响,包括他们的感受和情感,以及(iii)正在寻求的建议。我们将这样的帖子称为MeToo帖子,即使它们可能没有被标记,并且可能出现在不同的子reddit中。一位潜在的援助者(如辅导员甚至是普通读者)必须从这些帖子中理解幸存者的需求。但是,长篇帖子阅读和回复起来耗时。因此,我们解决了从长篇MeToo帖子中提取关键信息的问题。我们开发了一种基于自然语言的模型,以识别描述任何这三类之一的帖子句子。在一个数据集的十倍交叉验证中,我们的模型达到了0.82的宏F1分数。此外,我们贡献了MeThree,一个包含从Reddit帖子中提取的8,947个已标记句子的数据集。我们将LIWC-22工具包应用于MeThree,以了解三种类别中语句的不同语言模式如何揭示情感色彩,真实性和其他方面的差异。

0
下载
关闭预览

相关内容

Feel,是一款科学地激励用户实现健康生活目标的应用。 想要减肥,塑形,增高,提升活力,睡个好觉,产后恢复……?针对不同的目标,Feel为您定制个性化的健康生活计划,并通过各种记录工具和激励手段帮您实现目标。
【MIT Sam Hopkins】如何读论文?How to Read a Paper
专知会员服务
105+阅读 · 2022年3月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
100+阅读 · 2019年10月9日
通过 Java 来学习 Apache Beam
InfoQ
0+阅读 · 2022年6月29日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
一文带你读懂自然语言处理 - 事件提取
AI研习社
10+阅读 · 2019年5月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
深度学习医学图像分析文献集
机器学习研究会
17+阅读 · 2017年10月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月8日
Arxiv
22+阅读 · 2021年12月19日
Arxiv
30+阅读 · 2021年8月18日
VIP会员
相关资讯
通过 Java 来学习 Apache Beam
InfoQ
0+阅读 · 2022年6月29日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
一文带你读懂自然语言处理 - 事件提取
AI研习社
10+阅读 · 2019年5月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
深度学习医学图像分析文献集
机器学习研究会
17+阅读 · 2017年10月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员