机器之心编辑部
疫情之下,学校纷纷停课。在学业压力下,大学生对于新冠病毒的反应与普通人有没有区别呢?美国罗切斯特大学的计算机科学家对此进行了研究。
人工注释:随机筛选出 2,400 个账号,包括账号的姓名、头像、简介和 1 月 20 日至 3 月 20 日的发帖信息。然后通过人工方式判断这些账号是否为学生用户。
监督分类模型:首先使用 TF-IDF 算法将文本向量化,然后使用随机森林分类模型在 20% 分类完成的用户中测量准确率。
启发式算法:Bergsma 和 Van Durme [5] 发现用户经常通过所有格语句,即「我的 X」,来透露他们的信息。事实上,该团队在没有分类的 1,156,947 条推特中发现了 306 条推特使用「我的课程」这一短语。然而,「我上过的 XX 课程」这类短语只出现了 16 次。所以,团队决定首先使用斯坦福 CoreNLP 标记器进行词性标注(part-of-speech tag),找出「我的X」类型的短语,并使用点互信息(PMI)[6] 来计算这类短语和大学生用户之间的关联性。