社交媒体文本的立场检测是下游任务的一个关键组成部分,这些任务涉及识别在疫苗接种等有争议的话题上持反对意见的用户群体以及在争论中的用户群体。尤其是,立场可以表明对某一实体的看法。本文介绍的 DIVERSE1 是一个由超过 173,000 条 YouTube 视频评论组成的数据集,这些评论注释了用户对美军视频的立场。该方法利用句子中语气的微弱信号作为支持指标,而不是使用人工注释。这些弱信号包括是否存在仇恨言论和讽刺、是否存在特定的关键词、文本的情感以及两个大型语言模型的立场推断。然后,在为每条评论标注最终立场标签之前,使用数据编程模型对弱信号进行整合。平均而言,每个视频有 200 条评论,评论的立场略微偏向于 "反对 "美国陆军和频道上发布的视频。