方面级情感分析是大家关注的一个问题,最近来自香港中文大学的学者发布了最新《基于Aspect的情感分析综述论文》系统介绍了ABSA方法体系。
基于方面的情感分析(aspect-based sentiment analysis, ABSA)是一个重要的细粒度情感分析问题,旨在分析和理解人们在方面层面的观点,在过去的十年中受到了广泛的关注。在不同的场景中处理ABSA,引入了不同的任务来分析不同的情感元素及其关系,包括方面术语、方面类别、观点术语和情感极性。与早期的ABSA工作侧重于单个情感元素不同,近年来研究了许多包含多个元素的复合ABSA任务,以获取更完整的方面级情感信息。然而,我们仍然缺乏对各种ABSA任务及其相应解决方案的系统回顾,这正是我们本次综述的目的。更具体地说,我们为ABSA提供了一个新的分类方法,该方法将现有的研究从有关情感要素的轴心组织起来,并重点介绍了ABSA任务的最新进展。从解决方案的角度,我们总结了对预训练语言模型的应用,将ABSA的性能提高到一个新的阶段。此外,还讨论了在跨域/语言场景中构建更实用的ABSA系统的技术。最后,我们回顾了一些新兴的话题,并讨论了一些开放的挑战,展望了ABSA的潜在未来方向。https://arxiv.org/pdf/2203.01054
引言
发现和理解在线用户生成内容的观点对于广泛的应用是至关重要的。例如,通过电子商务平台上的用户评论来分析用户的情感和意见,有助于提高产品或服务的质量,更好地开展营销活动。考虑到大量的文本内容,手工消化意见信息是很难的。因此,有必要设计一种自动计算框架来分析隐藏在非结构化文本背后的观点,从而产生了情感分析和观点挖掘的研究领域[1]。
传统的情感分析研究主要在句子或文档层面进行预测[2,3,4],识别出整体情感对整个句子或文档的极性。为了进行预测,假设在给定的文本中对单个主题表达了单一的情感,但在实践中可能并非如此。在这种情况下,识别更细粒度的方面级意见和情感的需求,即基于Aspect的情感分析(Aspect-Based Sentiment Analysis, ABSA),在过去的十年中受到了越来越多的关注[5,6]。在ABSA问题中,表达情感的相关对象从整个句子或文档转移到一个实体或实体的某个方面。例如,实体可以是电子商务领域中的特定产品,它的属性或特征(如价格和大小)是它的方面。由于一个实体也可以被看作是一个特殊的“一般”方面,我们将它们统称为一个方面。因此,ABSA是在方面级别构建综合意见总结的过程,它为下游应用提供了有用的细粒度的情感信息。
一般而言,ABSA的主要研究方向涉及到多方面层面情感要素的识别,即方面术语、方面类别、意见术语和情感极性[7]。如图1所示,给定一个句子“The pizza is delicious.”,对应的情感元素分别是“披萨”、“食物”、“美味”和“积极”,其中“披萨”和“美味”在句子中是明确表达的,“食物”和“积极”属于预定义的范畴和情感集。ABSA的早期工作是从分别识别每一个单独的情感元素开始的。例如,方面术语提取任务[8]的目标是提取给定文本中所有提到的方面术语; 而方面情感分类任务[9]则预测句子中特定方面的情感极性。在本文中,我们将这些任务称为单ABSA任务。
尽管情感元素具有一定的有效性和普及性,但仅找到一个单一的情感元素对于理解完整的aspect-level意见仍是远远不够的,这不仅需要提取多个情感元素,还需要认识到它们之间的对应关系和依赖性。为此,近年来引入了几个新的ABSA任务[10,11,12,7]以及相应的基准数据集,以促进多情感要素联合预测的研究。这些任务被称为复合ABSA任务,而不是只涉及单一情感因素的单一ABSA任务。例如,方面-观点对提取任务[11,13]要求以复合形式提取方面及其关联的意见词,即从前面的示例句子中提取(pizza, delicious)对。因此,它提供了一个更清晰的理解所提到的观点目标及其相关的观点表达是什么。在一些开创性的工作之后,人们提出了各种框架来处理不同的复合ABSA任务,以便在不同的场景中实现方面级的观点挖掘。然而,现有的调研缺乏对各种ABSA任务的系统综述,特别是复合ABSA任务的最新进展[1,5,14,6,15,16],我们希望通过本次综述来填补这一空白。
除了为不同的任务设计特定的模型外,预训练语言模型(pre- training language model, PLMs)的出现,如BERT[17]和RoBERTa[18],近年来为ABSA任务带来了实质性的改进。以PLMs为骨干,ABSA模型的泛化能力和鲁棒性得到了显著提高。例如,Li等人的[19]表明,使用简单的线性分类层堆叠在BERT之上,可以获得比以前专门设计的最先进的端到端ABSA任务模型更有竞争力的性能。虽然基于PLM构建ABSA模型在当今已经普遍存在,但由于其发表时间较晚,在现有的综述中并未进行讨论[6,15,16]。因此,在本文中,我们通过讨论现有的基于PLM的ABSA模型的进展和局限性,对其进行了深入的分析。目前在各种任务中取得满意表现的ABSA模型往往持有一个共同的假设:训练数据和测试数据来自相同的分布(例如,相同的域或相同的语言)。当数据分布发生变化时,需要对新分布得出的数据重新训练ABSA模型,以保证性能。然而,收集额外的大量标记数据通常是昂贵的,甚至是不可能的,特别是对于需要方面级(即令牌级)注释的任务。在这种情况下,将训练好的模型适应于不可见的域,即跨域迁移[20]或不可见的语言,即跨语言迁移[21],为构建能很好地泛化到不同域和语言的ABSA系统提供了一种替代解决方案。在本文中,我们还将回顾最近解决跨领域和跨语言ABSA问题的工作,这些工作可以克服训练数据的局限性,从而开发出更实用的ABSA系统。
关于ABSA还有其他的综述。现有的一般性情感绪分析研究综述[1,16]对ABSA问题进行了讨论,但并未对最近的进展和挑战进行详细描述。最早的ABSA综述由Schouten和Frasincar[5]进行,全面介绍了2016年以前的ABSA研究,但主要集中在非神经ABSA方法上。Zhou et al. [14], Liu et al. [15], Nazir et al.[6]引入了基于深度学习的ABSA模型。然而,他们的讨论仅局限于单个ABSA任务,在端到端ABSA任务方面有一些开创性的工作。所有ABSA任务的全面回顾,PLM对ABSA问题的影响,以及最近在跨领域/语言迁移方面的进展都没有被涵盖。
ABSA任务的分类,以及每个任务的代表性方法
总的来说,这篇综述论文的主要目标是从现代的角度系统地回顾ABSA问题的进展和挑战。更具体地说,我们为ABSA提供了一种新的分类方法,将各种ABSA研究从相关情感要素的轴线组织起来,并重点介绍了近年来复合ABSA任务的研究。沿着这个方向,我们讨论和总结了针对每个任务提出的各种方法。此外,我们还研究了利用预训练的语言模型来解决ABSA问题的潜力和局限性。本文还对跨域和跨语言ABSA的研究成果进行了总结。最后,我们讨论了一些新的趋势和开放的挑战,旨在阐明这一领域潜在的未来方向。