文本分类的目标是将文本归入预定义的类别之一。作为自然语言处理(NLP)中的标准任务,文本分类在多个领域具有广泛的应用,例如分析用户在平台上的情感演变、识别和过滤欺诈性评论,以及在管道处理中提取有用特征。尽管传统上文本分类是由人工完成的,但深度学习方法的快速发展极大地推动了自动文本分类器的研究热潮。这一趋势随着预训练大语言模型(LLMs)的出现而进一步加速。这些模型经过大规模数字文本数据的训练,使其在各种自然语言理解(NLU)和生成(NLG)任务上展现出前所未有的能力。

当前,NLP基础模型主要通过两种方法进行应用:“预训练-微调”(pre-train and fine-tune)范式,或基于提示的指令跟随(prompting instruction-following LLMs)。尽管这些方法在NLP基准测试中表现卓越,并被广泛采用,但它们的可靠性仍然存在一定的争议,尤其是其对虚假相关性(spurious correlations)和隐含偏差(implicit bias)的敏感性。

本论文系统分析了NLP基础模型在文本分类任务中的偏差形式及虚假相关性。我们研究系统中存在的特定偏差,评估这些偏差对模型预测的影响,并探讨缓解技术能否减少其影响。论文的第一部分聚焦于**“预训练-微调”范式**,并通过两个典型的NLP任务——**情感分类(sentiment classification)多选阅读理解(MCRC, Multiple Choice Reading Comprehension)**来研究系统学习虚假相关性的风险。在情感分类任务中,我们证明了微调后的模型可能利用训练数据中的停用词(stopword)分布来建立虚假停用词关系。在MCRC任务中,我们发现模型可能忽略上下文信息,而是利用世界知识(world knowledge)来解题,我们据此提出了一种评估问题质量的方法。

论文的第二部分研究了指令跟随型LLMs在零样本(zero-shot)文本分类中的偏差。我们分析了基于提示的分类器(prompt-based classifier)的构建方式,并研究其在文本分类和多选问答(MCQA, Multiple Choice Question Answering)任务中的偏差。对于文本分类任务,我们发现标签词(label words)的选择可能引入隐式先验(implicit prior),导致某些类别比其他类别更受偏向,从而显著影响系统性能。然而,我们提出了一种基于重加权(reweighting)的去偏方法,实验表明,无论是在零资源(zero-resource)设定下,还是在我们提出的无监督重加权去偏方法(unsupervised reweighting debiasing)下,都能增强模型的稳健性,并降低其对标签词选择的敏感性。此外,我们发现在MCQA任务中,指令跟随型LLMs会表现出显著的排列偏差(permutation bias),即系统对输入选项的顺序非常敏感,这种偏差也会对任务表现造成负面影响。实验表明,应用排列去偏(permutation debiasing)能够显著提升模型性能,我们进一步提出了一种**蒸馏框架(distillation framework)**来提高该去偏过程的效率。

最后,论文探讨了偏差在新任务和新领域中的表现,并提出了一种LLM对比评估(LLM comparative assessment)的新方法,通过让LLMs进行成对决策,实现通用、零样本、高效的NLG评估。研究发现,该方法存在位置偏差(position bias),但通过对两种排列结果的概率进行平均,可以获得更准确的决策和排名。此外,我们将该方法扩展至专家模型(product-of-experts)框架,从而在较少的比较次数下实现更快的收敛。此外,我们探讨了如何在专家模型中考虑偏差,结果表明,在低数量比较的情况下,调整偏差可以提升性能。 最后,论文考察了我们的去偏方法是否能推广到其他模态,特别是音频领域。我们提出了一种利用自动语音识别(ASR, Automatic Speech Recognition)基础模型的新方法,实现零样本音频分类(zero-shot audio classification),并进一步证明,我们的重加权去偏方法同样在音频模态任务中具有良好的效果。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】自然语言处理不确定估计
专知会员服务
22+阅读 · 2024年5月22日
【CMU博士论文】基于图和张量的挖掘和学习
专知会员服务
32+阅读 · 2023年9月27日
专知会员服务
56+阅读 · 2020年12月20日
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
438+阅读 · 2023年3月31日
Arxiv
75+阅读 · 2023年3月26日
Arxiv
158+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
相关论文
微信扫码咨询专知VIP会员