文本在我们的日常生活中扮演着至关重要的角色,涵盖了各种形式,如社交媒体帖子、新闻文章、书籍、报告等。因此,自然语言处理(NLP)受到了广泛关注。这项技术使我们能够执行诸如文本分类、实体识别,甚至在对话上下文中生成回复等任务。然而,尽管NLP的应用非常广泛,它经常需要做出一个关键决策:是否信任模型的预测。例如,一个最先进的模型被用来诊断疾病或评估谣言的真实性。在这种情况下,错误的预测可能会带来严重的后果,影响个人的健康或损害其声誉。因此,建立一种可靠的方法来评估NLP模型预测的可信度显得尤为重要,这也是我们关注的重点——NLP中的不确定性估计。尽管有许多研究涉及不确定性估计或NLP,但这两个领域的结合却较为罕见。这是因为大多数NLP研究侧重于模型预测性能,而往往忽略了NLP模型预测的可靠性。此外,当前的不确定性估计模型可能并不适用于NLP,因为NLP任务具有独特的特点,如命名实体识别中需要更细粒度的信息。因此,本论文提出了针对不同NLP任务的不确定性估计新方法,考虑了NLP任务的独特特点。NLP任务可以分为自然语言理解(NLU)和自然语言生成(NLG,如文本摘要)。在NLU任务中,理解可以从两个视角进行:全局视角(如文档级别的文本分类)和局部视角(如句子级别的自然语言推理和标记级别的命名实体识别)。因此,我们研究了三个任务的不确定性估计:文本分类、命名实体识别和文本摘要。此外,由于少样本文本分类最近备受关注,我们还研究了少样本文本分类中的不确定性估计。第一个主题是文本分类中的不确定性估计,少有的不确定性模型关注在人力资源参与的情况下提高文本分类的性能。为了填补这一空白,我们的研究重点是通过增强胜出分数的置信度来提高不确定性分数的准确性。我们引入了MSD,一种由三个不同组件组成的新模型:“混合增强”(mix-up)、“自集成”(self-ensembling)和“独特性分数”(distinctiveness score)。MSD的主要目标是通过减少胜出分数的过度自信问题,同时考虑各种类别的不确定性,来优化不确定性分数的准确性。该模型可以无缝集成到不同的深度神经网络中。我们在四个真实世界数据集上进行了广泛的消融实验,结果显示出持续的竞争性改进。我们的第二个主题是少样本文本分类中的不确定性估计(UEFTC),该领域中每个类别只有少数甚至只有一个可用的支持样本。UEFTC代表了一个未充分研究的领域,由于数据样本有限,UEFTC模型预测不确定性分数以评估分类错误的可能性。然而,传统的文本分类不确定性估计模型不适用于UEFTC,因为它们需要大量的训练数据,而UEFTC通常每个类别只有少量支持样本,甚至只有一个。为了应对这一挑战,我们提出了基于不确定性关系的对比学习(CLUR)作为UEFTC的解决方案。CLUR展示了在每个类别只有一个支持样本的情况下有效训练的独特能力,通过伪不确定性分数的辅助。CLUR的一个显著特点是其自动学习这些伪不确定性分数,与之前依赖手动指定的方法不同。我们对CLUR的四种模型结构进行了研究,评估了三种常用对比学习组件在UEFTC中的表现,结果显示其中两种组件的效果显著。我们的第三个主题是序列标注中的不确定性估计。序列标注任务包括对序列中的各个标记进行标注,以命名实体识别(NER)为例。尽管先前的研究在提高NER性能方面取得了显著进展,但NER中的不确定性估计(UE-NER)领域仍相对未知,但却至关重要。这个主题关注UE-NER,旨在评估NER预测的不确定性分数。以往的不确定性估计模型往往忽视了NER的两个独特属性:实体之间的相互关系(一个实体的嵌入学习依赖于其他实体)以及实体提取中错误跨度预测带来的挑战。为了解决这些问题,我们引入了序列标注后验网络(SLPN),设计用于在考虑其他标记的不确定性传播的同时,评估提取实体的不确定性分数。此外,我们制定了一种评价方法,以应对错误跨度案例的具体细微差别。我们的第四个主题是关于文本摘要中不确定性估计(UE-TS)的评估可靠性的一个被忽视的问题。文本摘要是自然语言生成(NLG)的一个关键任务,特别是在错误摘要可能带来严重后果的领域,如医疗保健中。由于错误摘要带来的潜在风险,UE-TS引起了关注。然而,评估UE-TS方法的可靠性引发了关注,因为不确定性模型指标与广泛的NLG指标之间存在相互依赖关系。为了解决这些问题,我们引入了一个综合性的UE-TS基准,涵盖了四个维度的26个NLG指标。该基准评估了两个大型语言模型和一个预训练语言模型在两个数据集上的不确定性估计能力。此外,它还评估了14种常见不确定性估计方法的有效性。我们的研究强调了使用多样的、不相关的NLG指标和不确定性估计技术以对UE-TS方法进行稳健评估的必要性。