近年来,深度学习(Deep Learning, DL)模型及其技术的迅猛发展,推动了其在多种任务与模态中的性能取得显著进步。尽管模型整体能力持续增强,但我们对其内部推理过程的理解仍然有限,尤其是在面对系统性的不一致或错误——即逻辑或推理模式上的缺陷时。这类不一致性可能表现为输出之间的自相矛盾、无法在相似任务间进行泛化,或在特定语境中得出错误结论。由于其可能源于模型内部过程的高度不透明、训练数据中的偏差与不平衡,或任务本身的复杂性,检测与衡量这类推理偏差本身就是一项挑战。 在缺乏有效方法来检测、量化与缓解这类错误的前提下,深度学习模型存在被部署时出现偏差、易被攻击,或缺乏逻辑可靠性的重大风险。 本论文旨在针对上述问题,提出一系列适用于知识图谱、自然语言与图像任务中的推理型深度学习模型的创新方法。首先,本文提出了两种技术,用于检测和量化自然语言与图像处理模型中因内部过程不透明所导致的预测不一致性。我们在设计的对抗性实验设置中对多类模型进行系统评估,这些设置明确暴露模型的内部推理过程,从而使我们得以量化模型中的显著推理偏差。 为缓解训练数据中的偏见导致的不一致性,本文还提出了一种数据高效的采样方法,以提升模型的公平性与性能;同时,提出一种合成数据集生成方法,用于在低资源场景下更严格地评估与提升模型的推理能力。 最后,论文还提出了两种新颖技术,用于优化模型在自然语言与知识图谱等复杂推理任务中的表现。这些方法不仅直接增强了模型的性能,还提升了推理过程的可解释性与行为的忠实性。 总的来说,本论文通过系统地量化并缓解推理不一致性,构建了一个通用框架,以提升深度学习模型在各类任务与模态下的鲁棒性、公平性与可解释性。