近年来,语言模型(Language Models, LMs)已被确立为大多数自然语言任务中最具能力的模型。然而,除了Transformer架构的发明,大多数进展主要依赖于模型和数据规模的扩展(Radford et al., 2018, 2019; Brown et al., 2020; OpenAI, 2023)。这种扩展使得这些模型在标准自然语言基准上能够与人类水平持平甚至超越。然而,尽管这些模型版本不断迭代,其推理能力、可解释性和学习能力依然与人类存在差距并较为逊色。自然语言解释(Natural Language Explanations, NLEs)的研究(Hendricks et al., 2016)落后于基于神经网络的语言模型(Bengio et al., 2003)的研究,部分原因是其起步较晚。此外,LMs仍然通过反向传播进行训练,这种方式效率较低且与人脑的工作方式根本不同。在本论文中,我展示了使语言模型在自然语言理解和生物学合理性上更具类人特征的研究进展。首先,我研究了一组测试自然语言理解的具有挑战性的问题集,即代词解析的难例,如Winograd模式挑战。我特别提出了通过合成训练数据集、专用损失函数以及任务重构对语言模型进行代词解析训练的改进方法。其次,我利用语言模型在常识推理任务(如代词解析难例和常识验证)上生成自然语言解释。我展示了语言模型可以高效地在不同领域之间转移自然语言解释,同时在下游任务中获得较高准确率。最后,我探索了基于更符合生物学原理的预测编码训练方法用于语言模型的训练,这种方法可能成为超越反向传播的深度学习未来方向(Millidge et al., 2022)。我展示了这些方法在语言模型训练中的首次应用,研究了其最佳实现方式、可扩展性,并确定了最佳使用方法,展示了在小型语言模型中与反向传播具有竞争力的结果。
牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。