近期大型语言模型的进步,使得许多生成型自然语言处理(NLP)应用得以部署。同时,这也导致了一种误导性的公众观点:“所有问题都已经解决了。”不出所料,这反过来使得许多NLP研究者,特别是职业生涯初期的研究者,对他们应该专注于哪个NLP研究领域产生了疑惑这篇文件汇编了一系列值得探索的NLP研究方向,反映了学术研究实验室中一群多元化的博士生的观点。虽然我们确定了许多研究领域,但还存在许多其他领域;我们没有涵盖那些已经被大型语言模型(LLM)所解决的领域,但在性能上仍然落后,或者那些关注LLM发展的领域。我们欢迎提供其他研究方向的建议:https://bit.ly/nlp-era-llm

1. 引言

语言模型是自然语言处理(NLP)中的基本构建模块之一,其根源可追溯到1948年,当时克劳德·香农引入马尔可夫链以模型化英文文本中的字母序列(Shannon,1948)。它们后来在早期的统计机器翻译(Brown等,1988;Wilkes,1994)和统计语音处理(Jelinek,1976)的研究中得到了大量使用。虽然这些模型一直作为文本分类、信息检索或文本生成等广泛应用类别的一个重要组成部分,但只有在近年来,它们才因为被广泛使用和部署而发现了它们的“自我价值”。我们目睹的当前“大型”和“超大型”语言模型的令人印象深刻的进步直接源于这些早期模型。它们都基于同样简单但具有突破性的理念:给定一系列先前的单词或字符,我们可以预测接下来会出现什么新的大型语言模型(LLMs)受益于两个主要的发展:(1)Web 2.0和用户生成数据的普及,这导致了可用数据量的大幅增加;和(2)通过引入图形处理单元(GPUs)实现计算能力的增长。这两个发展共同推动了神经网络(或深度学习)的复兴,以及这些模型的大规模训练数据集的可用性。

当前的大型语言模型(LLM)的输出质量与人类的表现相当,同时还具有整合巨量数据源的信息的额外优势,远超过个人一生所能积累的信息量。受益于LLM的应用数量正在持续增长,其中很多情况下,LLM被用来替代整个复杂的管道。LLM变得“有利可图”导致了业界对其兴趣和投资的激增,同时也大幅增加了关于LLM的研究出版物的数量。例如,对Google Scholar进行“语言模型”的搜索,过去五年中有50,000篇出版物,这占了过去25年中大约150,000篇论文的三分之一。尽管LLM的这些进步非常真实且令人兴奋,也为许多新的生成语言应用的部署带来了希望,但LLM也“抽走了房间里的空气”。最近,美国国防高级研究计划局(DARPA)的一项资金申请完全用LLM替代了NLP:在他们列出的项目专家需求中,我们看到了“计算机视觉”和“机器学习”与“大型语言模型”(而非“自然语言处理”)并列。将NLP替换为LLM主要有两个问题首先,语言洞察、方法和NLP的广泛应用领域,远比简单预测下一个词所能实现的要丰富得多。其次,即使在技术上没有新的突破,由于需要大量的数据和计算来训练,LLM仍然代表了一个排他性的领域

这种公众论述常常将整个NLP领域缩小到LLM的更小范围,不出所料地导致了那些致力于推进该领域研究的人,特别是那些刚刚开始成为NLP研究者道路的初级博士生面临困境。“我应该研究什么?”是我们现在比以前更常听到的问题,往往是对误导性想法“一切都已解决” 的反应。实际上,NLP的内容远不止LLM。这份文件是从博士生那里收集的一些想法,基于他们初步的专业知识和现有的兴趣,围绕这个问题进行头脑风暴:“在NLP领域中,哪些丰富的研究领域可以引导出博士论文,并涵盖LLM范围之外的空间。”剧透警告:有很多这样的研究领域!

关于这份文件。这份文件反映了来自美国一家学术NLP研究实验室成员关于“NLP研究的未来”的想法。密歇根大学的语言和信息技术(LIT)实验室包括各个学位阶段的学生,从即将开始博士学位的学生,一直到最近完成博士学位的学生。LIT的学生来自各种背景,包括中国、伊朗、日本、墨西哥、尼日利亚、罗马尼亚、俄罗斯、韩国、美国和乌拉圭,反映了非常多元化的信仰、价值观和生活经验。我们的研究兴趣涵盖了NLP领域的广泛范围,包括计算社会科学、因果推理、误导信息检测、健康保健对话分析、知识感知生成、常识推理、跨文化模型、多模态问题回答、非语言交流、视觉理解等等。

在编写这份文件的想法时,我们遵循了三个主要的指导原则。首先,我们的目标是识别出NLP研究的丰富探索领域;例如,可以撰写博士论文的领域。其次,我们希望强调那些不直接依赖于付费资源的研究方向;虽然使用现有的付费API对某些任务(如合成数据集的构建)可能有益,但是建立不能在没有付费API的情况下运行的系统并不符合学术核心研究目标。最后,第三,我们针对的是那些可以用在学术实验室中更常见的设备中获得合理计算成本的解决方案的研究方向。我们的头脑风暴过程从所有作者在便利贴上写下的想法开始,然后进行了一个“聚类”过程,我们将初步的想法分组,并确定了几个主要的主题。然后,将这些初步的主题提供给2-3个学生的小组,他们讨论、扩展或合并了一些主题,并确定了一些值得探索的方向。最后形成的主题集合成为了这份文件的种子。然后,每个研究领域都经过了多个学生(和Rada)的多次审查,以描绘出每个主题的背景、缺口和最有前景的研究方向。

免责声明。本文件中列出的研究领域只是探索丰富领域中的一小部分;还有很多其他领域。特别是,我们没有列出那些已经被证明在性能上落后于LLM的众多研究方向(Bang等,2023a),包括信息提取、问题回答、文本摘要等。我们也没有列出关注LLM开发的研究方向,因为这已经是当前许多研究论文的主要焦点,我们的目标是突出除LLM开发之外的研究方向。我们欢迎提供其他研究领域或方向的建议:https://bit.ly/nlp-era-llm 文件组织。以下各节提供了十四个富有探索性研究领域的简短描述,每个领域有2-4个研究方向。这些领域可以大致分为无法通过LLM处理的领域,因为它们对数据的需求太大或缺乏推理或基础能力(第2-6,8,12节);我们不能使用LLM的领域,因为没有合适的数据(第9,13,14节);或者可以为提高LLM的能力和质量做出贡献的领域(第7,10,11,15节)。

2 多语言性和低资源语言

背景。多语言模型被设计来处理多种语言,无论是用于机器翻译(MT)还是其他任务。一个主要的挑战是处理低资源语言,这些语言的训练数据可用性有限,可能导致翻译质量差和对这些语言的性能差。研究社区提出了几种技术来克服这个挑战,例如数据增强,包括通过回译(Sennrich等人,2015;Edunov等人,2018)、平行语料挖掘(Artetxe和Schwenk,2018)或OCR(Rijhwani等人,2020;Ignat等人,2022)生成合成数据;以及多语言模型,这些是预训练模型,可以处理多种语言,并可以在低资源语言上进行微调以提高翻译质量。最近开发的针对低资源语言的多语言模型的努力包括NLLB-200(NLLB团队等人,2022),这是一个最先进的专家混合模型(MoE),在一个包含超过180亿句对的数据集上进行训练。同一团队还创建并开源了一个扩展的基准数据集,FLORES-200(Goyal等人,2021),用于评估200种语言和超过40k翻译方向的MT模型。

研究方向

提高当前低资源和极低资源语言基准测试中的MT性能 对所有语言都表现良好的多语言模型 代码切换

3 推理

推理是人类智能的基本方面,在解决问题或决策中起着关键作用,通过使用逻辑原理和认知过程从前提、事实和知识中推理。有各种类型的推理,包括演绎推理、归纳推理、假设推理、定量推理、因果推理和道德推理。在自然语言处理(NLP)中提高推理能力对于问题回答、阅读理解和对话系统等任务至关重要,因为它可以增强模型在未见过的场景中的泛化能力。自然语言处理研究已经发展很多,从早期的基于规则和符号的方法,到1990年代的统计方法,这些方法利用了概率模型和机器学习算法。近年来,深度学习和神经网络革新了这个领域,在各种任务上达到了最新的性能。然而,在获得类似于人类的推理和泛化能力上仍存在挑战,这促使人们继续进行更复杂和强大的NLP模型的研究。 研究方向

强大的正式推理

在物理现实世界中的有根据的推理

在社会环境中的负责任的推理

正式定义推理并设计适当的评估框架

分析提示如何帮助推理。****

4 知识库

知识库是关于现实世界对象、抽象概念或事件的事实的集合。知识库内的知识通常以三元组的形式表示,包括头实体、尾实体及其关系。例如,(Barack Obama,birthPlace,Honolulu)就是一个示例,表示出生地的关系。一些知识库更多地关注事实知识,如DBPedia(Auer等,2007)和YAGO(Suchanek等,2007),而其他的则更多地关注常识,如ConceptNet(Speer等,2017)和ASER(Zhang等,2020)。知识库在许多下游应用中都有所应用,包括关系提取(Weston等,2013)、机器阅读(Yang和Mitchell,2017)以及咨询对话中的反射生成(Shen等,2022)。许多人发现,整合外部知识可以提高这类知识密集型任务的性能(Yu等,2022)。此外,知识库通常以明确定义的关系和实体的本体结构化,使人类更容易解释基于知识库的推断。 研究方向

知识引导的LLM 自动知识库构建 一般和文化常识

5. 语言定位

语言定位是将语言表达与非语言世界中的参考物联系起来的能力 (Patel 和 Pavlick, 2022)。非语言世界可以是物理的,也可以是非物理的,例如 TextWorld (Côté 等人,2018)。由于利用感知数据来构建数据集和任务,教授机器学习模型如何进行语言定位,因此取得了重大的研究进展。流行的任务包括视觉问题回答 (Agrawal 等人,2015; Singh 等人,2019),图像和视频字幕 (Mokady 等人,2021; Zhou 等人,2019),文本到图像检索 (Wang 等人,2022; Fang 等人,2021),以及文本到图像/视频生成 (Ramesh 等人,2021; Villegas 等人,2022)。像 CLIP 这样的模型 (Radford 等人,2021) 证明了大规模的图像文本预训练可以为基于变换器的视觉-语言模型带来好处。顺应这一趋势,更多的多模态模型,如 GPT-4,大幅增加了他们的训练语料库 (OpenAI, 2023),并添加了新的模式,如音频 (Zellers 等人,2022)。

如何最佳地结合多种模态

使用被研究较少的模态进行定位

在广泛领域和实际环境中进行定位

6 计算社会科学

计算社会科学 (CSS) 是使用计算方法研究社会科学的领域,至少在一定程度上还未被大型语言模型 (LLM) 涉及。虽然它们可以自动化一些与 CSS 相关的语言任务,如情感分析和立场检测 (Liang et al., 2022),但“人们如何在社交网络中分享新闻”或“在灾难性社会事件期间语言使用的文化差异”等问题基本上被认为超出了生成模型的范围。在过去的十年中,AI在社会科学领域的成功和影响使得计算和数据驱动的方法已经渗透到社会科学的主要领域 (Lazer et al., 2009, 2020),催生了新的跨学科领域,如计算传播学、计算经济学和计算政治科学。

人口级别的数据注释和标记

开发新的帮助计算社会科学的抽象概念、理念和方法

多元文化和多语种的计算社会科学.

7. 在线环境的自然语言处理.

NLP对在线环境的影响可以通过两种对立现象来观察:内容生成和内容审查。快速内容生成,如LLM生成的文章和社交媒体更新,可以得到各方的支持。许多人很可能通过生成虚假新闻和错误信息来提高他们网站的点击率,这引发了需要及时规制的社会问题。相反,审查是一种门卫机制。通过使用NLP来监视和分析数字平台上的用户生成内容(Nakov et al., 2021; Kazemi et al., 2021a),以移除违反政策的材料,内容审查可以维护在线生态系统的平衡(Thorne et al., 2018; Nakov et al., 2021; Gillespie, 2020; Kazemi et al., 2021a; Shaar et al.,).

检测和揭穿在线误导信息

确保多样性的代表

避免审查失误和检测过度审查

确认生成内容背后的利益相关者

8 儿童语言习得。

尽管有人声称LLMs“展现出AGI的火花”(Bubeck et al., 2023b),但它们并未模仿人类习得语言的路径(Bowerman and Levinson, 2001)。理想情况下,我们希望有更小、更高效的语言模型,这些模型与环境对接紧密(Lazaridou et al., 2017)。在通往高效AGI的道路上,我们有一个难以超越的基线:儿童的语言习得。大多数孩子能通过经常有限的交互和语言观察来习得多达三种语言。虽然我们还不完全理解孩子们是如何精确地学习语言的,但我们知道他们不需要太字节级的文本训练实例。

高效率的语言学习样本

儿童语言习得的基准测试开发

作为儿童语言习得生物模型的语言模型

9 非语言交流

非语言交流包括手势、面部表情、身体语言和姿势等。非语言交流的一个特殊形式是手语,它是聋人使用的主要交流方式。多项研究已经显示了非语言交流在日常互动中的重要性 (McNeill, 1992; Alibali等, 2000)。近年来,自然语言处理领域的工作强调了将非语言信息整合到现有的语言表示中,以获得更丰富的表示形式,包括语言模型 (Wang等, 2019b) 或视觉模型 (Fan等, 2021)。其他之前的研究表明,面部表情或手势等非语言交流与语言渠道相协调,并且不同的文化或语言背景可能与这些非语言表达的不同解释相关联 (Abzaliev等, 2022; Matsumoto和Assar, 1992)。还有一整套的研究专注于对手语的理解和生成 (Joze, 2019; Bragg等, 2019),以及跨不同手语使用者社群之间的交流 (Camgoz等, 2020)。

非口头语言解释 手语理解、生成和翻译 口头和非口头交流的有效结合

10. 合成数据集

在自然语言处理研究中,当传统的人工数据收集不可行、昂贵或存在隐私问题时,通常需要合成数据 (Mattern等, 2022)。随着生成模型的进步 (Tang等, 2023),合成数据生成在各个领域都得到了应用。例如,用于低资源语言的回译 (Sennrich等, 2015; Edunov等, 2018),语义解析 (Rosenbaum等, 2022a),意图分类 (Rosenbaum等, 2022b),结构化数据生成 (Borisov等, 2022),或医学对话生成 (Chintagunta等, 2021a; Liednikova等, 2020)。这个过程通常包括对模型进行预训练,如果需要进行领域适应 (Chintagunta等, 2021b),则提示模型生成数据集,并通过自动评估或专家验证来评估数据集的质量。

知识蒸馏

对生成数据属性的控制

转化现有数据集

11. 可解释性

可解释性是理解和解释机器学习模型决策过程的任务,使其更加透明和可证明 (Danilevsky等, 2020)。可解释的自然语言处理系统可以通过使最终用户、从业者和研究人员能够理解模型的预测机制,从而确保道德的自然语言处理实践。在历史上,传统的自然语言处理系统,如基于规则的方法 (Woods, 1973)、隐马尔可夫模型 (Ghahramani, 2001; Rabiner, 1989) 和逻辑回归 (Cramer, 2002),本质上是可解释的,被称为白盒技术。然而,最近自然语言处理领域的进展大多采用黑盒方法,这在一定程度上牺牲了可解释性。为了解决这个问题,可解释性已经成为一个研究方向,致力于开发能够揭示自然语言处理模型内部工作机制的技术 (Mathews, 2019; Danilevsky等, 2020)。关键的研究成果包括注意力机制、基于规则的系统和可视化方法,这些方法有助于弥合复杂语言模型和人类可解释性之间的差距,最终促进了负责任的自然语言处理系统的部署。

探测 机制可解释性 通过人机协同提高可解释性 基于参考文献的生成文本

12. 高效自然语言处理

高效自然语言处理是一个旨在优化自然语言处理模型资源利用的研究方向。这一目标源于需要应对日益增长的语言模型规模和资源消耗所带来的挑战,这对自然语言处理的进步提出了新的要求 (Touvron等, 2023b; Zhang等, 2023)。事实上,众所周知,通过扩大规模是实现自然语言处理任务的最先进性能的重要途径,特别是在与规模定律相对应的技能方面 (Wei等, 2022; Bowman, 2023)。然而,开发大规模语言模型需要大量的能源和财务资源用于训练和推理,这引发了人们对人工智能的碳足迹和对自然语言处理产品开发的经济负担的关注 (Strubell等, 2019)。基于这些关注,先前的研究强调了有效减少二氧化碳等效排放量 (CO2e) 和兆瓦小时 (MWh),提高功耗使用效率 (PUE) 的重要性 (Patterson等, 2022; Thompson等, 2020)。

数据效率。模型设计。高效的下游任务适应。

13. 教育领域的自然语言处理

在教育领域,自然语言处理应用有着丰富的历史,包括专门的研讨会,比如由建设教育应用特别兴趣小组组织的每年一次的ACL创新应用自然语言处理研讨会。这些应用包括辅助学习者的工具(例如,语言学习应用如Duolingo*,语法纠正工具如Grammarly*),辅助教师和机构进行评分的工具(例如,用于GRE作文评分的e-rater系统 (Burstein等, 1997)),辅助课程和评估开发的工具(例如,用于开发多项选择题的系统 (Kurdi等, 2020))以及教育研究人员的工具(例如,构建课堂互动表示的系统 (Alic等, 2022))。自从BERT (Devlin等, 2019)和RoBERTa (Liu等, 2019)发布以来,研究人员一直在测试将这些模型应用于这些领域,并开始引入更大的模型。

可控文本生成。教育解释生成。智能辅导系统。

14. 医疗健康领域的自然语言处理

在医疗健康领域,自然语言处理的应用可以根据其对关键利益相关者(如医疗服务提供者、患者和公共卫生官员)的使用和影响进行分类 (Zhou等, 2022; Olaronke和Olaleke, 2015)。在关注医疗服务提供者时,自然语言处理通常用于支持临床决策,包括(1)聚合和整合可用的数据和研究,以及(2)从数据中提取相关信息。这些任务涉及重要的挑战,如医疗数据的标准化、准确的标注、健康概念的提取和检索以及患者病情的分类 (Dash等, 2019)。类似地,自然语言处理也被用于回答患者有关健康问题的请求,以及检索与医疗治疗或疾病相关的信息。最近在这个领域的工作集中在心理健康领域的语言分析上,包括专业治疗 (Sharma等, 2020; Pérez-Rosas等, 2017; Min等, 2022) 和社交媒体对话 (Tabak和Purver, 2020; Lee等, 2021; Biester等, 2020)。关于协助公共卫生官员,自然语言处理被用于监测公共卫生状况,以识别疾病和风险因素,或高风险人群 (Naseem等, 2022; Jimeno Yepes等, 2015; Yates等, 2014),并且还用于监管诸如在线的错误信息或公众情绪等方面 (Hou等, 2019; Kazemi等, 2021b)。

医疗保健基准数据集构建。自然语言处理在临床决策中的应用。药物研发。

15. 自然语言处理和伦理。

对于伦理在自然语言处理中的作用的认识正在增加,特别是随着越来越强大的模型的发展,其潜在的社会影响可能具有深远意义。在开发自然语言处理模型时存在重要的伦理考虑 (Bender等, 2020),并且目前正在进行研究工作,旨在解决关键的伦理问题,如双重用途、公平性和隐私保护。

1. 双重使用。2. 公平。3。隐私。4。机器生成数据的归因与检测。5. 将NLP模型集成为人类助手而不是人类替代品。

最后,我该怎选?**

**那么我应该研究什么呢?自然语言处理研究的前景非常广阔。目前我们所见证的大型语言模型的快速进展并不意味着“所有问题都已经解决”。相反,正如本文所强调的,自然语言处理领域存在许多未被探索的研究方向,这些方向与目前大型语言模型的进展不同。它们不仅包括那些大型语言模型在性能上存在局限的任务(Bang等,2023a),还包括许多新领域,这些新领域是由新的大型语言模型能力所推动的。更广泛地说,作为一个领域,我们现在有机会摆脱过度关注性能的技术开发,认识到自然语言处理关乎语言和人,应该从根本上以人为本。这带来了对能够考虑文化和人口特征、具有鲁棒性、可解释性和高效性的技术的新关注,以及与强大的伦理基础相一致的技术,最终产生对社会有持久积极影响的技术如何选择研究方向首先从你的动机和兴趣出发:考虑你之前的经验,观察你的社区,探索你对语言和人的好奇心,并试图找到最能与你产生共鸣的方向。在此基础上,确定与你的动机和兴趣相关的自然语言处理任务和应用领域。本文希望作为一个起点,指导你进行这样的探索。

成为VIP会员查看完整内容
57

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《大型语言模型》最新全面概述
专知会员服务
101+阅读 · 2023年7月14日
大模型时代的自然语言处理:挑战、机遇与发展
专知会员服务
123+阅读 · 2023年6月17日
深度学习在数学推理中的应用综述
专知会员服务
38+阅读 · 2022年12月25日
【2020新书】Python文本分析,104页pdf
专知会员服务
96+阅读 · 2020年12月23日
Yann LeCun:大模型方向错了,智力无法接近人类
机器之心
4+阅读 · 2022年8月24日
【情感分析】情感分析研究的新视野
深度学习自然语言处理
15+阅读 · 2020年3月10日
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
自然语言生成的演变史
专知
25+阅读 · 2019年3月23日
CCCF专栏 | 朱晨光:机器阅读理解:如何让计算机读懂文章
中国计算机学会
24+阅读 · 2019年2月15日
就喜欢看综述论文:情感分析中的深度学习
机器之心
13+阅读 · 2018年1月26日
现代情感分析方法
算法与数学之美
13+阅读 · 2018年1月12日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
130+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
321+阅读 · 2023年3月31日
Arxiv
21+阅读 · 2018年8月30日
VIP会员
相关资讯
Yann LeCun:大模型方向错了,智力无法接近人类
机器之心
4+阅读 · 2022年8月24日
【情感分析】情感分析研究的新视野
深度学习自然语言处理
15+阅读 · 2020年3月10日
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
自然语言生成的演变史
专知
25+阅读 · 2019年3月23日
CCCF专栏 | 朱晨光:机器阅读理解:如何让计算机读懂文章
中国计算机学会
24+阅读 · 2019年2月15日
就喜欢看综述论文:情感分析中的深度学习
机器之心
13+阅读 · 2018年1月26日
现代情感分析方法
算法与数学之美
13+阅读 · 2018年1月12日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员