文本生成任务涉及通过人工智能系统自动创建连贯且语境相关的文本内容,已经成为自然语言处理领域的关键研究方向。这项技术在各种领域中应用广泛,从创意写作和自动新闻报道,到为客户服务聊天机器人定制个性化响应。随着对这些自动化系统的依赖性增加,文本生成的可信度变得愈发重要。然而,现有的文本生成系统面临重大挑战,包括遗漏关键信息、生成不真实信息以及对输入数据中的噪声敏感等问题。确保生成内容的(1)信息性、(2)真实性和(3)鲁棒性对于维护用户信任以及坚持负责任的人工智能开发和部署标准至关重要。

在本论文中,我们设计了旨在解决这些问题的算法。我们选择摘要生成任务作为文本生成的代表性示例,因为它在生成的多样性和内容约束之间保持了平衡。首先,我们关注科学文献领域,特别是面向研究人员生成信息性相关工作部分(问题#1)。我们的模型采用基于图的方法,通过建模目标论文与其相关文献之间的联系来生成相关工作。在第二项工作中,我们超越了纯文本信息,结合视频和图像等多模态元素,以增强文本生成的信息性(问题#1)。这种多源信息由一个统一的主题编码器处理,该编码器共同揭示文档和各种类型的附加信息中的潜在主题。发现的主题作为灵活的导管,通过主题感知的交互引导多个输入之间的信息流。在对上述结果的深入案例研究中,我们观察到生成内容中的不真实实例。随后,我们引入了一种增强真实性的摘要生成模型(问题#2)。该模型利用问答(QA)任务来验证编码器对输入文档的全面理解。此外,我们实现了一种最大边距损失,以减轻语言模型中常见的过度自信问题。在两个基准摘要数据集上的广泛实验表明,我们的模型显著超越了现有的强基线。

论文的最后部分探讨了摘要模型在面对各种扰动(包括词级同义词替换和噪声)时的鲁棒性(问题#3)。我们提出了一种高效的生成对抗样本的方法——SummAttacker,利用语言模型确保语义一致性。实验结果表明,当面临对抗性和噪声测试集时,最先进的摘要模型表现出显著的性能下降。这引导我们分析这些系统的脆弱性,并探索通过数据扩增增强其鲁棒性。

在论文的总结部分,我提出了一些令人兴奋的未来研究方向,重点在于增强推理能力,并在科学发现和医疗保健等高风险领域应用文本生成技术。

文本生成

文本生成是自然语言处理(NLP)中的一个关键领域,将计算语言学与人工智能相结合,以生成原创文本。这涉及创建在语法和语义上都连贯的合成文本。该方法包括训练模型理解和解释输入数据,随后生成与输入领域相关的新文本。此过程的关键是生成遵循基本语言规则的文本,同时有效传达预期信息 [1]。 文本生成在不同的细节层次上操作,如字符级、词汇级和句子级 [2]。在句子级别,重点在于详细剖析文本,旨在理解句子与其上下文的相互作用。词汇级文本生成则深入研究序列结构,估计文本中后续词汇的可能性。相反,字符级文本生成涉及模型识别单个字符,而不是整体分析文本。 自动文本生成的出现得益于计算能力和深度学习技术的最新进展。深度学习是机器学习的一个子集,依赖人工神经网络和表征学习来处理数据。在该领域的一个关键模型是序列到序列模型(Sequence-to-Sequence Model),它可以处理变长的输入和输出,并在文本生成应用中广泛使用,语言翻译便是一个显著例子 [3]。深度学习显著影响了自然语言生成的各个方面,涉及的任务范围广泛,包括平衡数据集 [4]、增强消息应用中的下一词预测和文本建议、生成问答系统的响应 [5],以及改进聊天机器人互动 [6]。它还在机器翻译 [7]、文本摘要生成 [8]和文本分类 [9]方面取得了进展。此外,深度学习在主题建模、对话生成 [10]、情感分析、诗歌创作 [11],甚至电影剧本写作 [12]等文本生成任务中也发挥了重要作用。 在深度学习领域,采用了各种架构框架来开发模型。其中,循环神经网络(RNN) [13]尤为突出。RNN的独特之处在于它利用前一状态的输出作为未来状态的输入,这是第一个保留过去状态输出的算法。然而,RNN在长时间记住先前输出方面面临挑战,原因是梯度消失问题。

为了解决这一问题,双向RNN(Bidirectional RNN) [14]应运而生,采用了两层RNN,分别向前和向后处理序列,并合并它们的输出。这种方法在当前状态依赖于过去和未来状态时非常有用。RNN的一个高级变种是长短期记忆网络(LSTM) [15],设计用于在更长时间内保留前一状态的信息,同时丢弃无关数据。同样,门控循环单元(GRU)解决了传统RNN中存在的梯度消失问题,是LSTM的简化版本。生成对抗网络(GAN)基于最小-最大博弈原理运行。在这种设置中,判别器确定样本是来自训练集还是生成网络,而生成器则旨在最大化判别器犯的错误,创造出两者之间的动态对抗。

由Radford et al. [16]提出的GPT-2模型代表了基于Transformers模型的重大进步,拥有15亿参数。该模型在包含40GB互联网文本的数据集上进行了训练,数据源自800万个网页。这一模型在文本处理方面取得了革命性进展,展现了生成长文本序列的人类般能力。2020年6月,OpenAI发布了GPT-3,比其前身大了100倍。GPT-3配备了1750亿参数和96层,训练在4990亿个网络数据标记上。其增强的生成能力使其在各种任务中表现出色,包括文本生成以及零样本和单样本学习 [17]。最近,OpenAI在博客文章中详细介绍了GPT-3.5的发布,随后推出了GPT-4 [18],这在广泛的受众中引起了显著的兴趣和热情。这一双重发布不仅激发了公众的好奇心,也引起了领域专家和专业人士的兴奋。然而,与其前身不同,GPT-3、GPT-3.5和GPT-4并不公开访问。OpenAI选择通过付费API服务提供对该模型的访问 [19]。

鉴于ChatGPT和GPT-4等大型语言模型(LLMs)相关的高昂成本和缺乏开源可用性,本文重点介绍了一种替代方法。本文讨论的模型都是开源且经济实惠的,参数少于5亿。值得注意的是,这些较小的模型在速度、可复现性和经济性方面具有显著优势。尽管规模较小,它们在摘要生成任务中表现出具有竞争力的性能 [20]。 尽管具有显著能力,文本生成模型仍然存在一些局限性。

成为VIP会员查看完整内容
16

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【NUS博士论文】学习视觉场景的结构化表示,137页pdf
专知会员服务
36+阅读 · 2022年7月15日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Arxiv
148+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
372+阅读 · 2023年3月31日
Arxiv
132+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员