信息寻求系统的目标是通过查找相关文本信息并响应用户查询来满足用户的信息需求。在本论文中,我们研究了如何将信息寻求任务扩展到半结构化表格。半结构化表格以事实为主,给希望有效满足用户信息需求的语言模型带来了重大挑战。为理解这些挑战,我们首先研究并比较了语言模型在文本语境与表格语境下的性能。进一步地,由于现实世界中的问题往往涉及多个表格语境,我们构建了相应的数据集和模型,以支持跨多个输入表格的信息整合。 接着,我们研究了如何在单轮对话场景中,将多表格的信息寻求任务适配到对话式智能体。由于对话式智能体的预期输出形式是文本,多表格信息寻求任务要求智能体生成基于文本的、个性化的响应,以匹配用户的查询。为此,我们提出了一个面向查询的表格摘要任务,并开发了相应的数据集和模型。 此外,我们还在低资源环境下引入了表格问答任务,以研究在资源匮乏的场景中,非拉丁文字表格所带来的数学推理挑战。最后,鉴于相关信息的检索是信息寻求系统的关键环节,我们研究了稀疏检索模型在新领域的适配问题,并重点分析了基于文本的稀疏检索模型在效率与有效性之间的权衡。 综上所述,本论文旨在通过研究面向查询的表格处理的多个方面,并设计大规模的方法论与资源(如数据集与模型),推动面向半结构化表格的信息寻求系统的发展。 信息寻求系统 [8, 31, 178] 的目标是为自然语言问题提供精确的答案。这类系统在数字助理以及日常设备中已随处可见,它们通过与用户交互来满足信息需求,例如智能音箱和聊天机器人,它们可提供目标导向的客户服务 [62],或进行闲聊 [18, 140]。信息寻求系统主要由两个核心组件构成 [19]:检索器(retriever) [230] 和 阅读器(reader) [6, 93, 198]。检索器负责根据用户问题获取相关知识源,阅读器则利用这些检索到的前 k 个候选知识源,从中定位并提取精确答案。这种检索器–阅读器的方法允许互补的探索方向,以实现用户目标。其最终目标是在为用户问题提供精准答案的同时,营造自然且沉浸式的用户体验 [228]。为了创造这种体验,用户界面必须能够适应多样化的输入与输出模态,例如除非结构化文本外,还能支持结构化列表或表格。此外,系统还需要支持不同模态的检索上下文,能够生成抽取式或生成式的响应,并具备处理封闭域问答(closed-domain QA) [4] 与开放域问答(open-domain QA) [164] 的能力,从而在开放场景下提供沉浸式体验。本论文研究了这些挑战,特别聚焦于结构化与非结构化语境下的检索器与阅读器。 尽管近年来信息寻求系统的研究取得了快速进展,但研究重点仍主要集中在非结构化文本上 [34]。对于异构信息源(如关系型数据库、电子表格 [78]、图表 [135] 等)的研究仍然不足。本文旨在缩小这一研究差距,重点探索一种结构化信息源:表格。表格由事实、实体和数字组成,并非语法完备的序列 [55, 137]。近期在非结构化文本信息寻求系统上的进展,主要得益于预训练语言模型的引入 [1, 10, 40, 120, 136]。然而,当语言模型处理表格时会出现分布偏移 [50],因为它们通常是在非结构化文本数据上训练的。此外,表格还引入了文本知识源中不存在的新挑战 [226],如结构扰动 [76, 223]、结构理解 [201] 和表格操作 [219]。这些挑战使得语言模型在表格上的推理比在自由流动文本上更加困难。例如,在表格处理任务中,事实验证 [23, 137] 比语言模型的流畅性更为关键。进一步而言,表格中常见长尾实体,其中包含多义实体 [134],即相同表面形式却对应不同语义形式。这会导致词与短语层面的语义消歧 [177] 变得困难 [229]。例如,维基百科中“纽约州阿姆斯特丹市市长”的表格1 将 John Carmichael 列为 1885 年当选市长,但该名字同时也是澳大利亚钢琴家、作曲家和音乐治疗师 John Carmichael2 的名字。如果表格中只有 “John Carmichael” 的词项,而缺乏上下文信息或实体链接 [182, 183] 的元数据,语言模型将难以实现有效消歧。此外,许多表格存储的是随时间演变的数据,例如一门课程中学生成绩的关系型数据库。这些因素进一步加剧了语言模型(其预训练数据以非结构化文本为主)在表格推理中的困难。

本文拟通过探索结构化表格作为知识源,为阅读器提供支持以满足用户信息需求,从而缩小这一研究差距。表格问答(tableQA)任务旨在通过对表格数据进行推理,准确回答用户问题。当前对 tableQA 的研究仍不足,现有工作 [64, 207, 220, 227] 大多基于单表格上下文,并集中于事实型问题的答案片段分类 [14, 81, 180]。为突破这一限制,本文探索了生成式方法,研究了 tableQA 的不同输出模态,如生成式答案生成 [42, 187]、表格生成 [109, 197] 和摘要生成 [53, 96, 100]。此外,我们引入多表格上下文,以提升现有 tableQA 模型可回答问题的广度与复杂度。最后,我们还研究了低资源环境下的 tableQA [133],重点探讨数据集/模型稀缺,以及语言模型在低资源语言中与文化相关事实对齐不足所带来的挑战。

本论文的最后部分探索了信息寻求系统中的检索器模块。具体而言,我们研究了一种稀疏神经检索器(sparse neural retriever) [47] 作为一阶段检索器,从**参数高效适配(parameter-efficient adaptation)**的角度,考察其在不同文本语料上的适用性。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【ETZH博士论文】深度神经网络的数学理解
专知会员服务
34+阅读 · 4月27日
【ETHZ博士论文】金融网络与图学习的其他探索
专知会员服务
18+阅读 · 1月22日
【博士论文】在缺失数据情况下的深度自监督学习
专知会员服务
34+阅读 · 2024年12月27日
【博士论文】学习对象和关系的结构化表示
专知会员服务
31+阅读 · 2024年10月14日
【MIT博士论文】从结构化文档到结构化知识, 150页pdf
专知会员服务
51+阅读 · 2023年8月10日
【MIT博士论文】非参数因果推理的算法方法,424页pdf
专知会员服务
84+阅读 · 2022年9月20日
清华大学:从单体仿生到群体智能
专知
18+阅读 · 2022年2月9日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
174+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【ETZH博士论文】深度神经网络的数学理解
专知会员服务
34+阅读 · 4月27日
【ETHZ博士论文】金融网络与图学习的其他探索
专知会员服务
18+阅读 · 1月22日
【博士论文】在缺失数据情况下的深度自监督学习
专知会员服务
34+阅读 · 2024年12月27日
【博士论文】学习对象和关系的结构化表示
专知会员服务
31+阅读 · 2024年10月14日
【MIT博士论文】从结构化文档到结构化知识, 150页pdf
专知会员服务
51+阅读 · 2023年8月10日
【MIT博士论文】非参数因果推理的算法方法,424页pdf
专知会员服务
84+阅读 · 2022年9月20日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员