Question Answering (QA), a popular and promising technique for intelligent information access, faces a dilemma about data as most other AI techniques. On one hand, modern QA methods rely on deep learning models which are typically data-hungry. Therefore, it is expected to collect and fuse all the available QA datasets together in a common site for developing a powerful QA model. On the other hand, real-world QA datasets are typically distributed in the form of isolated islands belonging to different parties. Due to the increasing awareness of privacy security, it is almost impossible to integrate the data scattered around, or the cost is prohibited. A possible solution to this dilemma is a new approach known as federated learning, which is a privacy-preserving machine learning technique over distributed datasets. In this work, we propose to adopt federated learning for QA with the special concern on the statistical heterogeneity of the QA data. Here the heterogeneity refers to the fact that annotated QA data are typically with non-identical and independent distribution (non-IID) and unbalanced sizes in practice. Traditional federated learning methods may sacrifice the accuracy of individual models under the heterogeneous situation. To tackle this problem, we propose a novel Federated Matching framework for QA, named FedMatch, with a backbone-patch architecture. The shared backbone is to distill the common knowledge of all the participants while the private patch is a compact and efficient module to retain the domain information for each participant. To facilitate the evaluation, we build a benchmark collection based on several QA datasets from different domains to simulate the heterogeneous situation in practice. Empirical studies demonstrate that our model can achieve significant improvements against the baselines over all the datasets.


翻译:问题解答(QA)是获取智能信息的流行和有希望的技术,它面临着与大多数其他AI技术一样的数据难题。一方面,现代QA方法依赖于深度学习模式,而这种模式通常是数据饥饿的典型。因此,它预计将在一个共同的网址中收集和整合所有可用的QA数据集,以开发一个强大的QA模型。另一方面,现实世界的QA数据集通常以属于不同党派的孤立岛屿的形式分布。由于对隐私安全的认识不断提高,几乎不可能将分散在各地的数据整合在一起,或费用被禁止。 现代QA方法的一个可能的解决办法是采用深层学习模式,这种模式通常是数据饥饿的典型学习模式。 传统世界质量解答(QA)是用来在分发数据集时保存隐私的机器学习技巧。 传统格式研究显示,我们内部的统计异质化模型可以用来评估一些非正统和独立的数据,而我们内部的模型则用来在不断更新数据流化的模型中进行。传统信息流化的模型可以用来在不断更新。

0
下载
关闭预览

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
86+阅读 · 2020年12月2日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
150+阅读 · 2019年10月12日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Federated Learning: 架构
AINLP
4+阅读 · 2020年9月20日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
6+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | CFO: Conditional Focused Neural Question Answering
开放知识图谱
6+阅读 · 2017年12月15日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年10月7日
Arxiv
0+阅读 · 2021年10月7日
Arxiv
0+阅读 · 2021年10月7日
Arxiv
0+阅读 · 2021年10月6日
Arxiv
7+阅读 · 2021年4月30日
Arxiv
6+阅读 · 2018年4月21日
VIP会员
相关资讯
Federated Learning: 架构
AINLP
4+阅读 · 2020年9月20日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
6+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | CFO: Conditional Focused Neural Question Answering
开放知识图谱
6+阅读 · 2017年12月15日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员