Due to the increasing privacy concerns and data regulations, training data have been increasingly fragmented, forming distributed databases of multiple ``data silos'' (e.g., within different organizations and countries). To develop effective machine learning services, there is a must to exploit data from such distributed databases without exchanging the raw data. Recently, federated learning (FL) has been a solution with growing interests, which enables multiple parties to collaboratively train a machine learning model without exchanging their local data. A key and common challenge on distributed databases is the heterogeneity of the data distribution (i.e., non-IID) among the parties. There have been many FL algorithms to address the learning effectiveness under non-IID data settings. However, there lacks an experimental study on systematically understanding their advantages and disadvantages, as previous studies have very rigid data partitioning strategies among parties, which are hardly representative and thorough. In this paper, to help researchers better understand and study the non-IID data setting in federated learning, we propose comprehensive data partitioning strategies to cover the typical non-IID data cases. Moreover, we conduct extensive experiments to evaluate state-of-the-art FL algorithms. We find that non-IID does bring significant challenges in learning accuracy of FL algorithms, and none of the existing state-of-the-art FL algorithms outperforms others in all cases. Our experiments provide insights for future studies of addressing the challenges in ``data silos''.


翻译:由于隐私关切和数据管理日益加剧,培训数据日益支离破碎,形成了多“数据发射井”分布式数据库(例如,在不同组织和国家内部)。为了发展有效的机器学习服务,必须利用这些分布式数据库的数据,而不必交换原始数据。最近,联邦学习(FL)是一个解决办法,兴趣日益浓厚,使多方能够合作培训机器学习模式,而不必交换当地数据。分布式数据库的一个关键和共同挑战是缔约方之间数据分配(即非IID)的不均匀性。为了解决非IID数据设置下的学习效力问题,有许多FL算法。然而,缺乏一项实验性研究,系统地了解这些数据库的优缺点,因为以前的研究在各方之间有着非常僵硬的数据分配战略,而这种战略几乎没有代表性和透彻。在本文件中,为了帮助研究人员更好地理解和研究非II数据采集的非II数据,我们提出了全面的数据分配战略,以覆盖典型的非II数据案例。此外,我们在非II号数据分析中,我们进行了广泛的实验,我们没有从FL的精确性案例中学习了目前FL的精确性。

1
下载
关闭预览

相关内容

专知会员服务
91+阅读 · 2021年7月23日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
86+阅读 · 2020年12月2日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Arxiv
7+阅读 · 2021年4月30日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
3+阅读 · 2020年5月1日
Arxiv
43+阅读 · 2019年12月20日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Arxiv
7+阅读 · 2021年4月30日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
3+阅读 · 2020年5月1日
Arxiv
43+阅读 · 2019年12月20日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Top
微信扫码咨询专知VIP会员