数据异质性是决定机器学习系统性能的关键因素。标准算法优化平均情况性能时,并未考虑数据内部的多样性。因此,数据来源、数据生成机制和子群体的变化导致了不可靠的决策、较差的泛化能力、不公平和错误的科学发现。仔细建模数据异质性是构建可靠数据驱动系统的必要步骤。其严谨的研究是一个新兴研究领域,涵盖了多个学科,包括统计学、因果推断、机器学习、经济学和运筹学。 在这个教程中,我们发展了一个统一视角来理解不同社区发展的不同知识脉络。我们旨在通过提供基于共享语言的统一视角来促进跨学科研究。汲取多个独立文献的精华,我们建立了异质性的分类,并介绍了考虑异质性数据的定量度量和学习算法。为了推动实证进展,我们最后讨论了验证协议和基准测试实践。 教程:

成为VIP会员查看完整内容
40

相关内容

【CIKM2023教程】深度聚类算法的应用,94页ppt
专知会员服务
51+阅读 · 2023年11月8日
【RecSys22教程】多阶段推荐系统的神经重排序,90页ppt
专知会员服务
25+阅读 · 2022年9月30日
【KDD2022教程】图算法公平性:方法与趋势,200页ppt
专知会员服务
41+阅读 · 2022年8月20日
【DeepMind】结构化数据少样本学习,51页ppt
专知会员服务
32+阅读 · 2022年8月13日
【干货书】高维统计学,572页pdf
专知
15+阅读 · 2021年12月3日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员