One-shot coreset selection aims to select a subset of the training data, given a pruning rate, that can achieve high accuracy for models that are subsequently trained only with that subset. State-of-the-art coreset selection methods typically assign an importance score to each example and select the most important examples to form a coreset. These methods perform well at low pruning rates; but at high pruning rates, they have been found to suffer a catastrophic accuracy drop, performing worse than even random coreset selection. In this paper, we explore the reasons for this accuracy drop both theoretically and empirically. We extend previous theoretical results on the bound for model loss in terms of coverage provided by the coreset. Inspired by theoretical results, we propose a novel coverage-based metric and, based on the metric, find that coresets selected by importance-based coreset methods at high pruning rates can be expected to perform poorly compared to random coresets because of worse data coverage. We then propose a new coreset selection method, Coverage-centric Coreset Selection (CCS), where we jointly consider overall data coverage based on the proposed metric as well as importance of each example. We evaluate CCS on four datasets and show that they achieve significantly better accuracy than state-of-the-art coreset selection methods as well as random sampling under high pruning rates, and comparable performance at low pruning rates. For example, CCS achieves 7.04% better accuracy than random sampling and at least 20.16% better than popular importance-based selection methods on CIFAR10 with a 90% pruning rate.


翻译:单点核心集选择旨在选择一组培训数据, 以一个点点点速率为条件, 从而在理论上和经验上都能够实现这一精度下降的原因。 我们扩展了先前的理论结果, 以核心集提供的覆盖为条件, 受理论结果的启发, 我们提出了一个新的基于覆盖的衡量标准, 并以基准为基础, 发现根据基于重要性的核心集方法选择的精度在低点点速率中表现良好; 但是, 在高点点点点运行率中, 发现它们受到灾难性的精确度下降, 其效果甚至比随机核心集选择差。 在本文中, 我们探索了这种精确度在理论上和经验上都下降的原因。 我们扩展了以前关于模型损失的理论结果, 以核心集为对象的覆盖范围为核心集, 我们根据理论结果, 我们提出了一个新的基于拟议的衡量基准的整体数据覆盖面, 以覆盖的精确度为基础, 以每个中心点的精确度为基准点, 以精确度为基准点, 以每点的精确度为基准点, 以精确度为基准点, 以精确度为基准点, 以每点, 以精确度为基准点, 以精确度为基准点, 以精确度为基准点为基准点, 以 以 以 以 以 以 以 以 以 以 以 以 标点为基准点为基准点为基准点为基准点,, 以 以 以 以 以 以 以 以 以 标点为基准点为基准点为基准点 以 以 以 以 以 以 以 以 以 以 标度 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 标 标 点 点 点 以 以 以 以 以 以 点 点 点 点 标 标 点 点 点 点 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 以 点 点 标 标 点 点

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
VCIP 2022 Call for Special Session Proposals
CCF多媒体专委会
1+阅读 · 2022年4月1日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium4
中国图象图形学学会CSIG
0+阅读 · 2021年11月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年12月16日
Arxiv
0+阅读 · 2022年12月16日
Arxiv
0+阅读 · 2022年12月16日
Arxiv
0+阅读 · 2022年12月15日
Arxiv
0+阅读 · 2022年12月15日
Arxiv
11+阅读 · 2020年12月2日
VIP会员
相关资讯
VCIP 2022 Call for Special Session Proposals
CCF多媒体专委会
1+阅读 · 2022年4月1日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium4
中国图象图形学学会CSIG
0+阅读 · 2021年11月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关论文
Arxiv
0+阅读 · 2022年12月16日
Arxiv
0+阅读 · 2022年12月16日
Arxiv
0+阅读 · 2022年12月16日
Arxiv
0+阅读 · 2022年12月15日
Arxiv
0+阅读 · 2022年12月15日
Arxiv
11+阅读 · 2020年12月2日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员