论文题目
论文摘要
尽管细粒度重新定义在我们的领域中的可见性不断提高,“细粒度”至今还缺乏一个明确的定义,在这项工作中,我们在集群理论的基础上,寻求一个测量数据集粒度的框架。我们认为数据集的粒度不仅取决于数据样本及其标签,而且还取决于我们选择的距离函数。我们提出了一个无公理框架来捕获ADATASET粒度测量所需的属性,并提供满足这些特性的MEA保证的例子。我们通过对不同粒度的分层标记数据集的实验来评估每种度量。当用我们的方法测量常用数据集中的粒度时,我们发现某些事实上被广泛认为是细粒度的数据集包含相当大的子集,这些子集实质上比通常被认为是粗粒度的数据集更粗粒度。我们还研究了数据粒度与各种因素之间的相互作用,发现细粒度数据集更难学习,更难传输到,更难执行很少的shotlearning,更容易受到攻击。
论文作者
Yin Cui,来自康奈尔大学,康奈尔科技学院; Zeqi Gu,来自康奈尔大学; Dhruv Mahajan,来自FaceBoo AI; Laurens van der Maaten,来自FaceBoo书 AI; Serge Belongie,来自康奈尔大学,康奈尔科技学院; Ser-Nam Lim,来自FaceBook AI。