导语
本期分享我们和美团合作发表于IEEE TPAMI2023的研究工作“Large Scale Visual Food Recognition” (Weiqing Min, Zhiling Wang, Yuxin Liu, Mengjiang Luo, Liping Kang, Xiaoming Wei, Xiaolin Wei, Shuqiang Jiang*) 。IEEE TPAMI全称为IEEE Transactions on Pattern Analysis and Machine Intelligence, 是模式识别、计算机视觉及机器学习领域的国际主流期刊,2022年公布的影响因子为24.314。
由于食品在人们生活中的基础性地位,来自物联网、社交网、互联网等各种网络产生的海量食品多媒体数据在食品工业、膳食营养和健康管理等诸多领域蕴含着广阔应用前景和巨大社会价值,催生了“食品计算”这一新兴方向。食品图像识别作为食品计算的一项基本任务,在膳食选择、智能化的营养摄入和评估中起着重要作用。相比常规图像分类数据集,当前主流食品图像数据集规模较小,不足以建立更先进的食品图像识别模型,为此我们构建了国际上规模最大的食品图像识别数据集Food2K,包括2000类食品和超过100万的食品图像。在此基础上,进一步提出了一个面向食品图像识别的深度渐进式区域增强网络。该网络主要由渐进式局部特征学习模块和区域特征增强模块组成。前者通过改进的渐进式训练方法学习多样互补的局部细粒度判别性特征(如食材相关区域特征),后者利用自注意力机制将多尺度的丰富上下文信息融入到局部特征中,进一步增强特征表示。在Food2K上进行的大量实验证明了所提出方法的有效性,并且在Food2K上训练的网络能够改进各种食品计算视觉任务的性能,如食品图像识别、食品图像检索、跨模态菜谱-食品图像检索、食品检测和分割等。我们期待 Food2K及在Food2K上的训练模型能够支撑研究者探索更多的食品计算新任务。
论文链接:
https://doi.org/10.1109/TPAMI.2023.3237871 数据集、代码和模型下载地址:
http://123.57.42.89/FoodProject.html 引言
食品计算[1]因能够支撑许多食品相关的应用(如膳食营养和健康管理)得到越来越广泛的关注。食品图像识别作为食品计算的一项基本任务,在人们通过辨认食物进而满足他们生活需求方面发挥着重要作用。这也是许多健康应用中的重要步骤,如食品营养理解[2,3]和饮食管理[4]。此外,食品图像识别是细粒度视觉识别的一个重要分支,具有重要的理论研究意义。 现有的工作主要是利用中小规模的图像数据集进行食品图像识别,如ETH Food-101[5]、Vireo Food-172[6]和ISIA Food- 500[7]。由于食品类别和图像数量的不足,不足以支撑更复杂更先进的食品计算统计模型的建立。考虑到大规模数据集已成为许多常规图像分类和理解任务发展的关键推动因素,因此食品计算领域也迫切需要一个大规模的食品图像数据集来开发先进的食品视觉表示学习算法,从而进一步支撑各种食品计算任务,如跨模态食谱检索和生成[8,9]。为此,我们构建了一个新的大规模基准数据集Food2K。该数据集包含1,036,564张食品图像和2,000类食品,涉及12个超类(如蔬菜、肉类、烧烤和油炸食品等)和26个子类别。与现有的数据集(如ETH Food-101)相比,Food2K在类别和图像数量均超过其一个数量级。除了规模之外,我们还进行了严格的数据清理、迭代标注和多项专业检查,以保证其数据的质量。 基于该数据集,我们进一步提出了一个用于食品图像识别的深度渐进式区域增强网络,它能同时学习多样互补的局部特征。我们采用渐进式训练策略,首先训练具有较小感受野的浅层网络,以学习更精细的局部区域特征。接下来,逐渐训练更深的网络层,以扩大局部区域周围的感受野。相比于直接训练整个网络,这种训练策略能够使网络学习更精确的细粒度局部特征。同时引入KL散度来增强不同尺度的特征之间的差异性,使得网络学习更为多样丰富的细粒度特征。此外还提出了一种区域特征增强方法,对从网络中提取的多尺度特征执行非局部交互操作,以捕获局部特征之间的关系。最终融合了从网络中获得的全局特征和增强后的局部特征来进行类别预测。全面的评估表明了我们所提方法的有效性,并且在Food2K上训练的网络能够改进各种食品计算视觉任务的性能,如食品图像识别、食品图像检索、跨模态菜谱-食品图像检索、食品检测和分割等。 Food2K数据集
Food2K同时包含西方菜和东方菜,在食品专家的帮助下,我们结合现有的食品分类方法建立了一个食品拓扑体系。Food2K包括12个超类(如“面包”和“肉”),每个超类都有一些子类别(如“肉”中的“牛肉”和“猪肉”),每种食品类别包含许多菜肴(如“牛肉”中的“咖喱牛肉”和“小牛排”),如图1所示。图2展示了每个食品类别的图像数量。图3展示了Food2K与现有食品图像识别数据集的图像数量对比,可以看到Food2K在类别和图像数量上都远超过它们。除此之外,Food2K还具有以下特征:1)Food2K涵盖了更多样化的视觉外观和模式。不同食材组合、不同配饰、不同排列等都会导致同一类别的视觉差异。举例来说,新鲜水果沙拉因其不同的水果成分混合而呈现出不同的视觉外观。这些食品的独特特征导致了更高的类内差异,使大规模的食品图像识别变得困难。2)Food2K包含更细粒度的类别标注。以“Pizza”为例,一些经典的食品数据集,如Food-101,只有较粗粒度的披萨类。而Food2K中的披萨类则进一步分为更多的类别。不同披萨图像之间的细微视觉差异主要是由独特的食材或同一食材的粒度不同引起的,这也导致了识别的困难。所有这些因素使Food2K成为一个新的更具挑战性的大规模食品图像识别基准。
图1 Food2K的拓扑体系
图2 Food2K各类别图像数量分布
图3 Food2K与其它食品图像识别数据集比较
方法
本文提出的深度渐进式区域增强网络如图4所示,主要由三部分组成:全局特征学习模块,渐进式局部特征学习模块和区域特征增强模块。
图4 深度渐进式区域增强网络框架图
A、全局特征学习
食品图像的分类本体是层次化的,不同超类下的食品图像之间通常具有明显的视觉差异,可以通过全局特征进行区分,我们具体使用全局平均池化(Global Average Pooling, GAP)来提取全局特征 :其中 为从主干网络最后一个卷积层中提取的特征。
B、渐进式局部特征学习
该模块旨在学习食品的判别性细粒度特征。由于不同的食材和烹饪方式,食品图像的判别性区域是多尺度和不规则的。因此我们采用了一种渐进式的学习思路。在这种策略中,我们首先训练具有较小感受野的浅层网络,然后逐渐训练更深的网络层,以扩大局部区域周围的感受野。因此,该策略首先在浅层学习更稳定的细粒度信息,然后随着训练的进行逐渐将注意力转移到更深层的粗粒度信息学习上。具体地,我们首先使用全局最大池化(Global Maximum Pooling, GMP)来获得多尺度的局部特征表示 :这里 为网络的不同阶段。然后,我们将训练过程分成 步,每步训练网络的前 个阶段。其中 为网络的总阶段数。对于渐进式训练中的每一步,我们使用复合函数 来处理特征,其中 由卷积层,归一化层和ReLU激活函数层组成。每个局部特征 可以表示为: 最后,我们进一步通过最大化不同阶段特征之间的KL散度,使多尺度特征在不同阶段聚焦于不同的区域,从而帮助捕捉尽可能多的细节。KL散度定义为:其中, 和 是不同阶段的输出分布。
C、区域特征增强
食品由特定的食材组成,现有的食品图像识别方法往往忽略了食材之间关系的建模,因此我们提出区域特征增强模块,以捕获特征图丰富的上下文信息,比如食材之间的共生关系。具体地,我们首先提取最后 个阶段的局部特征表示 ,然后通过自注意力获得增强后的局部特征: 其中, 和 是 中位于 和 位置的像素特征。最终,我们将全局特征和增强后的局部特征融合作为最终的特征表示:
D、训练和预测
在训练阶段,我们首先优化渐进式训练中每个阶段的交叉熵损失函数 ,局部损失定义为: 其中, 为当前的步骤数, 为训练数据集合。然后,对于最终的特征表示,我们同样使用交叉熵损失进行优化: 其中, 是预测标签。进一步地,我们引入KL散度来增加不同阶段特征的多样性,总的损失函数如下: 其中, 和 是平衡参数。 在预测中,我们将每个阶段的预测得分及来自各阶段特征融合后的预测得分组合在一起以提高识别性能。最终的预测结果采用如下方式获得:
实验
首先,我们在Food2K上对现有的食品图像识别方法和我们提出的方法进行了比较。然后,我们研究Food2K在食品图像识别、食品图像检索、跨模态菜谱-食品图像检索、食品检测和食品分割五个食品计算任务上的泛化能力。 A、实验设置
本文使用在 ImageNet 上预训练的ResNet[10]作为基础网络。对于实验性能评估,使用Top-1准确率(Top-1)和Top-5准确率(Top-5)对食品类别识别进行评估。 B、实验结果与分析
1.我们方法在Food2K上的性能评估
表1 我们方法和现有方法在Food2K上的性能对比
表1展示了在Food2K上现有的食品图像识别方法和所提方法的性能比较。从表中可以看出,我们的方法在Top-1和Top-5准确率上分别高出主干网络(ResNet)2.24%和1.47%,以ResNet101为主干的网络超过了现有的食品图像识别方法,取得了最佳的识别性能。这证实了结合渐进式训练策略和自注意力来增强局部特征表示的优势。 2.我们方法在Food2K上的消融实验
图5 我们方法在Food2K上的消融实验
本文在消融实验中主要探讨了以下几个问题: **(1)网络不同组件的有效性 **从图5(a)中可以看出,渐进式策略(PL)的引入能够带来识别性能增益,且与区域特征增强(RE)相结合后进一步提高了性能。这说明我们提出的PL+RE的学习策略能够有效地学到更具判别性的局部特征。 **(2)渐进式学习阶段的数量U **从图5(b)中可以看出,当U从1到3时,我们的方法在Food2K上分别取得了81.45%,82.11%和83.03%的Top-1分类准确率。模型的分类性能连续提高了0.66%和0.92%。然而,当U = 4时,精度开始下降。可能的原因是浅层网络主要关注类别无关的特征。 **(3)不同学习阶段的效果 **为了更好地验证每个学习阶段和最终的连接阶段的贡献,我们还通过分别使用每个阶段的预测分数来进行评估。从图5(c)中可以看出,相比于使用单一阶段进行预测,联合每个阶段的得分进行预测能够带来性能提升。此外,我们的方法将每个阶段的预测分数和联合特征的预测分数进行组合,能够实现最佳的识别性能。 **(4)平衡参数α和β **我们还研究了公式L= αLcon + βLKL中平衡参数对性能的影响。我们发现,当α=0,β=1时,即总损失仅包括KL散度时,此时模型无法收敛。当α=1,β=0时,即仅使用交叉熵损失进行优化,模型的性能明显下降。当α=0.8,β=0.2时,模型取得了最佳的识别性能,这说明联合渐进式训练和KL散度的策略能够提高多样化局部细节特征的学习能力。 3.可视化
图6 来自Food2K一些样本的可视化结果
我们使用Grad-CAM来进行可视化分析。以“Wasabi Octopus”为例,基线方法仅能获得有限的信息,不同的特征图倾向于关注相似的区域。相比之下,我们的方法在第一阶段更关注“Vegetable Leaf”,而第二阶段主要关注“Octopus”。而在第三阶段,我们的方法可以捕获该食品的总体特征,因此全局和局部特征都被用于识别。 4.泛化实验
(1)食品图像识别
我们评估了在Food2K上预训练过的模型在ETH Food-101,Vireo Food-172和ISIA Food-500上的泛化能力。从表2中我们可以看出,使用Food2K进行预训练后所有方法都取得了一定程度的性能提升,这说明我们的数据集在食品图像识别任务上具有良好的泛化能力。
表2 基于Food2K微调的模型在食品图像识别任务上的性能
(2)食品检测
表3 基于Food2K和ETH Food-101微调的模型在食品检测任务上的性能比较
我们评估了Food2K数据集对食品检测任务的泛化能力,评估任务为检测食品托盘中的食品。为了进行比较,我们还对在ETH Food-101上进行预训练的模型进行了评估。从表3中可以看出,使用Food-101和Food2K能够提升所有方法的mAP和AP75指标,且Food2K所带来的性能增益要超过Food-101。这说明我们的方法在食品检测任务上表现出良好的泛化性能。 (3)食品分割
表4 基于Food2K和ETH Food-101微调的模型在食品分割任务上的性能比较
我们还评估了Food2K在食品分割任务上的性能。从表4中可以看出,对于所有使用Food2K进行预训练的模型均能带来性能的提升。这证明了我们的数据集在分割任务上良好的泛化表现。 (4)食品图像检索
我们进一步在食品图像检索任务上验证Food-2K的泛化能力。具体来说,我们在ETH Food-101、Vireo Food-172和ISIA Food-500数据集上实验,并使用与前文相同的数据集划分方式。测试集的每张图片依次作为查询项,其余的图片作为检索库。我们分别使用交叉熵损失函数和以Contrastive loss和Triplet loss为代表的度量学习损失函数来微调ResNet101网络,并使用mAP和Recall@1指标评估方法的性能。 表5的结果展示了在Food-2K数据集上预训练后微调的网络取得了不同程度的性能增益。具体来说,在Vireo Food-172数据集上取得了最优性能,并在三个数据集上分别取得了4.04%, 5.28% 和4.16%的性能增益。值得注意的是,当使用额外的ETH Food-101数据集预训练并在度量学习损失函数方法上微调的方法并没有取得性能增益,但使用Food2K数据集预训练仍然取得了性能增益,这是因为食品图像检索任务对目标数据集之间的差异较为敏感(ETH Food-101和Vireo Food-172),并间接表明来自Food2K的图像类别和尺度的多样性提升了食品图像检索任务的泛化性。
表5 基于Food2K和ETH Food-101微调的模型在食品图像检索任务上的性能比较
(5)跨模态菜谱-食品图像检索
我们还在跨模态菜谱-食品图像检索任务上进一步验证Food2K的泛化能力。具体来说,我们在Recipe1M[11]数据集上验证方法的性能,并使用与之相同的数据集划分方法。与此同时,我们使用MedR和Recall@K指标来评估。表6展示了我们使用不同的网络主干,并分别通过ImageNet、ETH Food-101和Food2K数据集预训练的结果。结果发现使用ETH Food-101和Food2K数据集预训练后在目标数据集上微调都取得了性能的增益,使用我们的Food-2K数据集取得了更大的性能增益。
表6 基于Food2K和ETH Food-101微调的模型在跨模态菜谱-食品图像检索任务上的性能比较
未来工作
全面的实验证明了Food2K对于各种视觉和多模态任务具有较好的泛化能力。基于Food2K的一些潜在研究问题和方向如下。 **(1)大规模鲁棒的食品图像识别 **尽管一些细粒度识别方法(如PMG[12])在常规细粒度识别数据集中获得了最佳性能,但它们在Food2K上表现欠佳。虽然也有一些食品图像识别方法(如PAR-Net[13])在中小规模食品数据集上取得了较好的性能,但它们在Food2K大规模食品图像识别数据集上也并不能获得更好的性能。我们推测,随着食品数据的多样性和规模的增加,不同食材、配饰和排列等因素产生了更复杂的视觉模式,以前的方法不再适用,因此,基于Food2K有更多的方法值得进一步探究。例如,Transformers[14]在图像识别方面产生了巨大的影响,其在大规模数据集上的性能高于CNNs。Food2K可以提供足够的训练数据来开发基于Transformers的食品图像识别方法来提高性能。 **(2)食品图像识别的人类视觉评价 **与人类视觉对一般物体识别的研究相比,对食品图像识别进行评价可能更加困难。例如,食品具有较强的地域和文化特征,因此来自不同地区的人对食品图像识别会有不同的偏见。最近的一项研究 [15]给出了人类视觉系统和CNN在食品图像识别任务中的比较。为了避免信息负担过重,需要学习的菜肴数量被限制在16种不同类型的食物中。更有趣的问题值得进一步的探索。 **(3)Cross-X迁移学习的食品图像识别 **我们已经验证了Food2K在各种视觉和多模态任务中的推广。未来我们可以从更多的方面来研究迁移学习。例如,食物有独特的地理和文化属性,可以进行跨菜系的迁移学习。这意味着我们可以使用来自东方菜系的训练模型对西方菜系进行性能分析,反之亦然。经过更细粒度的场景标注,如区域级甚至餐厅级标注,我们可以进行跨场景迁移学习来进行食品图像识别。此外,我们还可以研究跨超类别迁移学习的食品图像识别。例如,我们可以使用来自海鲜超类的训练模型来对肉类超类进行性能分析。这些有趣的问题都值得深入探索。 **(4)大规模小样本食品图像识别 **最近,有一些基于中小型食品类别的小样本食品图像识别方法[16,17]研究。LS-FSFR[18]是一项更现实的任务,它旨在识别数百种新的类别而不忘记以前的类别,且这些数百种新的食品类别的样本数很少。Food2K提供了大规模的食品数据集测试基准来支持这项任务。 **(5)更多基于Food2K的应用 **本文验证了Food2K在食品图像识别、食品图像检索、跨模态菜谱-食品图像检索、食品检测和分割等各种任务中具有更好的泛化能力。Food2K还可以支持更多新颖的应用。食品图像生成是一种新颖而有趣的应用,它可以通过生成对抗网络(GANs)[19]合成与现实场景相似的新的食品图像。例如,Zhu等人[20]可以从给定的食材和指令中生成高度真实和语义一致的图像。不同的GANs,如轻量级的GAN [21],也可以用于生成基于Food2K的食物图像。 **(6)面向更多任务的Food2K扩展 **基于训练的Food2K模型可以应用于更多与食物计算任务中。此外考虑到一些工作[6]已经表明食材可以提高识别性能,我们计划扩展Food2K来提供更丰富的属性标注以支持不同语义级别的食品图像识别。我们还可以在Food2K上进行区域级和像素级标注使其应用范围更广。此外,我们还可以开展一些新的任务,如通过在Food2K上标注美学属性信息,对食品图像进行美学评估。 结论
在本文中,我们提出了具有更多数据量、更大类别覆盖率和更高多样性的Food2K,可以作为一个新的大规模食品图像识别基准。Food2K适用于各种视觉和多模态任务,包括食品图像识别、食品图像检索、检测、分割和跨模态菜谱-食品图像检索,具有更好的泛化能力。在此基础上,我们进一步提出了一个面向食品图像识别的深度渐进式区域增强网络。该网络主要由渐进式局部特征学习模块和区域特征增强模块组成。渐进式局部特征学习模块通过改进的渐进式训练方法学习多样互补的局部细粒度判别性特征,区域特征增强模块利用自注意力机制将多尺度的丰富上下文信息融入到局部特征中以进一步增强特征表示。在Food2K上进行的大量实验证明了所提方法的有效性。 参考文献
[1] W. Min, S. Jiang, L. Liu, Y. Rui, and R. Jain, “A survey on food computing,” ACM CSUR, vol. 52, no. 5, pp. 1–36, 2019. [2] A. Meyers, N. Johnston, V. Rathod, A. Korattikara, A. Gorban, N. Silberman, S. Guadarrama, G. Papandreou, J. Huang, and K. P. Murphy, “Im2Calories: towards an automated mobile vision food diary,” in ICCV, 2015, pp. 1233–1241. [3] Q. Thames, A. Karpur, W. Norris, F. Xia, L. Panait, T. Weyand, and J. Sim, “Nutrition5k: Towards automatic nutritional understanding of generic food,” in CVPR, 2021, pp. 8903–8911. [4] Y. Lu, T. Stathopoulou, M. F. Vasiloglou, S. Christodoulidis, Z. Stanga, and S. Mougiakakou, “An artificial intelligence-based system to assess nutrient intake for hospitalised patients,” IEEE TMM, pp. 1–1, 2020. [5] L. Bossard, M. Guillaumin, and L. Van Gool, “Food-101–mining discriminative components with random forests,” in ECCV, 2014, pp. 446–461. [6] J. Chen and C.-W. Ngo, “Deep-based ingredient recognition for cooking recipe retrieval,” in ACM MM, 2016, pp. 32–41. [7] W. Min, L. Liu, Z. Wang, Z. Luo, X. Wei, and X. Wei, “ISIA Food- 500: A dataset for large-scale food recognition via stacked globallocal attention network,” in ACM MM, 2020, pp. 393–401. [8] J. Mar´ın, A. Biswas, F. Ofli, N. Hynes, A. Salvador, Y. Aytar, I. Weber, and A. Torralba, “Recipe1M+: A dataset for learning cross-modal embeddings for cooking recipes and food images,” IEEE TPAMI, vol. 43, no. 1, pp. 187–203, 2021. [9] H. Wang, G. Lin, S. C. H. Hoi, and C. Miao, “Structure-aware generation network for recipe generation from images,” in ECCV, vol. 12372, 2020, pp. 359–374. [10] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, 2016, pp. 770–778. [11] A. Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. Weber, and A. Torralba, “Learning cross-modal embeddings for cooking recipes and food images,” in CVPR, 2017, pp. 3020–3028. [12] R. Du, D. Chang, A. K. Bhunia, J. Xie, Z. Ma, Y. Song, and J. Guo, “Fine-grained visual classification via progressive multigranularity training of jigsaw patches,” in ECCV, 2020, pp. 153– 168. [13] J. Qiu, F. P.-W. Lo, Y. Sun, S. Wang, and B. Lo, “Mining discriminative food regions for accurate food recognition,” in BMVC, 2019. [14] Dosovitskiy, Alexey, et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." In ICLR, 2020. [15] P. Furtado, M. Caldeira, and P. Martins, “Human visual system vs convolution neural networks in food recognition task: An empirical comparison,” in CVIU, 2020, pp. 102878. [16] H. Zhao, K.-H. Yap, and A. Chichung Kot, “Fusion learning using semantics and graph convolutional network for visual food recognition,” in WACV, 2021, pp. 1711–1720. [17] S. Jiang, W. Min, Y. Lyu, and L. Liu, “Few-shot food recognition via multi-view representation learning,” ACM TOMM, vol. 16, no. 3, pp. 87:1–87:20, 2020. [18] A. Li, T. Luo, Z. Lu, T. Xiang, and L. Wang, “Large-scale few-shot learning: Knowledge transfer with class hierarchy,” in CVPR, 2019, pp. 7212–7220. [19] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in NIPS, vol. 27, 2014. [20] B. Zhu and C. Ngo, “CookGAN: Causality based text-to-image synthesis,” in CVPR, 2020, pp. 5518–5526. [21] B. Liu, Y. Zhu, K. Song, and A. Elgammal, “Towards faster and stabilized gan training for high-fidelity few-shot image synthesis,” in ICLR, 2020.