AI如何用于食品？中科院计算所「食品图像识别」最新2022研究综述，阐述食品识别方法与应用

2022 年 4 月 9 日 专知

中科院计算所最新《食品图像识别》方法综述论文

食品与人类的行为、健康和文化等密切相关. 社交网络、移动网络和物联网等泛在网络产生了食品大数据，这些大数据与人工智能，尤其是快速发展的深度学习催生了新的交叉研究领域食品计算. 作为食品计算的核心任务之一，食品图像识别同时是计算机视觉领域中细粒度视觉识别的重要分支，因而具有重要的理论研究意义，并在智慧健康、食品智能装备、智慧餐饮、智能零售及智能家居等方面有着广泛的应用前景. 为此，本文对食品图像识别领域进行了全面综述. 该文首先从识别对象、视觉特征表示及学习方法等不同维度对目前的食品图像识别进行分类并深入阐述和分析了当前的研究进展，指出深度学习模型是当前食品图像识别的主流方法，融入各种上下文信息和外部知识是改进食品图像识别的重要手段. 其次从食品数据规模、食品类型及是否包含上下文和多模态信息等方面介绍了现有的食品图像识别数据集，并给出了不同识别方法在主流数据集上的性能对比和分析. 接下来总结了食品图像识别在饮食质量评估、食品自动结算、智能厨具、食品图像的组织检索和推荐等多个方面的应用情况. 最后本文从面向食品特点的食品图像识别方法、大规模食品图像识别基准数据集构建等方面对食品图像识别未来可能的研究方向进行了总结和展望.

1. 引言

食物不仅对人类的健康营养等生活方面产生深远影响，而且在定义我们的身份、社会地位和文化等方面同样起着重要作用[1]，正如法国美食家布里亚·萨瓦兰所说的“告诉我你吃什么，我就告诉你是谁”. 因此，与食物相关的研究[2-3]一直是一个研究热点. 来自不同研究领域的研究人员已经从不同角度进行了与食物相关的研究，包括食物选择[4]、食物感知[5]、食品消费[6]、食品安全[7]和食品文化[8] 等. 由于食品相关研究涉及到多个研究领域，因此研究的较为分散，缺乏一个系统整体. 2019 年，Min 等人[9]系统提出了食品计算框架，指出食品计算包括食品感知、识别、检索和推荐等多个任务，并服务于医学、生物学、农业、食品工业和营养健康等多个领域. 其中食品图像识别是其基础且核心任务之一.

从计算机视觉领域来看，食品图像识别是细粒度视觉识别的重要分支[10-13]，具有重要的研究价值 . 当前各种便携式设备（如手机和相机等）及可穿戴设备（如可穿戴相机）的广泛普及和人工智能技术的迅速发展使得食品图像识别同时具有广泛的应用前景. 例如，通过识别菜品的类别、食材或其他属性信息，可分析菜品营养成分以及评估用户饮食习惯，实现用户健康监管和疾病防控. 食品图像识别可通过识别客户用餐、生鲜果蔬和包装食品等实现食品的自动结算，应用在无人餐厅、无人超市及食品工业中. 此外，通过食品图像识别还可以进一步实现食品推荐和社交网站的食品图像组织检索. 正因为如此，食品图像识别已逐渐成为计算机视觉 [14-15]、多媒体[16-19]、工业信息学[20-21]、医学与健康信息学[22-24]、农业和生物工程[25-28]等多个领域的研究热点.

食品图像识别属于细粒度图像识别. 细粒度图像识别是指对同一类物体下的不同子类进行识别，如识别不同种类的鸟或车. 食品图像识别的主要任务是利用计算机技术识别出食品图像中食品的种类，或识别出其他不同粒度的语义信息（如食材（Ingredient）和菜系等）. 根据《中华人民共和国食品安全法》，食品被定义为各种供人食用或者饮用的成品和原料以及按照传统既是食品又是药品的物品. 因此食品的种类丰富多样，当前主流的食品图像识别主要是针对菜品的识别，但也包括对生鲜果蔬、食材和包装食品的识别等. 图 1 展示了来自当前食品数据集的一些实例图像. 现有食品图像识别主要针对某大类食品下的分类，如菜品识别[15]、果蔬识别[20]、食材识别[21]和包装食品识别[29]等. 其识别结果可进一步支持各种应用，如饮食热量估计和自动结算等.

食品图像识别的研究可以追溯到 1977 年， Parrish 等人[31]最先开展基于视觉的果蔬识别研究，应用于水果采摘. 1996 年，Bolle 等人[32]提出了果蔬识别系统 VeggieVision，用于超市等场景的果蔬结算. 在 2000 年之前，食品图像识别主要用于与生产链和市场食品质量评估相关的工程应用[33]. 之后由于菜品图像识别的广泛应用价值而受到越来越多的关注. 2008 年，Kitamura 等人[34]提出了多媒体饮食日志系统. 该系统通过菜品图像和非菜品图像的分类得到用户的菜品图像，然后对其进行成分和热量分析以提供饮食建议. 2009 年，Chen 等人[35]发布了第一个快餐食品数据集 PFID，之后于 2010 年提出了一种联合视觉词袋模型和颜色直方图的特征提取方法在该数据集上进行了测试 [36]. 同年 Pornpanomchai 等人[37]融合多种手工特征和分类器进行果蔬识别. 2014 年 Bossard 等人[15]发布了第一个大规模西方菜品图像数据集 Food-101，并较早将深度学习用于食品图像识别，同年 Yanai 等人[38]也尝试将深度学习用于菜品图像识别. 随着深度学习技术的快速发展和大规模食品图像数据集的不断增多，食品图像识别的相关研究逐渐多了起来. 2015 年，微软等研究机构[39]利用传统的视觉词袋模型提取菜品视觉特征识别菜品，并进一步实现菜品的热量估计. 同年 Google 提出了一个 Im2Calories 系统[14]，该系统通过训练深度学习网络提取特征进行菜品中的食材识别，然后基于识别的食材估计菜品热量. Xu 等人[40]尝试将餐馆位置信息融入到识别模型以改进菜品图像识别性能. 之后多个研究团队[12,18]挖掘食材等多模态信息，结合深度学习模型，通过多任务学习实现菜品和食材的同时识别. 2016 年，Chen 等人[29]发布了中餐菜品数据集 Vireo Food-172. 2017 年 Ciocca 等人[22]发布了面向餐厅的托盘菜品识别数据集 UNIMIB2016. 同年 Hou 等人[13]发布了果蔬数据集 VegFru，包括 292 类果蔬和超过160000 张果蔬图片. 2018 年，Bettadapura 等人[41]提出了一种面向餐厅托盘的菜品检测和识别方法，并在 UNIMIB2016 进行了测试. 2019 年 Min 等人[9]系统提出食品计算框架，并指出食品图像识别是其核心任务之一，之后于 2020 年发布了新的大规模菜品数据集 ISIA Food-500[42]. 近来一些研究学者尝试将小样本学习[43]应用到菜品图像识别任务中. 与此同时，由于深度学习技术的发展使得果蔬识别技术在农业相关领域也实现了快速发展[44]. 按照其发展脉络，图 2 展示了各时间节点的代表性食品识别工作，可以看出 2014 年是一个重要的分界线，一方面以 AlexNet 网络为代表的深度学习方法[45]在图像识别等领域获得了巨大成功；另一方面是 Food-101 及之后多个较大规模食品图像识别基准数据集的发布推动了食品图像识别技术的迅速发展.

由于食品相关研究的跨学科性，食品图像识别的研究分散在计算机视觉、多媒体、农业、生物、医学和营养健康等不同的研究领域中 . 目前尽管有一些食品图像识别的综述，但是这些工作主要是针对某一个特定领域的总结. 例如 Khurram Hameed 等人[44]主要面向农业领域系统地阐述了果蔬识别技术，并总结了果蔬识别的相关应用和发展前景. Lo 等人[24]在生物医学与健康信息学领域重点对面向饮食质量评估的菜品图像识别和检测算法给予了系统综述. 此外，Min 等人[9]在国际上第一次提出了食品计算框架，对包括食品图像识别在内的多个食品计算任务进行了较为系统总结. 不同于已有综述，本文基于食品定义，以更宽广的视角对食品图像识别进行系统综述. 首先从识别对象、视觉特征学习和学习方法等不同维度对食品图像识别技术进行了系统梳理和全面总结，其次介绍了现有的食品图像识别数据集，并给出了不同识别方法在主流数据集上的性能对比和分析，然后总结了食品图像识别在多个领域中的具体应用情况，最后展望了该领域未来研究的可能发展方向. 作为阅读指导，图 3 给出了本综述各部分内容之间的总体路线图.

2. 研究进展

目前已有大量的食品图像识别方法，这些工作发表在计算机视觉、多媒体、医学、营养与健康等不同的领域. 考虑到食品种类的多样性，食品图像识别的对象也多种多样，包括菜品、果蔬、食材和包装食品等. 针对某一食品类型的食品图像识别系统，我们首先需要考虑应该提取的视觉特征类型，其次根据数据的统计分布等情况考虑所采用的机器学习方法. 基于此，本文对现有食品图像识别方法从（1）识别对象；（2）特征类型和（3）学习方法 等三个维度分别进行阐述.

识别对象

食品识别对象丰富多样，包括菜品、食材、果蔬和其他食品相关的对象. 由于菜品图像识别在智慧健康、智慧餐饮、智能零售及智能家居等多个方面的应用前景而受到了广泛关注 . 然而菜品本身的非刚性特点及大规模菜品数据集的缺失使得当前的菜品识别性能还未能达到最优. 在菜品图像类别识别的基础上，为了进一步深入分析菜品的营养成分或者热量，菜品的食材识别是必不可少的一步. 由于菜品的食材识别和种类识别任务的相关性，通常采用多任务学习方法同时学习和预测. 然而由于很多食材在菜品图像中的不可见性，现有的食材识别主要针对视觉可见的食材进行识别. 除了菜品，果蔬由于在人类日常饮食中的重要地位及在农业（如自动采摘）和食品工业（如果蔬的自动结算）等领域的重要应用价值使得果蔬识别的研究也较为广泛. 果蔬识别相比于菜品识别，其本身的挑战性有所降低，但更进一步精细化的识别如果蔬的成熟度或者质量预测则变得较为困难，原因在于普通的 RGB 视觉信息只能捕获果蔬的表观信息而无法得到其内部信息. 在这种情况下，基于高光谱和多光谱的果蔬识别提供了一种可行的方法[26]. 不同类型的食品对象识别，对应的方法设计要求也不同，例如一般情况下，相比于果蔬识别，由于菜品食材的丰富多样性和每道菜因为做法不同所带来的差异性使得许多菜品识别的难度更大. 除了基本的菜品、果蔬和食材识别，最近出现了一些和食品识别相关的新工作，比如饮食场景识别和食物状态识别等. 基于食物对人类的基础性地位，随着食品数据的不断丰富、识别技术的不断成熟和新的应用场景的出现，未来新的食品相关对象识别和分析的研究将会不断涌现.

特征类型

判别性视觉特征的提取是食品图像识别的关键. 按照特征类型可以将食品图像识别分为（1）基于手工特征的食品图像识别；（2）基于深度特征的食品图像识别；（3）融入上下文信息和外部知识的食品图像识别. 早期的食品图像识别通常包括手工特征提取和分类器训练两个阶段. 而考虑到不同手工特征之间的互补性，通常提取多种类型的手工特征，然后采用不同的集成学习方法融合不同类型的特征以改进食品图像识别的性能. 在所有的手工特征中，SIFT 描述子由于其尺度和旋转不变性、对形变不敏感等特点，和词袋模型结合在一起被广泛应用到食品图像识别中，尤其在菜品图像识别任务中. 自从 2012 年 Alex Krizhevsk 等人在 ImageNet 上训练一个 8 层的深度模型 AlexNet 并在 ImageNet 竞赛上取得非常好的效果后，CNN 在图像识别领域受到了广泛关注. 深度网络学习的特征由于其强大的表达能力随后在 2014 年被引入到食品图像识别领域. 基于深度学习的食品图像识别方法最初是简单使用预训练或者微调的模型来提取视觉特征，现在逐渐转向针对食品图像识别任务的神经网络设计. 由于 CNN可以自动从食品图像中学习特征，因而基于深度特征的食品图像识别可以将特征学习和分类器训练同时在一个框架里面进行端到端的学习. 而食品相关的上下文信息和外部知识的引入可进一步改进食品图像识别的性能. 未来随着大规模食品图像数据集资源的发展，深入挖掘食品图像的特性设计针对食品图像识别任务的深度学习网络将是食品图像识别未来发展的重要方向. 此外，更多新网络的涌现也会继续推进食品图像识别性能的不断提高. 如最近的 Transformer 及对应的各种变种[136]在通用物体识别上有了比 CNN 网络更高的识别性能. 相比于 CNN, Transformer 的网络结构完全是由 Attention 机制组成. 而当前细粒度识别的关键也是如何有效设计 Attention 结构，使其更加关注局部判别性区域，因此面向食品图像识别的 Transformer 网络也有望在食品识别性能上取得更高的性能. 此外，将各种丰富的上下文信息和外部知识有效组织成食品知识图谱，将食品知识图谱融入到食品图像特征学习的过程中将对改进食品图像识别性能有着重要作用[137].

学习方法

在常规食品图像分类任务中，为了保证训练得到的分类模型具有高准确性和高可靠性，需要满足（1）训练样本和测试样本服从独立同分布和（2）训练样本足够多. 然而在现实世界中，总有一些食品类别的样本很难收集[43]，因而这些类的样本数量有限；此外现实世界的数据是开放的，新类别和原有类别的新样本是动态增加的[138]，食品图像也不例外. 因此为了解决以上问题，需要放松常规食品图像识别方法的假设，于是就产生了基于迁移学习、小样本学习及增量学习的食品图像识别研究. 因此，从机器学习方法维度出发，食品图像识别可以分为（1）常规食品图像识别；（2）基于迁移学习的食品图像识别；（3）基于小样本学习的食品图像识别和（4）基于增量学习的食品图像识别.

3. 数据集与性能评估

在食品图像识别算法快速发展的同时，用于评估识别算法的数据集也在日益完善. 我们将在本节中对食品图像识别的主流数据集进行概述，从中也可以一窥食品图像识别的发展. 在介绍不同数据集时，将主要从数据集规模、所属菜系及包含的上下文信息和多模态信息等不同方面进行阐述，表 2 全面总结了食品图像识别领域的数据集.

和其他识别方法类似，食品图像识别主要采用 Top-1和 Top-5分类准确率作为评价指标. Top-1分类准确率表示测试图像中预测概率最大的类别与实际类别相符的比例. Top-5 分类准确率表示测试图像中预测概率最大的前 5 个预测类别包含实际类别的比例. 另外性能评估包括 1-crop 和 10-crop 两种设置，分别表示进行 1 次和 10 次裁剪进行数据增强. 此外，近年来也有一些工作对人类在食品识别性能的评估[45]进行了探讨。

4. 应用

食品图像识别在现实中具有广阔的应用前景. 例如食品图像识别通过自动识别食品类别，可进一步实现后续的营养分析和卡路里估算. 在自助餐厅中，食品图像识别可以实现自动计费. 在生活中，人们也可以通过简单拍照更好的了解他们不熟悉或以前从未见过的食物，并了解其细节，例如烹饪方法、食材、口味和营养成分等. 下面介绍几种代表性的食品图像识别应用。

4.1 饮食质量评估

饮食质量评估（Dietary Assessment）是预防和治疗各种慢性疾病（如糖尿病）的重要手段. 传统的饮食管理方法主要依赖用户报告数据[167]. 一方面，由于主观性和估计偏差，传统方法的准确性无法保证，另一方面，频繁地报告数据会影响用户体验. 随着计算机视觉的发展，学者们提出被动饮食监测的概念[168]，即依靠摄像机等传感器来记录饮食情况并自动执行食品识别及后续任务. 在整个过程中，食品图像识别是第一步，也是至关重要的一步，在饮食管理系统中起着举足轻重的作用. 当前各种便携式拍摄设备（如手机和可穿戴相机等）的普及使得自动高效的多媒体饮食日志记录和饮食质量评估成为可能. Mezgec 等人[169]提出了一种饮食管理系统，该系统可以从单个图像中识别出用户一餐中含有的菜品条目，然后预测其营养成分及热量等. 在整个系统中，食品识别模块采用基于 CNN 的多标签分类器来预测一餐中含有的菜品类别，预测得到的结果通过营养表查找和体积估算等后续操作以预测相应的营养成分含量. 近来一些工作[23,170-171]采用可穿戴的第一视角相机拍摄饮食场景，通过菜品图像识别[170-171]或者饮食场景识别[23] 自动识别日常饮食或者饮食环境，对人的饮食习惯研究及饮食管理具有重要的现实意义.

4.2 食品自动结算

食品图像识别在餐厅、超市、农贸市场等各种应用场景中可以实现食品的自动结算，提高结算效率，降低运营成本，改善用户就餐或者购买体验. 例如作为无人餐厅的核心技术之一，食品图像识别在监控食品的消费量、对客户的点餐进行自动计费结账等方面起着重要作用. 例如 Aguilar 等人[58]提出了一种在食堂和饭店环境下对食物托盘进行自动分析的方法，能够检测和预测托盘中的菜品类别，为自助餐厅环境下的消费量监控和自动结账提供了重要的技术支持. Xiao 等人[21]通过对食材的识别实现其自动结算服务

4.3 食品组织、检索和推荐

在大数据时代, 各种社交媒体尤其是饮食或食谱相关的网站通过食品图像识别方法可以进一步有效地组织和检索食品图像. 大规模的餐饮网站(例如美团和 Yelp)为我们的日常饮食提供了便利. 引入食品识别可满足人们了解不熟悉或未见过的食物，并可进一步实现个性化菜品推荐. Min 等人[179]提出了一个系统的食品推荐框架. 在整个系统中，食品图像识别技术对理解用户需求及改进个性化推荐结果有重要影响. 以美团为例，通过菜品图像识别算法识别用户在评论区上传的食品图像的具体类别，可根据识别结果对用户进行个性化食品推荐.

4.4 智能厨具

食品图像识别在智能厨具中也有广泛应用，最为代表性的是智能冰箱. 食品图像识别是其核心功能之一，在食品种类识别或者食品新鲜度识别方面发挥重要作用. 例如 Zhang 等人[180]提出了一种智能冰箱中的水果识别方法，该方法使用神经网络与多模型融合技术进行水果识别. Zhu 等人[164]提出了一种基于有监督 Transformer 网络的食品识别系统，能够在含有多种食物的冰箱环境下检测和识别食品的类别. Mohammad 等人[181]提出使用较少的传感器并结合软件云平台进行冰箱食品监测. 整个计算框架中，食品识别被用于感知后的食品分析过程. 该方法基于卷积神经网络和迁移学习技术进行食品识别. 除了智能冰箱外，食品识别还被应用于其他的智能厨具中. 例如 Hashimoto 等人[182]基于食物追踪和食材识别等设计了一种以人为中心的智慧厨房系统. 一些研究工作[151],183]则是面向边缘设备的食品图像识别. 例如 Liu 等人[151]设计了一种基于边缘计算设备的食品识别系统. Liu 等人[183]提出了一种新颖的边缘计算系统 EdgeVegfru，用于果蔬图像识别. 该系统能在有限时间和计算资源内表现出出色的识别性能，可应用于自助超市和零售业等应用场景.

4.5 智能穿戴设备

不健康的饮食习惯是罹患各种慢性疾病的重要危险因素之一. 近年来，能够追踪个人日常食品摄入量的饮食监测应用在技术界引起了广泛的关注. 随着各种便携式的智能穿戴设备的兴起，越来越多的学者开始将这些饮食监测应用部署在智能穿戴设备上. 食品图像识别作为饮食监测中一项基础和核心的技术，其识别准确率对整个系统的性能有显著的影响. Rachakonda 等人[184]提出了一个部署在智能眼镜上的饮食监测系统. 该系统通过智能眼镜自动地从现实环境中获取食品图像，然后使用基于卷积神经网络的食品识别方法进行识别，并进一步进行检测和摄入量估计，最后对用户进行压力分析以确定用户的饮食状态. 最终实现对用户的饮食行为的自动分析以发现生活中的过度饮食和压力饮食等问题. 随着智能设备的进一步普及，饮食检测系统的应用将越来越广泛，对嵌入式的高性能食品识别方法的研究也将成为学者们的关注热点.

4.6 餐饮机器人

随着技术的发展，智能机器人逐渐被应用于人们的日常生活中，其中一个重要的应用场景就是日常饮食. 例如在无人餐厅中，传菜机器人和送菜机器人被用于自动向顾客运送餐饮. 在智能餐厅中，炒菜机器人被用于自动烹饪食品. 在物联网医疗中，喂饭机器人能够向肢体残疾的人喂饭. Feng 等人[185]为实现机器人辅助喂食，开发了一个咬合获取框架，该框架将整个盘子图像作为输入、分割和识别出菜品，并应用所提出的 SPANet 模型来选择目标菜品和相应的动作提高辅助喂食成功率. 在这些机器人的内部计算框架中，食品识别模块用于识别经传感器感知后的食品类别，并将识别结果送入分析模块以获取食品的状态信息. 食品识别的性能关系到智能机器人对食品的感知情况和后续决策，对于智能机器人的发展有重要意义.

4.7 食品安全

食品安全已成为亟待解决的社会问题. 当下，高质量食品供给能力的短缺、监管资源和能力的不足使得我国的食品安全形势日益严峻. 传统的基于化学的检测方法周期冗长、流程复杂，很难大规模地投入应用中. 得益于较快的评估速度和无损坏的评估过程，基于计算机视觉的食品质量检测成为近年来热门的研究方向. 在整个食品质量检测系统中，稳健而准确的食品识别算法至关重要，能否精准地识别自然环境下的食品类别将直接影响到系统的评估性能. 同时也可以帮助食品监管部门追溯食品信息、自动分拣过期食品, 从而加大食品安全的监察力度[186-187].

5 展望

在过去 10 年里，食品图像识别无论从算法设计还是基准数据集构建都已经取得了一系列进展，识别方法建立了以深度学习模型为基础的体系框架，出现了菜品、果蔬和零售食品等不同类型的数据集. 在基于之前食品图像识别的基础上，本文接下来对其存在的问题进行了讨论，并重点探讨了食品图像识别的发展方向.

5.1 面向食品特点的食品图像识别方法

食品图像识别尽管从概念上来说属于细粒度图像识别，但不同于传统的细粒度图像识别. 以主流的菜品图像识别为例，一方面很多类的菜品图像具有一定的细粒度特性，需要挖掘和放大局部的细节区域才可以有效地区分不同菜品类别. 另一方面，很多菜品类别的差异和普通的图像识别也比较相似，这就需要考虑食品图像的整体特征，使得类间差比较大的类通过全局特征更容易区分. 因此设计的菜品图像识别模型要兼顾这两个方面. 此外，常规的细粒度识别任务通常挖掘固定的语义部件（例如鸟类的头、胸和翅膀）以捕获图像判别性的视觉特征. 然而很多类的菜品图像并不具有固定的语义模式，很难像定义鸟类的翅膀和头部一样定义菜品图像的局部判别性区域，因而也不能直接使用现有的细粒度视觉分类方法来进行食品图像识别. 考虑卷积神经网络强大的表达能力，如何充分挖掘食品图像的特点设计针对性的神经网络用于食品图像识别是未来重要的发展方向. 此外，随着智能便携式设备、智能家居等的迅速普及，将食品图像识别应用于移动设备和边缘设备上的需求日益增加. 因此，基于轻量化卷积神经网络的食品图像识别也将会受到越来越多关注.

5.2 构建大规模食品图像识别基准数据集

在当前深度学习时代，大规模 ImageNet 数据集[36] 促进了物体识别算法的发展. 同样，发展食品图像识别技术，也需要大规模的食品图像数据集的支撑. 以主流的菜品数据集为例，目前确实存在一些基准数据集，例如 ETHZ Food-101[15]和 Vireo Food-172[29] 及近来发布的 ISIA Food-500[42]. 但是，与 ImageNet 相比，这些数据集的类别和图像数量在规模上还不够大. 构建食品识别数据集有其特殊的挑战. 例如，以菜品为例，同一道菜因区域差异可能有几种不同的名称. 同样，有些菜品虽被标记为相同的菜品名称，但实际上属于包含不同食材的不同菜品. 另外重要的一点是 ImageNet依据 WordNet的标准概念体系构建，而对于菜品数据集，东西方的菜品分类体系具有明显的差异. 再比如包装食品，种类更为庞杂，很难有统一标准的分类体系. 这也给构建大规模食品图像识别数据集带来了困难. 因此针对不同的食品类型，如何构建标准统一的菜品拓扑体系是构建大规模食品数据集首要解决的问题. 此外相比于 ImageNet，食品图像识别数据集的标注可能需要专家标注，如何设计一种有效方案保证高质量和低成本也是未来构建大规模食品图像识别数据集需要解决的一个关键问题.

5.3 基于食品图像识别的新应用

目前食品图像识别已经应用到饮食质量评估、食品自动结算、食品组织、检索和推荐等应用中，但未来还有更多食品图像识别的应用场景，如在智能厨具中，当前的智能烤箱依然需要根据所烤食物手工选择对应的烘烤类型，如果在烤箱中加入摄像头和食材识别算法，那么就可以实现烤箱的自动化烘烤. 李等人[188]提出了一种智能烤箱及烘烤方法，其中食品识别模块用于识别烤箱中的食材信息. 随着食品图像识别算法的日益成熟，开拓新的应用场景对推动未来食品图像识别的发展具有重要价值.

5.4 从食品图像识别走向检测和分割

当前食品图像识别的对象主要针对单一食品对象的图像. 但是现实很多场景下，一张食品图像通常包含多个食品识别对象，这时候就需要食品图像的检测和分割[60,189-190]. 例如 Aguilar 等人[58]提出了一种在食堂和饭店环境下对食物托盘进行自动分析的方法，能够自动地预测食物托盘中的多种食品类别. 该方法将食品的定位、识别和细分集成到一个框架中以进行食物托盘识别. 董[191]提出了一种基于深度可分离卷积的轻量级食品识别方法，该方法由食物检测网络和食物分类网络组成. 食物检测网络使用深度可分离卷积和多层融合检测网络生成食物区域的候选框并判断是否存在食物，食物分类网络则根据候选框预测食物的类别标签. 深度可分离卷积的广泛应用极大程度上降低了模型的计算成本和额外开销，使得模型能够成功地部署在各种移动设备上. 苏[60]和 Lu[189]考虑到了菜品检测数据集的匮乏，采用了多目标分割算法识别图像中的菜品区域，随后对候选区域通过提取 CNN 特征进行识别. 为了更有效解决现实世界中多个识别对象的问题，食品图像的检测和分割是未来亟需探索的重要研究方向.

6 结论

食品图像识别在计算机视觉和多媒体等研究领域中具有重要的理论意义和实际应用价值，但同时目前仍存在诸多问题与挑战．本文首先从识别对象、特征类型和学习方法三个维度总结了食品图像识别的研究进展，然后介绍并分析了食品图像识别领域主流的数据集及性能评价. 本文还从饮食质量评估、食品自动结算、食品组织检索和推荐、智能厨具、智能穿戴设备、餐饮机器人和食品安全等七个方面介绍食品图像识别的典型应用. 最后本文还从面向食品特点的图像识别方法、构建大规模食品图像识别基准数据集、基于多传感器信息融合的食品识别、基于食品图像识别的新应用、食品图像检测和分割五个方面对食品图像识别的发展方向进行了分析与展望. 随着更大规模的食品识别数据集的出现，深度学习在食品图像识别中将有望取得进一步的突破性进展，与此同时还将催生出更多的新应用.

专知便捷查看