中科院计算所最新《食品图像识别》方法综述论文
食品与人类的行为、健康和文化等密切相关. 社交网络、移动网络和物联网等泛在网络产生了食品大数 据,这些大数据与人工智能,尤其是快速发展的深度学习催生了新的交叉研究领域食品计算. 作为食品计算的核 心任务之一,食品图像识别同时是计算机视觉领域中细粒度视觉识别的重要分支,因而具有重要的理论研究意义, 并在智慧健康、食品智能装备、智慧餐饮、智能零售及智能家居等方面有着广泛的应用前景. 为此,本文对食品图像识别领域进行了全面综述. 该文首先从识别对象、视觉特征表示及学习方法等不同维度对目前的食品图像识 别进行分类并深入阐述和分析了当前的研究进展,指出深度学习模型是当前食品图像识别的主流方法,融入各种 上下文信息和外部知识是改进食品图像识别的重要手段. 其次从食品数据规模、食品类型及是否包含上下文和多 模态信息等方面介绍了现有的食品图像识别数据集,并给出了不同识别方法在主流数据集上的性能对比和分析. 接下来总结了食品图像识别在饮食质量评估、食品自动结算、智能厨具、食品图像的组织检索和推荐等多个方面 的应用情况. 最后本文从面向食品特点的食品图像识别方法、大规模食品图像识别基准数据集构建等方面对食品 图像识别未来可能的研究方向进行了总结和展望.
食物不仅对人类的健康营养等生活方面产生深 远影响,而且在定义我们的身份、社会地位和文化 等方面同样起着重要作用[1],正如法国美食家布里 亚·萨瓦兰所说的“告诉我你吃什么,我就告诉你 是谁”. 因此,与食物相关的研究[2-3]一直是一个研 究热点. 来自不同研究领域的研究人员已经从不同 角度进行了与食物相关的研究,包括食物选择[4]、 食物感知[5]、食品消费[6]、食品安全[7]和食品文化[8] 等. 由于食品相关研究涉及到多个研究领域,因此 研究的较为分散,缺乏一个系统整体. 2019 年,Min 等人[9]系统提出了食品计算框架,指出食品计算包 括食品感知、识别、检索和推荐等多个任务,并服 务于医学、生物学、农业、食品工业和营养健康等 多个领域. 其中食品图像识别是其基础且核心任务 之一.
从计算机视觉领域来看,食品图像识别是细粒 度视觉识别的重要分支[10-13],具有重要的研究价值. 当前各种便携式设备(如手机和相机等)及可穿戴 设备(如可穿戴相机)的广泛普及和人工智能技术 的迅速发展使得食品图像识别同时具有广泛的应用 前景. 例如,通过识别菜品的类别、食材或其他属 性信息,可分析菜品营养成分以及评估用户饮食习 惯,实现用户健康监管和疾病防控. 食品图像识别 可通过识别客户用餐、生鲜果蔬和包装食品等实现 食品的自动结算,应用在无人餐厅、无人超市及食 品工业中. 此外,通过食品图像识别还可以进一步 实现食品推荐和社交网站的食品图像组织检索. 正 因为如此,食品图像识别已逐渐成为计算机视觉 [14-15]、多媒体[16-19]、工业信息学[20-21]、医学与健康 信息学[22-24]、农业和生物工程[25-28]等多个领域的研究热点. 食品图像识别属于细粒度图像识别. 细粒度图 像识别是指对同一类物体下的不同子类进行识别, 如识别不同种类的鸟或车. 食品图像识别的主要任 务是利用计算机技术识别出食品图像中食品的种 类,或识别出其他不同粒度的语义信息(如食材 (Ingredient)和菜系等). 根据《中华人民共和国 食品安全法》,食品被定义为各种供人食用或者饮用 的成品和原料以及按照传统既是食品又是药品的物 品. 因此食品的种类丰富多样,当前主流的食品图 像识别主要是针对菜品的识别,但也包括对生鲜果 蔬、食材和包装食品的识别等. 图 1 展示了来自当 前食品数据集的一些实例图像. 现有食品图像识别 主要针对某大类食品下的分类,如菜品识别[15]、果 蔬识别[20]、食材识别[21]和包装食品识别[29]等. 其识 别结果可进一步支持各种应用,如饮食热量估计和 自动结算等.
食品图像识别的研究可以追溯到 1977 年, Parrish 等人[31]最先开展基于视觉的果蔬识别研究,应用于水果采摘. 1996 年,Bolle 等人[32]提出了果蔬 识别系统 VeggieVision,用于超市等场景的果蔬结 算. 在 2000 年之前,食品图像识别主要用于与生产 链和市场食品质量评估相关的工程应用[33]. 之后由 于菜品图像识别的广泛应用价值而受到越来越多的 关注. 2008 年,Kitamura 等人[34]提出了多媒体饮食 日志系统. 该系统通过菜品图像和非菜品图像的分 类得到用户的菜品图像,然后对其进行成分和热量 分析以提供饮食建议. 2009 年,Chen 等人[35]发布了 第一个快餐食品数据集 PFID,之后于 2010 年提出 了一种联合视觉词袋模型和颜色直方图的特征提取 方法在该数据集上进行了测试 [36]. 同 年 Pornpanomchai 等人[37]融合多种手工特征和分类器 进行果蔬识别. 2014 年 Bossard 等人[15]发布了第一 个大规模西方菜品图像数据集 Food-101,并较早将 深度学习用于食品图像识别,同年 Yanai 等人[38]也 尝试将深度学习用于菜品图像识别. 随着深度学习 技术的快速发展和大规模食品图像数据集的不断 增多,食品图像识别的相关研究逐渐多了起来. 2015 年,微软等研究机构[39]利用传统的视觉词袋 模型提取菜品视觉特征识别菜品,并进一步实现菜 品的热量估计. 同年 Google 提出了一个 Im2Calories 系统[14],该系统通过训练深度学习网络提取特征进 行菜品中的食材识别,然后基于识别的食材估计菜 品热量. Xu 等人[40]尝试将餐馆位置信息融入到识 别模型以改进菜品图像识别性能. 之后多个研究 团队[12,18]挖掘食材等多模态信息,结合深度学习模 型,通过多任务学习实现菜品和食材的同时识别. 2016 年,Chen 等人[29]发布了中餐菜品数据集 Vireo Food-172. 2017 年 Ciocca 等人[22]发布了面向餐厅的托 盘菜品识别数据集 UNIMIB2016. 同年 Hou 等人[13]发 布了果蔬数据集 VegFru,包括 292 类果蔬和超过160000 张果蔬图片. 2018 年,Bettadapura 等人[41]提 出了一种面向餐厅托盘的菜品检测和识别方法,并 在 UNIMIB2016 进行了测试. 2019 年 Min 等人[9]系 统提出食品计算框架,并指出食品图像识别是其核 心任务之一,之后于 2020 年发布了新的大规模菜品 数据集 ISIA Food-500[42]. 近来一些研究学者尝试将 小样本学习[43]应用到菜品图像识别任务中. 与此同 时,由于深度学习技术的发展使得果蔬识别技术在 农业相关领域也实现了快速发展[44]. 按照其发展脉 络,图 2 展示了各时间节点的代表性食品识别工作, 可以看出 2014 年是一个重要的分界线,一方面以 AlexNet 网络为代表的深度学习方法[45]在图像识别 等领域获得了巨大成功;另一方面是 Food-101 及之 后多个较大规模食品图像识别基准数据集的发布推 动了食品图像识别技术的迅速发展.
由于食品相关研究的跨学科性,食品图像识别 的研究分散在计算机视觉、多媒体、农业、生物、 医学和营养健康等不同的研究领域中. 目前尽管有 一些食品图像识别的综述,但是这些工作主要是针 对某一个特定领域的总结. 例如 Khurram Hameed 等人[44]主要面向农业领域系统地阐述了果蔬识别技 术,并总结了果蔬识别的相关应用和发展前景. Lo 等人[24]在生物医学与健康信息学领域重点对面向饮 食质量评估的菜品图像识别和检测算法给予了系统 综述. 此外,Min 等人[9]在国际上第一次提出了食品 计算框架,对包括食品图像识别在内的多个食品计 算任务进行了较为系统总结. 不同于已有综述,本 文基于食品定义,以更宽广的视角对食品图像识别 进行系统综述. 首先从识别对象、视觉特征学习和 学习方法等不同维度对食品图像识别技术进行了系 统梳理和全面总结,其次介绍了现有的食品图像识 别数据集,并给出了不同识别方法在主流数据集上的性能对比和分析,然后总结了食品图像识别在 多个领域中的具体应用情况,最后展望了该领域未来研究的可能发展方向. 作为阅读指导,图 3 给出 了本综述各部分内容之间的总体路线图.
目前已有大量的食品图像识别方法,这些工作 发表在计算机视觉、多媒体、医学、营养与健康等 不同的领域. 考虑到食品种类的多样性,食品图像 识别的对象也多种多样,包括菜品、果蔬、食材和 包装食品等. 针对某一食品类型的食品图像识别系 统,我们首先需要考虑应该提取的视觉特征类型, 其次根据数据的统计分布等情况考虑所采用的机器 学习方法. 基于此,本文对现有食品图像识别方法 从(1)识别对象;(2)特征类型和(3)学习方法 等三个维度分别进行阐述.
**食品识别对象丰富多样,包括菜品、食材、果 蔬和其他食品相关的对象. 由于菜品图像识别在智 慧健康、智慧餐饮、智能零售及智能家居等多个方 面的应用前景而受到了广泛关注. 然而菜品本身的 非刚性特点及大规模菜品数据集的缺失使得当前的 菜品识别性能还未能达到最优. 在菜品图像类别识 别的基础上,为了进一步深入分析菜品的营养成分 或者热量,菜品的食材识别是必不可少的一步. 由 于菜品的食材识别和种类识别任务的相关性,通常 采用多任务学习方法同时学习和预测. 然而由于很 多食材在菜品图像中的不可见性,现有的食材识别 主要针对视觉可见的食材进行识别. 除了菜品,果 蔬由于在人类日常饮食中的重要地位及在农业(如 自动采摘)和食品工业(如果蔬的自动结算)等领 域的重要应用价值使得果蔬识别的研究也较为广 泛. 果蔬识别相比于菜品识别,其本身的挑战性有 所降低,但更进一步精细化的识别如果蔬的成熟度 或者质量预测则变得较为困难,原因在于普通的 RGB 视觉信息只能捕获果蔬的表观信息而无法得 到其内部信息. 在这种情况下,基于高光谱和多光 谱的果蔬识别提供了一种可行的方法[26]. 不同类型 的食品对象识别,对应的方法设计要求也不同,例 如一般情况下,相比于果蔬识别,由于菜品食材的 丰富多样性和每道菜因为做法不同所带来的差异性 使得许多菜品识别的难度更大. 除了基本的菜品、 果蔬和食材识别,最近出现了一些和食品识别相关 的新工作,比如饮食场景识别和食物状态识别等. 基于食物对人类的基础性地位,随着食品数据的不 断丰富、识别技术的不断成熟和新的应用场景的出 现,未来新的食品相关对象识别和分析的研究将会 不断涌现.
判别性视觉特征的提取是食品图像识别的关 键. 按照特征类型可以将食品图像识别分为**(1)基 于手工特征的食品图像识别;(2)基于深度特征的 食品图像识别;(3)融入上下文信息和外部知识的 食品图像识别**. 早期的食品图像识别通常包括手工特征提取和 分类器训练两个阶段. 而考虑到不同手工特征之间 的互补性,通常提取多种类型的手工特征,然后采 用不同的集成学习方法融合不同类型的特征以改进 食品图像识别的性能. 在所有的手工特征中,SIFT 描述子由于其尺度和旋转不变性、对形变不敏感等 特点,和词袋模型结合在一起被广泛应用到食品图 像识别中,尤其在菜品图像识别任务中. 自从 2012 年 Alex Krizhevsk 等人在 ImageNet 上训练一个 8 层 的深度模型 AlexNet 并在 ImageNet 竞赛上取得非常 好的效果后,CNN 在图像识别领域受到了广泛关注. 深度网络学习的特征由于其强大的表达能力随后在 2014 年被引入到食品图像识别领域. 基于深度学习 的食品图像识别方法最初是简单使用预训练或者微 调的模型来提取视觉特征,现在逐渐转向针对食品 图像识别任务的神经网络设计. 由于 CNN可以自动 从食品图像中学习特征,因而基于深度特征的食品 图像识别可以将特征学习和分类器训练同时在一个 框架里面进行端到端的学习. 而食品相关的上下 文信息和外部知识的引入可进一步改进食品图像 识别的性能. 未来随着大规模食品图像数据集资 源的发展,深入挖掘食品图像的特性设计针对食品 图像识别任务的深度学习网络将是食品图像识别 未来发展的重要方向. 此外,更多新网络的涌现也 会继续推进食品图像识别性能的不断提高. 如最 近的 Transformer 及对应的各种变种[136]在通用物体 识别上有了比 CNN 网络更高的识别性能. 相比于 CNN, Transformer 的网络结构完全是由 Attention 机 制组成. 而当前细粒度识别的关键也是如何有效 设计 Attention 结构,使其更加关注局部判别性区 域,因此面向食品图像识别的 Transformer 网络也 有望在食品识别性能上取得更高的性能. 此外,将 各种丰富的上下文信息和外部知识有效组织成食 品知识图谱,将食品知识图谱融入到食品图像特征 学习的过程中将对改进食品图像识别性能有着重 要作用[137].
在常规食品图像分类任务中,为了保证训练得 到的分类模型具有高准确性和高可靠性,需要满足 (1)训练样本和测试样本服从独立同分布和(2) 训练样本足够多. 然而在现实世界中,总有一些食 品类别的样本很难收集[43],因而这些类的样本数量 有限;此外现实世界的数据是开放的,新类别和原 有类别的新样本是动态增加的[138],食品图像也不例 外. 因此为了解决以上问题,需要放松常规食品图 像识别方法的假设,于是就产生了基于迁移学习、 小样本学习及增量学习的食品图像识别研究. 因 此,从机器学习方法维度出发,食品图像识别可以 分为(1)常规食品图像识别;(2)基于迁移学习的 食品图像识别;(3)基于小样本学习的食品图像识 别和(4)基于增量学习的食品图像识别**.**
**
在食品图像识别算法快速发展的同时,用于评 估识别算法的数据集也在日益完善. 我们将在本节 中对食品图像识别的主流数据集进行概述,从中也 可以一窥食品图像识别的发展. 在介绍不同数据集 时,将主要从数据集规模、所属菜系及包含的上下 文信息和多模态信息等不同方面进行阐述,表 2 全 面总结了食品图像识别领域的数据集.
和其他识别方法类似,食品图像识别主要采用 Top-1和 Top-5分类准确率作为评价指标. Top-1分类 准确率表示测试图像中预测概率最大的类别与实际 类别相符的比例. Top-5 分类准确率表示测试图像中 预测概率最大的前 5 个预测类别包含实际类别的比 例. 另外性能评估包括 1-crop 和 10-crop 两种设置, 分别表示进行 1 次和 10 次裁剪进行数据增强. 此 外,近年来也有一些工作对人类在食品识别性能的 评估[45]进行了探讨。
食品图像识别在现实中具有广阔的应用前景. 例如食品图像识别通过自动识别食品类别,可进一 步实现后续的营养分析和卡路里估算. 在自助餐厅中,食品图像识别可以实现自动计费. 在生活中, 人们也可以通过简单拍照更好的了解他们不熟悉或 以前从未见过的食物,并了解其细节,例如烹饪方 法、食材、口味和营养成分等. 下面介绍几种代表 性的食品图像识别应用。
饮食质量评估(Dietary Assessment)是预防和 治疗各种慢性疾病(如糖尿病)的重要手段. 传统 的饮食管理方法主要依赖用户报告数据[167]. 一方 面,由于主观性和估计偏差,传统方法的准确性无 法保证,另一方面,频繁地报告数据会影响用户体 验. 随着计算机视觉的发展,学者们提出被动饮食 监测的概念[168],即依靠摄像机等传感器来记录饮食 情况并自动执行食品识别及后续任务. 在整个过程 中,食品图像识别是第一步,也是至关重要的一步, 在饮食管理系统中起着举足轻重的作用. 当前各种便携式拍摄设备(如手机和可穿戴相 机等)的普及使得自动高效的多媒体饮食日志记录 和饮食质量评估成为可能. Mezgec 等人[169]提出了 一种饮食管理系统,该系统可以从单个图像中识别 出用户一餐中含有的菜品条目,然后预测其营养成 分及热量等. 在整个系统中,食品识别模块采用基 于 CNN 的多标签分类器来预测一餐中含有的菜品 类别,预测得到的结果通过营养表查找和体积估算 等后续操作以预测相应的营养成分含量. 近来一 些工作[23,170-171]采用可穿戴的第一视角相机拍摄饮食 场景,通过菜品图像识别[170-171]或者饮食场景识别[23] 自动识别日常饮食或者饮食环境,对人的饮食习惯 研究及饮食管理具有重要的现实意义.
食品图像识别在餐厅、超市、农贸市场等各种 应用场景中可以实现食品的自动结算,提高结算效 率,降低运营成本,改善用户就餐或者购买体验. 例 如作为无人餐厅的核心技术之一,食品图像识别在 监控食品的消费量、对客户的点餐进行自动计费结 账等方面起着重要作用. 例如 Aguilar 等人[58]提出 了一种在食堂和饭店环境下对食物托盘进行自动分 析的方法,能够检测和预测托盘中的菜品类别,为 自助餐厅环境下的消费量监控和自动结账提供了重 要的技术支持. Xiao 等人[21]通过对食材的识别实现 其自动结算服务
在大数据时代, 各种社交媒体尤其是饮食或食 谱相关的网站通过食品图像识别方法可以进一步有效地组织和检索食品图像. 大规模的餐饮网站(例如 美团和 Yelp)为我们的日常饮食提供了便利. 引入食 品识别可满足人们了解不熟悉或未见过的食物,并 可进一步实现个性化菜品推荐. Min 等人[179]提出了 一个系统的食品推荐框架. 在整个系统中,食品图 像识别技术对理解用户需求及改进个性化推荐结果 有重要影响. 以美团为例,通过菜品图像识别算法 识别用户在评论区上传的食品图像的具体类别,可 根据识别结果对用户进行个性化食品推荐.
食品图像识别在智能厨具中也有广泛应用,最 为代表性的是智能冰箱. 食品图像识别是其核心功 能之一,在食品种类识别或者食品新鲜度识别方面 发挥重要作用. 例如 Zhang 等人[180]提出了一种智能 冰箱中的水果识别方法,该方法使用神经网络与多 模型融合技术进行水果识别. Zhu 等人[164]提出了一 种基于有监督 Transformer 网络的食品识别系统,能 够在含有多种食物的冰箱环境下检测和识别食品的 类别. Mohammad 等人[181]提出使用较少的传感器并 结合软件云平台进行冰箱食品监测. 整个计算框架 中,食品识别被用于感知后的食品分析过程. 该方 法基于卷积神经网络和迁移学习技术进行食品识 别. 除了智能冰箱外,食品识别还被应用于其他的 智能厨具中. 例如 Hashimoto 等人[182]基于食物追踪 和食材识别等设计了一种以人为中心的智慧厨房系 统. 一些研究工作[151],183]则是面向边缘设备的食品 图像识别. 例如 Liu 等人[151]设计了一种基于边缘计 算设备的食品识别系统. Liu 等人[183]提出了一种新 颖的边缘计算系统 EdgeVegfru,用于果蔬图像识别. 该系统能在有限时间和计算资源内表现出出色的识 别性能,可应用于自助超市和零售业等应用场景.
不健康的饮食习惯是罹患各种慢性疾病的重要 危险因素之一. 近年来,能够追踪个人日常食品摄 入量的饮食监测应用在技术界引起了广泛的关注. 随着各种便携式的智能穿戴设备的兴起,越来越多 的学者开始将这些饮食监测应用部署在智能穿戴设 备上. 食品图像识别作为饮食监测中一项基础和核 心的技术,其识别准确率对整个系统的性能有显著 的影响. Rachakonda 等人[184]提出了一个部署在智能 眼镜上的饮食监测系统. 该系统通过智能眼镜自动 地从现实环境中获取食品图像,然后使用基于卷积 神经网络的食品识别方法进行识别,并进一步进行 检测和摄入量估计,最后对用户进行压力分析以确 定用户的饮食状态. 最终实现对用户的饮食行为的 自动分析以发现生活中的过度饮食和压力饮食等问 题. 随着智能设备的进一步普及,饮食检测系统的 应用将越来越广泛,对嵌入式的高性能食品识别方 法的研究也将成为学者们的关注热点.
随着技术的发展,智能机器人逐渐被应用于人 们的日常生活中,其中一个重要的应用场景就是日 常饮食. 例如在无人餐厅中,传菜机器人和送菜机 器人被用于自动向顾客运送餐饮. 在智能餐厅中, 炒菜机器人被用于自动烹饪食品. 在物联网医疗 中,喂饭机器人能够向肢体残疾的人喂饭. Feng 等 人[185]为实现机器人辅助喂食,开发了一个咬合获取 框架,该框架将整个盘子图像作为输入、分割和识 别出菜品,并应用所提出的 SPANet 模型来选择目 标菜品和相应的动作提高辅助喂食成功率. 在这些 机器人的内部计算框架中,食品识别模块用于识别经传感器感知后的食品类别,并将识别结果送入分 析模块以获取食品的状态信息. 食品识别的性能关 系到智能机器人对食品的感知情况和后续决策,对 于智能机器人的发展有重要意义.
食品安全已成为亟待解决的社会问题. 当下, 高质量食品供给能力的短缺、监管资源和能力的不 足使得我国的食品安全形势日益严峻. 传统的基于 化学的检测方法周期冗长、流程复杂,很难大规模 地投入应用中. 得益于较快的评估速度和无损坏的 评估过程,基于计算机视觉的食品质量检测成为近 年来热门的研究方向. 在整个食品质量检测系统 中,稳健而准确的食品识别算法至关重要,能否精 准地识别自然环境下的食品类别将直接影响到系统 的评估性能. 同时也可以帮助食品监管部门追溯食 品信息、自动分拣过期食品, 从而加大食品安全的 监察力度[186-187].
在过去 10 年里,食品图像识别无论从算法设计 还是基准数据集构建都已经取得了一系列进展,识 别方法建立了以深度学习模型为基础的体系框架, 出现了菜品、果蔬和零售食品等不同类型的数据集. 在基于之前食品图像识别的基础上,本文接下来对 其存在的问题进行了讨论,并重点探讨了食品图像 识别的发展方向.
5.1 面向食品特点的食品图像识别方法
食品图像识别尽管从概念上来说属于细粒度图 像识别,但不同于传统的细粒度图像识别. 以主流 的菜品图像识别为例,一方面很多类的菜品图像具 有一定的细粒度特性,需要挖掘和放大局部的细节区域才可以有效地区分不同菜品类别. 另一方面, 很多菜品类别的差异和普通的图像识别也比较相 似,这就需要考虑食品图像的整体特征,使得类间 差比较大的类通过全局特征更容易区分. 因此设计 的菜品图像识别模型要兼顾这两个方面. 此外,常 规的细粒度识别任务通常挖掘固定的语义部件(例 如鸟类的头、胸和翅膀)以捕获图像判别性的视觉 特征. 然而很多类的菜品图像并不具有固定的语义 模式,很难像定义鸟类的翅膀和头部一样定义菜品 图像的局部判别性区域,因而也不能直接使用现有 的细粒度视觉分类方法来进行食品图像识别. 考虑 卷积神经网络强大的表达能力,如何充分挖掘食品 图像的特点设计针对性的神经网络用于食品图像识 别是未来重要的发展方向. 此外,随着智能便携式 设备、智能家居等的迅速普及,将食品图像识别应 用于移动设备和边缘设备上的需求日益增加. 因 此,基于轻量化卷积神经网络的食品图像识别也将 会受到越来越多关注.
5.2 构建大规模食品图像识别基准数据集
在当前深度学习时代,大规模 ImageNet 数据集[36] 促进了物体识别算法的发展. 同样,发展食品图像 识别技术,也需要大规模的食品图像数据集的支撑. 以主流的菜品数据集为例,目前确实存在一些基准 数据集,例如 ETHZ Food-101[15]和 Vireo Food-172[29] 及近来发布的 ISIA Food-500[42]. 但是,与 ImageNet 相比,这些数据集的类别和图像数量在规模上还不 够大. 构建食品识别数据集有其特殊的挑战. 例 如,以菜品为例,同一道菜因区域差异可能有几种 不同的名称. 同样,有些菜品虽被标记为相同的菜 品名称,但实际上属于包含不同食材的不同菜品. 另外重要的一点是 ImageNet依据 WordNet的标准概 念体系构建,而对于菜品数据集,东西方的菜品分 类体系具有明显的差异. 再比如包装食品,种类更 为庞杂,很难有统一标准的分类体系. 这也给构建 大规模食品图像识别数据集带来了困难. 因此针对 不同的食品类型,如何构建标准统一的菜品拓扑体 系是构建大规模食品数据集首要解决的问题. 此外 相比于 ImageNet,食品图像识别数据集的标注可能 需要专家标注,如何设计一种有效方案保证高质量 和低成本也是未来构建大规模食品图像识别数据集 需要解决的一个关键问题.
5.3 基于食品图像识别的新应用
目前食品图像识别已经应用到饮食质量评估、 食品自动结算、食品组织、检索和推荐等应用中, 但未来还有更多食品图像识别的应用场景,如在智 能厨具中,当前的智能烤箱依然需要根据所烤食物 手工选择对应的烘烤类型,如果在烤箱中加入摄像 头和食材识别算法,那么就可以实现烤箱的自动化 烘烤. 李等人[188]提出了一种智能烤箱及烘烤方法, 其中食品识别模块用于识别烤箱中的食材信息. 随 着食品图像识别算法的日益成熟,开拓新的应用场 景对推动未来食品图像识别的发展具有重要价值.
5.4 从食品图像识别走向检测和分割
当前食品图像识别的对象主要针对单一食品对 象的图像. 但是现实很多场景下,一张食品图像通 常包含多个食品识别对象,这时候就需要食品图像 的检测和分割[60,189-190]. 例如 Aguilar 等人[58]提出了一种在食堂和饭店环境下对食物托盘进行自动分析 的方法,能够自动地预测食物托盘中的多种食品类 别. 该方法将食品的定位、识别和细分集成到一个 框架中以进行食物托盘识别. 董[191]提出了一种基 于深度可分离卷积的轻量级食品识别方法,该方法 由食物检测网络和食物分类网络组成. 食物检测网 络使用深度可分离卷积和多层融合检测网络生成食 物区域的候选框并判断是否存在食物,食物分类网 络则根据候选框预测食物的类别标签. 深度可分离 卷积的广泛应用极大程度上降低了模型的计算成本 和额外开销,使得模型能够成功地部署在各种移动 设备上. 苏[60]和 Lu[189]考虑到了菜品检测数据集的 匮乏,采用了多目标分割算法识别图像中的菜品区 域,随后对候选区域通过提取 CNN 特征进行识别. 为了更有效解决现实世界中多个识别对象的问题, 食品图像的检测和分割是未来亟需探索的重要研 究方向.
食品图像识别在计算机视觉和多媒体等研究领 域中具有重要的理论意义和实际应用价值,但同时 目前仍存在诸多问题与挑战.本文首先从识别对象、 特征类型和学习方法三个维度总结了食品图像识别 的研究进展,然后介绍并分析了食品图像识别领域 主流的数据集及性能评价. 本文还从饮食质量评 估、食品自动结算、食品组织检索和推荐、智能厨 具、智能穿戴设备、餐饮机器人和食品安全等七个 方面介绍食品图像识别的典型应用. 最后本文还从 面向食品特点的图像识别方法、构建大规模食品图 像识别基准数据集、基于多传感器信息融合的食品 识别、基于食品图像识别的新应用、食品图像检测 和分割五个方面对食品图像识别的发展方向进行了 分析与展望. 随着更大规模的食品识别数据集的出 现,深度学习在食品图像识别中将有望取得进一步 的突破性进展,与此同时还将催生出更多的新应用.