2022年2月,北京工商大学计算机学院李海生教授团队:王薇(1作),董笑笑,李海生*(通讯)和中国科学院计算技术研究所蒋树强研究员团队:闵巍庆*(2作,通讯),李天浩,蒋树强,联合在Trends in Food Science & Technology (Q1,IF:12.563)上发表题为“A review on vision-based analysis for automatic dietary assessment”的综述性论文。
营养缺乏和营养过剩是世界性的营养安全问题,各国均存在多种形式的营养不良,同时面临儿童营养不足、女性贫血和成人肥胖率高等问题。由营养问题引发的糖尿病、高血压等疾病呈高增长态势,《国民营养计划(2017-2030年)》指出,我国国民营养健康状况主要体现为营养缺乏与营养过剩并存。但由于人们缺乏对于膳食专业知识的了解,难以判断什么是合理健康的饮食,因此通过相关专业工具与技术分析帮助和引导人们进行合理的膳食显得尤为重要。
近年来,计算机视觉的快速发展使得自动的膳食评估成为可能。本文总结出两种基于视觉分析的膳食评估框架。针对多阶段膳食评估框架,从面向食品图像的识别、检测和分割等方面全面论述了食物图像分析的相关工作,然后对体积估计方法进行了系统性阐述,同时剖析了该框架存在的问题。在此基础上系统总结了端到端的膳食评估框架,并对相关工作进行梳理。本研究能够丰富人们对于膳食评估的认识,并鼓励相关研究人员针对基于视觉分析的营养评估提出更实用的解决方案。
综述亮点:
总结了两种基于视觉分析的膳食评估架构;
论述了多阶段架构中识别、检测与分割的食物图像分析方法;
梳理了基于端到端的膳食评估相关工作;
综述结论:
基于视觉分析的膳食评估方式允许用户通过移动或者可穿戴设备进行食物图片的拍摄,甚至于拍摄进食场景,轻松量化食物摄入。它不仅可以减轻手工记录饮食所带来的负担,还可以提供即时的膳食评估,在有效的饮食检测及控制等方面显示出巨大潜力。
多阶段膳食评估方式改进了许多基线方法,但仍存在一些局限性。比如,多阶段架构需要定义每阶段的输入与输出,这意味着早期阶段的潜在有用信息难以传递或用于改进预测。
联合多任务学习与端到端的深度学习方法是膳食评估发展的重要趋势。
未来可以从建立大规模基准数据集、细粒度的食品图像视觉分析、体积估计精度的改进及智能饮食管理等方面对该领域进行深入探索。
摘要
营养缺乏和营养过剩是世界性的营养安全问题,各国均存在多种形式的营养不良,同时面临儿童营养不足、女性贫血和成人肥胖率高等问题。由营养问题引发的糖尿病、高血压等疾病呈高增长态势,《国民营养计划(2017-2030年)》指出,我国国民营养健康状况显著体现为营养缺乏与营养过剩并存。但是由于人们缺乏对于膳食专业知识的了解,以至于难以判断什么是合理而健康的饮食。因此,通过相关专业工具或者渠道帮助和引导人们进行合理的膳食显得尤为重要。
近年来,计算机视觉的快速发展使得自动的膳食评估成为可能。本文提出两种基于视觉分析的膳食评估框架。针对多阶段膳食评估框架,从面向食品图像的识别、检测和分割等方面全面论述了食物图像分析的相关工作,然后对体积估计方法进行了系统性阐述,同时剖析了该框架存在的问题。在此基础上系统总结了端到端的膳食评估框架,并对相关工作进行梳理。本研究能够丰富人们对于膳食评估的认识,并鼓励相关研究人员针对基于视觉分析的营养评估提出更实用的解决方案。
营养不良,如营养不良、超重和肥胖等,越来越被认为是最大的健康和社会挑战之一。2020年,3900万5岁以下儿童因摄入高脂肪和高能量食物等不健康饮食而超重或肥胖。根据世界卫生组织下属国际癌症研究机构(IARC)的研究,目前有充分的证据表明体脂过多与13种癌症的风险增加有关,例如结肠直肠癌、肾癌、食管癌等。幸运的是,通过饮食评估可以预防肥胖和许多慢性病,饮食评估可以监测日常食物摄入并控制饮食习惯。此外,我们可以利用这些饮食数据来分析饮食模式与某些疾病之间的关系,并实现个性化营养。因此,饮食评估已成为计算机视觉、医学、营养健康等多个领域广泛关注的焦点。
近年来,研究人员探索了各种膳食评估方法,如24小时饮食回忆(24-HDR)和食物频率问卷(FFQ)。其中,24小时饮食回忆是短期评估中常用的主观方法,FFQ可被视为一种长期饮食评估方法。这些传统方法的实施主要涉及纸质问卷或者基于访谈的工具,它们为营养研究的发展做出了重要贡献。然而,这些手动记录方法耗时且不准确,并且要求用户具有一定水平的读写能力和沟通技能。因此,对于儿童、青少年和老年人等特殊人群,传统方法使得研究过程更加困难,通常难以进行大规模的评估。人工智能的迅猛发展为基于视觉分析的膳食评估(Vision-Based Dietary Assessment,VBDA)提供了强有力的支撑。VBDA允许用户通过移动或可穿戴设备拍摄食物图片,通过食品图像的深层次分析自动预测摄入食物的营养信息。不仅可以减轻手动记录食物的负担,还可以为用户提供即时的饮食评估,在饮食监测和膳食控制方面显示出巨大的潜力。
图1 基于视觉分析的膳食评估的代表性工作
早期膳食评估方式以多阶段为主,包括食物图像分析、体积估计以及营养预测。每个阶段都有其特定的任务,相互衔接以获取食物营养信息。前两个阶段的性能在很大程度上取决于使用的AI算法以及可用的食物营养数据集,而最后一个阶段则依赖于食物营养数据库。多阶段VBDA构架改进了许多膳食评估方法,但仍存在一些局限性。首先,该架构需要在每个阶段单独定义和优化,而他们的准确性仍然是一个挑战。其次,多步骤易于造成误差积累,并对后续操作产生影响。最后,该方法依赖于大量数据和食物图像中的附加信息(如体积)的像素级标注。随着深度学习的繁荣发展,研究人员探索了一种采用单一网络取代复杂阶段的方法,即端到端的膳食评估架构。该架构强调单一模型,只需指定原始输入以及最终输出,而神经网络学习到的信息是内部相关的。更多细节描述详见文章 Section 2。
(a)
(b)
图2 基于视觉分析的膳食评估框架:(a)多阶段膳食评估和(b)端到端膳食评估框架。
在本节中,我们介绍了营养评估数据集及评价指标。表3从不同方面详细介绍了现有的营养评估数据集,如数据集大小、类别、体积、大量营养素(即碳水化合物、蛋白质和脂肪)。一个膳食评估系统应该在多个方面进行评估,例如准确性、运行时间和资源需求。然而,大多数研究人员只关注评估准确性的指标。对于多阶段方法,应针对每个阶段进行评估。相比之下,端到端方法应作为一个整体进行评估,这类似于多阶段方法的最后一个阶段。由于每个阶段的不同,评估指标按输出类型进行分类和总结。更多细节描述详见文章 Section 5。
营养健康问题是当今世界面临的重大挑战,目前正受到越来越广泛的关注。VBDA是目前热门且具有挑战性的研究领域之一,已逐渐取代传统的膳食评估方法。根据对现有工作的全面讨论,我们阐明了关键挑战。未来可以从建立大规模基准数据集、实现细粒度的视觉分析、提高体积估计精度以及智能饮食管理等多个方面对该领域进行深入探索。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“FST” 就可以获取《【AI与食品】北工商中科院计算所最新《基于视觉分析的膳食评估》综述性论文》专知下载链接