Food recognition has received more and more attention in the multimedia community for its various real-world applications, such as diet management and self-service restaurants. A large-scale ontology of food images is urgently needed for developing advanced large-scale food recognition algorithms, as well as for providing the benchmark dataset for such algorithms. To encourage further progress in food recognition, we introduce the dataset ISIA Food- 500 with 500 categories from the list in the Wikipedia and 399,726 images, a more comprehensive food dataset that surpasses existing popular benchmark datasets by category coverage and data volume. Furthermore, we propose a stacked global-local attention network, which consists of two sub-networks for food recognition. One subnetwork first utilizes hybrid spatial-channel attention to extract more discriminative features, and then aggregates these multi-scale discriminative features from multiple layers into global-level representation (e.g., texture and shape information about food). The other one generates attentional regions (e.g., ingredient relevant regions) from different regions via cascaded spatial transformers, and further aggregates these multi-scale regional features from different layers into local-level representation. These two types of features are finally fused as comprehensive representation for food recognition. Extensive experiments on ISIA Food-500 and other two popular benchmark datasets demonstrate the effectiveness of our proposed method, and thus can be considered as one strong baseline. The dataset, code and models can be found at http://123.57.42.89/FoodComputing-Dataset/ISIA-Food500.html.


翻译:多媒体社区对粮食的认识越来越受到关注,因为其各种现实世界应用,如饮食管理和自助餐厅等,已经得到越来越多的关注。为了发展先进的大规模粮食确认算法,以及为这种算法提供基准数据集,迫切需要大规模粮食图像肿瘤学。为了鼓励在粮食确认方面取得进一步进展,我们采用了维基百科清单中的500个类别的ISIA粮食500数据集和399 726个图像,一个更全面的食品数据集,按照类别覆盖率和数据量,超过了现有的流行基准数据集。此外,我们提议建立一个堆叠的全球-地方关注网络,由两个次级网络组成,用于粮食确认。一个次级网络首先利用混合的空间频道关注来提取更多的歧视性特征,然后将这些多层次的多层次歧视特征汇总成全球代表(如维基百科维基百中的文本和关于粮食的信息)。另外一组则通过分级空间变压变压器生成了不同区域的注意区(如相关区域),并进一步汇总了从不同层次的500个区域特征,从不同层次的多尺度区域,即区域数据500个区域,从而展示了当地一级的数据格式。这两类是作为我们的拟议基准数据基数数据格式,这两类,可以被视为。 。这两种类型,可以考虑采用两种方法,可以用来作为主流数据。

2
下载
关闭预览

相关内容

专知会员服务
110+阅读 · 2020年3月12日
近期必读的5篇 CVPR 2019【图卷积网络】相关论文和代码
专知会员服务
33+阅读 · 2020年1月10日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Arxiv
4+阅读 · 2019年12月2日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
VIP会员
Top
微信扫码咨询专知VIP会员