We propose a novel method for predicting image labels by fusing image content descriptors with the social media context of each image. An image uploaded to a social media site such as Flickr often has meaningful, associated information, such as comments and other images the user has uploaded, that is complementary to pixel content and helpful in predicting labels. Prediction challenges such as ImageNet~\cite{imagenet_cvpr09} and MSCOCO~\cite{LinMBHPRDZ:ECCV14} use only pixels, while other methods make predictions purely from social media context \cite{McAuleyECCV12}. Our method is based on a novel fully connected Conditional Random Field (CRF) framework, where each node is an image, and consists of two deep Convolutional Neural Networks (CNN) and one Recurrent Neural Network (RNN) that model both textual and visual node/image information. The edge weights of the CRF graph represent textual similarity and link-based metadata such as user sets and image groups. We model the CRF as an RNN for both learning and inference, and incorporate the weighted ranking loss and cross entropy loss into the CRF parameter optimization to handle the training data imbalance issue. Our proposed approach is evaluated on the MIR-9K dataset and experimentally outperforms current state-of-the-art approaches.


翻译:我们提出一种新的方法来预测图像标签, 将图像内容描述符与每张图像的社交媒体背景混在一起。 上传到Flickr等社交媒体网站的图像通常拥有有意义的相关信息, 如评论和用户上传的其他图像, 这与像素内容是互补的, 有助于预测标签。 预测挑战, 如图像Net ⁇ cite{imagenet_ cvpr09} 和 MSCOCO ⁇ cite{LinMBHPRDZ:ECCV14} 仅使用像素, 而其他方法则纯粹从社交媒体背景做出预测 \ cite{McAuleyECCV12}。 我们的方法基于一个全连通的有条件随机字段(CRF)框架, 其中每个节点都是图像的补充, 包括两个深层进化神经网络(CNNN)和一个常规神经网络(RNNNN), 用来模拟文字和视觉节点/图像信息。 通用报告格式的边缘重量代表文本相似性和基于链接的元元元元元数据, 如用户设置和图像组, 我们的模型和图像模型的模型, 将模型的模型的模型 升级的模型的模型到模型的模缩缩缩缩压数据纳入。

6
下载
关闭预览

相关内容

条件随机域(场)(conditional random fields,简称 CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 如同马尔可夫随机场,条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在效率较高的算法可供演算。
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
CoCoNet: A Collaborative Convolutional Network
Arxiv
6+阅读 · 2019年1月28日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
4+阅读 · 2018年2月19日
VIP会员
Top
微信扫码咨询专知VIP会员