免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

2018 年 3 月 23 日 AI研习社 AI慕课

互联网存在大量的文本和图像数据。目前,文本匹配是搜索引擎非常重要的一个组成。而文本匹配也是自然语言处理中一个重要的基础问题。

例如,我们搜索一个网页,则是网页内容和用户搜索查询的一个相关性匹配问题。然而,我们不仅仅需要文本,有时候我们需要检索图像。比如,我需要检索“一个戴着帽子并穿着红色裙子的小女孩躺在一片长满鲜花的草地上”。检索这样一张图片,简单的文本和图像属性匹配已经很难做到了。

这样一个问题不仅仅需要理解文本还需要对图片理解,该技术是多个模式识别任务的核心算法。传统的方法是对文本和图像进行特征提取,然后对high-level特征进行匹配。然而,这种方法会陷入对属性的匹配,而没有考虑的图片的空间关系,例如,”女孩”,”帽子”和”草地”它们之间是有空间关系的,仅仅进行高层次特征匹配,显然无法考虑这点。

给定一段文字描述,我们想要检索到最符合描述的图像,一名画家可以比普通人找到更符合的图像,那是因为训练有素的画家知道预期的图片是什么样;同样,给一幅图片让我们检索最恰当的文字描述,一名作家也往往会给出比普通人更好的描述,因为作家具备更强的文字表达能力。我们把这种对检索目标有预期的过程称为--”Imagine”。基于这种思想,我们提出了一种基于生成模型的跨模态检索模型,我们取名为”所看所想所找”。

所看,我们看了图片或文字,并理解;

所想,我们脑补可能的匹配结果;

所找,我们根据脑补的结果和实际的结果去找需要的。

基于“文本匹配”及NLP的相关话题,AI慕课学院邀请了来自新加坡南洋理工大学的玖强博士3月27日(周二,晚8:30为大家带来一次主题分享!

公开课主题

从文本匹配到图文匹配: 

所见所想所找-基于生成模型的多模态检索

内容大纲

1. 单模态检索技术到多模态检索

  •   什么是单模态检索

  •   什么是多模态检索

  •   多模态检索问题的挑战

2. 所见所想所找

  •   所见:基于深度模型的图像和文本特征提取

  •   所想:基于生成模型的“脑补”

    a.从图像生成预期文本

    b.从文本生成预期图像

  •   所见:全局和局部双重匹配

讲师介绍

玖强博士,新加坡南洋理工大学博士,精通算法,软硬兼修,目前主要研究方向是计算机视觉和自然语言处理结合,例如,图像/视频理解, 图像/视频自动描述生成,人机对话,多模态检索。

在算法和神经网络方面,侧重卷积神经网络,递归神经网络,增强学习,对抗学习,无监督学习等。

发表多篇人工智能及计算机视觉顶级会议和期刊,包括CVPR(Spotlight), ICCV、AAAI(Oral)、PR等,并为多个会议和期刊审稿人。

上课时间

3月27日(周二 ) 晚上20:30-21:30

如何报名

直播平台:腾讯课堂 

报名方式:点击阅读原文或扫码进入课程页面直接报名

登录查看更多
44

相关内容

【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
26+阅读 · 2020年3月18日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
 图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
深度图像先验:无需学习即可生成新图像
论智
45+阅读 · 2017年12月4日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Image Captioning based on Deep Reinforcement Learning
Arxiv
11+阅读 · 2018年1月11日
VIP会员
Top
微信扫码咨询专知VIP会员