互联网存在大量的文本和图像数据。目前,文本匹配是搜索引擎非常重要的一个组成。而文本匹配也是自然语言处理中一个重要的基础问题。
例如,我们搜索一个网页,则是网页内容和用户搜索查询的一个相关性匹配问题。然而,我们不仅仅需要文本,有时候我们需要检索图像。比如,我需要检索“一个戴着帽子并穿着红色裙子的小女孩躺在一片长满鲜花的草地上”。检索这样一张图片,简单的文本和图像属性匹配已经很难做到了。
这样一个问题不仅仅需要理解文本还需要对图片理解,该技术是多个模式识别任务的核心算法。传统的方法是对文本和图像进行特征提取,然后对high-level特征进行匹配。然而,这种方法会陷入对属性的匹配,而没有考虑的图片的空间关系,例如,”女孩”,”帽子”和”草地”它们之间是有空间关系的,仅仅进行高层次特征匹配,显然无法考虑这点。
给定一段文字描述,我们想要检索到最符合描述的图像,一名画家可以比普通人找到更符合的图像,那是因为训练有素的画家知道预期的图片是什么样;同样,给一幅图片让我们检索最恰当的文字描述,一名作家也往往会给出比普通人更好的描述,因为作家具备更强的文字表达能力。我们把这种对检索目标有预期的过程称为--”Imagine”。基于这种思想,我们提出了一种基于生成模型的跨模态检索模型,我们取名为”所看所想所找”。
所看,我们看了图片或文字,并理解;
所想,我们脑补可能的匹配结果;
所找,我们根据脑补的结果和实际的结果去找需要的。
基于“文本匹配”及NLP的相关话题,AI慕课学院邀请了来自新加坡南洋理工大学的玖强博士3月27日(周二,晚8:30)为大家带来一次主题分享!
公开课主题
从文本匹配到图文匹配:
所见所想所找-基于生成模型的多模态检索
内容大纲
1. 单模态检索技术到多模态检索
什么是单模态检索
什么是多模态检索
多模态检索问题的挑战
2. 所见所想所找
所见:基于深度模型的图像和文本特征提取
所想:基于生成模型的“脑补”
a.从图像生成预期文本
b.从文本生成预期图像
所见:全局和局部双重匹配
讲师介绍
玖强博士,新加坡南洋理工大学博士,精通算法,软硬兼修,目前主要研究方向是计算机视觉和自然语言处理结合,例如,图像/视频理解, 图像/视频自动描述生成,人机对话,多模态检索。
在算法和神经网络方面,侧重卷积神经网络,递归神经网络,增强学习,对抗学习,无监督学习等。
发表多篇人工智能及计算机视觉顶级会议和期刊,包括CVPR(Spotlight), ICCV、AAAI(Oral)、PR等,并为多个会议和期刊审稿人。
上课时间
3月27日(周二 ) 晚上20:30-21:30
如何报名
直播平台:腾讯课堂
报名方式:点击阅读原文或扫码进入课程页面直接报名