阿里妹导读:视觉想象力是人与生俱来的, AI 能否拥有类似的能力呢?比如:给出一段故事情节,如何让机器展开它的想象力,“脑补”出画面呢?看看阿里AI Labs 感知实验室的同学们如何解决这个问题。
1. 背景 —— 视觉想象力(Visual Imagination)
1.1 什么是视觉想象力?
视觉想象力是人脑拥有的一个重要功能,可以将一些抽象的概念具象化,进而凭借这些视觉想象进行思考。如图1最左列,当我们想到:A yellow bird with brown and white wings and a pointed bill时,脑海里可能已经想象出了一幅黄色鸟的画面。这就是视觉想象力。我们的目标就是让AI逐步具备这种能力。 图1:由第一行中的文本描述,AI“想象”出的画面 [1]。
1.2 AI拥有视觉想象力后的影响?
AI如果具备视觉想象力后,将会更懂人的需求,并能够对一些传统行业产生颠覆性影响。下面举两个例子。 图2为一个在语义图像搜索领域中的案例。我们在google中搜索man holding fish and wearing hat on white boat,可能返回的结果质量为(a),引擎只是零星理解了我们的搜索意图。而当机器拥有一定视觉想象力后,它的搜索结果可能是(b),这将极大提升我们的信息检索效率,而这些信息是承载于图像中的。 图2:AI具备视觉想象力后将会对语义图像搜索产生重要影响 [2]。
[1] Qiao et al., MirrorGAN: Learning Text-To-Image Generation by Redescription, CVPR 2019.
[2] Johnson et al., Image Retrieval Using Scene Graphs, CVPR 2015. [3] https://github.com/SummitKwan/transparent_latent_gan [4] Zhang et al., StackGan: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks, ICCV 2017. [5] Johnson et al., Image Generation from Scene Graphs, CVPR 2018. [6] Krishna et al., Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations, IJCV 2017.
机器智能如此火热,该如何学习?
热门书籍+阿里机器智能创新案例,满足你对机器智能的所有学习需求。识别下方二维码或点击“阅读原文”立刻开始 AI 之路。