图注:何晓东 来自京东数科的何晓东博士认为有效利用多模态信息是走向通用人工智能的非常重要的方向。因为人的信息肯定是从多个模态来的,很多信息光读文本很难判断。举个简单例子,光看文本不能区别出颜色的意义,红色、绿色对文本来说是个符号。所以从这个角度来说,多模态肯定是 AI 走向通用智能的重要方向。但另一方面,利用多模态信息也非常困难。比如“看图说话”这件事情以前一直做不了,是因为图片本身的模型算法和语言算法完全不一样,到了深度学习提出概念做Embedding以后,才看到一些有意思的新希望。近年有研究将不同模态的数据表示投影到统一的连续空间,在这个空间中做转换运算,将原始的输入转换为抽象的表达,从这些抽象的表达中生成文本或图像。在这类研究中,如何学习一个通用的共有的语义空间,使得不同模态的信号能进行比较或者进行计算转换,以及在不同模态之间如何做映射,都是值得研究的问题,也是最近逐渐兴起的研究方向。这个方向有些意义和用途,比如最近很多做人工智能内容生成的算法模型开始实用化,京东用类似的模型,给定商品规格、商品图片,就可以生成一段关于描述这个商品的广告词,这是一个很简单的应用。反过来也一样,例如画一幅画,描述画一只鸟,是蓝色的背、红色肚皮,模型就可以创作出来,可以做更多创作性应用。另外何晓东博士指出,孙茂松教授提出的三个挑战对应的愿景是很好的技术路线,是否能定义一个评价标准,或者是一个具体的任务,来作为向这些愿景前进的量化评判方法。例如知识图谱从“三缺其二”到“三分归一”中,对于三元组的知识现有的评价任务是QA,而“三缺其二”中的“其二”可能需要更具现实意义的大规模任务来判定,这个任务是什么。其他两个愿景也是如此,应该利用什么任务进行评判。