本期内容为《走进人工智能》:第10讲 一幅画胜千言字?
《走进人工智能》
一幅画胜千言字?
推理是人工智能的一块基石。跨媒体推理一般指从一种类型的数据出发,推理产生另外一种类型的数据,如看图说话或以图生文等等。
我们来看一个实例。给定一幅体育健儿的比赛图像,让智能算法自动生成描述文字,类似于“一群运动员在观众的呐喊声中你追我赶、快速奔跑”这种,这是一个挑战性难题。如果我们对图像内容进行推理,并翻译为文字信息,需要考虑翻译后的信息是否有丢失吗?也就是说,“对于图像视觉和文字文本这两种不同类型的数据,是否两者可以承载同样容量的信息?还是说其中一种类型的数据可以承载更多容量的信息?”。
古语有言“一幅画胜过千言字”,意思是说一幅画中所描绘的信息超过一千个文字所描绘的信息。孔子也曾说过“百闻不如一见”。反过来,很多时候文字所传递的文化内涵也能够超越图像本身,比如“山川异域,风月同天”和“鸟宿池边树,僧敲月下门”,这样的文字所描绘的精美场景也是难以通过画面来表达清楚的。
衡量数据中所包含信息量的大小是一个非常有趣的研究。1948年信息学之父香农(Shannon)在他著名的《通信的数学原理》论文中提出了“信息熵(entropy)”这个概念,用来解决信息的度量问题。汉语中本无“熵”这个字,1923年德国物理学家普朗克(M. Planck)来华讲学时,我国著名的物理学家胡刚复教授在现场口译时考虑到熵在表达形式上是两个量相除所得商,就在“商”字加“火”旁,创造了汉语的一个新术语“熵”。比较有趣的是,我国计算语言学的开拓者之一冯志伟先生计算出英语字母熵值为4.03比特、汉语文字熵值为9.65比特,可见中文较英文而言更加复杂。
从视觉信息产生文字信息、或者从文字信息生成视觉信息,本质上要学习不同类型数据之间的关联关系,比如在运动员这一视觉对象和运动员这一文本单词之间建立关联。一旦建立起不同类型的数据所蕴含信息之间的关联,就可以通过这种关联来实现跨媒体推理,比如跨媒体检索、以图生文、图像问答和音乐驱动视频生成等。
小结
产品名称:走进人工智能∣有声通识十五讲
主理人:吴飞
出品机构:高等教育出版社 、高等教育电子音像出版社
合作机构:浙江大学上海高等研究院、上海人工智能实验室智能教育中心
出品时间:2022年1月