【科普】吴飞教授：《走进人工智能》---第10讲一幅画胜千言字？

2022 年 4 月 19 日 中国图象图形学学会CSIG

由高等教育出版社、高等教育电子音像出版社出品，浙江大学上海高等研究院联合上海人工智能实验室智能教育中心共同打造了原创人工智能前沿科普有声通识数字栏目——《走进人工智能》，主理人为浙江大学上海高等研究院常务副院长，浙江大学人工智能研究所所长、中国图象图形学学会理事、动画与数字娱乐专业委员会副主任 吴飞教授 ，本栏目已在喜马拉雅平台正式上线。

本期内容为《走进人工智能》：第10讲一幅画胜千言字？

《走进人工智能》

第10讲

从单通道独奏到多通道协同：跨媒体计算

一幅画胜千言字？

推理是人工智能的一块基石。跨媒体推理一般指从一种类型的数据出发，推理产生另外一种类型的数据，如看图说话或以图生文等等。

我们来看一个实例。给定一幅体育健儿的比赛图像，让智能算法自动生成描述文字，类似于“一群运动员在观众的呐喊声中你追我赶、快速奔跑”这种，这是一个挑战性难题。如果我们对图像内容进行推理，并翻译为文字信息，需要考虑翻译后的信息是否有丢失吗？也就是说，“对于图像视觉和文字文本这两种不同类型的数据，是否两者可以承载同样容量的信息？还是说其中一种类型的数据可以承载更多容量的信息？”。

古语有言“一幅画胜过千言字”，意思是说一幅画中所描绘的信息超过一千个文字所描绘的信息。孔子也曾说过“百闻不如一见”。反过来，很多时候文字所传递的文化内涵也能够超越图像本身，比如“山川异域，风月同天”和“鸟宿池边树，僧敲月下门”，这样的文字所描绘的精美场景也是难以通过画面来表达清楚的。

衡量数据中所包含信息量的大小是一个非常有趣的研究。1948年信息学之父香农（Shannon）在他著名的《通信的数学原理》论文中提出了“信息熵(entropy)”这个概念，用来解决信息的度量问题。汉语中本无“熵”这个字，1923年德国物理学家普朗克（M. Planck）来华讲学时，我国著名的物理学家胡刚复教授在现场口译时考虑到熵在表达形式上是两个量相除所得商，就在“商”字加“火”旁，创造了汉语的一个新术语“熵”。比较有趣的是，我国计算语言学的开拓者之一冯志伟先生计算出英语字母熵值为4.03比特、汉语文字熵值为9.65比特，可见中文较英文而言更加复杂。

从视觉信息产生文字信息、或者从文字信息生成视觉信息，本质上要学习不同类型数据之间的关联关系，比如在运动员这一视觉对象和运动员这一文本单词之间建立关联。一旦建立起不同类型的数据所蕴含信息之间的关联，就可以通过这种关联来实现跨媒体推理，比如跨媒体检索、以图生文、图像问答和音乐驱动视频生成等。

小结

2011年美国《科学》杂志发表了一篇题目为《心智何来？统计、结构与抽象》的文章，提出了对多源头、多领域、多类型数据进行自底向上抽象和自顶向下演绎相互结合的理念。荀子在《正名》这一文章中曾写到“能有所合谓之能”，明确指出将感知、认知、决策和行动等不同“能力”统合起来，才会形成人类之“能”。应该说，打通逻辑、语言、听觉和视觉之间鸿沟的跨媒体计算，反映了人类智能产生的本质。以上是这一讲的全部内容，下一讲我将介绍“从摩尔定律到黄氏定律：人工智能算力之源”。

产品名称：走进人工智能∣有声通识十五讲

主理人：吴飞

出品机构：高等教育出版社、高等教育电子音像出版社

合作机构：浙江大学上海高等研究院、上海人工智能实验室智能教育中心

出品时间：2022年1月

关于开展“2022 年度高等学校科学研究优秀成果奖（科学技术）-青年科学奖” 提名工作的通知

中国图象图形学学会关于开展“决策咨询专家团队”建设工作的通知

《Visual Intelligence》英文刊编辑招聘启事

关于开展2022年“最美科技工作者”学习宣传活动的通知

中国图象图形学学会高校志愿者招募

中国图象图形学学会关于组织开展科技成果鉴定的通知

2022年CSIG图像图形中国行承办方征集中

登录查看更多

相关内容

吴飞

关注 1

吴飞，浙江大学上海高等研究院、常务副院长、求是特聘教授、国家杰青获得者、浙江大学人工智能研究所所长；科技部重点研发计划项目负责人，主持国家自然科学基金重点项目2项。主要研究领域为人工智能、多媒体分析与检索和统计学习理论。入选“高校计算机专业优秀教师奖励计划”，曾获宝钢优秀教师奖。中国工程院院刊Engineering信息与电子工程学科执行主编。著有《人工智能导论：模型与算法》，开设国家级首批一流线上课程《人工智能：模型与算法》。

【ACL 2022】MIT——人工智能系统跨视频、音频和文本共享的学习概念：跨模态离散表征学习

专知会员服务

24+阅读 · 2022年5月6日

人工智能赋能教育专题《人工智能 + 教育：关键技术及典型应用场景》，北京师范大学

专知会员服务

60+阅读 · 2022年3月24日

《信息技术词汇第31部分:人工智能机器学习》国家标准，16页pdf

专知会员服务

71+阅读 · 2022年3月11日

【新书】感知和行动的贝叶斯模型，348页pdf

专知会员服务

75+阅读 · 2021年11月18日