国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

【导读】中国科学院大学人工智能技术学院是国内首创该主题的学院，成立于2017年5月28日。因此在受邀为学院开课方面，我们将该课程具体定位为“前瞻理论综合，创新特色，国际水准”。胡包钢教授与赫然教授合作完成2018-2019年两次授课工作。

所谓“前瞻理论综合”是指信息论与机器学习有机结合。因为目前的机器学习课程主要是以统计学为教学内容。很多人也就认为人工智能与机器学习就是统计学。为此本章第20-39页讲解了统计学并非能够回答机器学习中的首要基本问题：“学什么？”或者称为“学习目标选择”的问题。而信息论将会扮演重要角色并是前瞻理论基础。所谓“前瞻”是指未来的机器学习目标中可能更多应用信息论原理与准则，并提供统一理论解释基础。在此我愿意用以下故事来讲解。

2017年9月23日国外的一篇报道（https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/）介绍深度学习三剑客之一的加拿大多伦多教授Hinton写信给以色列教授Tishiby并评价他发展的信息瓶颈（Information Bottleneck”）理论可以揭示深度学习本质，要学1万遍（原话：“I have to listen to it another 10,000 times to really understand it, but it’s very rare nowadays to hear a talk with a really original idea in it that may be the answer to a really major puzzle”）。所谓“信息瓶颈”理论中的基础就是应用了信息论中互信息定义。不要以为Hinton教授不熟悉信息论。1992年他的博士生Becker（之后她成为加拿大McMaster大学教授）与他本人于NIPS会议上发表机器学习方面论文（Becker, S., and Hinton, G. E., "Learning to make coherent predictions in domains with discontinuities". In NIPS, pp. 372-379, 1992.）就是应用了互信息为学习目标来解决无监督学习中无标准答案的问题。Hinton“教授形容要学1”万遍的语义内涵是信息论太深刻了，远远不是数学定义层面上的学习。设想一下人类大脑或深度学习不就是网络结构吗？机器学习结合信息论是揭示生物脑或机器脑智能本质的必要条件（非充分条件）。他们该项研究之后并未发展出更多后续工作，说明信“”息论与机器学习综合不是那么简单。

有关“创新特色”在第一章中首先体现在对机器学习基本问题的梳理。在介绍前人见解的同时，我们对机器学习基本问题的划分有利于理解各种学科在其中的地位和局限性。比如人机交互应用中的机器学习将更多需要社会科学、伦理学、认知科学方面的基础知识。我们期待第一章引言能够为研“究者带来机器学习研究的全新视角：即有基本问题之间“还原论+”整体论解释（第20页），还有对信息论地位的大胆猜想（第33“页）。我们在以后各章会介绍其它创新思想。授课中我们强调“学术思想大于技术细节”，并给出具体实例，并给出具体实例。

目标“国际水准”是指课程设置与内容质量在国际水准中可比较。由于当下十分活跃的人工智能发展，因此要包括更多前沿知识内容。可以看到网上有许多信息论与机器学习独立开设的教学课件。而两主题合并的课程本身就少之又少。本人应用约半年时间“还原论完成个人部分课件，采取英文编写课件正是期待中国的教学内容能够走向世界。很高兴这个课程从设置与内容上能够为同行教学提供参考样例，这与我们学院为中国首创与“面向国际学科前沿”目标是相称的。

此次公开我个人教学课件（共七章，共21学时）是为了更快更广地传播新知识。也是个人作品历史阶段记录。为促进思考与创新，课件中给出许多个人不成熟见解。欢迎同行引用、批评、发展课件内容并予以标注。之后各章内容会有更大的学习难度。希望同学们不要气馁。本人也是从原始基础很弱，外行起步自学信息论与机器学习方面知识，走到后来能够创造新知识。

自学中要力争一种境界：“学而时习之，不亦说乎”。

推荐读者阅读香港城市大学陈关荣教授介绍香农的一篇文章：“你遇见过香农吗？ http://www.ee.cityu.edu.hk/~gchen/pdf/Shannon.pdf

作业：

试给出你对机器学习或人工智能不同于第20页内容的个人见解讨论。（学习或研究中要避免只见树木不见森林，且无有个人独立见解的全局思考。“学”之中要有“思（新知识）”与“悟（大智慧）”的主动与反复过程。

2.你认为人工智能芯片或量子计算研究在机器学习基本问题中更偏属于哪个？”为什么？

如果你是正在开展机器学习研究，可否从学习目标方面给出创新考察，并有否包括广义约束的内容？”（要理解机器学习方法的不同更多是从学习目标选择方面不同。）

说明：

本课是针对有《机器学习》或《模式识别》知识背景的学生开设的课程。
有关课件内容难免存在问题。欢迎读者提出修正意见。

致谢：

特别致谢中国自然科学基金委的多次项目资助，保证我们长期学术发展与积累。
特别致谢我们学术团队中研究生们的学术贡献，具体贡献在各章文献中均有给出。
致谢赫然教授与李志航博士生，我们一起合作完成2018-2019年两次教学工作。
致谢所有听本课的学生对教学提出的建议与指正。
致谢《专知》公众号，为他们持久传播人工智能专业知识工作点赞。

信息系论基础

【导读】香农1948年发表的论文“通信的数学理论”不仅奠定了现代信息论的基础，他直接将通信工程问题抽象为数学理论问题的方法论特别值得学习。这实例充分说明智能本质的揭示或对大脑的深度认知最后是依赖数学层面上的描述。

信息论中最为基本的概念就是香农熵（第8页），由此可以导出信息论中其它各种定义，以至我们常规应用的其它经验式定义（以后会提到）。学习信息论基础知识时要避免仅是概念与定义的简单记忆，要尽量结合个人研究领域中的问题进行思考，并给出个人理解（如第20页中监督学习中的解释与思考）。这样有益于未来更快地发展创新工作。还要明白信息论理论仍在发展中，包括各种熵定义的不断出现。我们在第28页中示例了传统互信息定义在机器学习应用中的问题。可能这类问题在通讯领域的传统应用中不存在。为更好理解内容，建议读者对其中每个例题自行计算一下。你一定会有新的理解。对于有些内容现在无法理解（如第20页），不要着急。可以随着以后课程学习后，回头复习来不断理解。抱歉该课程未有提供视频或更多中文解说。基于本课件自学能够逐步理解也是能力的培养，从事科研工作必须要过这个关。建议有关作业尝试用笔记录回答一下，有益于反复思考。

ITML.pdf

信息论基础一.pdf

102

相关内容

信息论

关注 14

信息论（英语：information theory）是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。信息论将信息的传递作为一种统计现象来考虑，给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信道编码定理、信源－信道隔离定理相互联系。

【硬核书】理解机器学习：从理论到算法，449页pdf深度理解机器学习

专知会员服务

317+阅读 · 2020年5月28日

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

专知会员服务

69+阅读 · 2020年3月30日

国科大UCAS胡包钢教授《信息论与机器学习》课程第六讲：信息指标与拒识分类评价

专知会员服务

62+阅读 · 2020年3月23日

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

专知会员服务

52+阅读 · 2020年3月16日