【导读】中国科学院大学人工智能技术学院是国内首创该主题的学院,成立于2017年5月28日。因此在受邀为学院开课方面,我们将该课程具体定位为“前瞻理论综合,创新特色,国际水准”。胡包钢教授与赫然教授合作完成2018-2019年两次授课工作。
所谓“前瞻理论综合”是指信息论与机器学习有机结合。因为目前的机器学习课程主要是以统计学为教学内容。很多人也就认为人工智能与机器学习就是统计学。为此本章第20-39页讲解了统计学并非能够回答机器学习中的首要基本问题:“学什么?”或者称为“学习目标选择”的问题。而信息论将会扮演重要角色并是前瞻理论基础。所谓“前瞻”是指未来的机器学习目标中可能更多应用信息论原理与准则,并提供统一理论解释基础。在此我愿意用以下故事来讲解。
2017年9月23日国外的一篇报道(https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/)介绍深度学习三剑客之一的加拿大多伦多教授Hinton写信给以色列教授Tishiby并评价他发展的信息瓶颈(Information Bottleneck”)理论可以揭示深度学习本质,要学1万遍(原话:“I have to listen to it another 10,000 times to really understand it, but it’s very rare nowadays to hear a talk with a really original idea in it that may be the answer to a really major puzzle”)。所谓“信息瓶颈”理论中的基础就是应用了信息论中互信息定义。不要以为Hinton教授不熟悉信息论。1992年他的博士生Becker(之后她成为加拿大McMaster大学教授)与他本人于NIPS会议上发表机器学习方面论文(Becker, S., and Hinton, G. E., "Learning to make coherent predictions in domains with discontinuities". In NIPS, pp. 372-379, 1992.)就是应用了互信息为学习目标来解决无监督学习中无标准答案的问题。Hinton“教授形容要学1”万遍的语义内涵是信息论太深刻了,远远不是数学定义层面上的学习。设想一下人类大脑或深度学习不就是网络结构吗?机器学习结合信息论是揭示生物脑或机器脑智能本质的必要条件(非充分条件)。他们该项研究之后并未发展出更多后续工作,说明信“”息论与机器学习综合不是那么简单。
有关“创新特色”在第一章中首先体现在对机器学习基本问题的梳理。在介绍前人见解的同时,我们对机器学习基本问题的划分有利于理解各种学科在其中的地位和局限性。比如人机交互应用中的机器学习将更多需要社会科学、伦理学、认知科学方面的基础知识。我们期待第一章引言能够为研“究者带来机器学习研究的全新视角:即有基本问题之间“还原论+”整体论解释(第20页),还有对信息论地位的大胆猜想(第33“页)。我们在以后各章会介绍其它创新思想。授课中我们强调“学术思想大于技术细节”,并给出具体实例,并给出具体实例。
目标“国际水准”是指课程设置与内容质量在国际水准中可比较。由于当下十分活跃的人工智能发展,因此要包括更多前沿知识内容。可以看到网上有许多信息论与机器学习独立开设的教学课件。而两主题合并的课程本身就少之又少。本人应用约半年时间“还原论完成个人部分课件,采取英文编写课件正是期待中国的教学内容能够走向世界。很高兴这个课程从设置与内容上能够为同行教学提供参考样例,这与我们学院为中国首创与“面向国际学科前沿”目标是相称的。
此次公开我个人教学课件(共七章,共21学时)是为了更快更广地传播新知识。也是个人作品历史阶段记录。为促进思考与创新,课件中给出许多个人不成熟见解。欢迎同行引用、批评、发展课件内容并予以标注。之后各章内容会有更大的学习难度。希望同学们不要气馁。本人也是从原始基础很弱,外行起步自学信息论与机器学习方面知识,走到后来能够创造新知识。
自学中要力争一种境界:“学而时习之,不亦说乎”。
推荐读者阅读香港城市大学陈关荣教授介绍香农的一篇文章:“你遇见过香农吗? http://www.ee.cityu.edu.hk/~gchen/pdf/Shannon.pdf
作业:
2.你认为人工智能芯片或量子计算研究在机器学习基本问题中更偏属于哪个?”为什么?
说明:
致谢:
信息系论基础
【导读】香农1948年发表的论文“通信的数学理论”不仅奠定了现代信息论的基础,他直接将通信工程问题抽象为数学理论问题的方法论特别值得学习。这实例充分说明智能本质的揭示或对大脑的深度认知最后是依赖数学层面上的描述。
信息论中最为基本的概念就是香农熵(第8页),由此可以导出信息论中其它各种定义,以至我们常规应用的其它经验式定义(以后会提到)。学习信息论基础知识时要避免仅是概念与定义的简单记忆,要尽量结合个人研究领域中的问题进行思考,并给出个人理解(如第20页中监督学习中的解释与思考)。这样有益于未来更快地发展创新工作。还要明白信息论理论仍在发展中,包括各种熵定义的不断出现。我们在第28页中示例了传统互信息定义在机器学习应用中的问题。可能这类问题在通讯领域的传统应用中不存在。为更好理解内容,建议读者对其中每个例题自行计算一下。你一定会有新的理解。对于有些内容现在无法理解(如第20页),不要着急。可以随着以后课程学习后,回头复习来不断理解。抱歉该课程未有提供视频或更多中文解说。基于本课件自学能够逐步理解也是能力的培养,从事科研工作必须要过这个关。建议有关作业尝试用笔记录回答一下,有益于反复思考。