基于信息理论的机器学习

2017 年 11 月 23 日 专知 胡包钢
基于信息理论的机器学习

点击上方“专知”关注获取专业AI知识!

【导读】今天,专知很荣幸邀请到中科院自动化研究所胡包钢研究员分享他最近在国际神经信息处理会议ICONIP上做的教学报告。在这篇报告中,作者相信信息学习理论将会成为未来机器学习理论发展中更为重要的基础内容。在今年Yann LeCun教授访问中国科学院自动化所之际,作者将自己的一篇观点文章分享与他作为学术交流。深度学习近年来在各个领域取得了巨大的成功,然而深度神经网络的可解释性及其理论一直是一个问题。利用信息论来解释神经网络的文章也逐渐引起关注,比如《Deep Learning and the information Bottleneck Principle》《Opening the Black Box of Deep Neural Networks via Information》,深度学习先驱Geoffery Hinton也曾评价该文章”信息瓶颈极其有趣…或许是解开谜题的那把钥匙”。在本次报告中,作者从自己的理解介绍了信息学习理论与机器学习的区别与联系,希望能够给读者带来启发。文章末尾附有胡老师的信息理论学习的教程报告pdf下载

纵观过去十几年机器学习取得的成功,从理论视角来看,主要得益于统计学与优化理论的重要支撑,而其他理论视角却关注较少。在本讲座中,作者以新的视角来描述机器学习问题,也就是”What to learn”, “How to learn”, “What to evaluate”, “How to evaluate”这个四个基本问题。本讲座认为,统计学与优化理论主要是解决“How to learn”的问题,而无法回答“what to learn”的科学问题。


为了回答,作者对比了信息学习理论与机器学习的联系与差别,以分类学习为例,希望读者理解信息论目标或准则的重要发展趋势及其独特优点,如拒识分类中能够实现代价缺失学习。讲座中用图形方式解释了这些准则(如KL散度,交叉熵,互信息之间)之间的关联,以及局限性(如KL(T,Y)=0,不意味着两类样本的等同)。


概述




本次tutorial的目的是,1.介绍信息学习理论与模式识别的基本概念与原理;2.揭示最新的理论研究进展;3.从机器学习与人工智能的研究中启发思索。由于时间有限,本次只是大概介绍一下本次tutorial的内容,后续会详细介绍每一部分。

  • 介绍



在机器学习中,经验学习准则一般基于经验函数,如误差、泛化误差、误差边界、风险、损失、准确率、召回率等;而信息学习理论准则通常是基于熵的函数,如信息熵、信息散度、交叉熵、互信息等。


那么,对于一个机器学习问题,我们应该选择哪种学习准则作为目标?我们是否可以将基于熵的函数作为理解机器学习机制的统一理论呢?信息学习准则与经验学习准则之间的关系,以及使用信息学习准则的优势与局限是什么呢?


我认为机器学习可分为四个基本的问题,“what to learn”, “how to learn”, “what to evaluate”, “what to adjust”。


“what to learn” 是指学习目标的选择,要学习什么以及选择什么度量方式, 它通常由目标函数,优化方法与约束条件组成;”what to evaluate” 是指度量函数;这两个问题在计算表达与可解释层面组成了机器学习的初级问题;在这个基础上,”how to learn”是次级问题,它表示在满足所有约束条件下达到学习目标的学习过程设计与实现;第三级问题是”what to adjust”, 体现了机器在实现智能动态进化或成长的功能。


在大部分的机器学习与模式识别研究中,关注更多的是”how to learn”与”what to evaluate”的问题,但是”what to learn”以及”how to adjust”的问题却很少被研究,而他们也是机器学习更加智能的关键,如果学习目标是错误的,即使再好的学习方法也无法达到目标;而不知道如何调整机器学习组件,也就无法提升机器智能的层次。


老子在《道德经》中写到,“道生一,一生二,二生三,三生万物”, 可见万事万物皆有其本源的道理,寻找这种统一思想从两千多年前就是人们探索事物本质的一种方式。在人工智能的发展过程中,人们也曾尝试提出统一的思想框架,如上图所示。本人认为,机器学习的本质是从数据中提取和学习有用信息的过程,而信息论为信息的处理提供了坚实的理论框架,基于信息论的机器学习理论将会在今后机器学习的发展中扮演重要的角色,或许会成为机器学习统一理论的基石。



  • 信息论基础



在这一部分,首先介绍熵的概念,它是随机变量不确定度的度量。如下,香农熵的计算形式,二值熵函数。



但是,先有熵还是先有概率?这仍然需要我们去理解哪一个是源哪一个是流。例如最大熵PCA的例子。




这是在比较几种信息度量。


在上图中,监督学习中信息度量的图式理解,这个图很重要,T表示目标变量,H(T)是分类问题的基线;优化算法优化目标尽可能接近这个基线,但是直接优化交叉熵H(Y;T),KL散度,条件熵并不一定能达到目的。只有互信息作为一种相似性的度量,拥有对称的属性。


然后是介绍其他基于熵的度量方式以及不同散度的定义。


信息论源自于熵的概念,熵的数学定义形式会随着信息论的发展不断拓展;如果我们用类比的方式理解信息度量,比如,熵看作单一随机变量的偏差;互信息看作两个随机变量的协方差;归一化的互信息看作两个随机变量的相关系数;散度看作两个随机变量的一种距离度量。可以从中得到许多启发。


参考文献

New Theory Cracks Open the Black Box of Deep Learning:

https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/


胡包研究员个人主页:

http://www.escience.cn/people/hubaogang/index.html


胡包钢老师简介:

胡包钢老师是机器学习与模式识别领域的知名学者,1993年在加拿大McMaster大学获哲学博士学位。1997年9月回国前在加拿大MemorialUniversity of Newfoundland, C-CORE研究中心担任高级研究工程师。目前为中国科学院自动化研究所研究员。2000-2005年任中法信息、自动化、应用数学联合实验室(LIAMA)中方主任。


▌PPT



附上胡老师讲座的PPT内容,PPT内容非常翔实精彩,后续胡老师会在专知平台上会持续对PPT内容的各个部分进行解读,敬请期待!文末有最新PPT下载链接


 Information Theoretic Learning in Pattern Classification






特别提示-信息论报告下载

请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“ITL” 就可以获取胡老师报告的pdf下载链接~


-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃集合】人工智能领域主题知识资料全集[ 持续更新中](入门/进阶/论文/综述/视频/专家等,附查看)

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请关注我们的公众号,获取人工智能的专业知识。扫一扫关注我们的微信公众号。

点击“阅读原文”,使用专知

登录查看更多
14

相关内容

【导读】本章是应用信息指标对拒识分类结果进行评价考察的内容,在不平衡数据学习中首次同时考察了“误差类别(error types)”与“拒识类别(reject types)”。

拒识分类体现人类智能决策方式,也是大数据中“分而治之”的重要方法之一,以实现快速筛选与减少风险的双重目标。如第4页中的医学诊断,图中的U即是“拒识”也是“疑似病人”。值此机会,特别致谢那些奋战在疫情前线的所有医护人员,志愿者与工作人员们。正如著名演员周星驰先生2月21日对四川前往武汉的第一批医疗队队长雷波医生说的“看到你们为了挽救生命全副武装的紧箍咒,你们是我心中的盖世英雄”。向英雄们致敬!

各种传统评价指标在拒识分类应用中已经失效。英国剑桥大学Mackay教授在其2003年经典著作中以两个例题(第8页)指出了拒识分类评价这个问题(在此致谢杨余久博士告知我有关信息)。书中建议应用互信息指标来评价考察两个例题,但未有展开研究。基于该思想,我们扩展到更多信息指标来综合考察,并将拒识分类延伸到区分“误差类别”与“拒识类别”的研究内容。由于问题复杂性,我们简化为四个例题来同时考察“误差类别”与“拒识类别”(第11页)。可以具体看到传统分类评价指标已经无法“合理”判定拒识分类结果。针对问题,我们首先提出拒识分类中要有三组“元准则(即关于准则之上的准则,也可以理解为是一种广义约束)”来满足“合理”评价(第12-15页)。然后应用24个信息指标来考察四个例题以及多类别分类。我们称为指标(或准则)而非度量是因为有些指标并非符合度量属性。其中只有第2个信息指标更为“合理”。我们首次推导了信息指标为极值时对应的分类情况,即三个定理。第18页图示了分类性能与信息指标极值之间的关联关系。对于理解两种学习目标中的极值情况十分重要。当完全正确分类时可以对应信息指标极值,但是反之则不然。这也意味着单纯应用信息指标不能确保正确分类。应用中同时需要分类性能指标来完成辅助评价。

第6页: 对于有拒识二值分类中混淆矩阵,我们建议统一应用这样2x3的矩阵元素方式表示,这样能够确保第一类错误以及第一类拒识都在矩阵中位于第一行中,并与统计学中第一类错误定义内涵保持一致。注意有些表示方法(如[1])扩展到拒识情况后将无法实现上述要求。

第26页: 该图给出了熵界分析的又一种表达方式,也是基于二值分类建立了信息指标与分类性能指标的关联。该图应用了三维表示,其中两个信息指标为独立变量,且熵界形状固定并与类别比例无关(考虑为什么)。这个熵界分析对应非贝叶斯误差情况。其中互信息I=0时,对应的混淆矩阵中四个元素的关系如同第24页Case 4中所表达。

第32-36页: 验证NI_2符合第三元准则并进一步数值考察。可以发现NI_2还能在大类别比例趋于极端时,大类一个样本错误代价与小类的一个样本拒识代价之间的大小关系会发生变化(其中代价是指互信息损失)。这种变化应是合理的。此例题结果很具启迪性。说明一个熵的概念可以同时兼容“误差类别”与“拒识类别”之间的平衡。而传统经验指标处理该类问题必须要应用“误差”与“拒识”两个概念。

第38页: 考察了主要分类性能指标及24个信息指标与三个元准则之间的关系。目前没有一个传统性能指标能够处理拒识分类并可以考察拒识类别。其中信息指标NI_2的具体定义见第七章。互信息指标不满足第一元准则,具体实例见第37页中M19-与M20例题。想想该现象根源是什么?

作业:

  1. 讨论题:如果将多类分类混淆矩阵对角线元素总和视为两个随机变量的相似性度量,应用该度量为横轴,混淆矩阵的互信息为纵轴。那么你认为它们之间的关系曲线大体上是什么形状,是单调的吗?(提示:先考虑两个端点,之后应用定理3。)

  2. 讨论题:定理3是否意味应用互信息为相似性度量工具会有问题?包括应用在图像配准或特征选择中?

  3. 思考你能否发展出一种指标可以全部满足三个元准则吗?

附录

这里介绍我与董未名教授合作发表的一篇观点文章“格数致知:走向对世界的深度认知”[1]。“格数致知”说法是借鉴古代东西方哲人思想后,将东西方智慧相融合的一种创新尝试。它的具体解释是:“推究事物之内在本源,获取知识之数学表达”。我们以人工智能发展背景来讨论,在强调数学工具必要性同时,也指出应用方面与本质方面可能存在的问题。这个世界本质上是属于无监督(没有标准答案)学习为内涵,人类对世界认知犹如“盲人摸象”(如第一章第54页)或“坐井观天”,我们需要依赖大数据从更高维度以数学方式去认知真实世界[2]。

此课教学我们特别强调“个人思考”。个人见解可容错,独立思考方有成。第一章中我们有“学而不思则罔,思而不学则殆”的英文翻译(第一章第27页)。这是查阅翻译反复推敲后给出个人见解。其中加上关键词“知识”,明确了“学”与“思”的目标对象是什么 。由此正好契合于考察机器学习或人工智能研究。2017年3月深度学习开创者之一杨立昆(Yann LeCun)教授访问我们模式识别国家重点实验室并做精彩讲座之后,我提问中包括向他介绍了这个翻译,并认为目前深度学习或阿尔法狗似乎缺少“思”的部分。他的反应是头一次听到这样有道理的古代东方说法。由此可以理解学习前人是为了不断发展。向世界介绍并发展东方文化中的科学内涵应是中国学者的使命?东方特色讲究“包容(本质是“人文”)”,西方特色讲究“科学”。两种文化无有对错而只含利弊。学习西方文化不应丢弃东方文化优势。我喜欢中国文化哲理,比如“厚德载物”,“和而不同”、“仁者爱人”、“天人合一”、“天下为公”、“修身齐家治国平天下”等思想,可以看到东方智慧中一种“大我”、"大爱”以及“大美”之境界。“包容”与“科学”传统应是“互补而非竞争(模糊理论之父扎德对不同理论学派的用语[3])”。当世界变为地球村时,人类社会之间的“包容”以及“中庸之道”是否会并变得更为重要?我们应该向社会学家费孝通先生学习,从“天下大同”创新为“各美其美,美人之美,美美与共,天下大同”思想。要理解从来没有一门学科会像人工智能学科这样需要各种学科的“综合”思考。没有人文精神指导下的科学研究会否走偏?人类如何不成为自己创造工具下的奴隶?这些都为我们提供了更大的创新研究空间。

鼓励同学们发展宏观层面开放与跨领域思考的尝试,只是硕士或博士论文中如果没有“小心求证”工作可要小心哟?

  1. https://en.wikipedia.org/wiki/Receiver_operating_characteristic

  2. https://arxiv.org/abs/1901.01834

  3. https://zhuanlan.zhihu.com/p/79100698

  4. Zadeh, L. A., "Discussion: Probability theory and fuzzy logic are complementary rather than competitive", Technometrics, 37(3), 271-276, 1997.

成为VIP会员查看完整内容
ITML.pdf
0
45

【导读】熵界分析是建立信息类学习目标与传统经验类学习目标(如误差)之间关系的基础理论内容。熵界分析对于理解两种学习目标十分重要。二值分类(如支持向量机)是机器分类学习中最为基本的单元。在第三章中我们图示了二值分类的熵界。这只是对熵界从机器学习角度的初始理解。本章给出了在机器学习背景下推导熵界的全新理论知识,说明信息论与机器学习综合后可以获得共同进展。

首先,我们区别考虑贝叶斯误差与非贝叶斯误差两种情况的熵界分析。由于多数分类器是以非贝叶斯方法出现,如深度学习,支持向量机,决策树等。因此非贝叶斯误差熵界分析更为重要。而传统信息论研究中仅考虑贝叶斯误差。其次,新的熵界分析是从联合概率分布为初始条件,应用优化方式导出上下界。而传统方法是从条件概率分布为初始条件,应用不等式方法推导熵界(如第三章中的Fano下界)。再有,新方法能够建立条件熵与误差类别(e_1与e_2)之间关联,增加了对误差方面更全面的解释性。而传统分析中只能有总误差(e=e_1+e_2)方面信息理解。最后,对于原有Fano下界发现的新知识(或解释)有:该界不仅对应两个随机变量是独立情况(互信息等于零,或条件熵为最大),也可以对应非独立情况(互信息不等于零)。对于原有Kovalevskij上界发现的新知识有:对于贝叶斯误差情况,新推导的上界为严格解、比Kovalevskij上界更紧且只有两点经过Kovalevskij上界(第19页)。

第4-10页:要理解贝叶斯误差在机器学习情况下只是理论上存在,因为我们无法获得数据中实际概率分布信息。在此我们是通过分类问题中给定的混淆矩阵推出联合概率分布的估计(第10页)。只有当总误差e大于最小类别比率p_min时,我们才能判定这是非贝叶斯误差(想想为什么)。否则是无法判定,因此通常该e可以对应贝叶斯误差或非贝叶斯误差情况(第8页)。

第25-26页: 这是王泳博士首次推导了互信息与分类准确率A、召回率R、精确率P之间的熵界分析。从数学关系表达上讲,应该用两个独立变量更为正确。而实际推导结果显示,应用这三个变量A、R、P表达,方可获得这样更为简洁的数学表达式。这三个变量构成冗余关系,即任一个变量可以由其它两个变量导出。第26页图首次给出了熵界分析的另一种表达方式。其中熵界形状是与类别比例相关,并能够变化。这个熵界分析隐含为非贝叶斯误差情况。

第40页: 这页包扩了本人的三个作品。一个工具箱,两个图标设计。工具箱适用于多分类问题中24个信息指标计算,因此读者可以验证课件中的全部例题。并可以输入你个人的任意混淆矩阵进行计算。工具箱需求在Scilab开源平台上运行,这是与Matlab十分相似的软件。读者可以自行下载有关软件。如果应用其它类平台,可以参照工具箱中代码自行编写。这些作品除了源自个人喜欢之外,还有一种“不甘”心态:中国人不是天生的盗版者或搭车人,我们会成为被世人尊重的创造者。只是要早明白这个道理并实践。其中图标OpenPR对应我们模式识别国家重点实验室于2011年开展的“开放模式识别项目”。希望研究者能够提供相关的软件与工具箱或数据等,以促进相关领域学术交流与积累。

作业:

  1. 对第26页图示中NI=1时的情况给出有关分类结果的解释。

  2. 对第5.5中全部实例应用个人实际数值计算来考察正确否?给出个人对实例中熵界的内涵及其分类方面的解释。

  3. 思考你能否推出三类别分类的熵界分析公式吗?

附录(用于课间交流话题):

这里分享我个人与开源软件相遇后的经历说明人生当要:向大师学习,走创新之路。2001年由于工作原因我了解到法国科学家发展的开源软件Scilab。兴奋之后是一种共鸣:开源世界,精彩缤纷,大可作为。事实上,我在1980-1983年期间硕士研究生工作就极大地受益于美国加州大学伯克利分校两位学者Wilson与Bathe(师生关系)1974年发布的开放源码有限元程序SAP-4软件(向他们致敬并特别致谢北京大学力学系几位老师的教学推广工作)。向开源原理与历史学习激励我们编写了一份教材:《科学计算自由软件-SCILAB教程》,(清华大学出版社, 2003年1月,在此感谢赵星博士与康孟珍博士)。就我所知,这应是国内第一本包含版权协议与开源内容的计算机教材。体现了思想原理大于技术细节的教学理念。我们中法实验室LIAMA在与国内多所大学合作从2001年起举办研讨会,2002年起增加软件竞赛之后(在此感谢所有曾支持或参与推广Scilab活动的人员),我个人参照Linux企鹅图标方式为Scilab设计了海鹦(Puffin)吉祥物(在此感谢张之益老师相助完成图标计算机绘制)。其中采用卡通形象的海鹦高昂着头寓意:“创开源,我自豪”。英文解释语为“Be Proud of Developing Open Source”[1]。这个说法也是针对当时微软企业在国内推销产品时的用语:“用正版,我自豪”。而我理解应是“用正版,我坦然。创开源,我自豪”的价值观。同学们的参赛作品让我们看到了中国学生是太优秀了。可惜的是我们教育机构及老师们引导工作是否做到位了?我个人也是出国留学后才逐步明白“走创新之路”道理[2],经历了懵懂到开窍的过程。许多创造可能不是能力问题,而是观念问题。学生时代如果有了好的知识产权文化并具体实践开源软件,中国发展是否能有另一番景象?

最后建议读者了解一下大西洋海鹦[3],它犹如大熊猫一样可爱。而法文维基百科海鹦栏目中还介绍了我的作品[4]。特别感谢法国两位科学家对自由软件Scilab与海鹦吉祥物作出的进一步诠释[5]。读者还可以看到更多开源软件的吉祥物[6],是不是很好玩?不知你会有否冲动也设计一个吉祥物?

  1. http://www.nlpr.ia.ac.cn/2005papers/gjhy/gh68.pdf

  2. http://www.doc88.com/p-2502490697770.html

  3. https://en.wikipedia.org/wiki/Atlantic_puffin

  4. https://fr.wikipedia.org/wiki/Macareux_moine

  5. http://ftp.sun.ac.za/ftp/pub/mirrors/scilab/www.scilab.org/puffin/puffin.html

  6. http://chl.be/mascots/

成为VIP会员查看完整内容
ITML5.pdf
0
38

【导读】这章主要是对连续变量熵等相关内容进行了介绍。其中美国物理学家Jaynes教授1957 年提出的最大熵原理是最为核心的理论贡献。该原理特别深刻,要知道它不仅是应用在统计推断方面,在很多领域中都可以成为一种原理给出信息论层面上的解释。基于最大熵原理可以根据不同约束导出各种概率分布函数(第8页)。过去认为熵是基于概率分布为已知而得到的一种结果。而最大熵原理给我的理解熵犹似“源”,因为它可导出概率分布表达。反之则不然,因为计算与导出表达是不同的。本章中另一个重要知识是不等式的学习与理解。如同香港中文大学杨伟豪教授指出的那样(第39页):信息论不等式给出了不可能发生的界,因此这将犹如信息论中的定律。比如其中Fano不等式与Kovalevskij不等式建立了条件熵与误差之间的关系,对机器学习中应用信息论指标有着直接的指导意义,并提供理论解释性。

第8页: 该页介绍了最大互信息可以导出经验式定义的相关系数,而其中的约束是随机变量最高阶次统计量只有二阶。由此例子我学到的内涵有:一是信息论指标更是“源”指标(导出其它,而非相反)。二是熵函数优化加约束可以提供更大的理论解释空间。三是熵指标原理上包容高阶统计量。

第27页: 这页内容是关于二值分类问题中,条件熵与误差之间界关系的讨论。本人2015年文章中的图给出了Fano下界曲线与Kovalevskij上界曲线。由于该文是讨论贝叶斯分类器,因此两类中的类别分布信息p_1与p_2已知。比如T中100个样本,有20个苹果,有80个鸭梨为标签。则p_1=0.2,p_2=0.8。由贝叶斯误差是分类器中理论上最小值这个知识(见Duda《模式分类》中文版第36页),文章添加了另一个上界,在此是蓝色横线p_min=p_1=0.2表示的。此界说明对于给定类别分布的贝叶斯分类器,不可能出现误差大于0.2的情况。图中三角代表贝叶斯分类器计算结果,而圆圈代表互信息分类器计算结果。可以看到该结果已经超出Kovalevskij上界,这里就引出了我们后来发展的界研究工作。这将是第5章中的内容。

该图示意了贝叶斯误差最小学习目标与条件熵最小学习目标在作用力方面有着等价的内涵。都是趋向原点。但是分类问题中多数情况是无法到达原点。因此两者通常没有一对一的关系。即根据给定样本分布得到的最小贝叶斯误差,其对应的条件熵有多解,可以不是最小条件熵。反之亦然。由此要理解条件熵有误差的近似内涵,但本质上是两个随机变量独立性的指标(第22页)。

成为VIP会员查看完整内容
ITML.pdf
0
45

【导读】中国科学院大学人工智能技术学院是国内首创该主题的学院,成立于2017年5月28日。因此在受邀为学院开课方面,我们将该课程具体定位为“前瞻理论综合,创新特色,国际水准”。胡包钢教授与赫然教授合作完成2018-2019年两次授课工作。

所谓“前瞻理论综合”是指信息论与机器学习有机结合。因为目前的机器学习课程主要是以统计学为教学内容。很多人也就认为人工智能与机器学习就是统计学。为此本章第20-39页讲解了统计学并非能够回答机器学习中的首要基本问题:“学什么?”或者称为“学习目标选择”的问题。而信息论将会扮演重要角色并是前瞻理论基础。所谓“前瞻”是指未来的机器学习目标中可能更多应用信息论原理与准则,并提供统一理论解释基础。在此我愿意用以下故事来讲解。

2017年9月23日国外的一篇报道(https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/)介绍深度学习三剑客之一的加拿大多伦多教授Hinton写信给以色列教授Tishiby并评价他发展的信息瓶颈(Information Bottleneck”)理论可以揭示深度学习本质,要学1万遍(原话:“I have to listen to it another 10,000 times to really understand it, but it’s very rare nowadays to hear a talk with a really original idea in it that may be the answer to a really major puzzle”)。所谓“信息瓶颈”理论中的基础就是应用了信息论中互信息定义。不要以为Hinton教授不熟悉信息论。1992年他的博士生Becker(之后她成为加拿大McMaster大学教授)与他本人于NIPS会议上发表机器学习方面论文(Becker, S., and Hinton, G. E., "Learning to make coherent predictions in domains with discontinuities". In NIPS, pp. 372-379, 1992.)就是应用了互信息为学习目标来解决无监督学习中无标准答案的问题。Hinton“教授形容要学1”万遍的语义内涵是信息论太深刻了,远远不是数学定义层面上的学习。设想一下人类大脑或深度学习不就是网络结构吗?机器学习结合信息论是揭示生物脑或机器脑智能本质的必要条件(非充分条件)。他们该项研究之后并未发展出更多后续工作,说明信“”息论与机器学习综合不是那么简单。

有关“创新特色”在第一章中首先体现在对机器学习基本问题的梳理。在介绍前人见解的同时,我们对机器学习基本问题的划分有利于理解各种学科在其中的地位和局限性。比如人机交互应用中的机器学习将更多需要社会科学、伦理学、认知科学方面的基础知识。我们期待第一章引言能够为研“究者带来机器学习研究的全新视角:即有基本问题之间“还原论+”整体论解释(第20页),还有对信息论地位的大胆猜想(第33“页)。我们在以后各章会介绍其它创新思想。授课中我们强调“学术思想大于技术细节”,并给出具体实例,并给出具体实例。

目标“国际水准”是指课程设置与内容质量在国际水准中可比较。由于当下十分活跃的人工智能发展,因此要包括更多前沿知识内容。可以看到网上有许多信息论与机器学习独立开设的教学课件。而两主题合并的课程本身就少之又少。本人应用约半年时间“还原论完成个人部分课件,采取英文编写课件正是期待中国的教学内容能够走向世界。很高兴这个课程从设置与内容上能够为同行教学提供参考样例,这与我们学院为中国首创与“面向国际学科前沿”目标是相称的。

此次公开我个人教学课件(共七章,共21学时)是为了更快更广地传播新知识。也是个人作品历史阶段记录。为促进思考与创新,课件中给出许多个人不成熟见解。欢迎同行引用、批评、发展课件内容并予以标注。之后各章内容会有更大的学习难度。希望同学们不要气馁。本人也是从原始基础很弱,外行起步自学信息论与机器学习方面知识,走到后来能够创造新知识。

自学中要力争一种境界:“学而时习之,不亦说乎”。

推荐读者阅读香港城市大学陈关荣教授介绍香农的一篇文章:“你遇见过香农吗? http://www.ee.cityu.edu.hk/~gchen/pdf/Shannon.pdf

作业:

  1. 试给出你对机器学习或人工智能不同于第20页内容的个人见解讨论。(学习或研究中要避免只见树木不见森林,且无有个人独立见解的全局思考。“学”之中要有“思(新知识)”与“悟(大智慧)”的主动与反复过程。

2.你认为人工智能芯片或量子计算研究在机器学习基本问题中更偏属于哪个?”为什么?

  1. 如果你是正在开展机器学习研究,可否从学习目标方面给出创新考察,并有否包括广义约束的内容?”(要理解机器学习方法的不同更多是从学习目标选择方面不同。)

说明:

  1. 本课是针对有《机器学习》或《模式识别》知识背景的学生开设的课程。
  2. 有关课件内容难免存在问题。欢迎读者提出修正意见。

致谢:

  1. 特别致谢中国自然科学基金委的多次项目资助,保证我们长期学术发展与积累。
  2. 特别致谢我们学术团队中研究生们的学术贡献,具体贡献在各章文献中均有给出。
  3. 致谢赫然教授与李志航博士生,我们一起合作完成2018-2019年两次教学工作。
  4. 致谢所有听本课的学生对教学提出的建议与指正。
  5. 致谢《专知》公众号,为他们持久传播人工智能专业知识工作点赞。

信息系论基础

【导读】香农1948年发表的论文“通信的数学理论”不仅奠定了现代信息论的基础,他直接将通信工程问题抽象为数学理论问题的方法论特别值得学习。这实例充分说明智能本质的揭示或对大脑的深度认知最后是依赖数学层面上的描述。

信息论中最为基本的概念就是香农熵(第8页),由此可以导出信息论中其它各种定义,以至我们常规应用的其它经验式定义(以后会提到)。学习信息论基础知识时要避免仅是概念与定义的简单记忆,要尽量结合个人研究领域中的问题进行思考,并给出个人理解(如第20页中监督学习中的解释与思考)。这样有益于未来更快地发展创新工作。还要明白信息论理论仍在发展中,包括各种熵定义的不断出现。我们在第28页中示例了传统互信息定义在机器学习应用中的问题。可能这类问题在通讯领域的传统应用中不存在。为更好理解内容,建议读者对其中每个例题自行计算一下。你一定会有新的理解。对于有些内容现在无法理解(如第20页),不要着急。可以随着以后课程学习后,回头复习来不断理解。抱歉该课程未有提供视频或更多中文解说。基于本课件自学能够逐步理解也是能力的培养,从事科研工作必须要过这个关。建议有关作业尝试用笔记录回答一下,有益于反复思考。

成为VIP会员查看完整内容
0
77
小贴士
相关论文
Optimization for deep learning: theory and algorithms
Ruoyu Sun
78+阅读 · 2019年12月19日
Learning to Learn and Predict: A Meta-Learning Approach for Multi-Label Classification
Jiawei Wu,Wenhan Xiong,William Yang Wang
16+阅读 · 2019年9月9日
Golnaz Ghiasi,Tsung-Yi Lin,Ruoming Pang,Quoc V. Le
6+阅读 · 2019年4月16日
Deep Randomized Ensembles for Metric Learning
Hong Xuan,Richard Souvenir,Robert Pless
4+阅读 · 2018年9月4日
Meta-Learning with Latent Embedding Optimization
Andrei A. Rusu,Dushyant Rao,Jakub Sygnowski,Oriol Vinyals,Razvan Pascanu,Simon Osindero,Raia Hadsell
6+阅读 · 2018年7月16日
Yong Wang,Xiao-Ming Wu,Qimai Li,Jiatao Gu,Wangmeng Xiang,Lei Zhang,Victor O. K. Li
8+阅读 · 2018年7月8日
Hanxiao Wang,Shaogang Gong,Xiatian Zhu,Tao Xiang
3+阅读 · 2018年5月4日
Pingping Zhang,Wei Liu,Huchuan Lu,Chunhua Shen
4+阅读 · 2018年2月19日
Michael Opitz,Georg Waltner,Horst Possegger,Horst Bischof
13+阅读 · 2018年1月15日
Antonia Creswell,Anil Anthony Bharath
6+阅读 · 2018年1月4日
Top