在过去的二十年里,机器学习已经成为信息技术的支柱之一,并因此成为我们生活中相当核心(尽管通常是隐藏的)的一部分。随着可用数据量的不断增加,我们有充分的理由相信,智能数据分析将变得更加普遍,成为技术进步的必要因素。本章的目的是为读者提供一个广泛的应用的概述,这些应用的核心是一个机器学习问题,并给这一大堆问题带来一定程度的秩序。在那之后,我们将讨论一些来自统计和概率论的基本工具,因为它们构成了许多机器学习问题必须被表述成易于解决的语言。最后,我们将概述一套相当基本但有效的算法来解决一个重要的问题,即分类。更复杂的工具,更普遍的问题的讨论和详细的分析将在本书后面的部分。

成为VIP会员查看完整内容
0
37

相关内容

这本书调研了大约20世纪90年代末机器学习的许多重要课题。我的意图是在理论和实践之间寻求一个中间桥梁带。笔记集中在机器学习的重要思想上——它既不是一本实践手册,也不是一个理论证明的概要。我的目标是为读者提供充分的准备,使一些关于机器学习的广泛文献易于理解。草稿只有200多页(包括扉页)。

这本书集中在机器学习的重要思想上。对于我所陈述的许多定理,我并没有给出证明,但对于形式的证明,我确实给出了可信的论据和引用。而且,我没有讨论许多在应用中具有实际重要性的问题;这本书不是机器学习实践手册。相反,我的目标是为读者提供充分的准备,使大量关于机器学习的文献易于理解。

学习,就像智力一样,涵盖了如此广泛的过程,很难精确定义。词典的定义包括这样的短语:“通过学习、指导或经验获得知识、或理解、或技能”和“通过经验改变行为倾向”。动物学家和心理学家研究动物和人类的学习。在这本书中,我们关注的是机器学习。动物和机器学习之间有一些相似之处。当然,机器学习的许多技术都来自心理学家的努力,他们通过计算模型使动物和人类学习的理论更加精确。机器学习研究人员正在探索的概念和技术似乎也可能阐明生物学习的某些方面。

成为VIP会员查看完整内容
0
46

统计学是关于可观测现象的数学建模,使用随机模型,以及分析数据:估计模型的参数和检验假设。在这些注释中,我们研究了各种评估和测试程序。我们考虑它们的理论性质,并研究各种最优化的概念。

成为VIP会员查看完整内容
0
42

本书是信息论领域中一本简明易懂的教材。主要内容包括:熵、信源、信道容量、率失真、数据压缩与编码理论和复杂度理论等方面的介绍。

本书还对网络信息论和假设检验等进行了介绍,并且以赛马模型为出发点,将对证券市场研究纳入了信息论的框架,从新的视角给投资组合的研究带来了全新的投资理念和研究技巧。

本书适合作为电子工程、统计学以及电信方面的高年级本科生和研究生的信息论基础教程教材,也可供研究人员和专业人士参考。

本书是一本简明易懂的信息论教材。正如爱因斯坦所说:“凡事应该尽可能使其简单到不能再简单为止。''虽然我们没有深人考证过该引语的来源(据说最初是在幸运蛋卷中发现的),但我们自始至终都将这种观点贯穿到本书的写作中。信息论中的确有这样一些关键的思想和技巧,一旦掌握了它们、不仅使信息论的主题简明,而且在处理新问題时提供重要的直觉。本书来自使用了十多年的信息论讲义,原讲义是信息论课程的高年级本科生和一年级研究生两学期用的教材。本书打算作为通信理论.计算机科学和统计学专业学生学习信息论的教材。

信息论中有两个简明要点。第一,熵与互信息这样的特殊量是为了解答基本问题而产生的。例如,熵是随机变量的最小描述复杂度,互信息是度量在噪声背景下的通信速率。另外,我们在以后还会提到,互信息相当于已知边信息条件下财富双倍的增长。第二,回答信息理论问邀的答案具有自然的代数结构。例如,熵具有链式法则,因而,谪和互信息也是相关的。因此,数据压缩和通信中的问题得到广泛的解释。我们都有这样的感受,当研究某个问题时,往往历经大量的代数运算推理得到了结果,但此时没有真正了解问题的全莪,最终是通过反复观察结果,才对整个问题有完整、明确的认识。所以,对一个问题的全面理解,不是靠推理,而是靠对结果的观察。要更具体地说明这一点,物理学中的牛顿三大定律和薛定谔波动方程也许是最合适的例子。谁曾预见过薛定谔波动方程后来会有如此令人敬畏的哲学解释呢?

在本书中,我们常会在着眼于问题之前,先了解一下答案的性质。比如第2章中,我们定义熵、相对熵和互信息,研究它们之间的关系,再对这些关系作一点解释·由此揭示如何融会贯通地使用各式各样的方法解决实际问题。同理,我们顺便探讨热力学第二定律的含义。熵总是增加吗?答案既肯定也否定。这种结果会令专家感兴趣,但初学者或i午认为这是必然的而不会深人考虑。

在实际教学中.教师往往会加人一自己的见解。事实上,寻找无人知道的证明或者有所创新的结果是一件很愉快的事情。如果有人将新的思想和已经证明的内容在课堂上讲解给学生,那么不仅学生会积极反馈“对,对,对六而且会大大地提升教授该课程的乐崆我们正是这样从研究本教材的许多新想法中获得乐趣的。

本书加人的新素材实例包括信息论与博弈之间的关系,马尔可夫链背景下热力学第二定律的普遍性问题,信道容量定理的联合典型性证明,赫夫曼码的竞争最优性,以及关于最大熵谱密度估计的伯格(回定理的证明。科尔莫戈罗夫复杂度这一章也是本书的独到之处。面将费希尔信息,互信息、中心极限定理以及布伦一闵可夫斯基不等式与熵幂不等式联系在一起,也是我们引以为豪之处。令我们感到惊讶的是.关于行列式不等式的许多经典结论,当利用信息论不等式后会很容易得到证明。

自从香农的奠基性论文面世以来,尽管信息论已有了相当大的发展,但我们还是要努力强调它的连贯性。虽然香农创立信息论时受到通信理论中的问题启发,然而我们认为信息论是一门独立的学科,可应用于通信理论和统计学中。我们将信息论作为一个学科领域从通信理论、概率论和统计学的背景中独立出来因为明显不可能从这些学科中获得难以理解的信息概念。由于本书中绝大多数结论以定理和证明的形式给出,所以,我们期望通过对这些定理的巧妙证明能说明这些结论的完美性。一般来讲,我们在介绍问题之前先描述回题的解的性质,而这些很有的性质会使接下来的证明顺理成章。

使用不等式串、中间不加任何文字、最后直接加以解释,是我们在表述方式上的一项创新希望读者学习我们所给的证明过程达到一定数量时,在没有任何解释的情况下就能理解其中的大部分步,并自己给出所需的解释这些不等式串好比模拟到试题,读者可以通过它们确认自己是否已掌握证明那些重要定理的必备知识。这些证明过程的自然流程是如此引人注目,以至于导致我们轻视了写作技巧中的某条重要原则。由于没有多余的话,因而突出了思路的逻辑性与主題思想u我们希望当读者阅读完本书后,能够与我们共同分亨我们所推崇的,具有优美、简洁和自然风格的信息论。

本书广泛使用弱的典型序列的方法,此概念可以追溯到香农1948年的创造性工作,而它真正得到发展是在20世纪70年代初期。其中的主要思想就是所谓的渐近均分性(AEP),或许可以粗略地说成“几乎一切事情都是等可能的"

第2章阐述了熵、相对熵和互信息之同的基本代数关系。渐近均分性是第3章重中之重的内容,这也使我们将随机过程和数据压缩的熵率分别放在第4章和第5章中论述。第6章介绍博弈,研究了数据压缩的对偶性和财富的增长率。可作为对信息论进行理性思考基础的科尔莫戈罗夫复杂度,拥有着巨大的成果,放在第14章中论述。我们的目标是寻找一个通用的最矩描述,而不是平均意义下的次佳描述。的确存在这样的普遍性概念用来刻画一个对象的复杂度。该章也论述了神奇数0,揭示数学上的不少奥秘,是图灵机停止运转概率的推广。第7章论述信道容量定理。第8章叙述微分熵的必需知识,它们是将早期容量定理推广到连续噪声信道的基础。基本的高斯信道容量问题在第9章中论述。第il章阐述信息论和统计学之间的关系,20世纪年代初期库尔贝克首次对此进行了研究,此后相对被忽视。由于率失真理论比无噪声数据压缩理论需要更多的背景知识,因而将其放置在正文中比较靠后的第10章。

网络信息理论是个大的主题,安排在第巧章,主要研究的是噪声和干扰存在情形下的同时可达的信息流。有许多新的思想在网络信息理论中开始活跃起来,其主要新要素有干扰和反馈第16章讲述股票市场,这是第6章所讨论的博弈的推广,也再次表明了信息论和博弈之间的紧密联系。第17章讲述信息论中的不等式,我们借此一隅把散布于全书中的有趣不等式重新收拢在一个新的框架中,再加上一些关于随机抽取子集熵率的有趣新不等式。集合和的体积的布伦一闵可夫斯基不等式,独立随机变量之和的有效方差的熵幂不等式以及费希尔信息不等式之间的美妙关系也将在此章中得到详尽的阐述。

本书力求推理严密,因此对数学的要求相当高·要求读者至少学过一学期的概率论课程且有扎实的数学背景,大致为本科高年级或研究生一年级水平。尽管如此,我们还是努力避免使用测度论。因为了解它只对第16章中的遍历过程的AEP的证明过程起到简化作用。这符合我们的观点,那就是信息论基础与技巧不同,后者才需要将所有推广都写进去。

本书的主体是第2,3,4,5,7,8,9,10,11和巧章,它们自成体系,读懂了它们就可以对信息论有很好的理解。但在我们看来,第14章的科尔莫戈罗夫复杂度是深人理解信息论所需的必备知识。余下的几章,从博弈到不等式.目的是使主题更加连贯和完美。

成为VIP会员查看完整内容
0
108

优化和机器学习的相互作用是现代计算科学最重要的发展之一。优化的公式和方法在设计从大量数据中提取基本知识的算法方面被证明是至关重要的。然而,机器学习并不仅仅是优化技术的消费者,而是一个快速发展的领域,它本身也在产生新的优化思想。这本书以一种对两个领域的研究人员都可访问的方式捕获了优化和机器学习之间交互的艺术的状态。

优化方法因其广泛的适用性和吸引人的理论特性而在机器学习中占有重要地位。当今机器学习模型的复杂性、规模和多样性日益增加,需要对现有假设进行重新评估。这本书开始了重新评估的过程。它描述了在诸如一阶方法,随机近似,凸松弛,内点方法,和近端方法等已建立的框架。它还专门关注一些新的主题,如正则化优化、鲁棒优化、梯度和次梯度方法、分裂技术和二阶方法。其中许多技术的灵感来自其他领域,包括运筹学、理论计算机科学和优化子领域。这本书将丰富机器学习社区和这些其他领域以及更广泛的优化社区之间正在进行的交叉发展。

成为VIP会员查看完整内容
0
71

学习使用Python分析数据和预测结果的更简单和更有效的方法

Python机器学习教程展示了通过关注两个核心机器学习算法家族来成功分析数据,本书能够提供工作机制的完整描述,以及使用特定的、可破解的代码来说明机制的示例。算法用简单的术语解释,没有复杂的数学,并使用Python应用,指导算法选择,数据准备,并在实践中使用训练过的模型。您将学习一套核心的Python编程技术,各种构建预测模型的方法,以及如何测量每个模型的性能,以确保使用正确的模型。关于线性回归和集成方法的章节深入研究了每种算法,你可以使用书中的示例代码来开发你自己的数据分析解决方案。

机器学习算法是数据分析和可视化的核心。在过去,这些方法需要深厚的数学和统计学背景,通常需要结合专门的R编程语言。这本书演示了机器学习可以如何实现使用更广泛的使用和可访问的Python编程语言。

使用线性和集成算法族预测结果

建立可以解决一系列简单和复杂问题的预测模型

使用Python应用核心机器学习算法

直接使用示例代码构建自定义解决方案

机器学习不需要复杂和高度专业化。Python使用了更简单、有效和经过良好测试的方法,使这项技术更容易为更广泛的受众所接受。Python中的机器学习将向您展示如何做到这一点,而不需要广泛的数学或统计背景。

成为VIP会员查看完整内容
0
123

机器学习和人工神经网络无处不在,它们对我们日常生活的影响比我们可能意识到的还要深远。这堂课是专门针对机器学习在不同科学领域的使用的介绍。在科学研究中,我们看到机器学习的应用越来越多,反映了工业技术的发展。这样一来,机器学习就成为了精确科学的通用新工具,与微积分、传统统计学和数值模拟等方法并行其道。这就提出了一个问题,在图2所示的科学工作流程中,这些新方法是最好的。

此外,一旦确定了一项特定的任务,将机器学习应用到科学领域就会面临非常具体的挑战: (i) 科学数据通常具有非常特定的结构,例如晶体图像中近乎完美的周期性; (ii) 通常情况下,我们对应该反映在机器学习分析中的数据相关性有特定的知识; (iii) 我们想要了解为什么一个特定的算法会起作用,寻求对自然机制和法则的基本见解; (iv) 在科学领域,我们习惯于算法和定律提供确定性答案,而机器学习本质上是概率性的——不存在绝对的确定性。尽管如此,定量精度在许多科学领域是至关重要的,因此是机器学习方法的一个关键基准。

这堂课是为科学领域的科学家和学生介绍基本机器学习算法。我们将涵盖:

  • 最基本的机器学习算法,
  • 该领域的术语,简要解释,
  • 监督和无监督学习的原理,以及为什么它是如此成功,
  • 各种人工神经网络的架构和它们适合的问题,
  • 我们如何发现机器学习算法使用什么来解决问题

机器学习领域充满了行话,对于不了解机器学习的人来说,这些行话掩盖了机器学习方法的核心。作为一个不断变化的领域,新的术语正在以快速的速度被引入。我们的目标是通过精确的数学公式和简洁的公式来切入俚语,为那些了解微积分和线性代数的人揭开机器学习概念的神秘面纱。

如上所述,数据是本节课所讨论的大多数机器学习方法的核心。由于原始数据在很多情况下非常复杂和高维,首先更好地理解数据并降低它们的维数往往是至关重要的。下一节,第2节将讨论在转向神经网络的重型机器之前可以使用的简单算法。

我们最关注的机器学习算法,一般可以分为两类算法,即判别算法和生成算法,如图3所示。判别任务的例子包括分类问题,如上述数字分类或分类为固体,液体和气相给出一些实验观测。同样,回归,也就是估计变量之间的关系,也是一个判别问题。更具体地说,我们在给定一些输入数据x的情况下,尝试近似某个变量y (label)的条件概率分布P(y|x)。由于这些任务中的大部分数据都是以输入数据和目标数据的形式提供的,这些算法通常采用监督学习。判别算法最直接地适用于科学,我们将在第3和第4节中讨论它们。

人工智能的前景可能引发科学领域的不合理预期。毕竟,科学知识的产生是最复杂的智力过程之一。计算机算法肯定还远没有达到那样复杂的水平,而且在不久的将来也不会独立地制定新的自然法则。尽管如此,研究人员研究了机器学习如何帮助科学工作流程的各个部分(图2)。虽然制定牛顿经典力学定律所需的抽象类型似乎难以置信地复杂,但神经网络非常擅长隐式知识表示。然而,要准确地理解它们是如何完成某些任务的,并不是一件容易的事情。我们将在第6节讨论这个可解释的问题。

第三类算法被称为强化学习(reinforcement learning),它不完全符合近似统计模型的框架. 机器学习的成功很大程度上与科学家使用适当算法的经验有关。因此,我们强烈建议认真解决伴随练习,并充分利用练习课程。

成为VIP会员查看完整内容
0
45

机器学习使用各种数学领域的工具。本文试图对机器学习入门课程所需的数学背景进行总结,这门课在加州大学伯克利分校被称为CS 189/289A。我们假设读者已经熟悉多变量微积分和线性代数的基本概念(UCB数学53/54的水平)。这里介绍的大多数主题都很少涉及; 我们打算给出一个概述,并向感兴趣的读者指出更全面的处理以获得进一步的细节。请注意,本文关注的是机器学习的数学背景,而不是机器学习本身。我们将不讨论具体的机器学习模型或算法,除非可能通过强调数学概念的相关性。该文件的早期版本不包括校样。我们已开始在有助于理解的相当短的证明里加上证明。这些证明不是cs189的必要背景,但可以用来加深读者的理解。

成为VIP会员查看完整内容
0
115

这本书的第五版继续讲述如何运用概率论来深入了解真实日常的统计问题。这本书是为工程、计算机科学、数学、统计和自然科学的学生编写的统计学、概率论和统计的入门课程。因此,它假定有基本的微积分知识。

第一章介绍了统计学的简要介绍,介绍了它的两个分支:描述统计学和推理统计学,以及这门学科的简短历史和一些人,他们的早期工作为今天的工作提供了基础。

第二章将讨论描述性统计的主题。本章展示了描述数据集的图表和表格,以及用于总结数据集某些关键属性的数量。

为了能够从数据中得出结论,有必要了解数据的来源。例如,人们常常假定这些数据是来自某个总体的“随机样本”。为了确切地理解这意味着什么,以及它的结果对于将样本数据的性质与整个总体的性质联系起来有什么意义,有必要对概率有一些了解,这就是第三章的主题。本章介绍了概率实验的思想,解释了事件概率的概念,并给出了概率的公理。

我们在第四章继续研究概率,它处理随机变量和期望的重要概念,在第五章,考虑一些在应用中经常发生的特殊类型的随机变量。给出了二项式、泊松、超几何、正规、均匀、伽玛、卡方、t和F等随机变量。

成为VIP会员查看完整内容
2
136

这本受欢迎的教科书的第一版,当代人工智能,提供了一个学生友好的人工智能介绍。这一版完全修订和扩大更新,人工智能: 介绍机器学习,第二版,保留相同的可访问性和解决问题的方法,同时提供新的材料和方法。

该书分为五个部分,重点介绍了人工智能中最有用的技术。书的第一部分涵盖了基于逻辑的方法,而第二部分着重于基于概率的方法。第三部分是涌现智能的特点,探讨了基于群体智能的进化计算和方法。接下来的最新部分将提供神经网络和深度学习的详细概述。书的最后一部分着重于自然语言的理解。

适合本科生和刚毕业的研究生,本课程测试教材为学生和其他读者提供关键的人工智能方法和算法,以解决具有挑战性的问题,涉及系统的智能行为在专门领域,如医疗和软件诊断,金融决策,语音和文本识别,遗传分析等。

https://www.routledge.com/Artificial-Intelligence-With-an-Introduction-to-Machine-Learning-Second/Neapolitan-Jiang/p/book/9781138502383

成为VIP会员查看完整内容
0
104

这本教科书通过提供实用的建议,使用直接的例子,并提供相关应用的引人入胜的讨论,以一种容易理解的方式介绍了基本的机器学习概念。主要的主题包括贝叶斯分类器,最近邻分类器,线性和多项式分类器,决策树,神经网络,和支持向量机。后面的章节展示了如何通过“推进”的方式结合这些简单的工具,如何在更复杂的领域中利用它们,以及如何处理各种高级的实际问题。有一章专门介绍流行的遗传算法。

这个修订的版本包含关于工业中机器学习的实用应用的关键主题的三个全新的章节。这些章节研究了多标签域,无监督学习和它在深度学习中的使用,以及归纳逻辑编程的逻辑方法。许多章节已经被扩展,并且材料的呈现已经被增强。这本书包含了许多新的练习,许多解决的例子,深入的实验,和独立工作的计算机作业。

https://link.springer.com/book/10.1007/978-3-319-63913-0#about

成为VIP会员查看完整内容
0
145
小贴士
相关VIP内容
专知会员服务
46+阅读 · 3月31日
专知会员服务
42+阅读 · 3月25日
专知会员服务
108+阅读 · 3月22日
专知会员服务
71+阅读 · 2月26日
专知会员服务
123+阅读 · 2月25日
专知会员服务
115+阅读 · 1月8日
专知会员服务
136+阅读 · 2020年7月28日
专知会员服务
104+阅读 · 2020年7月5日
【干货书】《机器学习导论(第二版)》,348页pdf
专知会员服务
145+阅读 · 2020年6月16日
相关论文
Ndapa Nakashole
0+阅读 · 6月7日
Bernhard Schölkopf
10+阅读 · 2019年11月24日
Joseph Y. Halpern
5+阅读 · 2019年9月30日
Shotaro Shiba Funai,Dimitrios Giataganas
3+阅读 · 2018年10月18日
Alexander Jung
9+阅读 · 2018年8月19日
Ashok Deb,Kristina Lerman,Emilio Ferrara
3+阅读 · 2018年4月14日
Han Xiao,Lian Meng,Minlie Huang,Xiaoyan Zhu
6+阅读 · 2017年12月2日
Afroze Ibrahim Baqapuri
3+阅读 · 2015年9月14日
Top