什么是最大似然估计、最大后验估计以及贝叶斯参数估计

会员服务 ·

什么是最大似然估计、最大后验估计以及贝叶斯参数估计

2018 年 4 月 20 日 数盟

假如你有一个硬币。你把它投掷 3 次，出现了 3 次正面。下一次投掷硬币正面朝上的概率是多少? 这是一个从数据中估计参数的基础机器学习问题。在这种情况下，我们要从数据 D 中估算出正面朝上 h 的概率。

最大似然估计

一种方法是找到能最大化观测数据的似然函数（即 P(D;h)）的参数 h 的值。在这里，我们用「；」来表示 h 是一个关于概率分布 P 的参数，意味着参数 h 定义了分布 P，但是分布 P 只是说明了观测数据 D 成立的可能性有多大。

这是被称为「最大似然估计」的最常用的参数估计方法。通过该方法，我们估计出 h=1.0。

但是直觉告诉我们，这是不可能的。对于大多数的硬币来说，还是存在反面朝上的结果的可能性，因此我们通常希望得到像 h=0.5 这样的结果。

先验和后验

如何将这种直觉数学化地表述出来呢？我们可以定义一个观测数据和参数的联合概率：p(D, h) = p(D|h)p(h)。我们定义一个先验分布 p（h) 来表示在观测前关于 h 应该是什么值的直觉，以及在给定参数 h 的情况下的条件概率 p(D|h)。

如何利用现有的数据 D 估计参数 h 呢？我们需要得到后验分布 p（h|D），但是目前只有分布 P(D|h) 和 p(h)。这时候，你需要贝叶斯公式来帮忙!

贝叶斯公式：P(h|D)=P(D|h)*P(h)/P(D)

但是，这里的分母是一个问题：

一般来说，计算这个积分是不可能的。对于这个投硬币的例子来说，如果使用非常特殊的共轭先验分布，就可以绕过这个问题。

最大后验估计

但实际上，我们可以抛开归一化常数 P(D) 以更巧妙的方式讨论 p(h|D)。也就是说归一化常数不改变分布的相对大小，我们可以在不做积分的情况下找到模式：

这就是人们所熟知的最大后验估计（MAP）。有很多种方法可以算出变量 h 的确切值，例如：使用共轭梯度下降法。

贝叶斯参数估计

有了最大后验估计，可以通过先验分布来引入我们的直觉，并且忽略归一化积分，从而得到后验分布模式下的关于 h 的点估计。

但是如果我们试着用近似方法求积分呢？如果按通常的独立同分布假设，我们可以利用这个事实：未来可能出现的数据样本值 x 条件独立于给定参数 h 时的观测值 D。

这并非使用与后验概率 p(h|D) 模式相应的参数 h 的单一值来计算 P(x|h)，而是一个更加「严格」的方法，它让我们考虑到所有可能的 h 的后验值。这种方法被称为贝叶斯参数估计。

注意，存在两个关于概率分布的重要任务：

推断：给定已知参数的联合分布，通过其它变量的边缘概率和条件概率估计一个变量子集上的概率分布。
参数估计：从数据中估计某个概率分布的未知参数

贝叶斯参数估计将这两项任务构造成了「同一枚硬币的两面」：

估计在一组变量上定义的概率分布的参数，就是推断一个由原始变量和参数构成的元分布。

当然，实际上要做到这一点，需要计算困难的积分，我们将不得不用类似于「马尔可夫链蒙特卡洛算法」或者变分推断等方法取近似。

原文链接：

https://medium.com/@amatsukawa/maximum-likelihood-maximum-a-priori-and-bayesian-parameter-estimation-d99a23a0519f

媒体合作请联系：

邮箱：contact@dataunion.org

登录查看更多

相关内容

最大似然估计

关注 0

在统计学中，最大似然估计(maximum likelihood estimation, MLE)是通过最大化似然函数估计概率分布参数的一种方法，使观测数据在假设的统计模型下最有可能。参数空间中使似然函数最大化的点称为最大似然估计。最大似然逻辑既直观又灵活，因此该方法已成为统计推断的主要手段。

【经典书】机器学习：贝叶斯和优化方法，1075页pdf

专知会员服务

413+阅读 · 2020年6月8日

【经典书】机器学习高斯过程，266页pdf

专知会员服务

200+阅读 · 2020年5月2日

一本有意思的书！《用Python做数学》，265页pdf使用编程探索代数，统计，微积分! Doing Math with Python: Use Programming to Explore Algebra, Statistics, Calculus, and More

专知会员服务

173+阅读 · 2020年4月27日

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

专知会员服务

69+阅读 · 2020年3月30日

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

专知会员服务

52+阅读 · 2020年3月16日

机器学习速查手册，135页pdf

专知会员服务

343+阅读 · 2020年3月15日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知会员服务

53+阅读 · 2020年3月9日

国科大UCAS胡包钢教授《信息论与机器学习》课程第三讲：信息论基础二

专知会员服务

70+阅读 · 2020年3月2日

不得不看！NeurIPS 2019三个关键研究热点趋势：贝叶斯、GNN、凸优化

专知会员服务

58+阅读 · 2019年12月19日

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

专知会员服务

36+阅读 · 2019年9月9日

一文读懂机器学习中的贝叶斯统计学

数据分析

26+阅读 · 2019年5月8日

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

机器之心

11+阅读 · 2018年4月15日

从最大似然到EM算法：一致的理解方式

PaperWeekly

19+阅读 · 2018年3月19日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

零基础概率论入门：最大似然估计

论智

12+阅读 · 2018年1月18日

概率论之概念解析：用贝叶斯推断进行参数估计

专知

14+阅读 · 2018年1月8日

干货 | 一文搞懂极大似然估计

AI100

7+阅读 · 2017年12月3日

基于概率论的分类方法：朴素贝叶斯

Python开发者

8+阅读 · 2017年11月9日

专知主题链路知识推荐#4-机器学习中往往被忽视的贝叶斯参数估计方法

专知

10+阅读 · 2017年9月19日

[有意思的数学] 参数估计

机器学习和数学

15+阅读 · 2017年6月4日

Weight Poisoning Attacks on Pre-trained Models

Arxiv

5+阅读 · 2020年4月14日

Implicit Maximum Likelihood Estimation

Arxiv

7+阅读 · 2018年9月24日

ANS: Adaptive Network Scaling for Deep Rectifier Reinforcement Learning Models

Arxiv

3+阅读 · 2018年9月6日

To Cluster, or Not to Cluster: An Analysis of Clusterability Methods

Arxiv

4+阅读 · 2018年8月24日

Large-Scale Stochastic Sampling from the Probability Simplex

Arxiv

3+阅读 · 2018年6月19日

Unsupervised Prostate Cancer Detection on H&E using Convolutional Adversarial Autoencoders

Arxiv

4+阅读 · 2018年4月19日

Mining on Manifolds: Metric Learning without Labels

Arxiv

6+阅读 · 2018年3月29日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

A Generative Model For Zero Shot Learning Using Conditional Variational Autoencoders

Arxiv

9+阅读 · 2018年1月27日

Improving Bi-directional Generation between Different Modalities with Variational Autoencoders

Arxiv

5+阅读 · 2018年1月26日

VIP会员