[P29]图1.16很好的描绘了这样表达的优美之处:
高斯分布应该算是我们认知中,描绘一切连续型数值不确定性的最基本、最硬派的先验知识了。
甭管你是什么妖魔鬼怪,只要你是连续的,不是离散的,先给你套个高斯分布的罪状。
当然,钦定高斯分布从数学角度是由原因的,和其优美的数学共轭形式有关。
[P98]的练习证明了,高斯似然分布 x 高斯先验分布,结果仍然是一个高斯分布。
(此证明需要熟读第二章关于高斯分布的 150 个公式,需要很好的概率论、线代基础。)
高斯分布在数学形式上有许多便利,比如下面提到的零均值简化版高斯分布,这为贝叶斯方法招来很多
恶评,[P23] 是这样解释的:贝叶斯方法广受批判的原因之一,是因为其在选取先验概率分布上,根据的是
数学形式的便利为基础而不是 先验分布的信度 。
贝叶斯方法讲究推导严谨,公式齐全,对于那些奇怪的、无法用数学语言表达原理的、广布自然界的先验知识,
如Deep Learning思想,自然不会考虑,这也是为什么有人会认为Deep Learning与Bayesian是对着干的。[Quroa]
I、大脑中有1000亿以上的神经元,但是同时只有1%~4%激活,而且每次激活的区域都不一样。
这是生物神经中的稀疏性。
II、稀疏性将原本信息缠绕密集数据给稀疏化,得到稀疏特征表达。比如将实数5,稀疏为一个[1,0,1]向量,
很容易线性可分了。又比如识别一直鸟,只要把噪声给稀疏掉,保留关键部位,最后就有更好的特征表达。
这是特征表达上的稀疏性,实际应用有[稀疏编码][深度神经网络],当然还有我们的生物神经网络。
转自:机器学习算法与自然语言处理
完整内容请点击“”阅读原文“”