用hmmlearn学习隐马尔科夫模型HMM

2018 年 1 月 10 日 全球人工智能 刘建平

在之前的HMM系列中，我们对隐马尔科夫模型HMM的原理以及三个问题的求解方法做了总结。本文我们就从实践的角度用Python的hmmlearn库来学习HMM的使用。关于hmmlearn的更多资料在官方文档有介绍。

1. hmmlearn概述

　　　　hmmlearn安装很简单，"pip install hmmlearn"即可完成。

　　　　hmmlearn实现了三种HMM模型类，按照观测状态是连续状态还是离散状态，可以分为两类。GaussianHMM和GMMHMM是连续观测状态的HMM模型，而MultinomialHMM是离散观测状态的模型，也是我们在HMM原理系列篇里面使用的模型。

　　　　对于MultinomialHMM的模型，使用比较简单，"startprob_"参数对应我们的隐藏状态初始分布 $Π$

2. MultinomialHMM实例

　　　　下面我们用我们在HMM系列原理篇中的例子来使用MultinomialHMM跑一遍。

　　　　首先建立HMM的模型：

import numpy as np

from hmmlearn import hmm

states = ["box 1", "box 2", "box3"]

n_states = len(states)

observations = ["red", "white"]

n_observations = len(observations)

start_probability = np.array([0.2, 0.4, 0.4])

transition_probability = np.array([

[0.5, 0.2, 0.3],

[0.3, 0.5, 0.2],

[0.2, 0.3, 0.5]

])

emission_probability = np.array([

[0.5, 0.5],

[0.4, 0.6],

[0.7, 0.3]

])

model = hmm.MultinomialHMM(n_components=n_states)

model.startprob_=start_probability

model.transmat_=transition_probability

model.emissionprob_=emission_probability

现在我们来跑一跑HMM问题三维特比算法的解码过程，使用和原理篇一样的观测序列来解码，代码如下：

seen = np.array([[0,1,0]]).T
logprob, box = model.decode(seen, algorithm="viterbi")print("The ball picked:", ", ".join(map(lambda x: observations[x], seen)))print("The hidden box", ", ".join(map(lambda x: states[x], box)))

　　　　输出结果如下：

('The ball picked:', 'red, white, red')
('The hidden box', 'box3, box3, box3')

　　　　可以看出，结果和我们原理篇中的手动计算的结果是一样的。

　　　　也可以使用predict函数，结果也是一样的，代码如下：

box2 = model.predict(seen)print("The ball picked:", ", ".join(map(lambda x: observations[x], seen)))print("The hidden box", ", ".join(map(lambda x: states[x], box2)))

　　　　大家可以跑一下，看看结果是否和decode函数相同。

　　　　现在我们再来看看求HMM问题一的观测序列的概率的问题，代码如下：

print model.score(seen)

　　　　输出结果是：

-2.03854530992

　　　　要注意的是score函数返回的是以自然对数为底的对数概率值，我们在HMM问题一中手动计算的结果是未取对数的原始概率是0.13022。对比一下：

$l n 0.13022 \approx - 2.0385$

　　　　现在我们再看看HMM问题二，求解模型参数的问题。由于鲍姆-韦尔奇算法是基于EM算法的近似算法，所以我们需要多跑几次，比如下面我们跑三次，选择一个比较优的模型参数，代码如下：

import numpy as np

from hmmlearn import hmm

states = ["box 1", "box 2", "box3"]

n_states = len(states)

observations = ["red", "white"]

n_observations = len(observations)

model2 = hmm.MultinomialHMM(n_components=n_states, n_iter=20, tol=0.01)

X2 = np.array([[0,1,0,1],[0,0,0,1],[1,0,1,1]])

model2.fit(X2)

print model2.startprob_

print model2.transmat_

print model2.emissionprob_

print model2.score(X2)

model2.fit(X2)

print model2.startprob_

print model2.transmat_

print model2.emissionprob_

print model2.score(X2)

model2.fit(X2)

print model2.startprob_

print model2.transmat_

print model2.emissionprob_

print model2.score(X2)

结果这里就略去了，最终我们会选择分数最高的模型参数。

　　　　以上就是用MultinomialHMM解决HMM模型三个问题的方法。

3. GaussianHMM实例

　　　　建立模型如下：

startprob = np.array([0.6, 0.3, 0.1, 0.0])

# The transition matrix, note that there are no transitions possible

# between component 1 and 3

transmat = np.array([[0.7, 0.2, 0.0, 0.1],

[0.3, 0.5, 0.2, 0.0],

[0.0, 0.3, 0.5, 0.2],

[0.2, 0.0, 0.2, 0.6]])

# The means of each component

means = np.array([[0.0, 0.0],

[0.0, 11.0],

[9.0, 10.0],

[11.0, -1.0]])

# The covariance of each component

covars = .5 * np.tile(np.identity(2), (4, 1, 1))

# Build an HMM instance and set parameters

model3 = hmm.GaussianHMM(n_components=4, covariance_type="full")

# Instead of fitting it from the data, we directly set the estimated

# parameters, the means and covariance of the components

model3.startprob_ = startprob

model3.transmat_ = transmat

model3.means_ = means

model3.covars_ = covars

　　　　我们现在跑一跑HMM问题一解码的过程，由于观测状态是二维的，我们用的三维观测序列，所以这里的输入是一个 $3 \times 2 \times 2$ 的张量，代码如下：

seen = np.array([[1.1,2.0],[-1,2.0],[3,7]])
logprob, state = model.decode(seen, algorithm="viterbi")print state

　　　　输出结果如下：

[0 0 1]

　　　　再看看HMM问题一对数概率的计算：

print model3.score(seen)

　　　　输出如下：

-41.1211281377

　　　　以上就是用hmmlearn学习HMM的过程。希望可以帮到大家。

原文：http://www.cnblogs.com/pinard/p/7001397.html

↓ 点击阅读原文，进入学院

相关内容

隐马尔可夫模型

关注 342

隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。其是在被建模的系统被认为是一个马尔可夫过程与未观测到的（隐藏的）的状态的统计马尔可夫模型。

专知会员服务

170+阅读 · 2020年5月10日