教程 | 如何判断LSTM模型中的过拟合与欠拟合

2017 年 10 月 2 日 机器之心

选自MachineLearningMastery

作者:Jason Brownlee

机器之心编译

参与:Nurhachu Null、路雪


判断长短期记忆模型在序列预测问题上是否表现良好可能是一件困难的事。也许你会得到一个不错的模型技术得分,但了解模型是较好的拟合,还是欠拟合/过拟合,以及模型在不同的配置条件下能否实现更好的性能是非常重要的。


在本教程中,你将发现如何诊断 LSTM 模型在序列预测问题上的拟合度。完成教程之后,你将了解:


  • 如何收集 LSTM 模型的训练历史并为其画图。

  • 如何判别一个欠拟合、较好拟合和过拟合的模型。

  • 如何通过平均多次模型运行来开发更鲁棒的诊断方法。


让我们开始吧。


教程概览


本教程可分为以下 6 个部分,分别是:


1. Keras 中的训练历史

2. 诊断图

3. 欠拟合实例

4. 良好拟合实例

5. 过拟合实例

6. 多次运行实例


1. Keras 中的训练历史


你可以通过回顾模型的性能随时间的变化来更多地了解模型行为。


LSTM 模型通过调用 fit() 函数进行训练。这个函数会返回一个叫作 history 的变量,该变量包含损失函数的轨迹,以及在模型编译过程中被标记出来的任何一个度量指标。这些得分会在每一个 epoch 的最后被记录下来。


  
    
    
    
  1. ...

  2. history = model.fit(...)


例如,如果你的模型被编译用来优化 log loss(binary_crossentropy),并且要在每一个 epoch 中衡量准确率,那么,log loss 和准确率将会在每一个训练 epoch 的历史记录中被计算出,并记录下来。


每一个得分都可以通过由调用 fit() 得到的历史记录中的一个 key 进行访问。默认情况下,拟合模型时优化过的损失函数为「loss」,准确率为「acc」。


  
    
    
    
  1. ...

  2. model.com pile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

  3. history = model.fit(X, Y, epochs=100)

  4. print(history.history['loss'])

  5. print(history.history['acc'])


Keras 还允许在拟合模型时指定独立的验证数据集,该数据集也可以使用同样的损失函数和度量指标进行评估。


该功能可以通过在 fit() 中设置 validation_split 参数来启用,以将训练数据分割出一部分作为验证数据集。


  
    
    
    
  1. ...

  2. history = model.fit(X, Y, epochs=100, validation_split=0.33)


该功能也可以通过设置 validation_data 参数,并向其传递 X 和 Y 数据集元组来执行。


  
    
    
    
  1. ...

  2. history = model.fit(X, Y, epochs=100, validation_data=(valX, valY))


在验证数据集上计算得到的度量指标会使用相同的命名,只是会附加一个「val_」前缀。


  
    
    
    
  1. ...

  2. model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

  3. history = model.fit(X, Y, epochs=100, validation_split=0.33)

  4. print(history.history['loss'])

  5. print(history.history['acc'])

  6. print(history.history['val_loss'])

  7. print(history.history['val_acc'])


2. 诊断图


LSTM 模型的训练历史可用于诊断模型行为。你可以使用 Matplotlib 库来进行性能的可视化,你可以将训练损失和测试损失都画出来以作比较,如下所示:


  
    
    
    
  1. from matplotlib import pyplot

  2. ...

  3. history = model.fit(X, Y, epochs=100, validation_data=(valX, valY))

  4. pyplot.plot(history.history['loss'])

  5. pyplot.plot(history.history['val_loss'])

  6. pyplot.title('model train vs validation loss')

  7. pyplot.ylabel('loss')

  8. pyplot.xlabel('epoch')

  9. pyplot.legend(['train', 'validation'], loc='upper right')

  10. pyplot.show()


创建并检查这些图有助于启发你找到新的有可能优化模型性能的配置。


接下来,我们来看一些例子。我们将从损失最小化的角度考虑在训练集和验证集上的建模技巧。


3. 欠拟合实例


欠拟合模型就是在训练集上表现良好而在测试集上性能较差的模型。


这个可以通过以下情况来诊断:训练的损失曲线低于验证的损失曲线,并且验证集中的损失函数表现出了有可能被优化的趋势。


下面是一个人为设计的小的欠拟合 LSTM 模型。


  
    
    
    
  1. from keras.models import Sequential

  2. from keras.layers import Dense

  3. from keras.layers import LSTM

  4. from matplotlib import pyplot

  5. from numpy import array

  6. # return training data

  7. def get_train():

  8. seq = [[0.0, 0.1], [0.1, 0.2], [0.2, 0.3], [0.3, 0.4], [0.4, 0.5]]

  9. seq = array(seq)

  10. X, y = seq[:, 0], seq[:, 1]

  11. X = X.reshape((len(X), 1, 1))

  12. return X, y

  13. # return validation data

  14. def get_val():

  15. seq = [[0.5, 0.6], [0.6, 0.7], [0.7, 0.8], [0.8, 0.9], [0.9, 1.0]]

  16. seq = array(seq)

  17. X, y = seq[:, 0], seq[:, 1]

  18. X = X.reshape((len(X), 1, 1))

  19. return X, y

  20. # define model

  21. model = Sequential()

  22. model.add(LSTM(10, input_shape=(1,1)))

  23. model.add(Dense(1, activation='linear'))

  24. # compile model

  25. model.compile(loss='mse', optimizer='adam')

  26. # fit model

  27. X,y = get_train()

  28. valX, valY = get_val()

  29. history = model.fit(X, y, epochs=100, validation_data=(valX, valY), shuffle=False)

  30. # plot train and validation loss

  31. pyplot.plot(history.history['loss'])

  32. pyplot.plot(history.history['val_loss'])

  33. pyplot.title('model train vs validation loss')

  34. pyplot.ylabel('loss')

  35. pyplot.xlabel('epoch')

  36. pyplot.legend(['train', 'validation'], loc='upper right')

  37. pyplot.show()


运行这个实例会产生一个训练损失和验证损失图,该图显示欠拟合模型特点。在这个案例中,模型性能可能随着训练 epoch 的增加而有所改善。


欠拟合模型的诊断图


另外,如果模型在训练集上的性能比验证集上的性能好,并且模型性能曲线已经平稳了,那么这个模型也可能欠拟合。下面就是一个缺乏足够的记忆单元的欠拟合模型的例子。


  
    
    
    
  1. from keras.models import Sequential

  2. from keras.layers import Dense

  3. from keras.layers import LSTM

  4. from matplotlib import pyplot

  5. from numpy import array

  6. # return training data

  7. def get_train():

  8. seq = [[0.0, 0.1], [0.1, 0.2], [0.2, 0.3], [0.3, 0.4], [0.4, 0.5]]

  9. seq = array(seq)

  10. X, y = seq[:, 0], seq[:, 1]

  11. X = X.reshape((5, 1, 1))

  12. return X, y

  13. # return validation data

  14. def get_val():

  15. seq = [[0.5, 0.6], [0.6, 0.7], [0.7, 0.8], [0.8, 0.9], [0.9, 1.0]]

  16. seq = array(seq)

  17. X, y = seq[:, 0], seq[:, 1]

  18. X = X.reshape((len(X), 1, 1))

  19. return X, y

  20. # define model

  21. model = Sequential()

  22. model.add(LSTM(1, input_shape=(1,1)))

  23. model.add(Dense(1, activation='linear'))

  24. # compile model

  25. model.compile(loss='mae', optimizer='sgd')

  26. # fit model

  27. X,y = get_train()

  28. valX, valY = get_val()

  29. history = model.fit(X, y, epochs=300, validation_data=(valX, valY), shuffle=False)

  30. # plot train and validation loss

  31. pyplot.plot(history.history['loss'])

  32. pyplot.plot(history.history['val_loss'])

  33. pyplot.title('model train vs validation loss')

  34. pyplot.ylabel('loss')

  35. pyplot.xlabel('epoch')

  36. pyplot.legend(['train', 'validation'], loc='upper right')

  37. pyplot.show()


运行这个实例会展示出一个存储不足的欠拟合模型的特点。


在这个案例中,模型的性能也许会随着模型的容量增加而得到改善,例如隐藏层中记忆单元的数目或者隐藏层的数目增加。


欠拟合模型的状态诊断线图


4. 良好拟合实例


良好拟合的模型就是模型的性能在训练集和验证集上都比较好。

这可以通过训练损失和验证损失都下降并且稳定在同一个点进行诊断。

下面的小例子描述的就是一个良好拟合的 LSTM 模型。


  
    
    
    
  1. from keras.models import Sequential

  2. from keras.layers import Dense

  3. from keras.layers import LSTM

  4. from matplotlib import pyplot

  5. from numpy import array

  6. # return training data

  7. def get_train():

  8. seq = [[0.0, 0.1], [0.1, 0.2], [0.2, 0.3], [0.3, 0.4], [0.4, 0.5]]

  9. seq = array(seq)

  10. X, y = seq[:, 0], seq[:, 1]

  11. X = X.reshape((5, 1, 1))

  12. return X, y

  13. # return validation data

  14. def get_val():

  15. seq = [[0.5, 0.6], [0.6, 0.7], [0.7, 0.8], [0.8, 0.9], [0.9, 1.0]]

  16. seq = array(seq)

  17. X, y = seq[:, 0], seq[:, 1]

  18. X = X.reshape((len(X), 1, 1))

  19. return X, y

  20. # define model

  21. model = Sequential()

  22. model.add(LSTM(10, input_shape=(1,1)))

  23. model.add(Dense(1, activation='linear'))

  24. # compile model

  25. model.compile(loss='mse', optimizer='adam')

  26. # fit model

  27. X,y = get_train()

  28. valX, valY = get_val()

  29. history = model.fit(X, y, epochs=800, validation_data=(valX, valY), shuffle=False)

  30. # plot train and validation loss

  31. pyplot.plot(history.history['loss'])

  32. pyplot.plot(history.history['val_loss'])

  33. pyplot.title('model train vs validation loss')

  34. pyplot.ylabel('loss')

  35. pyplot.xlabel('epoch')

  36. pyplot.legend(['train', 'validation'], loc='upper right')

  37. pyplot.show()


运行这个实例可以创建一个线图,图中训练损失和验证损失出现重合。


理想情况下,我们都希望模型尽可能是这样,尽管面对大量数据的挑战,这似乎不太可能。


良好拟合模型的诊断线图


5. 过拟合实例


过拟合模型即在训练集上性能良好且在某一点后持续增长,而在验证集上的性能到达某一点然后开始下降的模型。


这可以通过线图来诊断,图中训练损失持续下降,验证损失下降到拐点开始上升。


下面这个实例就是一个过拟合 LSTM 模型。


  
    
    
    
  1. from keras.models import Sequential

  2. from keras.layers import Dense

  3. from keras.layers import LSTM

  4. from matplotlib import pyplot

  5. from numpy import array

  6. # return training data

  7. def get_train():

  8. seq = [[0.0, 0.1], [0.1, 0.2], [0.2, 0.3], [0.3, 0.4], [0.4, 0.5]]

  9. seq = array(seq)

  10. X, y = seq[:, 0], seq[:, 1]

  11. X = X.reshape((5, 1, 1))

  12. return X, y

  13. # return validation data

  14. def get_val():

  15. seq = [[0.5, 0.6], [0.6, 0.7], [0.7, 0.8], [0.8, 0.9], [0.9, 1.0]]

  16. seq = array(seq)

  17. X, y = seq[:, 0], seq[:, 1]

  18. X = X.reshape((len(X), 1, 1))

  19. return X, y

  20. # define model

  21. model = Sequential()

  22. model.add(LSTM(10, input_shape=(1,1)))

  23. model.add(Dense(1, activation='linear'))

  24. # compile model

  25. model.compile(loss='mse', optimizer='adam')

  26. # fit model

  27. X,y = get_train()

  28. valX, valY = get_val()

  29. history = model.fit(X, y, epochs=1200, validation_data=(valX, valY), shuffle=False)

  30. # plot train and validation loss

  31. pyplot.plot(history.history['loss'][500:])

  32. pyplot.plot(history.history['val_loss'][500:])

  33. pyplot.title('model train vs validation loss')

  34. pyplot.ylabel('loss')

  35. pyplot.xlabel('epoch')

  36. pyplot.legend(['train', 'validation'], loc='upper right')

  37. pyplot.show()


运行这个实例会创建一个展示过拟合模型在验证集中出现拐点的曲线图。


这也许是进行太多训练 epoch 的信号。


在这个案例中,模型会在拐点处停止训练。另外,训练样本的数目可能会增加。


过拟合模型的诊断线图


6. 多次运行实例


LSTM 是随机的,这意味着每次运行时都会得到一个不同的诊断图。


多次重复诊断运行很有用(如 5、10、30)。每次运行的训练轨迹和验证轨迹都可以被绘制出来,以更鲁棒的方式记录模型随着时间的行为轨迹。


以下实例多次运行同样的实验,然后绘制每次运行的训练损失和验证损失轨迹。


  
    
    
    
  1. from keras.models import Sequential

  2. from keras.layers import Dense

  3. from keras.layers import LSTM

  4. from matplotlib import pyplot

  5. from numpy import array

  6. from pandas import DataFrame

  7. # return training data

  8. def get_train():

  9. seq = [[0.0, 0.1], [0.1, 0.2], [0.2, 0.3], [0.3, 0.4], [0.4, 0.5]]

  10. seq = array(seq)

  11. X, y = seq[:, 0], seq[:, 1]

  12. X = X.reshape((5, 1, 1))

  13. return X, y

  14. # return validation data

  15. def get_val():

  16. seq = [[0.5, 0.6], [0.6, 0.7], [0.7, 0.8], [0.8, 0.9], [0.9, 1.0]]

  17. seq = array(seq)

  18. X, y = seq[:, 0], seq[:, 1]

  19. X = X.reshape((len(X), 1, 1))

  20. return X, y

  21. # collect data across multiple repeats

  22. train = DataFrame()

  23. val = DataFrame()

  24. for i in range(5):

  25. # define model

  26. model = Sequential()

  27. model.add(LSTM(10, input_shape=(1,1)))

  28. model.add(Dense(1, activation='linear'))

  29. # compile model

  30. model.compile(loss='mse', optimizer='adam')

  31. X,y = get_train()

  32. valX, valY = get_val()

  33. # fit model

  34. history = model.fit(X, y, epochs=300, validation_data=(valX, valY), shuffle=False)

  35. # story history

  36. train[str(i)] = history.history['loss']

  37. val[str(i)] = history.history['val_loss']

  38. # plot train and validation loss across multiple runs

  39. pyplot.plot(train, color='blue', label='train')

  40. pyplot.plot(val, color='orange', label='validation')

  41. pyplot.title('model train vs validation loss')

  42. pyplot.ylabel('loss')

  43. pyplot.xlabel('epoch')

  44. pyplot.show()


从下图中,我们可以在 5 次运行中看到欠拟合模型的通常趋势,该案例强有力地证明增加训练 epoch 次数的有效性。


模型多次运行的诊断线图


扩展阅读


如果你想更深入地了解这方面的内容,这一部分提供了更丰富的资源。


  • Keras 的历史回调 API(History Callback Keras API,https://keras.io/callbacks/#history)

  • 维基百科中关于机器学习的学习曲线(Learning Curve in Machine Learning on Wikipedia,https://en.wikipedia.org/wiki/Learning_curve#In_machine_learning)

  • 维基百科上关于过拟合的描述(Overfitting on Wikipedia,https://en.wikipedia.org/wiki/Overfitting)


总结


在本教程中,你学习到如何在序列预测问题上诊断 LSTM 模型是否拟合。


具体而言,你学到了:


  • 如何收集 LSTM 模型的训练历史并为其画图。

  • 如何判别一个欠拟合、良好拟合和过拟合的模型。

  • 如何通过平均多次模型运行来开发更鲁棒的诊断方法。


原文链接:https://machinelearningmastery.com/diagnose-overfitting-underfitting-lstm-models/



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com

登录查看更多
6

相关内容

【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
225+阅读 · 2020年3月22日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【模型泛化教程】标签平滑与Keras, TensorFlow,和深度学习
专知会员服务
20+阅读 · 2019年12月31日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
基于 Keras 用 LSTM 网络做时间序列预测
R语言中文社区
21+阅读 · 2018年8月6日
如何选择合适的损失函数,请看......
人工智能头条
8+阅读 · 2018年6月20日
时间序列深度学习:状态 LSTM 模型预测太阳黑子(下)
R语言中文社区
9+阅读 · 2018年6月15日
手把手教你用Python库Keras做预测(附代码)
数据派THU
14+阅读 · 2018年5月30日
【干货】基于Keras的注意力机制实战
专知
59+阅读 · 2018年5月4日
教程 | 基于Keras的LSTM多变量时间序列预测
机器之心
20+阅读 · 2017年10月30日
如何为LSTM重新构建输入数据(Keras)
全球人工智能
6+阅读 · 2017年10月13日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2018年4月9日
Arxiv
6+阅读 · 2018年2月24日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
225+阅读 · 2020年3月22日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【模型泛化教程】标签平滑与Keras, TensorFlow,和深度学习
专知会员服务
20+阅读 · 2019年12月31日
相关资讯
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
基于 Keras 用 LSTM 网络做时间序列预测
R语言中文社区
21+阅读 · 2018年8月6日
如何选择合适的损失函数,请看......
人工智能头条
8+阅读 · 2018年6月20日
时间序列深度学习:状态 LSTM 模型预测太阳黑子(下)
R语言中文社区
9+阅读 · 2018年6月15日
手把手教你用Python库Keras做预测(附代码)
数据派THU
14+阅读 · 2018年5月30日
【干货】基于Keras的注意力机制实战
专知
59+阅读 · 2018年5月4日
教程 | 基于Keras的LSTM多变量时间序列预测
机器之心
20+阅读 · 2017年10月30日
如何为LSTM重新构建输入数据(Keras)
全球人工智能
6+阅读 · 2017年10月13日
相关论文
Top
微信扫码咨询专知VIP会员