This paper is concerned with a nonparametric regression problem in which the independence assumption of the input variables and the residuals is not valid. The motivation for the research stems from modeling wind power curves where the data are temporally autocorrelated. Using existing model selection methods, like cross validation, the presence of temporal autocorrelation in the input variables and the error terms leads to model overfitting. This phenomenon is referred to as temporal overfitting, which causes loss of performance while predicting responses for a time domain different from the training time domain. We propose a new method to tackle the temporal overfitting problem. Our nonparametric model is partitioned into two parts -- a time-invariant component and a time-varying component, each of which is modeled through a Gaussian process regression. The key in our inference is a thinning-based strategy, an idea borrowed from Markov chain Monte Carlo sampling, to estimate the time-invariant component. In our numerical studies, we extensively compare our proposed method with both existing power curve models and available ideas for handling temporal overfitting. Our approach yields significant improvement in prediction when predicting response for a time period different from the training time period.


翻译:本文涉及一个非参数回归问题, 输入变量和剩余值的独立假设是无效的。 研究的动机来自模拟风力曲线, 数据是暂时自动相关的。 使用现有的模型选择方法, 如交叉验证, 输入变量和错误术语中存在时间自动关系, 导致模型过大。 这种现象被称为时间过度, 造成性能损失, 同时预测一个与培训时间范围不同的时间范围。 我们提出了解决时间过长问题的新方法。 我们的非参数模型分为两个部分 -- -- 一个是时间变异部分,一个是时间变异部分,一个是时间变数部分,每个部分都是通过高斯进程回归模型。 我们推论中的关键是一种基于稀薄的战略, 一种从Markov 链 Monte Carlo 取样中借用的想法, 来估计时间变异部分。 在我们的数字研究中, 我们广泛比较了我们提出的方法, 与现有的电力曲线模型以及处理时间过长的可用想法。 我们的方法在预测不同时期的反应时会大大改进。

0
下载
关闭预览

相关内容

过拟合,在AI领域多指机器学习得到模型太过复杂,导致在训练集上表现很好,然而在测试集上却不尽人意。过拟合(over-fitting)也称为过学习,它的直观表现是算法在训练集上表现好,但在测试集上表现不好,泛化性能差。过拟合是在模型参数拟合过程中由于训练数据包含抽样误差,在训练时复杂的模型将抽样误差也进行了拟合导致的。
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
46+阅读 · 2019年9月24日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
34+阅读 · 2018年9月13日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年11月25日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
34+阅读 · 2018年9月13日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员