编者按:机器学习训练常常面临这样一个问题:何时应该停止。IIF(国际预测者协会)主任Stephan Kolassa在Cross Validated上简要讨论了这一可预测性问题。
想象一个标准的机器学习场景:
你面对的是一个巨大的多元数据集,而你对它的了解相当模糊。你需要根据已有的数据预测某个变量。和平时一样,你清理数据,查看描述性统计数据,运行一些模型,交叉验证它们,等等,但经过好几次尝试,来来回回尝试了好多模型,似乎没有一个有效的,你得到的结果很蹩脚。你可能在这个问题上花了好几个小时、好几天乃至好几周……
问题是:何时应该停止?你怎么知道你的数据事实上没有希望,所有酷炫的模型对你而言不会比其他琐碎的方案更有帮助?
当然,这是一个可预测性问题,但据我所知,在使用模型尝试预测之前,评估多元数据的可预测性很难。我错了吗?
-- Tim
你说的没错,这是一个关于可预测性的问题。IIF面向从业者的期刊Foresight中有好几篇关于可预测性的文章(利益相关:我是该期刊的Associate Editor)。
问题在于,即使在“简单”情形下评估可预测性也已经是很困难了。
假设你有如下图所示的一些时序数据,但是你并不懂德语:
你将如何建模4月的峰值?你将如何在任何预测中包含这一信息?
除非你知道这是瑞士一家连锁超市的鸡蛋销量的时序数据,在复活节前夕达到了峰值,你不会有任何机会的。除此之外,由于每年的复活节日期相差可能高达6周,任何没有包括复活节的特定日期的预测(例如,假定这是季节性的峰值,会在下一年的同一周出现)都会大错特错。
类似地,假定你有下图的蓝线数据,希望建模为何2010-02-28的数据和2010-02-27的数据如此不同:
同样,如果不知道满城的加拿大人在电视上观看奥林匹克冰球决赛,你不可能理解这里发生了什么,同时你不可能预测类似这样的事件是否会再次发生。
最后,看下这个:
这是一家现购自运商店(译者注:现金购买、自己运走的仓储式批发商店)的时序数据。(右侧的表格表明:282天销售额为零,42天销售额为1……有一天销售额为500)我不知道销售的是什么东西。
直到今天为止,我都不知道销售额为500的那一天发生了什么。我最好的猜测是某个顾客预订了大量的某种商品,然后那一天提货了。不知道相关信息的前提下,任何特定一天的预测都将大错特错。相反,假定这恰好发生在复活节前,并且我们有一个非常聪明的算法相信这可能是复活节效应(也许这些是鸡蛋?),然后高兴地预测下一个复活节会有500单元的销售额。天啊,这怎么会不对呢?
在所有的情形下,我们看到,一旦我们具备了对可能影响数据的因素的足够深的理解,我们就可以充分理解可预测性。问题在于,除非我们知道这些因素,我们不会知道我们可能并不知道这些因素。正如Donald Rumsfeld所言:
有已知的已知,有些事,我们知道我们知道;我们也知道,有已知的未知,也就是说,有些事,我们现在知道我们不知道。但是,同样存在未知的未知——有些事,我们不知道我们不知道。
如果复活节或加拿大人对冰球的偏好对我们而言是未知的未知,那我们就陷入了困境——我们甚至不会有一条出路,因为我们不知道我们需要提出什么样的问题。
应对这些的唯一方法是收集领域知识。
基于此,我得出了一些结论:
你总是需要在你的建模和预测中包括领域知识。
即使具备了领域知识,也并不能保证你得到了让用户接受你的预测的足够信息。
如果“你得到的结果很蹩脚”,你可能在追求你不可能达成的东西。如果你预测一枚均匀硬币的投掷结果,你不可能超过50%精确度。同样,不要信任外部的预测精确度基准测试。
下面是我对构建模型的一些建议——以及如何观察何时应当停止的建议:
如果你自己不具备领域知识,和具备领域知识的人聊一聊。
基于上一步,识别你想要预测的数据的主要驱动因素,包括可能的交互因素。
迭代地构建模型,按照强度数量级的倒序逐渐加入驱动因素。使用交叉验证或保留样本评估模型。
如果你的预测精确度无法进一步提升了,或者回到第一步(例如,识别出你无法解释的明显的错误预测,和领域专家讨论一下),或者接受这样一个事实,你已经穷尽了你的模型的能力。事先将你的分析纳入时间盒会很有帮助。
注意,我并不推崇在原本的模型位于高原的时候尝试不同类别的模型。通常而言,如果你开始使用的是一个合理的模型,使用一个更复杂的模型不会带来更多益处,可能只会“过拟合测试集”。我之前经常见到这样的例子,其他人也持相同的看法。
原文地址:https://stats.stackexchange.com/questions/222179/how-to-know-that-your-machine-learning-problem-is-hopeless/222189#222189