为什么基于贝叶斯优化的自动调参没有大范围使用?

最近在做deep learning相关项目,刚入门,求指导。模型建立好了之后到了调参阶段,一些手动调整超参数的方法都了解了,也仅仅是toy尝试一下。想…
关注者
1,304
被浏览
286,148
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

看了很多答案,有一个不一致的点,贝叶斯优化,是专指surrogate model为gaussian process,还是说只要运用贝叶斯定理,求解出有关p(f|x)就叫贝叶斯优化,如果是前者,确实,gaussian process可以理论上给出解析形式的p(f|x),与之而来的代价,正如同其他回答所说的,在computation overhead随实验次数呈二次方以上增长(目前已经有了各种estimate gassian的方案,算力消耗可以做到次二次方的量级),而如果surrogate model选取gbrt或者tpe呢,虽说没有解析形式的p(f|x),但是相应地,算力消耗呈线性,(acquisition function的优化可以选取mcmc)。

我觉得,贝叶斯优化并不是专指代理模型使用gp,而是利用贝叶斯定理,通过各种方式得到p(f|x)就可以称之为贝叶斯优化。

同时关于exploration和exploitation之间的平衡,在贝叶斯优化所代表的一类算法里,由acquisition function控制,在理论上,只要没有穷尽y=f(x)的每一个点(别杠),都有可能陷入局部最优,所以脱离具体的f(x)讨论局部最优的问题是没有意义的,而acquisition function,根据tradeoff estimated mean和estimated variance,来表达倾向于探索更加不确定的区域,还是更加确定的区域,与之相应的有pi,ei,ucb等等acquisition function,分别相应于更加倾向于利用,还是探索,同时各个acquisition function又有自身的hyper parameter,可以根据具体问题来做相应调节(这是很多超参优化算法的通病,会引入新的超参数)。

在很多领域,基于贝叶斯优化的自动调参,已经得到了大范围使用,Google就有好几个例子,待我找出来,发出来