由于物理世界是复杂的、模糊的、不可预测的,自主的智能体必须被设计成表现出人类水平的灵活性和通用性——远远超出我们显式编程的能力。这种自主的实现不仅能够可靠地解决特定的问题,而且还能够预测可能出现的错误,以便制定战略、适应和持续学习。要想做出如此丰富而复杂的决策,就需要在自主学习生命周期的所有阶段重新思考智能的基础。
在本论文中,我们开发了新的基于学习的方法,以实现自主系统的动态、弹性和稳健决策。通过解决在所有阶段出现的关键挑战,从用于训练的数据,到在这些数据上学习的模型,再到算法,以可靠地适应部署期间的意外事件,来推进野外的鲁棒决策。我们首先探索如何通过计算设计丰富的合成环境,能够模拟连续的难以收集的、分布外的边缘情况,在训练和评估期间易于使用。利用这个丰富的数据基础,我们随后创建了高效、富有表现力的学习模型,以及优化其表示的必要算法,并克服了代表性不足和具有挑战性的数据中的不平衡。最后,使用经过训练的模型,我们将转向部署设置,在该设置中,我们仍然应该预期我们的系统将面临在训练中从未遇到过的全新场景。为此,我们开发了自适应和不确定性感知算法来估计模型的不确定性,并利用它的存在来实现一般化的决策,即使是在存在意外事件的情况下。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“LRDM” 就可以获取《如何稳健决策?MIT最新博士论文《鲁棒决策的端到端学习》234页pdf》专知下载链接