尽管近年来机器学习技术不断进步,但最先进的系统对 "真实世界 "的事件缺乏鲁棒性,即部署的系统遇到的输入分布和任务将不限于原来的训练环境,而系统将需要在部署时适应新的分布和任务。这一关键差距可以通过开发 "终身学习 "系统来解决,该系统能够:1)持续学习,2)转移和适应,以及3)可扩展性。不幸的是,提高这些能力的工作通常被当作独立的研究领域来评估,而没有考虑到每个独立能力对系统其他方面的影响。相反,我们提出了一个整体的方法,使用一套指标和一个评估框架,以一种有原则的方式评估终身学习,而不考虑具体领域或系统技术。通过五个案例研究,我们表明这套衡量标准可以为各种复杂的终身学习系统的发展提供参考。我们强调了所提出的这套指标是如何量化终身学习系统开发过程中的性能权衡的--包括广泛讨论的稳定性-弹性困境和新提出的样本效率和稳健学习之间的关系。此外,我们还提出了制定和使用衡量标准的建议,以指导终身学习系统的持续发展,并在未来评估其进展。