机器学习(ML)系统的规模正在迅速增长,正在获得新的能力,并越来越多地部署在高风险环境中。为了满足对安全ML系统日益增长的需求,我首先讨论如何使系统可靠地执行。随后,我将讨论如何使系统按照人的价值观行动。最后,我将讨论如何使ML系统更安全的开放问题。 机器学习(ML)系统越来越多地部署在安全关键设置中。与任何强大的技术一样,这些系统的安全是重中之重。在这项工作中,我们描述了引导机器学习(ML)系统向更安全方向发展的研究。本研究将ML安全分为可靠性和对齐两个方面进行研究。可靠性可以被认为是降低系统在面对对抗或新事件时无法达到预期目标的倾向。同时,对齐可以被认为是将ML系统引导到特定的期望方向的能力。换句话说,可靠性减少了脆弱性和风险暴露,而对齐减少了来自强大定向ML系统的内在风险。在这里,我们概述了我们在这两个领域所做的工作