简介:
本文着眼于在AI一致性背景下出现的哲学问题。它捍卫了三个主张。首先,AI协调问题的规范和技术方面是相互关联的,这为在两个领域工作的人们之间的有效参与创造了空间。其次,重要的是要明确对齐的目标。人工智能与指令,意图,揭示的偏好,理想偏好,兴趣和价值观相符之间存在显着差异。在这种情况下,基于原则的AI对齐方法将这些元素以系统的方式结合在一起,具有相当大的优势。第三,理论学家面临的主要挑战不是确定AI的“真实”道德原则。相反,它是确定公平的公正原则,尽管人们的道德观念差异很大,但原则上仍应得到反思的认可。本文的最后一部分探讨了可以潜在地确定AI协调的公平原则的三种方式。
任何新技术都会产生道德上的考虑。但是,随着计算机系统具有更大的自主权并以“越来越多地禁止人们评估是否以负责任或道德的方式来评估每个动作”的速度运行,赋予人工代理以道德价值的任务变得尤为重要。
本文的第一部分指出,虽然技术人员在构建尊重和体现人类价值的系统中可以发挥重要作用,但选择合适的价值并不是仅靠技术工作就能解决的任务。当我们研究至少在强化学习范式中可以实现价值一致的不同方式时,这一点变得很明显。