人工智能安全的总体目标是保护个人或整个社会免受伤害。AI安全领域涉及范围广泛,包括以下风险:
由于AI系统未按预期运行而导致用户或第三方受到伤害。一个例子是由于自动驾驶汽车失灵而受到伤害的驾驶员或行人。例如,特斯拉的自动驾驶仪曾发生过几起致命事故。
另一个例子是可能不公平的自动化决策带来的伤害。王等人的论文讨论了“预测优化”的风险。一个著名的例子是COMPAS保释决策风险评估系统(参见Pro-Publica的调查以及Hardt、Price和Srebro的更广泛讨论)。 算法决策可能导致“反馈循环”,其中几个算法以意想不到且不断升级的方式相互作用。2010年“闪崩”事件被归咎于算法交易;另一个例子是亚马逊上一本并非非常罕见的书被定价为2400万美元。 人工智能带来许多社会风险。这些风险包括失业、放大偏见、集中权力、挪用内容和剥削数据工作者。 另一个问题是叶金崔(Yejin Choi)向我指出的“AI素养”。随着AI技术的快速发展,人们需要一段时间适应它们,在这段时间里,我们可能会误解它们。这种现象表现在人们将这样的系统视为有意识的(早在1966年的聊天机器人ELIZA就已经发生过这种情况)。另一个例子是“深度伪造”:可能误导尚未了解AI能力的人的不真实图像或视频(同样是一个历史悠久的问题)。AI可能被不良行为者用于黑客攻击、传播虚假信息、协助设计武器等。 最后,一些人担心人工智能系统本身会表现为“恶意代理”,这可能会以对抗性的方式危害人类,极端情况下导致人类对未来的“失控”或灭绝的存在风险。