这项研究考察了通信方式对人与机器人团队中的人类表现、信任、态势感知和对机器人的感知的影响。在一项2×2的混合因素研究中,32名参与者在与机器人组队时进行了模拟的封锁和搜索式任务。参与者被分配到一种通信方式(指令性与非指令性;内部),两组都经历了高与低的任务负荷期(在被试中)。结果表明,与通信方式相比,任务负荷对参与者的任务表现影响更大,尽管由于通信方式对反应时间和工作量有一些不同的影响。这可能是由于不同的通信方式所固有的反馈的差异。
在单向通信模式中,双方都没有意识到或能够解决对方的需求(Héder 2014)。双向通信被认为比单向通信对认知的要求要低(Héder 2014),以及本质上更准确(因为接收者可以根据需要要求更多的信息)和及时(因为接收者不必怀疑信息是否不再相关)。在人类-智能体团队中,通过通信进行的知识转移支持共享态势(Lyons 2013;Sycara和Sukthankar 2006)。当考虑到这些优势的综合影响时,我们有理由期待,与使用单向通信方法的团队相比,使用双向通信的人类-智能体团队会有更好的绩效结果。本研究拟通过一系列班组级的、类似于警戒线和搜索的任务来研究人类-智能体团队中双向通信的影响。
人与智能体通信的研究主要集中在智能体理解人类的能力上。研究人员从理论上提出了机器人需要理解自然语言(Lueth等人,1994年;Mavridis,2015年)、语义建模(Labrou等人,1999年;Yi和Goodrich,2014年)、手势识别(Carinon和Billard,2007年;Fiore等人,2011年;Mavridis,2015年)和意图识别(Hayes和Scassellati,2013年),许多人已经开始开发这些能力并通过实验探索其相关问题(Calinon和Billard,2007年;Kaupp等人,2010年)。很明显,许多研究人员认为能够理解人类语言、语境和意图的机器人是机器进化的下一步。让智能体通过与人类队友的通信获得信息,也被证明可以提高智能体的性能(Breazeal和Thomaz 2008;Cakmak和Thomaz 2012)。虽然许多研究人员已经调查了人类-智能体团队内的通信对人类队友的表现和感知的影响(Rau等人,2009;Selkowitz等人,2016;Wright等人,2017;Lakhmani等人,2019a;Stowers等人,2020;Wright等人,2020),但相对来说,很少有人将这一研究扩展到考察机器人的通信方式的影响。
本研究的目的是考察机器人的通信方式在多大程度上影响人类队友对自主机器人伙伴的看法。之前的工作已经探讨了团队内部的通信如何影响人类队友的单向通信,即智能体向人类提供有关其感知、目标和行动的信息(没有人类的输入)(Selkowitz等人,2016;Lakhmani等人,2019a;Wright等人,2020)。有证据表明,在这种单向通信的环境中,智能体在通信目标、动机、预测结果和不确定性信息方面的透明度越高,人类队友就越信任智能体,将代智能体拟人化,并认为它更有智慧和活力(Lakhmani等人,2019a;Wright等人,2020)。此外,智能体的透明度增加,可以更好地支持人类队友的态势感知(SA;Selkowitz等人,2016)。
尚待探讨的是,人类与智能体通信的能力(即改变目标和动机以及保存资源)将如何影响人类对所述智能体的看法、对智能体的信任以及智能体的态势感知。不可避免的是,当智能体被部署在下马队中时,组长将有能力和必要向智能体传达不断变化的目标和指令。当务之急是事先了解这种双向通信的结果,以了解和避免(在可能的情况下)在战场上可能遇到的潜在困难。
人与机器人的对话可能会影响人类对机器人的认知(Kaupp等人,2010),尽管人类对机器人的认知可能是不准确或不正确的。在Fong等人(2003)的远程操作研究中,人类引导机器人通过一个拥挤的区域,同时与机器人保持通信。机器人可以询问人类,人类也可以询问机器人的状态、进展和当前状态。大多数参与者在被机器人询问时都做出了回应,尽管有些人在完成当前任务后才做出回应。然而,所有参与者都拒绝主动向机器人提问,这表明他们可以通过机器人的表现来推断机器人的状态(Fong等人,2003)。这一反应表明,人类参与者并没有将很高的灵性赋予机器人。当被问及为什么不询问机器人时,参与者透露了对机器人如何工作或机器人发起的通信的重要性的错误认识。参与者可能试图用人类的通信模式来理解与机器人的通信,但事实证明这是不充分的。
人与人之间的通信往往有细微的差别,除了简单的信息通信或收集外,还有很多原因。人际通信动机(ICM)模型(Rubin等人,1988)概述了影响人们通信动机的六个因素。人类通信是为了快乐,为了表达爱意,为了感受被包容,为了逃避或放松,以及为了施加控制。通信是由三个方面组成的:我们与谁交谈,我们如何与他们交谈,以及我们谈论什么(Graham等人,1993)。谁 "可以是与他们交谈,我们谈什么,因为通信者之间的关系集中并形成了互动(Rubin 1977)。然而,在一个进行联合任务的两人团队中,"谁 "是预先确定的,而在进行任务时讨论的 "什么 "将大多限于与任务相关的信息(Klein等人,2005)。这就留下了 "如何 "形成通信的问题,而这将取决于通信者的通信方式。
诺顿的通信者方式(1978)包括两个维度(即指令性与非指令性),可以是主动的,也可以是不主动的,是基于人际交往的动机、功能和个人需求的满足。指导性(DIR)风格是主导的,精确的,并且经常有争议,而非指导性(NDIR)风格是友好的,细心的,圆滑的,并且鼓励他人的想法。积极的风格是戏剧性的和生动的,而不积极的风格是放松和平静的。诺顿争辩说,一个人的通信者风格带有意义,并构造了通信。已经发现DIR风格与ICM通信动机中的控制、包容、逃避和快乐正相关,而非直接与快乐、感情、包容和放松的动机正相关(Graham等人,1993)。人类队友对机器人的通信方式很敏感,这已被证明会影响他们对机器人的接受和看法(Rau等人,2009)。在一项跨文化研究中,当机器人以隐性(即非指令性)通信方式而非显性(即指令性)通信方式进行通信时,中国参与者更有可能接受机器人的建议,并表示更加信任、喜欢和可信。然而,德国参与者对使用隐性通信方式的机器人的评价远远低于显性机器人,并且不太可能听从其建议(Rau等人,2009)。这表明,为了提高人-智能体团队的互动效率,匹配人类偏好的通信方式可能很重要(Chien等人,2020年;Matthews等人,2019年)。
在人类-智能体团队中,信息共享的方式由界面设计决定(Kilgore和Voshell 2014),其中一个方面将是团队成员的通信风格。机器人是简单地分享关于其状态和对周围环境的信念的信息(单向通信),还是团队成员有能力相互查询,更新目标和纠正错误信息(双向通信),这不是由团队决定的,而是由界面内置的能力决定的。因此,在某种程度上,人类对智能体的看法可能不是由智能体的任务表现或能力决定的,而是由团队部署前很久做出的设计决定决定的。在这项工作中,将评估通信方式对人类的任务表现、SA、感知的工作量、信任和对自主智能体的看法的影响。此外,还将评估可能影响调查结果的几个个体差异因素。
发展适当的SA已被证明是人类-机器人团队的一个关键任务目标(Evans 2012)。有几个关于SA的概念;最流行的是Endsley(1995)的基于信息处理的模型。基于信息处理的模型认为,个人的SA包括三个层次,每个层次都与其他层次不同,但都是累积性的。这三个层次是:第一层次:对环境中的元素的感知;第二层次:对其意义的理解;第三层次:对其在不久的将来的状态的预测(Endsley 1995)。
基于SA的智能体透明度(SAT)模型(Chen等人,2014年)为智能体应该提供支持个人SA的信息提供了一个框架。与Endsley的模型类似,它也有三个层次,每个层次都概述了支持Endsley模型中相关层次所需的信息类型。然而,维持SA是一个持续的、个体与环境之间的互动过程(Smith和Hancock 1995)。当一个人与一个智能体合作完成一个共同的任务时,每个人都必须保持他们自己对环境的SA,以及他们对对方的知识、理解和能力的SA,才能有效(Bradshaw等人,2011)。动态SAT模型(Chen等人,2014年)代表了从事共享任务的人类和智能体之间不断更新的互动。通过比较单向交流条件和双向交流条件下的表现,我们可以探索这两种SAT模型的相对效用。
为了评估个人当前的SA水平,我们将使用类似于情况意识全球评估技术(SAGAT)的查询方法。SAGAT是一种在分析的任务中,在预定的模拟暂停期间对参与者进行SA相关查询的方法(Jones和Kaber 2004;Salmon等人2009;Stanton等人2012)。我们还将使用每个SA探针中包含的五点李克特量表(McGuinness 2004)评估相关的对自己SA的信心概念(Endsley and Jones 1997)。除了SA之外,我们还将测量参与者在与智能体通信时的感知工作量。
Parasuraman等人(2008)将心理工作负荷定义为:"任务所要求的心理资源与人类操作者可提供的资源之间的功能关系"。因此,认知工作负荷不是由任务的要求决定的,而是由操作者在特定任务负荷要求下的能力决定的。在拟议的研究中,一个优先事项是看看工作量与团队成员之间用于传递信息的通信方式之间是否存在关系。为此,每个参与者将完成两个场景,在每个任务负荷水平(高与低)下完成一个场景。
将使用两种不同的工作负荷测量方法。第一个衡量参与者感知到的工作负荷的方法是NASA任务负荷指数(TLX)(Hart和Staveland 1988)。NASA-TLX要求参与者对他们在实验中的主观工作量水平进行评价。NASA-TLX由六个子量表组成:精神需求、身体需求、时间需求、表现、努力和挫折感。这项测量将在每个场景之后进行。
第二项是眼睛的工作负荷测量。这些将使用连接到显示任务的计算机显示器上的眼球追踪器进行记录。眼部测量已被证明是测量工作负荷的一种有效方式(Ahlstrom和Friedman-Berg,2006年)。眨眼时间和平均瞳孔直径已被证明与认知工作负荷呈正相关(Ahlstrom和Friedman-Berg 2006)。固定的次数与任务难度正相关(Ehmke和Wilson,2007)。拟议的研究将使用这些工作负荷测量方法来评估不同沟通方式所引起的认知工作负荷的任何差异。
该研究的另一个研究问题是,参与者对智能体的信任将如何受到队友通信方式的影响。操作者的信任被定义为 "在以不确定性和脆弱性为特征的情况下,智能体将帮助实现个人的目标的态度"(Lee and See 2004)。为了正确地校准操作者的信任,机器人需要有意义地提供关于其行动和为什么执行这些行动的洞察力(Chen等人,2014)。太多的信任会导致自满或误用,而信任不足则会导致误用(Parasuraman和Riley 1997)。在拟议的研究中,信任将使用修改后的自动化信任量表(Jian等人,2000)进行测量。该量表被修改为评估Parasuraman等人(2000)描述的四类自动化功能中的信任。操作人员对自动化的态度影响了他们对自动化的信任程度(Chen等人,2014)。操作人员的显性态度是有意识的,而且是认知上的努力,可以用自我报告的方式来测量(Merritt等人,2013)。另一方面,对自动化的隐性态度,无意识的 "直觉反应",仍然可以影响操作者对信息的感知和随后的行为(Merritt等人,2013;Krausman等人,2022)。与明确的对应物不同,内隐态度是由 "概念(如黑人、同性恋者)和评价(如好、坏)之间的关联强度 "决定的(Project Implicit 2017)。
对自动化的积极内隐态度在人与自动化的团队合作中可能导致好的和坏的后果;它可能支持用户对不可靠的系统的信任;然而,它也可能导致用户在与自动化合作时更容易表现出自满行为(Singh等人,1993;Merritt等人,2013)。在目前的研究中,显性信任是使用自动化信任量表的修改版(Jian等人,2000年)来评估的,而对自动化的隐性态度是使用基于计算机的隐性关联测试(IAT)来评估对自动化的态度(Merritt等人,2013年;Project Implicit 2017)。
机器人被认为是智能的程度和它的拟人化倾向也会影响信任(Ososky等人,2014;Lee和See,2004)。Hinds等人(2004年)发现,在人类与机器人的合作任务中,人类操作者在与类似人类的机器人合作时,感觉对任务的责任比与类似机器的机器人合作要小。这一发现表明,当机器人更像人的时候,操作者更愿意把对任务结果的责任让给他们的机器人队友。在之前的研究中(Selkowitz等人,2016年),研究表明,当机器人传达有关其不确定性和预测结果的信息时,与只传达其推理和当前对环境的理解的机器人相比,操作员将机器人评为更像人类。此外,机器人被评为更值得信赖,尽管其可靠性没有变化(Selkowitz等人,2016)。Godspeed问卷(Bartneck等人,2009年)将被用来评估参与者对代理的人性化、生动性、可亲性和智能的看法。
此外,还将研究影响操作者在多任务环境中表现的几个个体差异(ID)变量的影响。这些变量包括感知的注意力控制(PAC)和工作记忆能力(WMC)。以前的研究表明,高PAC和WMC有助于在模拟环境和机器人监督任务中的表现(Chen和Terrence 2009;Wright等人2018)。PAC已被证明与操作者在需要注意力集中和转移注意力的任务中的表现和SA有关(Chen和Barnes 2012),并将使用Derryberry和Reed(2002)的自我报告调查来评估。WMC差异已被证明会影响多机器人监督任务的表现(Ahmed等人,2014年)和SA(Endsley,1995年;Wickens和Holland,2000年),将使用自动阅读跨度任务进行评估(Redick等人,2012年;Unsworth等人,2005年)。
本研究探讨了在多任务的动态环境中,双向通信方式如何与任务负荷相互作用,影响操作者的表现、信任、工作负荷和对通信的看法。该实验是一个混合因素设计,通信方式(即DIR与NDIR)是主体间因素,任务负荷(即低与高)是主体内变量。
在一个模拟的多任务环境中,参与者与一个机器人队友在繁忙的道路附近进行封锁和搜索类型的任务。机器人负责搜索和保护建筑物的后部,而参与者则负责监测道路上的潜在威胁(威胁探测),并向机器人警告即将到来的叛乱分子。任务负荷(低与高)是通过增加威胁检测任务的事件率来操控的。
每位参与者被分配到一种与机器人通信的方式,然后完成两个试验,每个任务负荷条件下一个。在这两种交流条件下,机器人还监测道路,并试图识别进入该区域的人,并确定他们的行动。然后,机器人询问参与者它对该人的评估是否准确。在DIR条件下,参与者同意或纠正了在智能体,智能体没有进一步的回应。在NDIR条件下,在参与者同意或纠正后,智能体审查信息并通知参与者它是否同意或不同意参与者的反应。
本研究的目标是了解不同的通信方式如何与任务负荷相互作用,在人与智能体的合作背景下,影响人的表现、信任、工作量、SA和对智能体的看法。
假设1(H1)任务表现:
H1a: 在DIR条件下的参与者在通信任务上的表现将比在NDIR条件下的参与者更好。通信任务的表现将由正确的反应和反应的速度来评估。
H1b: 在每个沟通方式条件下,低任务负荷(LTL)条件下的沟通任务表现将高于高任务负荷条件。
H1c: 在DIR条件下,参与者在目标识别任务上的表现将优于NDIR条件下的参与者。目标识别任务的表现将由正确的识别和识别目标的速度来评估。
H1d: 在每个通信方式条件下,低任务负荷条件下的目标识别表现将高于高任务负荷条件。
假设2(H2)信任:
H2a: 与NDIR条件下的参与者相比,DIR条件下的参与者将对机器人有更高的信任。
H2b: 在每个通信方式条件下,高任务负荷条件下的参与者对机器人的信任度将高于低任务负荷条件下的参与者。
假设3(H3)工作负荷:
H3a: 在NDIR条件下,参与者的工作负荷将大于DIR条件下的参与者。
H3b:在每个通信方式条件下,高任务量条件下的参与者感知的认知工作负荷将大于低任务量条件下的参与者。
假设4(H4)SA:
H4a: 在DIR条件下的参与者将比在NDIR条件下的参与者有更高的SA。
H4b: 在每个通信方式条件下,高任务负荷条件下的参与者SA将高于低任务负荷条件下的参与者。
假设5 (H5) 对机器人的感知:
H5a: 与NDIR条件下的参与者相比,DIR条件下的参与者会认为机器人的生动性较低,不讨人喜欢,智力较低,安全性较低。
H5b: 在每个通信方式条件下,任务负荷将影响参与者对代理的感知,低任务负荷条件下的感知将高于高任务负荷条件下的感知(即,更有活力、更讨人喜欢、更有智慧和更安全)。
假设6(H6)个体差异:
H6:由于ID(即IAT、WMC和PAC)的原因,在所有因果测量(即目标探测性能、信任、工作量、SA和对代理的感知)上会有不同的结果。