美陆军的现代化优先事项包括开发增强现实和虚拟现实(AR/VR)模拟,以增加兵团和士兵的准备。美国陆军工程研究与发展中心(ERDC)对AR/VR技术的使用在军事和民用工程项目任务领域也在增长。ERDC海岸和水力实验室(CHL)已经开发了一个舰船模拟器,用于评估世界各地的海湾渠道;然而,目前的模拟器在近岸海岸地区几乎没有物理真实性(图1)。因此,ERDC团队正在研究推进舰船模拟的机会,以提供未来的舰船模拟器(SSoF)。SSoF将配备一个VR模式,并将通过摄取Boussinesq型波浪模型的预计算输出来更准确地解决近岸波浪现象。SSoF应用的最初原型是用于研究和开发目的;然而,所采用的技术将适用于其他学科和项目范围,包括合成训练环境(STE)和未来版本的船舶和海岸结构设计。

成为VIP会员查看完整内容
2
1

这项研究考察了通信方式对人与机器人团队中的人类表现、信任、态势感知和对机器人的感知的影响。在一项2×2的混合因素研究中,32名参与者在与机器人组队时进行了模拟的封锁和搜索式任务。参与者被分配到一种通信方式(指令性与非指令性;内部),两组都经历了高与低的任务负荷期(在被试中)。结果表明,与通信方式相比,任务负荷对参与者的任务表现影响更大,尽管由于通信方式对反应时间和工作量有一些不同的影响。这可能是由于不同的通信方式所固有的反馈的差异。

引言

在单向通信模式中,双方都没有意识到或能够解决对方的需求(Héder 2014)。双向通信被认为比单向通信对认知的要求要低(Héder 2014),以及本质上更准确(因为接收者可以根据需要要求更多的信息)和及时(因为接收者不必怀疑信息是否不再相关)。在人类-智能体团队中,通过通信进行的知识转移支持共享态势(Lyons 2013;Sycara和Sukthankar 2006)。当考虑到这些优势的综合影响时,我们有理由期待,与使用单向通信方法的团队相比,使用双向通信的人类-智能体团队会有更好的绩效结果。本研究拟通过一系列班组级的、类似于警戒线和搜索的任务来研究人类-智能体团队中双向通信的影响。

人与智能体通信的研究主要集中在智能体理解人类的能力上。研究人员从理论上提出了机器人需要理解自然语言(Lueth等人,1994年;Mavridis,2015年)、语义建模(Labrou等人,1999年;Yi和Goodrich,2014年)、手势识别(Carinon和Billard,2007年;Fiore等人,2011年;Mavridis,2015年)和意图识别(Hayes和Scassellati,2013年),许多人已经开始开发这些能力并通过实验探索其相关问题(Calinon和Billard,2007年;Kaupp等人,2010年)。很明显,许多研究人员认为能够理解人类语言、语境和意图的机器人是机器进化的下一步。让智能体通过与人类队友的通信获得信息,也被证明可以提高智能体的性能(Breazeal和Thomaz 2008;Cakmak和Thomaz 2012)。虽然许多研究人员已经调查了人类-智能体团队内的通信对人类队友的表现和感知的影响(Rau等人,2009;Selkowitz等人,2016;Wright等人,2017;Lakhmani等人,2019a;Stowers等人,2020;Wright等人,2020),但相对来说,很少有人将这一研究扩展到考察机器人的通信方式的影响。

本研究的目的是考察机器人的通信方式在多大程度上影响人类队友对自主机器人伙伴的看法。之前的工作已经探讨了团队内部的通信如何影响人类队友的单向通信,即智能体向人类提供有关其感知、目标和行动的信息(没有人类的输入)(Selkowitz等人,2016;Lakhmani等人,2019a;Wright等人,2020)。有证据表明,在这种单向通信的环境中,智能体在通信目标、动机、预测结果和不确定性信息方面的透明度越高,人类队友就越信任智能体,将代智能体拟人化,并认为它更有智慧和活力(Lakhmani等人,2019a;Wright等人,2020)。此外,智能体的透明度增加,可以更好地支持人类队友的态势感知(SA;Selkowitz等人,2016)。

尚待探讨的是,人类与智能体通信的能力(即改变目标和动机以及保存资源)将如何影响人类对所述智能体的看法、对智能体的信任以及智能体的态势感知。不可避免的是,当智能体被部署在下马队中时,组长将有能力和必要向智能体传达不断变化的目标和指令。当务之急是事先了解这种双向通信的结果,以了解和避免(在可能的情况下)在战场上可能遇到的潜在困难。

1.1 通信方式

人与机器人的对话可能会影响人类对机器人的认知(Kaupp等人,2010),尽管人类对机器人的认知可能是不准确或不正确的。在Fong等人(2003)的远程操作研究中,人类引导机器人通过一个拥挤的区域,同时与机器人保持通信。机器人可以询问人类,人类也可以询问机器人的状态、进展和当前状态。大多数参与者在被机器人询问时都做出了回应,尽管有些人在完成当前任务后才做出回应。然而,所有参与者都拒绝主动向机器人提问,这表明他们可以通过机器人的表现来推断机器人的状态(Fong等人,2003)。这一反应表明,人类参与者并没有将很高的灵性赋予机器人。当被问及为什么不询问机器人时,参与者透露了对机器人如何工作或机器人发起的通信的重要性的错误认识。参与者可能试图用人类的通信模式来理解与机器人的通信,但事实证明这是不充分的。

人与人之间的通信往往有细微的差别,除了简单的信息通信或收集外,还有很多原因。人际通信动机(ICM)模型(Rubin等人,1988)概述了影响人们通信动机的六个因素。人类通信是为了快乐,为了表达爱意,为了感受被包容,为了逃避或放松,以及为了施加控制。通信是由三个方面组成的:我们与谁交谈,我们如何与他们交谈,以及我们谈论什么(Graham等人,1993)。谁 "可以是与他们交谈,我们谈什么,因为通信者之间的关系集中并形成了互动(Rubin 1977)。然而,在一个进行联合任务的两人团队中,"谁 "是预先确定的,而在进行任务时讨论的 "什么 "将大多限于与任务相关的信息(Klein等人,2005)。这就留下了 "如何 "形成通信的问题,而这将取决于通信者的通信方式。

诺顿的通信者方式(1978)包括两个维度(即指令性与非指令性),可以是主动的,也可以是不主动的,是基于人际交往的动机、功能和个人需求的满足。指导性(DIR)风格是主导的,精确的,并且经常有争议,而非指导性(NDIR)风格是友好的,细心的,圆滑的,并且鼓励他人的想法。积极的风格是戏剧性的和生动的,而不积极的风格是放松和平静的。诺顿争辩说,一个人的通信者风格带有意义,并构造了通信。已经发现DIR风格与ICM通信动机中的控制、包容、逃避和快乐正相关,而非直接与快乐、感情、包容和放松的动机正相关(Graham等人,1993)。人类队友对机器人的通信方式很敏感,这已被证明会影响他们对机器人的接受和看法(Rau等人,2009)。在一项跨文化研究中,当机器人以隐性(即非指令性)通信方式而非显性(即指令性)通信方式进行通信时,中国参与者更有可能接受机器人的建议,并表示更加信任、喜欢和可信。然而,德国参与者对使用隐性通信方式的机器人的评价远远低于显性机器人,并且不太可能听从其建议(Rau等人,2009)。这表明,为了提高人-智能体团队的互动效率,匹配人类偏好的通信方式可能很重要(Chien等人,2020年;Matthews等人,2019年)。

在人类-智能体团队中,信息共享的方式由界面设计决定(Kilgore和Voshell 2014),其中一个方面将是团队成员的通信风格。机器人是简单地分享关于其状态和对周围环境的信念的信息(单向通信),还是团队成员有能力相互查询,更新目标和纠正错误信息(双向通信),这不是由团队决定的,而是由界面内置的能力决定的。因此,在某种程度上,人类对智能体的看法可能不是由智能体的任务表现或能力决定的,而是由团队部署前很久做出的设计决定决定的。在这项工作中,将评估通信方式对人类的任务表现、SA、感知的工作量、信任和对自主智能体的看法的影响。此外,还将评估可能影响调查结果的几个个体差异因素。

1.2 态势感知

发展适当的SA已被证明是人类-机器人团队的一个关键任务目标(Evans 2012)。有几个关于SA的概念;最流行的是Endsley(1995)的基于信息处理的模型。基于信息处理的模型认为,个人的SA包括三个层次,每个层次都与其他层次不同,但都是累积性的。这三个层次是:第一层次:对环境中的元素的感知;第二层次:对其意义的理解;第三层次:对其在不久的将来的状态的预测(Endsley 1995)。

基于SA的智能体透明度(SAT)模型(Chen等人,2014年)为智能体应该提供支持个人SA的信息提供了一个框架。与Endsley的模型类似,它也有三个层次,每个层次都概述了支持Endsley模型中相关层次所需的信息类型。然而,维持SA是一个持续的、个体与环境之间的互动过程(Smith和Hancock 1995)。当一个人与一个智能体合作完成一个共同的任务时,每个人都必须保持他们自己对环境的SA,以及他们对对方的知识、理解和能力的SA,才能有效(Bradshaw等人,2011)。动态SAT模型(Chen等人,2014年)代表了从事共享任务的人类和智能体之间不断更新的互动。通过比较单向交流条件和双向交流条件下的表现,我们可以探索这两种SAT模型的相对效用。

为了评估个人当前的SA水平,我们将使用类似于情况意识全球评估技术(SAGAT)的查询方法。SAGAT是一种在分析的任务中,在预定的模拟暂停期间对参与者进行SA相关查询的方法(Jones和Kaber 2004;Salmon等人2009;Stanton等人2012)。我们还将使用每个SA探针中包含的五点李克特量表(McGuinness 2004)评估相关的对自己SA的信心概念(Endsley and Jones 1997)。除了SA之外,我们还将测量参与者在与智能体通信时的感知工作量。

1.3 工作负荷

Parasuraman等人(2008)将心理工作负荷定义为:"任务所要求的心理资源与人类操作者可提供的资源之间的功能关系"。因此,认知工作负荷不是由任务的要求决定的,而是由操作者在特定任务负荷要求下的能力决定的。在拟议的研究中,一个优先事项是看看工作量与团队成员之间用于传递信息的通信方式之间是否存在关系。为此,每个参与者将完成两个场景,在每个任务负荷水平(高与低)下完成一个场景。

将使用两种不同的工作负荷测量方法。第一个衡量参与者感知到的工作负荷的方法是NASA任务负荷指数(TLX)(Hart和Staveland 1988)。NASA-TLX要求参与者对他们在实验中的主观工作量水平进行评价。NASA-TLX由六个子量表组成:精神需求、身体需求、时间需求、表现、努力和挫折感。这项测量将在每个场景之后进行。

第二项是眼睛的工作负荷测量。这些将使用连接到显示任务的计算机显示器上的眼球追踪器进行记录。眼部测量已被证明是测量工作负荷的一种有效方式(Ahlstrom和Friedman-Berg,2006年)。眨眼时间和平均瞳孔直径已被证明与认知工作负荷呈正相关(Ahlstrom和Friedman-Berg 2006)。固定的次数与任务难度正相关(Ehmke和Wilson,2007)。拟议的研究将使用这些工作负荷测量方法来评估不同沟通方式所引起的认知工作负荷的任何差异。

1.4 信任

该研究的另一个研究问题是,参与者对智能体的信任将如何受到队友通信方式的影响。操作者的信任被定义为 "在以不确定性和脆弱性为特征的情况下,智能体将帮助实现个人的目标的态度"(Lee and See 2004)。为了正确地校准操作者的信任,机器人需要有意义地提供关于其行动和为什么执行这些行动的洞察力(Chen等人,2014)。太多的信任会导致自满或误用,而信任不足则会导致误用(Parasuraman和Riley 1997)。在拟议的研究中,信任将使用修改后的自动化信任量表(Jian等人,2000)进行测量。该量表被修改为评估Parasuraman等人(2000)描述的四类自动化功能中的信任。操作人员对自动化的态度影响了他们对自动化的信任程度(Chen等人,2014)。操作人员的显性态度是有意识的,而且是认知上的努力,可以用自我报告的方式来测量(Merritt等人,2013)。另一方面,对自动化的隐性态度,无意识的 "直觉反应",仍然可以影响操作者对信息的感知和随后的行为(Merritt等人,2013;Krausman等人,2022)。与明确的对应物不同,内隐态度是由 "概念(如黑人、同性恋者)和评价(如好、坏)之间的关联强度 "决定的(Project Implicit 2017)。

对自动化的积极内隐态度在人与自动化的团队合作中可能导致好的和坏的后果;它可能支持用户对不可靠的系统的信任;然而,它也可能导致用户在与自动化合作时更容易表现出自满行为(Singh等人,1993;Merritt等人,2013)。在目前的研究中,显性信任是使用自动化信任量表的修改版(Jian等人,2000年)来评估的,而对自动化的隐性态度是使用基于计算机的隐性关联测试(IAT)来评估对自动化的态度(Merritt等人,2013年;Project Implicit 2017)。

1.5 机器人的智能性和人性

机器人被认为是智能的程度和它的拟人化倾向也会影响信任(Ososky等人,2014;Lee和See,2004)。Hinds等人(2004年)发现,在人类与机器人的合作任务中,人类操作者在与类似人类的机器人合作时,感觉对任务的责任比与类似机器的机器人合作要小。这一发现表明,当机器人更像人的时候,操作者更愿意把对任务结果的责任让给他们的机器人队友。在之前的研究中(Selkowitz等人,2016年),研究表明,当机器人传达有关其不确定性和预测结果的信息时,与只传达其推理和当前对环境的理解的机器人相比,操作员将机器人评为更像人类。此外,机器人被评为更值得信赖,尽管其可靠性没有变化(Selkowitz等人,2016)。Godspeed问卷(Bartneck等人,2009年)将被用来评估参与者对代理的人性化、生动性、可亲性和智能的看法。

1.6 个体差异

此外,还将研究影响操作者在多任务环境中表现的几个个体差异(ID)变量的影响。这些变量包括感知的注意力控制(PAC)和工作记忆能力(WMC)。以前的研究表明,高PAC和WMC有助于在模拟环境和机器人监督任务中的表现(Chen和Terrence 2009;Wright等人2018)。PAC已被证明与操作者在需要注意力集中和转移注意力的任务中的表现和SA有关(Chen和Barnes 2012),并将使用Derryberry和Reed(2002)的自我报告调查来评估。WMC差异已被证明会影响多机器人监督任务的表现(Ahmed等人,2014年)和SA(Endsley,1995年;Wickens和Holland,2000年),将使用自动阅读跨度任务进行评估(Redick等人,2012年;Unsworth等人,2005年)。

1.7 目前的研究

本研究探讨了在多任务的动态环境中,双向通信方式如何与任务负荷相互作用,影响操作者的表现、信任、工作负荷和对通信的看法。该实验是一个混合因素设计,通信方式(即DIR与NDIR)是主体间因素,任务负荷(即低与高)是主体内变量。

在一个模拟的多任务环境中,参与者与一个机器人队友在繁忙的道路附近进行封锁和搜索类型的任务。机器人负责搜索和保护建筑物的后部,而参与者则负责监测道路上的潜在威胁(威胁探测),并向机器人警告即将到来的叛乱分子。任务负荷(低与高)是通过增加威胁检测任务的事件率来操控的。

每位参与者被分配到一种与机器人通信的方式,然后完成两个试验,每个任务负荷条件下一个。在这两种交流条件下,机器人还监测道路,并试图识别进入该区域的人,并确定他们的行动。然后,机器人询问参与者它对该人的评估是否准确。在DIR条件下,参与者同意或纠正了在智能体,智能体没有进一步的回应。在NDIR条件下,在参与者同意或纠正后,智能体审查信息并通知参与者它是否同意或不同意参与者的反应。

1.8 研究目标

本研究的目标是了解不同的通信方式如何与任务负荷相互作用,在人与智能体的合作背景下,影响人的表现、信任、工作量、SA和对智能体的看法。

1.8.1 假设1

假设1(H1)任务表现:

H1a: 在DIR条件下的参与者在通信任务上的表现将比在NDIR条件下的参与者更好。通信任务的表现将由正确的反应和反应的速度来评估。

H1b: 在每个沟通方式条件下,低任务负荷(LTL)条件下的沟通任务表现将高于高任务负荷条件。

H1c: 在DIR条件下,参与者在目标识别任务上的表现将优于NDIR条件下的参与者。目标识别任务的表现将由正确的识别和识别目标的速度来评估。

H1d: 在每个通信方式条件下,低任务负荷条件下的目标识别表现将高于高任务负荷条件。

1.8.2 假设2

假设2(H2)信任:

H2a: 与NDIR条件下的参与者相比,DIR条件下的参与者将对机器人有更高的信任。

H2b: 在每个通信方式条件下,高任务负荷条件下的参与者对机器人的信任度将高于低任务负荷条件下的参与者。

1.8.3 假设3

假设3(H3)工作负荷:

H3a: 在NDIR条件下,参与者的工作负荷将大于DIR条件下的参与者。

H3b:在每个通信方式条件下,高任务量条件下的参与者感知的认知工作负荷将大于低任务量条件下的参与者。

1.8.4 假设4

假设4(H4)SA:

H4a: 在DIR条件下的参与者将比在NDIR条件下的参与者有更高的SA。

H4b: 在每个通信方式条件下,高任务负荷条件下的参与者SA将高于低任务负荷条件下的参与者。

1.8.5 假设5

假设5 (H5) 对机器人的感知:

H5a: 与NDIR条件下的参与者相比,DIR条件下的参与者会认为机器人的生动性较低,不讨人喜欢,智力较低,安全性较低。

H5b: 在每个通信方式条件下,任务负荷将影响参与者对代理的感知,低任务负荷条件下的感知将高于高任务负荷条件下的感知(即,更有活力、更讨人喜欢、更有智慧和更安全)。

1.8.6 假设6

假设6(H6)个体差异:

H6:由于ID(即IAT、WMC和PAC)的原因,在所有因果测量(即目标探测性能、信任、工作量、SA和对代理的感知)上会有不同的结果。

成为VIP会员查看完整内容
3

行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。本文从数据驱动的角度出发,全面介绍了行为识别技术的研究发展,对具有代表性的行为识别方法或模型进行了系统阐述。行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据。首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集;然后根据数据模态分类,回顾了RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法,以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法。传统手工特征法包括基于时空体积和时空兴趣点的方法(RGB模态)、基于运动变化和外观的方法(深度模态)以及基于骨骼特征的方法(骨骼模态)等;深度学习方法主要涉及卷积网络、图卷积网络和混合网络,重点介绍了其改进点、特点以及模型的创新点。基于不同模态的数据集分类进行不同行为识别技术的对比分析。通过类别内部和类别之间两个角度对比分析后,得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优势。最后,总结了行为识别技术当前面临的问题和挑战,并基于数据模态的角度提出了未来可行的研究方向和研究重点。 http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1

成为VIP会员查看完整内容
9

图是通用的数据结构,可以表示来自各种领域(社会、生物医学、在线事务等)的信息。图神经网络(GNNs)是在神经网络模型中使用图结构数据的一种令人兴奋的方法,这种方法最近非常流行。然而,在大型(和复杂)数据集上实现和运行gnn仍然给机器学习平台带来了许多挑战。感谢您对我们的教程感兴趣!本教程的主要目标是帮助从业者和研究人员在TensorFlow设置中实现GNN。具体来说,该教程将主要是实践,并将引导观众通过在异构图数据上运行现有GNN的过程,并介绍如何实现新的GNN模型。本教程的实践部分将基于TF-GNN,这是一个用于处理TensorFlow中的图形结构化数据的库。

https://github.com/tensorflow/gnn/tree/main/examples/tutorials/neurips_2022

成为VIP会员查看完整内容
8

论文题目: Improving Generative Adversarial Networks via Adversarial Learning in Latent Space 作者信息: 郦洋(上海交通大学),莫易川(上海交通大学/北京大学),史良良(上海交通大学),严骏驰(上海交通大学) 论文链接: https://openreview.net/pdf?id=Magl9CSHB87 代码链接: https://github.com/yangco-le/AdvLatGAN

生成对抗网络(GAN)作为经典生成模型,一方面已在高维数据(尤其是图像)生成领域取得了巨大成功,另一方面,在扩散模型的冲击下,探索和挖掘GAN的优势以及如何更好控制生成过程、解决训练不稳定的挑战成为GAN研究中亟待解决的问题。当前在GAN领域的主流工作主要聚焦于目标函数设计、训练技巧、网络设计等方面[1-3],而作为影响生成的重要部分,人们对隐空间采样分布的研究更多地聚焦于特征解耦,因此如何通过隐空间编辑调整以更好把控和强化生成结果成为GAN研究中一个新的切入视角。 本文我们将介绍一项被NeurIPS'22会议接收的新工作,我们于该工作中提出了AdvLatGAN以通过基于对抗样本方法的隐空间编辑以更好控制生成过程和训练过程中的模型表现,该工作有幸入选今年NeurIPS的Spotlight展示(比例约5%)。 TAG: 生成对抗网络,隐空间,对抗学习

研究动机与背景

作为经典的生成范式之一,GAN使用经过生成器网络映射后的高斯分布来拟合真实数据分布。然而,由于生成器作为神经网络本质上是一个连续映射,连续隐空间分布经过生成器映射得到的生成数据分布也将是连续的,而自然图像分布支撑在多个不连接的流形上[4],这使得生成数据分布难以与真实数据分布保持一致,这也对应着生成场景下采样空间往往包含一些invalid generation的现象。如下图所示,在隐空间中等距采样,采样跨越不同不连接流形时,生成结果将不可避免地包含invalid generation。

本文指出,现有GAN模型在生成过程(测试过程)和模型训练过程中使用的隐空间分布存在可优化的空间,继而提出对原始隐空间分布施加采样变换以优化该分布。在图像生成场景下,在隐变量上的扰动将造成生成图像上的细节差异,然而图像上的细节差异即可造成生成上的失真,因此我们希望通过对隐变量施加扰动来获取生成质量(实现上量化为判别器网络输出)的显著提升。鉴于任务的相似性,这一采样变换在实现上通过对抗样本方法完成,具体而言,我们通过对隐变量采用I-FGSM方法[5]进行迭代以最小化生成器损失即。将特定的隐空间变换引入GAN训练过程中将缓解训练困难以提升生成器映射的质量,而在生成过程中引入隐空间采样变换能够直接提升采样质量以获得更真实的生成。

方法介绍

AdvLatGAN-z:隐空间采样变换

本文提出对隐空间上施加隐式采样变换,示意图如下。我们希望通过采样变换使得对应于真实图像流形外的采样(即invalid generation)可被迭代优化到有效的采样空间中。

本文首先给出特定生成映射G下对应于真实数据分布的最优隐空间的定义,并说明拟合真实数据流形需要一个不连通的隐空间支撑。

其次给出隐空间采样变换的具体方法。在GAN算法中判别器被训练以区分生成分布和真实分布,因此其输出可被自然地选以量化生成质量。考虑隐空间采样变换的目标,即通过隐变量上的扰动以造成判别器网络输出的显著变化,我们自然地求诸对抗样本方法来实现采样变换。具体而言,我们在固定生成器和判别器参数条件下采用I-FGSM方法更新隐变量来最小化生成器损失,优化目标如下: 其中为原始隐变量,为变换后的隐变量,表示距离度量,在本文中具体为。 最后我们定义对应于的最优隐空间分布并说明GAN的优化目标可以等价为最小化和初始隐空间分布间的JS散度。从而说明,在扰动范畴内,固定网络参数时对隐空间分布进行GAN损失指导下的采样优化将使隐空间分布趋近最优分布。

AdvLatGAN-qua:生成质量为目标的GAN训练算法

GAN存在训练不稳定的问题,其中一个原因是生成器和判别器的学习难度不平衡。我们认为,生成的连续性问题使得生成分布存在天然缺陷,是使生成器训练更困难、判别器更易作出判别的原因之一。为了稳定GAN训练过程,我们将隐空间分布变换引入GAN训练中,在更新判别器时对参与优化的隐空间分布进行变换,变换具体方法与上一节一致(考虑到训练过程的计算代价,我们仅在训练中进行一次I-FGSM迭代),从而弥补生成器的生成缺陷,缓解训练困难以优化生成器映射。

AdvLatGAN-div:生成多样性为目标的GAN训练算法

生成质量之外,我们也考虑通过隐空间采样变换来提升GAN的生成多样性。MSGAN[6]在条件生成场景下通过对随机隐空间采样和添加正则以缓解模式崩溃问题。 MS正则项通过约束样本在目标空间中的距离以防止生成样本陷入模式坍缩。 在本文中,我们考虑使用特化的隐空间采样替代MS正则项中的随机隐变量以强化MS正则项的效果。从困难样本挖掘视角,我们使用I-FGSM方法通过下式来搜索倾向于模式崩溃的隐变量对,该变量对具体表现为在隐空间中差异较大但在目标空间中相近。我们固定初始隐变量并通过下式寻找以组成一个采样对。 AdvLatGAN-qua和AdvLatGAN-div的具体算法如下:

实验结果

我们在仿真数据和真实数据上验证了算法的有效性,验证的方法包括post-training隐空间采样变换AdvLatGAN-z,GAN训练算法AdvLatGAN-qua/div,以及二者结合方法AdvLatGAN-qua+/div+。

AdvLatGAN-z:隐空间采样变换

上图通过二维隐空间生成MNIST数据,可视化了采样变换过程中隐空间分布从标准高斯分布到逐渐出现起伏的变化,在变换后的分布上,高采样密度处的生成质量显著优于低采样密度处,显示了我们隐空间采样变换方法的有效性。

上表对比了其他GAN采样优化方法在不同GAN算法上的表现,AdvLatGAN-z显示出明显的优势。

上图分别在仿真Grid/Ring数据和AFHQ数据集上可视化了生成样本在采样变换前后的差异,AdvLatGAN-z能够有效地提升生成质量,能够避免生成图像上的明显缺陷。

AdvLatGAN-qua/div:训练算法优化生成映射

上表展示了AdvLatGAN-qua(+)/div(+)在八种主流GAN模型上的有效性,验证的数据集包括Cifar-10、STL-10、LSUN、CelebA、ImageNet、AFHQ以及MetFaces,在数值结果上,我们的方法在各种场景下均存在显著提升,提升幅度最高达到50%。

总结

这项工作从连续映射的角度分析了GAN,并指出提高整体生成性能需要两方面的努力,即有效的隐空间采样分布变换和生成映射的改进。AdvLatGAN引入了对抗样本方法来改进隐空间采样分布,并通过将隐空间变换引入训练来改善生成映射。如有疑问或者希望进一步讨论,请发邮件至yanglily@sjtu.edu.cn。

参考文献

[1] Arjovsky M, Chintala S, Bottou L. Wasserstein generative adversarial networks[C]//International conference on machine learning. PMLR, 2017: 214-223. [2] Miyato T, Kataoka T, Koyama M, et al. Spectral Normalization for Generative Adversarial Networks[C]//International Conference on Learning Representations. 2018. [3] Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 4401-4410. [4] Khayatkhoei M, Singh M K, Elgammal A. Disconnected manifold learning for generative adversarial networks[J]. Advances in Neural Information Processing Systems, 2018, 31. [5] Kurakin A, Goodfellow I J, Bengio S. Adversarial examples in the physical world[M]//Artificial intelligence safety and security. Chapman and Hall/CRC, 2018: 99-112. [6] Mao Q, Lee H Y, Tseng H Y, et al. Mode seeking generative adversarial networks for diverse image synthesis[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 1429-1437.

成为VIP会员查看完整内容
2

11月25日,2022全球数商大会在上海开幕,会上重磅发布了《数据要素流通标准化白皮书》(以下简称“白皮书”)。白皮书由中国电子技术标准化研究院、上海数据交易所有限公司、中国电子系统技术有限公司、清华大学经济学研究所、上海市联合征信有限公司、国家电网有限公司大数据中心、清华中国电子数据治理工程研究院、深圳数据交易所有限公司等多家单位共同编写。 随着数字经济蓬勃发展,数据作为关键生产要素的重要性已被越来越多人所熟知。我国十四五规划中就明确提出“激活数据要素潜能,推进网络强国建设”的概念。年初国务院印发的《“十四五”数字经济发展规划》则对如何发挥数据要素作用做进一步细化阐述,强调数据要素是数字经济深化发展的核心引擎,应加快数据要素市场化流通,鼓励企业、研究机构等主体基于区块链等数字技术探索相关应用。此外,该规划还明确了数据要素市场体系要到2025年初步建立的目标。

在这样的大背景下,全国信标委大数据标准工作组启动了《数据要素流通标准化白皮书》编制工作。白皮书将重点关注数据要素流通政策法规、制度、模式、技术、标准的发展趋势,形成数据要素流通标准体系,更好地满足社会经济发展各个领域对数据要素流通标准化建设的最新需求,有效激活数据要素市场,支撑数字经济健康有序发展。

根据白皮书显示,全球各地均已对数据要素交易流通模式展开了不同的探索与实践,涵盖数据登记模式、数据定价模式、数据交易共享模式、数据服务运营模式等。白皮书提出数据要素流通总体框架,数据要素流通市场建设包括数据要素流通政策与法律法规、数据要素流通制度、数据要素流通模式、数据要素流通技术、数据要素流通标准五个方面。

**白皮书提出,数据要素流通标准体系。**数据要素流通标准框架如图所示。根据图7所示,数据要素标准体系框架由“总体”“数据技术”“流通模式”“系统平台”“安全”五部分的标准分体系组成。

以下推荐全国信标委大数据标准工作组发布的报告全文,供行业参考。

成为VIP会员查看完整内容
8

尽管数据规模在增长,但我们希望将学习算法的许多应用都受到数据数量和质量的限制。生成模型提出了一个框架,可以自然地将先验信念与现实世界的数据结合起来。生成式方法的核心是概率推理的挑战,或估计给定观测的潜变量。这一挑战催生了涵盖多种统计技术的丰富研究领域。最近,深度学习方法被用来解决推理查询,被恰当地命名为深度推理。在我的论文中,我将探索深度推理的扩展,以应对现实世界的稀疏性和效率的挑战。我将介绍实际应用的案例研究,其中深度推理在以前的工作上取得了相当大的改进。

本文主要围绕三个部分展开。我们介绍了生成模型和深度推理的背景,重点是现代变分方法。第一部分将提出新的泛化推理算法,以对不同的稀疏性概念(如多模态数据、缺失数据或计算约束)具有鲁棒性。其次,我们研究了元平摊推理,或“推断如何推断”。一种双平摊推理算法将能够廉价地解决一个新的生成模型的推理查询。我们将展示一种新的算法来重新利用掩码语言建模来实现这一点。

第三,我们提出了深度推理在教育中的两个现实应用:(a)在项目反应理论和相关心理测量模型下估计学生的能力,(b)为学生学习解决编程问题推理教育反馈。总之,这些贡献展示了深度推理在教育中的丰富性和实用性,以及在现实世界中更广泛的应用。

成为VIP会员查看完整内容
11

NeurIPS 2022开会了!作为当前全球最负盛名的 AI 学术会议之一,NeurIPS 是每年学界的重要事件,全称是 Neural Information Processing Systems,神经信息处理系统大会,通常在每年 12 月由 NeurIPS 基金会主办。大会讨论的内容包含深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。

今年 NeurIPS 已是第 36 届,将于 11 月 28 日至 12 月 9 日举行,为期两周。第一周将在美国新奥尔良 Ernest N. Morial 会议中心举行现场会议,第二周改为线上会议。

来自IBM研究中心等学者讲述关于大模型的鲁棒性,非常值得关注!

基础模型采用深度学习的方法,在大规模无标签数据上进行预训练,并通过特定任务的监督进行微调,正成为机器学习的主流技术。虽然基础模型在学习一般表示和跨领域和数据模式的少次/零次泛化方面有很多希望,但同时由于使用了过多的数据量和复杂的神经网络架构,它们在鲁棒性和隐私性方面提出了前所未有的挑战和相当大的风险。本教程旨在提供一个类似coursera的在线教程,包含全面的讲座,一个实践和交互式的Jupyter/Colab实时编码演示,以及一个关于基础模型中可信性的不同方面的小组讨论。https://sites.google.com/view/neurips2022-frfm-turotial

目录内容:

  • Basics in foundation models and robustness
  • Deep dive on foundation models for computer vision
  • Deep dive on foundation models for code
  • Hands-on code walkthrough
  • Concluding Remarks
  • Q&A
  • Panel discussion

讲者:

现实世界的机器学习系统需要对分布变化鲁棒——它们应当在与训练分布不同的测试分布上工作良好。诸如资源不足国家的贫困地图 [Xie et al. 2016; Jean et al. 2016]、自动驾驶汽车 [Yu et al. 2020a; Sun et al. 2020a]、医学诊断 [AlBadawy et al. 2018; Dai and Gool 2018] 这样的高风险应用都需要模型良好的泛化到训练数据中没有见过的环境中,例如,测试样例来自不同的国家,处于不同的驾驶条件,或来自不同的医院。先前的工作已经表明:即使是对目前最先进的模型,这些分布变化也会导致性能的大幅下降 [Blitzer et al. 2006; Daumé III 2007;Sugiyama et al. 2007; Ganin and Lempitsky 2015; Peng et al. 2019; Kumar et al. 2020a; Arjovskyet al. 2019; Szegedy et al. 2014; Hendrycks and Dietterich 2019; Sagawa et al. 2020a; Recht et al.2019; Abney 2007; Ruder and Plank 2018; Geirhos et al. 2018; Kumar et al. 2020b; Yu et al. 2020b;Geirhos et al. 2020; Xie et al. 2021a; Koh et al. 2021]。

一个基础模型在采样自分布的大量不同的无标签数据集上进行训练,然后可以被适配到许多的下游任务中。对于每一个下游任务,基础模型在带标签的从训练分布中采样的分布内(in-distribution, ID)训练数据上进行训练,然后在分布外(out-of-distribution, OOD)的测试分布上进行评价。例如,一个贫困地图预测模型 [Xie et al. 2016; Jean et al. 2016] 可以在全世界的无标签卫星数据中学习所有国家的有用特征,然后在带标签的来自尼日利亚的样例上进行微调,最终在缺乏带标签样例的马拉维上进行评价。

我们认为:1)基础模型在鲁棒性方面是一个特别具有前途的方法。现有工作表明了在无标签数据上进行预训练是一种有效的、通用的提高在 OOD 测试分布上准确性的方法,这与限制于有限的分布变化的许多鲁棒性干预措施相反。然而,我们同样讨论了 2)为什么基础模型可能无法总是应对分布变化,例如某些由于伪相关性或随时间改变的分布变化。最后,3)我们概述了几个利用和提高基础模型鲁棒性的研究方向。 我们注意到,基础模型提高下游任务性能的一个方法是为适配模型提供归纳偏置(通过模型初始化),这些偏置是在下游训练数据之外的多种数据集上学习得到的。然而,同样的归纳偏置也可能从预训练数据中编码有害关联,并在分布变化的情况下导致表示和分配危害。关于这些危害和缓解办法的进一步讨论,请阅读§4.6: 数据和§5.1: 公平性。

参考资料: https://mp.weixin.qq.com/s/yuHeCvmSCDNRUbJX1iLhRA https://arxiv.org/abs/2108.07258

成为VIP会员查看完整内容
5

指挥官可以通过将人工智能与他们的直觉和经验相结合,做出更快、更明智的作战役级决策。本文研究了作战指挥官如何依靠他们的下级指挥官和强大的参谋人员来收集和分析信息,以提供建议来帮助指挥部决策。如果信息不充分或存在不确定性,指挥官就依靠他们的直觉和经验来填补空白。目前决策过程中的每个变量都有局限性,其中大数据分析、机器学习和神经网络的人工智能技术有助于指挥官的决策。本文介绍了在博伊德上校的观察、定向、决定和行动(OODA)循环中合成的指挥官-人工智能决策模型(CAIDMM),以获得对对手的明显优势。最后,本文研究了 "是什么 "和 "为什么 "作战指挥官必须使用CAIDMM,以便在当今的大国竞争中获得对近似竞争对手的战略优势。

指挥官-人工智能决策模型(CAIDMM)

CAIDMM从观察阶段开始,如图3所示。在这个阶段,指挥官收集所有可用的信息和数据。人工智能通过大数据分析对这一过程进行补充,大数据分析的重点是卫星和传感器图像、流媒体数据、社交媒体数据、手机GPS数据以及将被纳入外部观察的关系数据。至关重要的是,"大数据 "是结构化的,具有一定形式的网络保护的弹性,以确保输入的安全是合法的信息。神经网络也会接受额外的输入,如指令指导、展开的情况以及与环境的互动。这个阶段实现了两个目标。首先,收集大量的数据来分析一个结构化的问题。第二,非结构化的数据被提交给机器学习算法,以综合、定向并向指挥官做出预测。

CAIDMM的第二步是定向阶段。对原始统计资料、数据和信息进行分析、评估和优先排序,以向指挥官提供洞察力。具体来说,在支持他们的指挥官和工作人员的协助下,指挥官结合文化传统、遗传遗产和作战经验来确定问题的方向。同时,大数据分析法从观察到的数据中提取价值和知识。方向阶段根据工作人员的考虑增加了新的信息,作为机器学习和神经网络的输入,因为将数据合成为一个解决方案是未知的。基于定向阶段内的互动,指挥官从人类和人工智能这两个角度获得知识。这些视角能更好地为指挥官的决策提供信息。

在CAIDMM中,如果问题是无结构的,则由指挥官决定。如果问题是结构化的,则由人工智能决定。在任何一种情况下,人工智能都可以根据决策选择的数量来补充指挥官的工作。确认法和探索法是人工智能对指挥官的非结构化决策的两种补充方式。确认法用于指挥官做出直观的决定,然后使用人工智能来分析和完善解决方案。而探索式方法允许人工智能做出决定,指挥官使用他们的直觉来完善解决方案。

在确认法中,指挥官根据目标和期望的最终状态做出直观的决定。确认法在决策选择数量有限的情况下最有用。如果人工智能同意所提出的最佳解决方案,指挥官就可以执行该决定。下至DL和神经网络的ML可以使用分类和回归分析、聚类、异常检测、对抗性网络和盲目的信号分离来评估决策。如果人工智能出现矛盾或产生不确定的结果,指挥官会根据可用时间采取两种行动。如果时间和条件允许,指挥官重新评估更多的解决方案,确认输入AI的数据,并寻求解释,直到达成一个满意的结果。如果时间不允许,指挥官应该根据他们的专业知识和直觉做出决定,因为在非结构化的任务中,研究证明直觉决定胜过人工智能的分析方法。

相比之下,当一项决策有许多备选方案时,指挥官可以使用探索法。这种方法允许指挥官利用大量的数据,让人工智能首先确定几组决策备选方案,然后由指挥官进行评估。大数据分析、无监督ML和网络可以缩小决策选项的范围,为指挥官提供几个行动方案,让指挥官从中选择。接下来,如果指挥官的直觉与提议的行动之一相一致,他就会执行决定。如果不是,根据时间,指挥官根据他们的专业知识进行,或重新启动决策过程,直到可以采取行动。

CAIDMM最重要的部分是要求持续的反馈,以允许人类和人工智能算法的发展。指挥官的决定产生二阶和三阶效应,必须反馈到随后的观察阶段周期。此外,神经网络会根据特定指挥官的想法和直觉进行演变,从而不断发展,并有可能提供更完善的针对指挥官的解决方案。博伊德的OODA循环,在其起步阶段,并不是为了成为一个机械的循环,而是为了进入对手的思想和决策循环的一种手段。CAIDMM必须是循环的,以利用数据做出更明智、更有效、更快速的决策。该模型还在决策矩阵中提出了两个关键因素:时间和不确定性。CAIDMM的目标是在时间限制内尽可能地减少不确定性,以选择最合适的行动方案。

报告结论

先进的人工智能系统无法成为唯一的决策权威,这强调了将人类专业知识与人工智能能力相结合的重要性。在第二次世界大战中,图灵的 "Bombe "每天破译了数千条纳粹加密信息,而杰出的数学家和密码破译者只破译了几条。最重要的是,Bombe机器为指挥官提供了可操作的情报,使舰队指挥官能够做出快速、明智和果断的决定,通过避免或攻击德国 "狼群 "U型潜艇来挽救他们在大西洋的后勤保障。今天的大国竞争取决于控制、传播和处理来自所有领域的大量数据。这些数据的速度和数量超过了人类的认知能力,无法做出有效的知情决策。人工智能使作战指挥官能够管理和分析大型数据集以支持决策。人类和人工智能技术可以合作处理决策的不同方面。人工智能很适合使用分析方法来处理复杂的问题。人类的认知更适合于更多地关注不确定性和平衡性,使用更多的创造性、直观性和基于经验的决策。指挥官和人工智能可以随着业务的发展而发展。这两个实体都成为学习型组织,一个提供分析数据,另一个提供决策的操作 "艺术",两者都在作战环境中不断发展。指挥官-人工智能决策模型描述了人工智能如何补充指挥官的决策过程,并为作战指挥官整合人工智能技术提供了一个矩阵。

成为VIP会员查看完整内容
5
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员