近年来,人工智能研究取得了惊人的发展和进步。这些进步主要是在三个方面取得的:计算机视觉、自然语言处理和机器人技术。例如,图像识别被广泛认为是计算机视觉的圣杯,而语言建模和翻译一直是自然语言处理的基本任务。然而,许多实际应用程序和任务需要解决的不仅仅是这些特定于领域的问题,而是需要解决涉及所有三个领域的问题。一个自主系统不仅需要能够识别图像中的物体,而且还需要解释自然语言的描述或命令,并理解它们如何与它所感知的视觉观察相关联。此外,机器人需要利用这些信息进行决策,并决定为了完成任务而采取哪些物理行动。在本文的第一部分,我提出了一种学习如何将自然语言与三维形状联系起来的方法,使系统能够将文本描述中描述的“圆”等词与三维物体中的圆的几何属性进行连接。为了将这两种模式联系起来,我们依赖一个跨模态嵌入空间来进行多模态推理,并在没有细粒度、属性级分类注释的情况下学习这个空间。通过学习如何将这两种模态联系起来,我们可以执行诸如文本到形状的检索和形状操作等任务,还可以实现新的任务,如文本到形状的生成。在本论文的第二部分,我们允许主体被具体化,并探索一个依赖于所有三个领域(计算机视觉、自然语言和机器人)的任务:机器人导航通过遵循自然语言指令。不再依赖于固定的图像或3D对象数据集,代理程序现在位于一个物理环境中,并使用机载相机捕捉自己对空间的视觉观察。为了在视觉、语言和机器人物理状态之间建立联系,我们提出了一个使用拓扑图执行规划和控制的系统。这种基本的抽象允许主体将语言指令的部分与环境的相关空间区域联系起来,并将一系列视觉观察与物理动作和行动联系起来。

https://searchworks.stanford.edu/view/13876455

成为VIP会员查看完整内容
0
22

相关内容

斯坦福大学(StanfordUniversity)位于加利福尼亚州,临近旧金山,占地35平方公里,是美国面积第二大的大学。它被公认为世界上最杰出的大学之一,相比美国东部的常春藤盟校,特别是哈佛大学、耶鲁大学,斯坦福大学虽然历史较短,但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的,美国最高法院的9个大法官,有6个是从斯坦福大学的法学院毕业的。

在过去的几年中,深度学习和医学的交叉领域取得了快速的发展,特别是在医学图像的解译方面。在本文中,我描述了三个关键方向,为医学图像解释的深度学习技术的发展提出了挑战和机遇。首先,我讨论了专家级医学图像解译算法的发展,重点是用于低标记医学数据设置的迁移学习和自监督学习算法。其次,我讨论了高质量数据集的设计和管理以及它们在推进算法发展中的作用,重点是使用有限的手动注释的高质量标记。第三,我讨论了真实世界的评估医学图像算法的研究,系统地分析了在临床相关分布变化下的性能。总之,这篇论文总结了关键贡献和见解,在这些方向与关键应用跨医学专业。

https://searchworks.stanford.edu/view/13876519

成为VIP会员查看完整内容
0
34

在过去的十年里,机器学习的突破导致了“数字智能”,即机器学习模型能够从大量标记数据中学习,以执行一些数字任务,如语音识别、人脸识别、机器翻译等。这篇论文的目标是在设计能够“物理智能”的算法方面取得进展,即构建智能自主导航代理,能够学习在物理世界中执行复杂的导航任务,包括视觉感知、自然语言理解、推理、规划、还有顺序决策。尽管在过去的几十年里,经典的导航方法有了一些进步,但是当前的导航代理在长期的语义导航任务上仍然很挣扎。在论文的第一部分,我们讨论了我们使用端到端强化学习来解决诸如回避障碍、语义感知、语言基础和推理等挑战的短期导航工作。在第二部分,我们提出了一种新的导航方法,基于模块化学习和结构化显式地图表示,它利用了经典和端到端学习方法的优势,以解决长期的导航任务。我们证明了这些方法能够有效地解决诸如定位、映射、长期规划、探索和学习语义先验等挑战。这些模块化学习方法能够长期理解空间和语义,并在各种导航任务中获得最先进的结果。

链接: https://www.zhuanzhi.ai/paper/833a5e3cfe6401566bdde2b30d574d09

视频: https://www.youtube.com/watch?v=rJ7tGT5cHtU

成为VIP会员查看完整内容
0
13

摘要: 图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,按照发展进程将现有的图像描述生成方法分为4大类,即基于模板的方法、基于检索的方法、基于编码器-解码器架构的方法和基于复合架构的方法,并阐述了各类方法的基本概念、代表性方法和研究现状,重点讨论了基于编码器-解码器架构的各种方法及其创新思路,如多模态空间、视觉空间、语义空间、注意机制、模型优化等.接着,从实验的角度给出图像描述生成的常用数据集和评估措施,并在2个基准数据集上比较了一些典型方法的性能.最后,以提升图像描述的准确性、完整性、新颖性、多样性为依据,展示了图像描述生成的未来发展趋势.

随着互联网与信息技术的发展,多媒体数据呈现 爆炸性增长的趋势,从各种信息源(如网络、新闻、 相机等)上可获得的图像数据越来越多.由于图像数 据具有海量特性和非结构化特性,如何快速有效的组 织、存储和检索图像,成为重要的研究课题,而完备 的图像语义理解则是其中的关键问题[1].尽管从信息 源上获取的大多数图像并没有对应的语义描述,但人 类仍然能够在很大程度上理解它们.也就是说,人类 很容易就能完成涉及复杂视觉识别以及场景理解的 各种任务、涉及自然语言交流的各种任务以及 2 种模 态之间的转换任务.例如,只需快速浏览图像就足以 让人指出并描述关于视觉场景的大量细节,而这对于 机器来说目前仍然是难以完成的任务.为了实现图像 数据的结构化和半结构化,从语义上更完备地理解图 像数据,从而进一步研究更符合人类感知的视觉智 能,迫切需要机器能够为给定图像自动地生成自然语 言描述.

计算机视觉研究如何理解图像和视频,而自然语 言处理研究如何分析和生成文本.尽管这 2 个领域的 研究都采用类似的人工智能和机器学习方法,但在很 长一段时间里它们都是各自发展而很少交叉.近几 年,结合视觉和语言的跨模态问题受到了广泛关 注.事实上,许多日常生活中的任务都具有这种跨模 态的特性.例如,看报纸时解释图片的上下文信息, 听报告时为理解讲话而搭配图表,网页上提供大量结 合视觉信息和自然语言的数据(带标签的照片、新闻 里的图片视频、具有多模态性质的社交媒体)等.为 完成结合视觉和语言的任务并充分利用多模态数据, 计算机视觉和自然语言处理 2 个领域的联系越来越 紧密. 在这个新的视觉和语言交叉的研究领域中,图像 描述生成是个重要的任务,该任务包括获取图像信 息、分析其视觉内容、生成文本描述以说明图像中的 显著物体和行为等步骤[2-5].图 1 给出了几个根据图 像内容生成描述语句的实例.

成为VIP会员查看完整内容
0
25

近年来,自然语言处理的研究方法取得了一些突破。这些突破来源于两个新的建模框架以及在计算和词汇资源的可用性的改进。在这个研讨会小册子中,我们将回顾这些框架,以一种可以被视为现代自然语言处理开端的方法论开始:词嵌入。我们将进一步讨论将嵌入式集成到端到端可训练方法中,即卷积神经网络和递归神经网络。这本小册子的第二章将讨论基于注意力的模型的影响,因为它们是最近大多数最先进的架构的基础。因此,我们也将在本章中花很大一部分时间讨论迁移学习方法在现代自然语言处理中的应用。最后一章将会是一个关于自然语言生成的说明性用例,用于评估最先进的模型的训练前资源和基准任务/数据集。

https://compstat-lmu.github.io/seminar_nlp_ss20/

在过去的几十年里,人工智能技术的重要性和应用不断得到关注。在当今时代,它已经与构成人类塑造环境的大部分环境密不可分。因此,商业、研究和开发、信息服务、工程、社会服务和医学等无数部门已经不可逆转地受到人工智能能力的影响。人工智能有三个主要领域组成了这项技术:语音识别、计算机视觉和自然语言处理(见Yeung (2020))。在这本书中,我们将仔细研究自然语言处理(NLP)的现代方法。

这本小册子详细介绍了用于自然语言处理的现代方法,如深度学习和迁移学习。此外,本研究亦会研究可用于训练自然语言处理任务的资源,并会展示一个将自然语言处理应用于自然语言生成的用例。

为了分析和理解人类语言,自然语言处理程序需要从单词和句子中提取信息。由于神经网络和其他机器学习算法需要数字输入来进行训练,因此应用了使用密集向量表示单词的词嵌入。这些通常是通过有多个隐藏层的神经网络学习的,深度神经网络。为了解决容易的任务,可以应用简单的结构神经网络。为了克服这些简单结构的局限性,采用了递归和卷积神经网络。因此,递归神经网络用于学习不需要预先定义最佳固定维数的序列的模型,卷积神经网络用于句子分类。第二章简要介绍了NLP中的深度学习。第三章将介绍现代自然语言处理的基础和应用。在第四章和第五章中,将解释和讨论递归神经网络和卷积神经网络及其在自然语言处理中的应用。

迁移学习是每个任务或领域的学习模型的替代选择。在这里,可以使用相关任务或领域的现有标记数据来训练模型,并将其应用到感兴趣的任务或领域。这种方法的优点是不需要在目标域中进行长时间的训练,并且可以节省训练模型的时间,同时仍然可以(在很大程度上)获得更好的性能。迁移学习中使用的一个概念是注意力,它使解码器能够注意到整个输入序列,或自注意,它允许一个Transformer 模型处理所有输入单词,并建模一个句子中所有单词之间的关系,这使得快速建模一个句子中的长期依赖性成为可能。迁移学习的概念将在小册子的第6章简要介绍。第七章将通过ELMo、ULMFiT和GPT模型来描述迁移学习和LSTMs。第八章将详细阐述注意力和自注意力的概念。第九章将迁移学习与自注意力相结合,介绍了BERT模型、GTP2模型和XLNet模型。

为NLP建模,需要资源。为了找到任务的最佳模型,可以使用基准测试。为了在基准实验中比较不同的模型,需要诸如精确匹配、Fscore、困惑度或双语评估替补学习或准确性等指标。小册子的第十章简要介绍了自然语言处理的资源及其使用方法。第11章将解释不同的指标,深入了解基准数据集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到资源的预训练模型和数据库,如“带代码的论文”和“大坏的NLP数据库”。

在小册子的最后一章中,介绍了生成性NLP处理自然语言生成,从而在人类语言中生成可理解的文本。因此,不同的算法将被描述,聊天机器人和图像字幕将被展示,以说明应用的可能性。

本文对自然语言处理中各种方法的介绍是接下来讨论的基础。小册子的各个章节将介绍现代的NLP方法,并提供了一个更详细的讨论,以及各种示例的潜力和限制。

成为VIP会员查看完整内容
0
147

Ronghang Hu (胡戎航)

胡戎航(Ronghang Hu)是Facebook人工智能研究(FAIR)的研究科学家。他的研究兴趣包括视觉和语言推理和视觉感知。他于2020年在Trevor Darrell教授和Kate Saenko教授的指导下获得UC Berkeley的计算机科学博士学位。2019年夏天和2017年夏天,他在FAIR做研究实习生,分别与Marcus Rohrbach博士和Ross Girshick博士一起工作。2015年获得清华大学学士学位。2014年,他在中国科学院计算技术研究所进行研究实习,得到了山时光教授和王瑞平教授的指导。

https://ronghanghu.com/

视觉与语言推理的结构化模型

视觉和语言任务(例如回答一个关于图像的问题,为参考表达做基础,或遵循自然语言指令在视觉环境中导航)需要对图像和文本的两种模式共同建模和推理。我们已经见证了视觉和语言推理的显著进展,通常是通过在更大的数据集和更多计算资源的帮助下训练的神经方法。然而,解决这些视觉和语言的任务就像用更多的参数建立模型,并在更多的数据上训练它们一样简单吗?如果不能,我们怎样才能建立数据效率高、易于推广的更好的推理模型呢?

这篇论文用视觉和语言推理的结构化模型为上述问题提供了答案——这些模型的架构考虑了人类语言、视觉场景和代理技能中的模式和规律。我们从表达式的基础开始,我们在第二章中展示了通过考虑这些表达式中的组合结构,我们提出的组合模块网络(CMNs)可以实现更好的准确性和泛化。在第三章中,我们使用基于与问题推理步骤一致的动态组合模块的端到端模块网络(N2NMNs)进一步解决了可视化的问题回答任务。在第四章中,我们扩展了模块化推理的研究,提出了基于可解释推理步骤的堆栈神经模块网络(SNMNs)。模块化推理之外,我们也提出构建环境敏感的视觉表征与Language-Conditioned场景图网络(LCGNs)。第五章对于关系推理和解决问题的阅读文本图像的问答迭代pointer-augmented多通道变形金刚。在第六章,我们说明了嵌入任务也需要结构化模型,并在第7章中提出了说话者-跟随者模型,其中说话者模型和跟随者模型互为补充。在所有这些场景中,我们表明,通过考虑任务中的结构和输入模式,我们的模型的执行和泛化明显优于非结构化对应模型。

成为VIP会员查看完整内容
0
27

机器人研究的一个长期目标是创建能够从零开始自动学习复杂控制策略的算法。将这种算法应用到机器人上的挑战之一是表示的选择。强化学习(RL)算法已经成功地应用于许多不同的机器人任务中,如带有机器人手臂的cup中的Ball-in-a-Cup任务和各种机器人世界杯机器人足球启发的领域。然而,RL算法仍然存在训练时间长、所需训练数据量大的问题。为状态空间、行动空间和策略选择合适的表示可以大大减少所需的训练时间和所需的训练数据。

本文主要研究机器人的深度强化学习。具体来说,状态空间、动作空间和策略表示的选择如何减少机器人学习任务的训练时间和样本复杂度。特别集中注意两个主要领域: 1)通过张量状态-动作空间表示 2)多状态表示的辅助任务学习

第一个领域探索了在环境变化中改进机器人策略迁移的方法。学习策略的成本可能很高,但是如果策略可以在类似的环境中传输和重用,那么训练成本可以平摊。迁移学习是一个被广泛研究的领域,涉及多种技术。在这篇论文中,我们着重设计一个易于传输的表示。我们的方法将状态空间和动作空间映射为多维张量,设计成当环境中机器人和其他对象的数量变化时保持固定维数。我们还提出了全卷积Q-Network (FCQN)策略表示,这是一种特殊的网络架构,与张量表示相结合,允许跨环境大小进行零距离传输。我们在模拟的单代理和多代理任务上演示了这种方法,灵感来自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我们还表明,在真实世界的传感器数据和机器人中使用这样的表示和模拟训练策略是可能的。

第二个领域考察了一个机器人深度RL状态表示的优势如何弥补另一个机器人深度RL状态表示的劣势。例如,我们经常想要利用机器人可用的传感器来学习任务,其中包括像摄像机这样的高维传感器。最近的Deep RL算法可以通过图像进行学习,但是数据的数量对于真实的机器人来说是难以接受的。或者,可以使用任务完成所需的最小集创建状态。这样做的好处是:1)减少策略参数的数量,2)删除不相关的信息。然而,提取这些特征通常会在工程、额外硬件、校准和实验室之外的脆弱性方面有很大的成本。我们在仿真和现实世界的多个机器人平台和任务上演示了这一点。我们证明它在模拟的RoboCup小型联赛(SSL)机器人上工作。我们还演示了这样的技术允许在真实的硬件上从零开始学习,通过机器人手臂执行一个球在一个杯子的任务。

https://www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

成为VIP会员查看完整内容
0
51

本篇推荐来自CMU-LTI的小姐姐Zhuyun Dai博士论文《Neural Matching and Importance Learning in Information Retrieval》,是信息检索领域值得关注的最新工作。

作者介绍:

Zhuyun Dai

卡内基梅隆大学语言技术学院(LTI)的博士生。研究方向是提升当今信息检索系统的语言理解能力,构建下一代信息助理系统,帮助人们无缝地获取世界上的知识。

http://www.cs.cmu.edu/~zhuyund/index.html

信息检索中的神经匹配与重要性学习

地址:https://www.cs.cmu.edu/~zhuyund/zhuyundai_defense.pdf

在50-60年的时间里,信息检索(IR)系统依赖于词汇袋方法。尽管词包检索有一些长期存在的限制,但解决这些问题的尝试大多是不成功的。最近,神经网络为自然语言建模提供了一种新的范式。这篇论文的目的是结合IR的观点和神经网络的关键优势,以带来更深入的语言理解IR。

本论文的第一部分主要研究如何匹配查询和文档。 最先进的排序器以前依赖于精确的词汇匹配,这导致了众所周知的词汇不匹配问题。本文开发了将软匹配引入相关性排序的神经模型。利用分布式文本表示,我们的模型可以对每个查询词和每个文档词进行软匹配。由于软匹配信号有噪声,本文提出了一种新的核池技术,该技术根据软匹配对相关性的贡献对软匹配进行分组。本文还研究了预训练好的模型参数是否可以改善低资源域,以及模型架构在非文本检索任务中是否可重用。我们的方法比以前最先进的排名系统有很大的优势。

本论文的第二部分主要研究如何表示查询和文档。一个典型的搜索引擎使用频率统计来确定单词的权重,但是频繁的单词对文本的意义不一定是必要的。本论文开发的神经网络,以估计词的重要性,基于如何相互作用的语言语境。开发了一种弱监督方法,允许在没有任何人工注释的情况下训练我们的模型。我们的模型可以离线运行,在不影响效率的前提下显著提高了第一阶段的检索。

总之,本文提出了一种新的神经检索范式,克服了传统检索模型在匹配和重要性加权方面的局限性。在神经相关性排序、深度检索模型和深度文档理解等方面提出了一些有前景的方法。

成为VIP会员查看完整内容
0
40

使用生成模型的无监督学习具有发现3D场景丰富表示的潜力。这种神经场景表示可能随后支持各种下游任务,从机器人技术到计算机图形再到医学成像。然而,现有的方法忽略了场景最基本的属性之一:三维结构。在这项工作中,我们使神经场景表征与一个感应偏差的三维结构的情况。我们证明了这种归纳偏差如何使无监督的发现几何和外观,只给定的二维图像。通过学习一组这样的三维结构感知神经表征的分布,我们可以执行联合重建的三维形状和外观只给出一个单一的二维观察。我们表明,在这个过程中学习到的特征使整个类对象的三维语义分割成为可能,只训练了30个带标记的例子,证明了三维形状、外观和语义分割之间的紧密联系。最后,我们讨论了场景表示学习在计算机视觉本身中的本质和潜在作用,并讨论了未来工作的前景。

成为VIP会员查看完整内容
0
56

论文摘要:

教机器理解人类语言文档是人工智能中最难以捉摸和长期存在的挑战之一。本文探讨了阅读理解的问题:如何构建计算机系统来阅读文章和回答理解问题。一方面,我们认为阅读理解是评价计算机系统对人类语言理解程度的一项重要任务。另一方面,如果我们能够构建高性能的阅读理解系统,那么它将成为问答和对话系统等应用的关键技术。本文以神经阅读理解为研究对象:一种基于深度神经网络的阅读理解模型。与传统的稀疏的、手工设计的基于特征的模型相比,这些端到端神经模型在学习丰富的语言现象方面更加有效,并且在所有现代阅读理解基准上的表现都有很大的提高。本文由两部分组成。第一部分是对神经阅读理解的本质进行概括,介绍我们在构建有效的神经阅读理解模型方面所做的努力,更重要的是了解神经阅读理解模型实际学到了什么,以及解决当前任务需要什么样的语言理解深度。我们还总结了该领域的最新进展,讨论了该领域的未来发展方向和有待解决的问题。在本文的第二部分,我们探讨了如何在最近神经阅读理解成功的基础上建立实际应用。特别是,我们开创了两个新的研究方向:1)如何将信息检索技术与神经阅读理解相结合,解决大规模开放领域的问题;(2)如何从当前的单圈、跨步阅读理解模式中构建会话问答系统。我们在DrQA和CoQA项目中实现了这些想法,并证明了这些方法的有效性。我们相信他们对推动未来的语言技术有很大帮助。

成为VIP会员查看完整内容
0
35

论文题目:

Compositional visual intelligence

作者:

Johnson Justin

贡献者:

Li, Fei Fei, 1976- degree supervisor.

Goodman, Noah, degree committee member.

Ré, Christopher, degree committee member.

Stanford University. Computer Science Departmen

网址:

https://searchworks.stanford.edu/view/12746402

论文摘要:

计算机视觉领域在过去几年取得了巨大的进步,这主要归功于卷积神经网络。尽管在传统的计算机视觉任务上取得了成功,但我们的机器系统离人类的一般视觉智能还有很长的路要走。视觉智能的一个重要方面是组合——对整体的理解源于对部分的理解。为了实现组成视觉智能的目标,我们必须探索新的计算机视觉任务,创建新的数据集,开发利用组成性的新模型。在这篇论文中,我将讨论我的工作在三个不同的计算机视觉任务涉及语言,其中包含的合规性帮助我们建立具有更丰富的视觉智能的系统。我将首先讨论图像标题描述:传统系统生成描述图像的简短句子,但是通过将图像分解为区域和描述分解为短语,我们可以生成两种更丰富的描述:密集的标题和段落。其次,我将讨论视觉问答:现有的数据集主要由简短的问题组成;为了研究更复杂的需要复合位置推理的问题,我们引入了一个新的benchark数据集。在此基础上,提出了一种可视化问题交互的显式组成模型,该模型将问题转换为功能程序,并通过组合神经模块来执行这些程序。第三,我将讨论文本到图像生成:现有的系统可以根据文本描述检索或生成单个对象的简单图像,但难以处理更复杂的描述。用对象和关系的构成场景图代替自由形式的自然语言,可以检索和生成包含多个对象的复杂图像。

成为VIP会员查看完整内容
justin_johnson_dissertation-augmented.pdf
0
35
小贴士
相关VIP内容
专知会员服务
25+阅读 · 3月29日
专知会员服务
147+阅读 · 2月22日
专知会员服务
51+阅读 · 2020年8月27日
专知会员服务
56+阅读 · 2020年6月19日
相关论文
Ludan Ruan,Qin Jin
0+阅读 · 9月21日
Zheng Dong,Shixiang Zhu,Yao Xie,Jorge Mateu,Francisco J. Rodríguez-Cortés
0+阅读 · 9月18日
The Theory behind Controllable Expressive Speech Synthesis: a Cross-disciplinary Approach
Noé Tits,Kevin El Haddad,Thierry Dutoit
3+阅读 · 2019年10月14日
Liang Sun,Bing Li,Chunfeng Yuan,Zhengjun Zha,Weiming Hu
4+阅读 · 2019年5月8日
code2seq: Generating Sequences from Structured Representations of Code
Uri Alon,Shaked Brody,Omer Levy,Eran Yahav
3+阅读 · 2019年2月6日
Exploring Visual Relationship for Image Captioning
Ting Yao,Yingwei Pan,Yehao Li,Tao Mei
14+阅读 · 2018年9月19日
Video-to-Video Synthesis
Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,Guilin Liu,Andrew Tao,Jan Kautz,Bryan Catanzaro
6+阅读 · 2018年8月20日
Jingwen Wang,Wenhao Jiang,Lin Ma,Wei Liu,Yong Xu
4+阅读 · 2018年4月3日
Bairui Wang,Lin Ma,Wei Zhang,Wei Liu
5+阅读 · 2018年3月30日
Zuxuan Wu,Ting Yao,Yanwei Fu,Yu-Gang Jiang
9+阅读 · 2018年2月22日
Top