https://www.manning.com/books/advanced-algorithms-and-data-structures

作为一名软件工程师,您将遇到无数的编程挑战,这些挑战最初看起来令人困惑、困难甚至是不可能的。不要绝望!许多这些“新”问题已经有了完善的解决方案。高级算法和数据结构为您提供了强大的方法来应对各种棘手的编码挑战,您可以对这些挑战进行调整并应用于自己的应用程序。本实用指南提供了经典、先进和新的算法的平衡混合,用新的视角和实践技术升级您的编程工具箱。

《高级算法和数据结构》介绍了一系列算法,用于数据分析、机器学习和图计算中的复杂编程挑战。您将发现解决各种棘手情况的尖端方法。您甚至将学习为需要自定义解决方案的项目设计自己的数据结构。

第1部分着重于发现高级数据结构,这些结构允许您改进一些基本操作,例如跟踪事物或事物组。关键是要习惯这样一种思想,即对数据执行操作有多种方式,而最佳方式取决于上下文和需求。

第2部分介绍了搜索中的另一种特殊情况: 处理多维数据、索引该数据和执行空间查询。我们将再次展示特别数据结构如何在使用基本搜索算法的基础上提供巨大的改进。但是,本部分还描述了其他重要的主题:集群、高度利用空间查询和分布式计算,特别是使用MapReduce编程模型。

第3部分主要关注单个数据结构和图表,这将是介绍一些优化技术的共同主线,这些技术推动了当今的人工智能和大数据工作。

成为VIP会员查看完整内容
0
60
自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

 元宇宙寄托了人类对自由探索理想虚拟世界的美好愿景,其部分功能和应用可能得到阶段性实现,但其终极形态尚未达成共识,元宇宙最终会是人类得以自在生活其中的第二乐园,还是如《黑客帝国》Matrix一样的反乌托邦世界?本篇专题报告,依托目前的发展阶段和特征,试图对相关核心问题进行拆解、梳理与展望,主要包括:如何理解元宇宙?理想的元宇宙有何关键特征?通往元宇宙需要怎样的技术底座和制度体系?当前的技术发展现状距离元宇宙有多远?如何看待元宇宙产业链机会?巨头的布局情况如何?

https://data.eastmoney.com/report/zw_industry.jshtml?infocode=AP202111181529743381

  1、如何理解元宇宙?——理想状态是自发无边际的社会体验

  (1)如何定义元宇宙:从信息传递角度,元宇宙将使得人类从传递图文信息、传递视频信息进化到传递物理信息,实现在一个虚拟空间传递现实的互动行为。元宇宙是整合网络通信、扩展现实、数字孪生、区块链、人工智能等多种新技术而产生的新型虚实相融的互联网应用和社会形态,拥有完整的经济逻辑、数据、物体、内容以及IP,是一个永续在线、不断被刷新的实时数字世界,并且允许每个用户进行内容生产和世界编辑。

  (2)理想的元宇宙将实现效率的革命性提升和线上用户容量的极限扩张。在一个理想的元宇宙世界,物理世界的无限虚拟化使得生产要素无限丰富、生产力无限充足、近乎于0的边际成本使得社会生产效率得到了巨大的提升;互联网长期趋势是规模和时长的持续提升,元宇宙突破两者在现有条件下的上限,人类线上用户容量将极限扩张(80亿人+、12小时+)。

  (3)实现全AI自动化内容创作是元宇宙需要突破的核心。Metaverse是内容创作的最高阶,Metaverse将实现一个AI驱动的虚拟世界,丰富的内容供应近乎无限,虚拟社交活动从有目的性转变为以人为中心,可以实现自由探索,能够放手让AI填补世界,才能真正实现自发宇宙规模无边际体验。

  (4)去中心化是理想元宇宙的重要特征,最终是否依然会导致垄断或中心化仍未可知。元宇宙的去中心化一方面是为了保障UGC独立、高效地内容创造;另一方面是保障经济系统的稳定和透明,遏制寡头和垄断。然而初始元宇宙本身也是由人类所建立,是否可能会出现由于逐利或其他原因而导致的中心化,仍具有不确定性。要实现完全去中心化的元宇宙理想状态,可能需要建立后,由不受人性操纵的高阶人工智能、智能计算机来帮助管理秩序,实现透明化、规则化运行。还有一种可能是底层去中心化,上层仍然保留中心化组织。

  2、如何通往元宇宙?——技术路径解析

  理想情况下的元宇宙运行状态=大规模用户持续在线+高沉浸感/高仿真+高效内容生产+去中心化信息存储和认证。为实现这一理想运行状态,至少需要五层基础技术底座支撑:网络及运算技术、仿真交互技术、人工智能技术、创作工具/内容分发平台和区块链技术。整体来看,我们认为元宇宙是人类对一个能够自由探索的理想虚拟世界的美好愿景,但目前距离元宇宙得以实现所要求的技术基础还相去甚远,未来还有很长的路要走。

  (1)网络:预计元宇宙至少需要6G以上网络,6G网络有望在2030年开始商用。在覆盖范围上,6G网络将是一个地面无线与卫星通信集成的全连接世界,通过将卫星通信整合到6G移动通信,实现全球无缝覆盖,“万物互联”才可能真正实现。具有AI功能的6G有望释放无线电信号的全部潜力,转变为智能无线电,为元宇宙用户提供实时、流畅的沉浸式体验。

  (2)算力:元宇宙对算力要求是近乎无穷的,目前全球算力远远落后于数据和算法增速。人工智能在元宇宙的广泛应用导致元宇宙对于算力的消耗是指数爆炸增长的,算力支撑着元宇宙虚拟内容的创作与体验,更加真实的建模与交互需要更强的算力作为前提,大规模用户的持续在线和创作需要近乎无尽的算力作为支撑。量子计算可能突破摩尔定律解决元宇宙算力问题,但目前还存在许多高难技术瓶颈,预计在2050年以后才有可能实现通用量子计算机,提高量子比特的操纵精度,从而有条件进行面向更广泛的应用场景。

  (3)物联网:万物互联为元宇宙提供物理现实还原基础,当前物联网发展还处于爆发前期阶段,可能仍将持续数年。物联网要实现规模化加速演进必须解决碎片化、安全、成本三大发展难题。要真正实现真正实现万物互联,关键是建立统一底层IoT系统,实现终端、网络、设备产品等标准统一化。

  (4)仿真交互:2021年,全球市场VR头显预计出货837万台,其中中国市场VR头显预计出货143万台,预计全球AR/VR硬件市场出货量在未来五年呈现稳步增长趋势,全球市场规模有望在2025年超3500亿元。目前,虚拟现实已经有较多垂直领域落地应用场景,产业机会值得关注,然而XR设备尚未实现理想的沉浸式体验,仍存在价格成本高、使用感差、使用空间限制、便携性差、续航时间短、设备兼容性较差等问题,距离元宇宙所要求的高沉浸、高便携度、高兼容性,能够进行大规模推广的状态还相去甚远,同时在XR设备内容供给上也存在内容品类少、内容数量少、开发节奏慢等问题,内容供给端仍需大量扩充以满足多人群多场景需求。

  (5)区块链:从发展历程来看,区块链经历了去中心化账本、去中心化计算平台、去中心化金融,现在已经发展至NFT阶段,NFT可能解决元宇宙生产资料和资产所有权问题。近一年来,海外NFT交易平台火爆,国内互联网大厂也纷纷试水数字藏品,但国内出于监管考虑目前暂时无法公开自由交易。当前的NFT市场,流动性相对匮乏,应用领域和场景较为单一和小众,也存在一些炒作行为,暂时没有实现市场自由定价,距离大规模落地,还需要长期的积累和沉淀。

  3、如何看待元宇宙产业链机会?——巨头涌入,机遇与风险并存

  (1)Roblox:初具元宇宙雏形,在游戏层面实现了内容可编辑性,平台年轻化的群体和良好的游戏社区氛围实现高用户活跃度和粘性,2021Q3Roblox日活跃用户数4730万人,人均单日使用时长高达2.63小时。然而在元宇宙的进程中,Roblox还处于比较早期阶段,其提供的工具虽然实现了自由创作,仍然具备一定门槛性,限制了人们自由创作的边界,后续全球化+高龄化的扩张破圈有待观察。

  (2)腾讯:从消费互联网到产业互联网,腾讯对Metaverse的布局已深入底层基础架构、线上商业平台、内容版权、社交媒体等各个层面,同时通过对外投资并购进一步打开元宇宙技术边界。整体来看腾讯在游戏、社交、音视频解决方案、数字孪生和全息投影、引擎技术等方面都处于行业领先位置,在目前元宇宙相关赛道公司中具备较强优势,持续看好公司未来在开放世界游戏、云计算、人工智能、仿真交互设备等方向布局。

  (3)字节跳动:短视频形态产品优势稳固,全球化能力较强,同时积极布局游戏、虚拟社交、VR等元宇宙细分赛道,包括收购中国版Roblox《重启世界》母公司,在海外推出主打AI捏脸功能的虚拟社交产品Pixsoul,90亿收购国内排名第一的VR厂商Pico等。未来重点关注在游戏和社交领域布局产品增长情况,以及硬件设备Pico出货和用户破圈能力。

  (4)Facebook:改名Meta,宣布5年内转型元宇宙公司,涉足最深最广,在组织架构、软件、硬件、内容、数字货币等全方位进行元宇宙布局。组织架构上,成立高规格元宇宙产品团队,由FacebookAR/VR领域副总裁和Instagram现任产品副总裁带队;软件上推出SparkAR、PresencePlatform、Pytorch等底层开发工具,帮助发展和搭建元宇宙社区;硬件上Oculus系列在全球XR设备市场中占据领先地位,最新产品OculusQuest2在2021Q1出货量高达460万台,占据了75%的市场份额;内容上收购多家VR游戏、云游戏开发商,推出HorizonWorlds、HorizonWorkrooms等虚拟社交和办公平台;数字货币上,继libra之后积极推广数字货币diem。

  (5)EpicGames:融资10亿押注元宇宙赛道,兼具内容和技术优势,《堡垒之夜》保持高热度运营并多次探索具有元宇宙体验的内容形态如线上演唱会、线上电影等,虚幻引擎作为目前行业最强引擎,在模型质量、真实度等方面长期领先。然而高难度的虚幻引擎,开发门槛较高,目前还难以成为元宇宙所要求的低门槛UGC平台的创作工具,未来关注公司在自动化AI生成等方面技术进展。

  (6)英伟达:在虚拟世界中进行实时协作的计算机图形与仿真模拟协作平台Omniverse以其高效、低成本特征,在建筑、传媒、产品设计、自动驾驶等多个领域得到快速应用,元宇宙在Omniverse的推动下率先在工业领域有了切实的落地,同时英伟达在在AI和高性能计算以及芯片领域有深厚积累,有望为元宇宙底层技术架构添砖加瓦。

成为VIP会员查看完整内容
0
56

自然语言处理实战教你如何创建实用的NLP应用,而不陷入复杂的语言理论和深度学习的数学。在这本引人入胜的书中,您将探索构建大量强大的NLP应用所需的核心工具和技术,包括聊天机器人、语言检测器和文本分类器。

真实世界的自然语言处理不是典型的自然语言处理教科书。我们专注于构建真实世界的NLP应用。这里真实世界的意义有两个方面:首先,我们关注构建真实世界的NLP应用需要什么。作为读者,您不仅将学习如何训练NLP模型,还将学习如何设计、开发、部署和监控它们。在此过程中,您还将学习现代NLP模型的基本构建模块,以及对构建NLP应用有用的NLP领域的最新开发。其次,与大多数介绍性书籍不同,我们采用自上而下的教学方法。我们不采用自下而上的方法,一页页地展示神经网络理论和数学公式,而是专注于快速构建“正常工作”的NLP应用程序。然后我们深入研究组成NLP应用的各个概念和模型。您还将学习如何使用这些基本构建块构建端到端定制NLP应用,以满足您的需求。

这本书由三个部分组成,共11章。第1部分介绍了NLP的基础知识,其中我们学习了如何使用AllenNLP 快速构建一个NLP应用,以完成情感分析和序列标记等基本任务。

第1章首先介绍了NLP的“什么”和“为什么”——什么是NLP,什么不是NLP,如何使用NLP技术,以及NLP如何与人工智能的其他领域相关联。

第2章演示了如何构建第一个NLP应用程序,一个情感分析器,并介绍了现代NLP模型的基础知识——单词嵌入和递归神经网络(RNN)。

第3章介绍了自然语言处理应用的两个重要组成部分,单词和句子的嵌入,并演示了如何使用和训练它们。

第4章讨论了最简单但最重要的NLP任务之一,句子分类,以及如何在这个任务中使用RNN。

第5章介绍了序列标注任务,如词性标注和命名实体提取。它还涉及到一个相关的技术,语言建模。

第2部分介绍高级NLP主题,包括序列到序列模型、Transformer以及如何利用迁移学习和预先训练过的语言模型来构建强大的NLP应用。

第6章介绍了序列到序列的模型,它将一个序列转换为另一个序列。我们在一个小时内构建了一个简单的机器翻译系统和一个聊天机器人。

第7章讨论了另一种流行的神经网络结构,卷积神经网络(CNN)。

第8章深入介绍了Transformer,它是当今最重要NLP模型之一。我们将演示如何使用Transformer构建改进的机器翻译系统和拼写检查器。

第9章在前一章的基础上,讨论了迁移学习,这是现代NLP中的一种流行的技术,使用预先训练过的语言模型,如BERT。

第3部分将讨论与开发NLP应用程序相关的主题,这些应用程序对真实数据具有健壮性,并部署和服务它们。

第10章详细介绍了开发NLP应用程序时的最佳实践,包括批处理和填充、正则化和超参数优化。

第11章总结了如何部署和服务NLP模型。它还涵盖了如何解释和解释ML模型。

成为VIP会员查看完整内容
0
51

1 引言

深度学习已被广泛应用到涉及图像、视频、语音等的诸多任务中并取得巨大成功。如 果我们问“深度学习是什么?”很可能会得到这样的回答:“深度学习就是深度神经网 络”。至少在目前,当“深度学习”作为一个术语时几乎就是“深度神经网络”的同义词, 而当它指向一个技术领域时则如 SIAM News 头版文章所称[1],是“机器学习中使用深度 神经网络的子领域”。关于深度学习有很多问题还不清楚。例如深度神经网络为什么要“深”?它成功背 后的关键因素是什么?深度学习只能是深度神经网络吗?本文将分享一些我们关于深度 学习的粗浅思考。

2 深度神经网络

神经网络并不是“新生事物”,它已经被研究了半个多世纪[2]。传统神经网络通常包 含一个或两个隐层,其中每个“神经元”是非常简单的计算单元。如图 1 所示,神经元 接收来自其他神经元的输入信号,这些信号通过连接权放大,到达神经元之后如果其总 量超过某个阈值,则当前神经元就被“激活”并向外传递其输出信号。实际上每个神经 元就是图 1 中非常简单的计算式,而所谓神经网络就是很多这样的计算式通过嵌套迭代 得到的一个数学系统。

今天的“深度神经网络”是指什么?简单来说,就是有很多隐层的神经网络。例如 2012 年在计算机视觉领域著名的 ImageNet 竞赛夺冠的网络用了 8 层、2015 年是 152 层、 2016 年是 1207 层……这样的网络明显是非常庞大的计算系统,包含了大量参数需要通 过训练来确定。但有一个好消息:神经网络的基本计算单元是连续可微的。例如以往常 用图 2 左边的 Sigmoid 函数作为神经元模型的激活函数,它是连续可微的;现在深度神 经网络里常用图 2 右边这样的 ReLU 激活函数,它也是连续可微的。于是,在整个系统 中可以相对容易地计算出“梯度”,进而就能使用著名的 BP 算法通过梯度下降优化来对 神经网络进行训练。

有人以为深度神经网络的成功主要是因为“算力”有了巨大发展,因为神经网络早 就有了,现在只不过是由于算力强了导致能算得更好了。这是一个误解。没有强大的算 力当然难以训练出很深的网络,但更重要的是,现在人们懂得如何训练这样的模型。事 实上,在 Hinton 等的工作[3]之前,人们一直不知道如何训练出超过五层的神经网络;这并不是由于算力不足,而是由于神经网络在训练中会遭遇“梯度消失”现象:在 BP算法将神经网络输出层误差通过链式反传到远离输出层的部分时,可能会导出“零”调 整量,导致网络远离输出层的部分无法根据输出误差进行调整,从而使得训练失败。这 是从传统神经网络发展到深层神经网络所遇到的巨大技术障碍。Hinton 等通过“逐层训 练后联合微调”来缓解梯度消失,使人们看到训练深层神经网络是可能的,由此激发了 后来的研究,使得深度神经网络得以蓬勃发展。事实上,深度神经网络研究的主要内容 之一就是设计有效措施来避免/减缓梯度消失。例如该领域一个重要技术进步就是用图 2 右边的 ReLU 函数来代替以往常用的 Sigmoid 函数,由于前者在零值附近的导数比后者 更“平缓”,使得梯度不会因下降得太快而导致梯度消失。

显然,基本计算单元的“可微性”(differentiability)对深度神经网络模型至关重要, 因为它是梯度计算的基础,而梯度计算是使用 BP 算法训练神经网络的基础。最近有一 些研究尝试在深度神经网络中使用不可微激活函数,但其求解过程是在松弛变换后通过 可微函数逼近,实质上仍依赖于基本计算单元的可微性。

3 为何“深”

虽然深度神经网络取得了巨大成功,但是“为什么必须使用很深的网络”一直没有 清楚的答案。关于这个问题,几年前我们曾经尝试从模型复杂度的角度进行解释。

一般来说,机器学习模型复杂度与其“容量”(capacity)有关,而容量对模型的学 习能力有重大影响,因此,模型的学习能力与其复杂度有关。机器学习界早就知道,如 果能增强一个学习模型的复杂度,那它的学习能力往往能得到提升。怎样提高复杂度呢?对神经网络模型来说,很明显有两个办法:把模型加“深”,或把模型加“宽”。从提升 模型复杂度的角度看,“加深”会更有效,因为简单来说,“加宽”仅是增加了计算单元, 从而增加了基函数的数目;而在“加深”时不仅增加了基函数的数目,还增加了函数嵌 套的层数,于是泛函表达能力会更强。所以,为提升复杂度,应该把网络“加深”。

有人可能会问,既然机器学习界早就知道能通过把神经网络模型加深来提升学习能 力,为什么以往不这样做呢?除了前面提到的“梯度消失”这个技术障碍,这还涉及另外一个问题:因为存在“过 拟合”(overfitting),在机器学习中把模型的学习能力变强未必一定是件好事。过拟合是 机器学习的大敌。简单来说,给定一个数据集,机器学习希望把数据集里所包含的“一 般规律”学出来用于今后的数据对象,但有时候可能会把当前数据集本身的一些“特性” 学出来却错误地当作一般规律去使用了,这就会犯错误,这就是过拟合。产生过拟合的重要因素之一,就是模型的学习能力太强了,把不该学的东西也学到了。所以,以往在 机器学习中都是尽量避免使用太复杂的模型。

现在为什么能使用深度神经网络这样的复杂模型了呢?有好几个重要因素:首先, 现在有大数据了。机器学习中有很多缓解过拟合的策略,例如决策树剪枝、支持向量机 正则化、神经网络提早终止训练等,但最简单有效的就是使用更多的数据。比方说,数 据集中只有三千个样本,从它里面学出来的“特性”不太可能是一般规律,但如果有三 千万,甚至三千万万个样本,那从它里面学出来的“特性”或许就已经是一般规律了。所以,现在有了大数据,我们不必再像以往那样对复杂模型“敬而远之”。第二,今天 有 GPU、CPU 集群等强力计算设备,使我们有足够的算力来训练复杂模型。第三,经过 机器学习界的努力,现在已经有很多有效训练深度神经网络这种复杂模型的技巧(trick), 例如很多缓解神经网络梯度消失的办法。

小结一下,这套对“为什么深”的“复杂度解释”主要强调三点:第一,今天有大 数据;第二,有强力的计算设备;第三,有很多有效的训练技巧。这三点导致现在能够 使用高复杂度模型,而深度神经网络恰是一种便于实现的高复杂度模型。上面这套解释有一定意义,例如它启发我们从复杂度的角度来研究深度学习中的一 些机制如 dropout 等[4]。但这套解释有个重要问题没解决:为什么扁平的(宽的)网络不 如深度神经网络?因为把网络“加宽”也能增加复杂度,虽然效率不如“加深”高。想 象一下,如果增加无限个隐层神经元,那么即便仅使用一个隐层,网络的复杂度也可以 提升非常高,甚至超过很多深度神经网络。然而在实践中人们发现,“宽”的浅层网络性 能比不上相对“窄”的深层网络,这用复杂度难以解释。因此,我们需要更深入一点的 思考。

我们问一个问题:深度神经网络最重要的功用是什么?对此,机器学习界目前有一个基本共识,那就是“表示学习”(representation learning)。简单来说,如图 3 所示,以往我们拿到一个数据对象,比方说一幅图像,先 要用很多特征比如说颜色、纹理等把它描述出来,这个步骤称为“特征工程”(feature engineering),然后我们再进行分类器学习。设计特征是许多应用研究领域的重要内容, 例如计算机视觉与模式识别领域的研究中有相当一部分内容是关于设计视觉特征如 SIFT、HOG 等,而这个部分是机器学习研究所不关心的,后者主要关注相对通用、不依 赖于具体应用域的技术,以往主要是针对表示为“特征向量”的数据去做分析建模。现 在有了深度学习,只需把数据从一端扔进去,从另外一端就能得到模型,中间用到的特 征描述可以通过深度学习自己来解决,这就是所谓的“特征学习”或者表示学习。从某 种角度看,这是机器学习研究的疆域扩展到了一些应用研究领域的传统范围。与以往的机器学习技术相比,在应用上来说这是一个很大的进步,因为不再需要完全依赖人类专 家设计特征了,特征本身也可以跟学习器一起进行联合优化。

进一步我们再问:对表示学习来说最关键的是什么?

我们的答案是:逐层加工处理。如图 4 所示,比方说在输入一幅图像时,在神经网 络最底层看到是一些像素,而一层层往上会逐步出现边缘、轮廓等抽象级别越来越高的 描述。虽然在真实的神经网络中未必有这么清晰的分层,但总体上确有自底向上不断抽 象的趋势。

事实上浅层神经网络几乎能做到深层神经网络所做的别的任何事(例如提升复杂 度),唯有深度的逐层抽象这件事,它由于层数浅而做不了。我们认为,“逐层加工处理” 正是表示学习的关键,也是深度学习成功的关键因素之一。

但是在机器学习领域,逐层加工处理并不新鲜,以前已经有很多技术是在进行逐层 加工处理。例如决策树、Boosting 都是“逐层加工处理”模型,但是与深度神经网络相 比,它们有两个弱点:一是模型复杂度不够。例如决策树,对给定数据集来说其模型深 度是受限的,假设仅考虑离散特征,则树的深度不会超过特征的个数,不像深度神经网 络那样可以任意提升复杂度;二是在学习过程中缺乏特征变换,学习过程始终在同一个 特征空间中进行。我们认为这两个因素对深度神经网络的成功也至关重要。当我们同时考虑“逐层加工处理”和“内置特征变换”时就会发现,深度模型是非 常自然的选择,因为基于深度模型可以容易地同时做到上面这两点。在选用深度模型后,由于模型复杂度高、容易过拟合,所以我们要用大数据;它很 难训练,所以我们要有训练技巧;计算开销大,所以我们要使用强力计算设备 …… 我们发现,这些是我们选择深度模型之后的结果,而不是选用深度模型的原因!这跟以前 的认识不太一样。以前认为因为具备了这些条件而导致我们能使用深度模型,现在看来 因果关系恰是反过来的。事实上,大训练数据、训练技巧,乃至强力计算设备都不仅限 服务于深度模型,同样可以服务于浅层模型,因此,具备了这些条件并不必然导致深度 模型优于浅层模型。

还有一点值得一提:拥有很大的训练数据时,需要使用复杂度高的模型,因为低复 杂度模型无法对大数据进行充分利用。比方说仅使用一个简单的线性模型,那么有两千 万样本还是两亿样本恐怕没有多少区别,因为模型已经“学不进去”了。而要模型有足 够的复杂度,这又给使用深度模型加了一分,因为深度模型可以容易地通过加深层数来 提升复杂度。

小结一下,我们的讨论分析导出的结论是,有三个关键因素:

 逐层加工处理

 内置特征变换

 模型复杂度够

这是我们认为深度神经网络能够成功的关键原因,或者说是我们关于深度神经网络 成功原因的猜想。有意思的是,这三个因素并没有“要求”我们必须使用神经网络模型。只要能同时做到这三点,别的模型应该也能做深度学习。

4 为何有必要探讨 DNN 之外的深度模型

没有任何模型是完美的,深度神经网络模型也不例外。

首先,凡是用过深度神经网络的人都知道,需花费大量的精力来调参。这会带来很 多问题。第一,调参经验很难共享,例如在图像任务上调参的经验很难在做语音任务时 借鉴。第二,今天无论是科学界还是工程技术界都非常关注研究结果的可重复性,而深 度学习恐怕是整个机器学习领域中可重复性问题最严重的子领域。常有这样的情况:一 组研究人员发文章报告的结果,很难被其他研究人员重现,因为即便使用相同的数据、 相同的方法,超参数设置稍有不同就可能使结果有巨大差别。

其次,神经网络的模型结构需要在训练前预设。但是在任务完成前,怎么能知道模 型复杂度应该是多大呢?事实上,我们通常是在使用超过必需复杂度的网络。深度神经 网络的一些最新研究进展,例如网络剪枝、权重二值化、模型压缩等,实质上都是试图 在训练过程中适当减小网络复杂度。显然,使用过高复杂度的模型必然导致不必要地消 耗了更多计算开销、导致对训练样本量不必要的高需求。有没有可能先用一个简单模型, 然后在学习过程中自适应地增加模型复杂度呢?遗憾的是这对神经网络很困难,因为若 网络结构未定,梯度求导对象在变化,那 BP 算法可就麻烦了。深度神经网络的其他缺陷例如小数据上难以使用、黑箱模型、理论分析困难等就不 赘述了。

或许有人会说,学术创新研究可能要考虑上述问题,而对应用实践来说只要性能好 就行,有深度神经网络就足够了……其实即便从应用角度来看,探讨神经网络之外的深 度学习模型也很有必要,因为虽然深度神经网络现在很流行,但在许多任务上(例如 Kaggle 的很多数据分析竞赛中)获胜的并非深度神经网络,而是随机森林、XGBoost 这 些相对比较传统的机器学习模型。事实上,目前深度神经网络做得好的几乎都是涉及图 像、视频、语音等的任务,都是典型的数值建模任务,而在其他涉及符号建模、离散建 模、混合建模的任务上,深度神经网络的性能并没有那么好。机器学习领域有一个著名的“没有免费的午餐”定理[2],它告诉我们,没有任何一 个模型在所有任务上都优于其他模型。实际上,不同模型各有自己的适用任务范畴,深 度神经网络也不例外。因此,有充分的理由去探讨深度神经网络之外的深度学习模型,因 为这样的模型或许能让我们在图像、视频、语音之外的更多任务上获得深度学习的性能 红利。

小结一下,今天我们谈到的深度模型都是深度神经网络,用技术术语来说,它是多 层可参数化可微分的非线性构件组成的模型,可以用 BP 算法来训练。这里有两个问题:一是现实世界中的问题多种多样,其所涉性质并不都是可微的,或能用可微构件最优建 模的;二是机器学习领域几十年的积累,有许多构件能作为复杂模型的基础,其中相当 一部分是不可微的。

能否基于不可微构件来构建新型深度学习模型?这是一个基础性挑战问题。一旦得 到答案,就同时回答了其他一些问题,例如深度模型是否只能是深度神经网络?是否能 不用 BP 算法训练?有没有可能让深度学习在图像、视频、语音之外的更多数据分析任 务上发挥作用?……

我们最近在这方面进行了一些初步探索,提出了“深度森林”这种非神经网络的新型深度学习模型[5,6]。深度森林的基础构件是不可微的决策树,其训练过程不基于 BP 算 法,甚至不依赖于梯度计算。它初步验证了上一节中关于深度学习奏效原因的猜想,即只要能做到逐层加工处理、内置特征变换、模型复杂度够,就能构建出有效的深度学习模型,并非必须使用神经网络。这种技术已经在大规模图像任务(我们认为此类任务的首选技术是深度神经网络)之外的许多任务中显示出优秀性能,包括互联网支付非法套现检测等大规模数据分析任务。在一定程度上验证了,在数值建模之外的任务上,有可能研制出新型深度学习模型来获得更好的性能。需要注意的是,任何一种新技术要取得广泛成功都需经过长期探索。以深度神经网 络中最著名的卷积神经网络为例,经过了三十来年、成千上万研究者和工程师探索和改 进,才取得今天的成功。深度森林还在“婴儿期”,虽然在某些问题上已得以应用,但是 不能期待它在广泛任务上都能够立即发挥作用。

实际上,我们以为深度森林探索的主要价值并不在于立即产生一种应用性能优越的 新算法,而是为深度学习的探索提供一个新思路。以往我们以为深度学习就是深度神经 网络,只能基于可微构件搭建,现在我们知道了这里有更多的可能性。好比说深度学习 是一间黑屋子,里面有什么呢?以前我们都知道有深度神经网络,并以为仅有深度神经 网络。现在深度森林把这个屋子打开了一扇门,今后可能会涌现更多的东西。这或许是 这个探索在学科领域发展上更重要的意义。

参考文献

[1] J. Sirignano. Deep learning models in finance. SIAM News, 2017, 50(5): 1.

[2] 周志华. 机器学习. 北京: 清华大学出版社, 2016.

[3] G. E. Hinton, S. Osindero, and Y.-W. Simon. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554.

[4] W. Gao and Z.-H. Zhou. Dropout Rademacher complexity of deep neural networks. Science China Information Sciences, 2016, 59(7): 072104: 1-072104: 12.

[5] Z.-H. Zhou and J. Feng. Deep forest: Towards an alternative to deep neural networks. In: IJCAI, 2017: 3553-3559.

[6] Z.-H. Zhou and J. Feng. Deep forest. National Science Review, 2019.

成为VIP会员查看完整内容
0
51

全局优化是一个快速发展的领域,在应用数学和物理科学中有着强大的应用。这本书提供了这一领域的全面概述,材料上的关键主题,如复杂性;启发式方法;极小化问题下界的推导分支定界方法和收敛性。最后一章提供了基准测试问题和全局优化的应用,如寻找分子的构造或规划星际空间旅行的最优轨迹。此外,凸函数和凹函数的基本信息在索引中提供。这本书是为研究生,研究人员,和实践者寻找困难的优化问题的高级解决方法。它适合作为一个补充文本在一个高级研究生水平的研讨会。

这本书致力于全局优化算法,这是为给定问题找到最优解的方法。它特别关注演化计算,通过讨论演化算法,遗传算法,遗传规划,学习分类器系统,进化策略,差分演化,粒子群优化,蚁群优化。它还详细阐述了其他元启发式算法,如模拟退火、极值优化、Tabu搜索和随机优化。这本书不是传统意义上的书:由于频繁的更新和变化,它不是真正的顺序阅读,而是某种材料收集、百科全书或参考工作,你可以在其中查找内容,找到正确的上下文,并提供基础知识。

这本书的内容分为四个部分。第一部分将介绍不同的优化技术,并描述它们的特点。为了便于理解,通常会给出一些小例子。在第二部分,从第315页开始,我们详细阐述了不同的应用实例。在Sigoa框架中,我们讨论了一种用Java实现优化算法的可能方法,并在第3部分(439页)中展示了如何实现前面问题实例的一些解决方案。最后,在455页后面的最后一部分,为本书的其余部分提供了背景知识。优化是与随机密切相关的,因此,可以在这里找到对这一主题的介绍。其他重要的背景信息涉及理论计算机科学和聚类算法。

https://www.e-booksdirectory.com/details.php?ebook=19

成为VIP会员查看完整内容
0
45

Python科学可视化作用是很重要的。它由无数的工具组成,从最通用和广泛使用的到更专业和保密的。其中一些工具是基于社区的,而另一些则是由公司开发的。有些是专门为网页制作的,有些是仅用于桌面,有些处理3D和大数据,而另一些则是针对完美的2D渲染。在这方面,Matplotlib有一个非常特殊的位置。它是一个多功能和强大的库,允许您设计非常高质量的图画,适合科学出版。它还提供了一个简单和直观的界面,以及一个面向对象的体系结构,允许您调整图形中的任何内容。最后,它可以作为一个常规的图形库,以设计非科学的图形。

https://github.com/rougier/scientific-visualization-book

这本书分为四个部分。第一部分考虑Matplotlib库的基本原则。这包括回顾构成图形的不同部分,不同的坐标系统,可用的比例和投影,我们还将介绍一些有关排版和颜色的概念。第二部分是一个图形的实际设计。在介绍了一些生成更好图形的简单规则之后,我们将继续解释Matplotlib默认值和样式系统,然后深入研究图形布局组织。然后,我们将探索不同类型的plot可用,并看看如何用不同的元素装饰一个图形。第三部分专注于更先进的概念,即3D人物,优化和动画。第四部分,也是最后一部分是陈列柜的收集。

成为VIP会员查看完整内容
0
42

用于机器学习的贝叶斯方法已经被广泛研究,产生了将先验信息纳入推理算法的原则方法。本文对贝叶斯方法在强化学习(RL)范式中的作用进行了深入的评述。在RL中整合贝叶斯推理的主要动机是,它提供了一种优雅的行动选择(探索/开发)方法,作为学习中的不确定性的函数,并且它提供了一种将先验知识整合到算法中的机制。

贝叶斯强化学习:综述首先讨论了简单单步Bandit模型中的贝叶斯推理模型和方法。然后回顾了最近关于基于模型的RL的贝叶斯方法的广泛文献,其中先验信息可以表达在马尔可夫模型的参数上。它还提出了无模型RL的贝叶斯方法,其中先验是在值函数或策略类上表示的。

《贝叶斯强化学习》是一个全面的参述,为学生和研究人员与兴趣的贝叶斯RL算法及其理论和经验性质。

成为VIP会员查看完整内容
0
41

传统观点认为,大量数据支撑起了尖端人工智能的发展,大数据也一直被奉为打造成功机器学习项目的关键之匙。但AI ≠ Big Data,该研究指出,制定规则时如果将——人工智能依赖巨量数据、数据是必不可少的战略资源、获取数据量决定国家(或公司)的人工智能进展—— 视为永恒真理,就会“误入歧途”。介于当下大环境过分强调大数据却忽略了小数据人工智能的存在,低估了它不需要大量标记数据集或从收集数据的潜力,研究人员从四个方面“缩短大小实体间AI能力差距、减少个人数据的收集、促进数据匮乏领域的发展和避免脏数据问题”说明了“小数据”方法的重要性。 https://cset.georgetown.edu/publication/small-datas-big-ai-potential/

成为VIP会员查看完整内容
0
35

基于物理信息的机器学习可以以一种统一的方式无缝地整合数据和物理原理,也因此提升了机器学习的泛化性,使机器学习不再是只针对特定的某种问题有着很好的效果。

成为VIP会员查看完整内容
0
36

Convex Optimization: Algorithms and Complexity

本专著介绍了凸优化的主要复杂性定理及其相应的算法。从黑箱优化的基本理论出发,对结构优化和随机优化的最新进展进行了研究。黑盒优化的介绍,受到Nesterov的开创性著作和Nemirovski的课堂讲稿的强烈影响,包括对切割平面方法的分析,以及(加速)梯度下降方案。我们还特别关注非欧几里得设置(相关算法包括Frank-Wolfe、镜像下降和双重平均),并讨论它们在机器学习中的相关性。我们温和地介绍了结构优化与FISTA(优化光滑项和简单非光滑项的求和),鞍点反射法(Nemirovski的替代Nesterov平滑),以及内部点方法的简明描述。在随机优化中,我们讨论了随机梯度下降、小批量、随机坐标下降和次线性算法。我们也简要地接触到组合问题的凸松弛和使用随机的圆解,以及基于随机漫步的方法。

https://www.nowpublishers.com/article/Details/MAL-050

成为VIP会员查看完整内容
0
35

摘要

人类可以自然有效地在复杂的场景中找到显著区域。在这种观察的推动下,注意力机制被引入到计算机视觉中,目的是模仿人类视觉系统的这方面。这种注意力机制可以看作是一个基于输入图像特征的动态权值调整过程。注意力机制在图像分类、目标检测、语义分割、视频理解、图像生成、三维视觉、多模态任务和自监督学习等视觉任务中取得了巨大的成功。本文综述了计算机视觉中的各种注意力机制,并对其进行了分类,如通道注意力、空间注意力、时间注意力和分支注意力; 相关的存储库https://github.com/MenghaoGuo/Awesome-Vision-Attentions专门用于收集相关的工作。本文还提出了注意机力制研究的未来方向。

https://www.zhuanzhi.ai/paper/2329d809f32ca0840bd93429d1cef0fe

引言

将注意力转移到图像中最重要的区域而忽略不相关部分的方法称为注意力机制; 人类视觉系统使用一个[1],[2],[3],[4]来帮助高效和有效地分析和理解复杂的场景。这反过来也启发了研究人员将注意力机制引入计算机视觉系统,以提高它们的表现。在视觉系统中,注意力机制可以看作是一个动态选择过程,根据输入的重要性自适应加权特征来实现。注意力机制在许多视觉任务中提供了好处,例如:图像分类[5],[6],目标检测[7],[8],语义分割[9],[10],人脸识别[11],[12],人再识别[13],[14],动作识别[15],[16],少样本学习[17],[18],医学图像处理[19],[20],图像生成[21],[22],姿态估计[23],超分辨率[24],[25],3D视觉[26],[27],多模态任务[28],[29]。

图1 注意力机制可以根据数据域进行分类。其中包括通道注意力、空间注意力、时间注意力和分支注意力四大类基本注意力,以及通道&空间注意力和空间&时间注意力相结合的两大类混合注意力。∅表示此组合不存在。

在过去的十年中,注意机制在计算机视觉中发挥着越来越重要的作用; 图3,简要总结了深度学习时代计算机视觉中基于注意的模型的历史。进展大致可分为四个阶段。第一阶段从RAM[31]开始,这是一项将深度神经网络与注意力机制结合起来的开创性工作。它通过策略梯度对重要区域进行循环预测,并对整个网络进行端到端更新。后来,各种工作[21],[35]采用了类似的视觉注意力策略。在这个阶段,循环神经网络(RNNs)是注意机制的必要工具。在第二阶段的开始,Jaderberg等人[32]提出判别歧视性输入特征是第二阶段的主要特征; DCNs[7]、[36]是代表性工作。第三阶段以SENet[5]开始,该网络提出了一种新的管道段的代表作。最后一个阶段是自注意力时代。自注意力最早在[33]中提出,并迅速在自然语言处理领域取得了巨大进展。Wang et al.[15]率先将自注意力引入计算机视觉,提出了一种新型的非局部网络,在视频理解和目标检测方面取得了巨大成功。随后进行了EMANet[40]、CCNet[41]、HamNet[42]和单机网络[43]等一系列工作,提高了速度、结果质量和泛化能力。近年来,各种纯深度自注意力网络(视觉变换器)很明显,基于注意力的模型有潜力取代卷积神经网络,成为计算机视觉中更强大、更通用的架构。

本文的目的是对当前计算机视觉中的注意力方法进行总结和分类。我们的方法如图1所示,并在图2中进一步解释 :它是基于数据域的。有些方法考虑重要数据何时出现的问题,或者它在哪里出现的问题,等等,并相应地尝试查找数据中的关键时间或位置。我们将现有的注意力方法分为六类,其中包括四种基本类别:通道注意力(注意力什么[50])、空间注意力(注意什么地方)、时间注意力(注意力什么时间)和分支通道(注意力什么地方),以及两种混合组合类别:通道&空间注意力和空间&时间注意力。这些观点和相关工作在表2中进行了进一步的简要总结。

  • 对视觉注意力方法的系统综述,包括注意力机制的统一描述、视觉注意机制的发展以及当前的研究;

  • 根据他们的数据域对注意力方法进行分类分组,使我们能够独立于特定的应用程序将视觉注意力方法联系起来

  • 对未来视觉注意力研究的建议。

成为VIP会员查看完整内容
0
33

来自新加坡NUS图神经网络大牛Xavier Bresson教授关于注意力神经网络的总结PPT,全面概括了神经网络与注意力机制的应用,非常值得关注! Neural Networks Neural Networks for Sets Memory Networks Transformers Language Model Transformers Sequence-To-Sequence Transformers Transfer Learning with Language Models Graph NNs vs Attention NNs Conclusion

成为VIP会员查看完整内容
0
33

随着人工智能技术的突破性进展, 人工智能与可视化的交叉研究成为当前的研究热点之一, 为人工智能和大数据分析领域的若干核心难题提供了启发式的理论、方法和技术. 一方面, 人工智能技术的创新应用提升了可视化的分析效率, 拓展了分析功能, 为大数据可视分析提供了强有力的工具. 另一方面, 可视化技术增强了以深度学习为代表的人工智能的可解释性和交互性, 为可解释人工智能提供了可靠的技术基础. 本文从面向人工智能的可视化技术和人工智能驱动的可视化技术两个方向, 分别介绍了数据质量改善、可解释机器学习、智能特征提取、可视化自动布局与生成、智能交互、智能故事叙述等6个重要问题. 对国内外的研究进展进行了分析, 并对发展趋势进行了展望.

https://www.sciengine.com/publisher/scp/journal/SSI/51/11/10.1360/SSI-2021-0062?slug=fulltext

成为VIP会员查看完整内容
0
33

近日,世界领先的人工智能软件公司商汤科技联合上海交通大学清源研究院、AIII人工智能国际研究院,共同发布《平衡发展的AI伦理观——AI可持续发展报告2021-2022》(以下简称“报告”),倡导“发展”的伦理观,打造技术可控、以人为本、可持续发展的AI均衡伦理治理范式,推动发展负责任且可持续的AI技术。同期发布的,还有商汤与上海开源信息技术协会、AIII人工智能国际研究院共同倡议构建的《联合国可持续发展目标正面案例集》。

“‘给岁月以文明’,给技术以人文精神,才能让技术走得更远更好。”商汤伦理治理委员会主席、副总裁杨帆表示,“作为新兴科技的典型代表,人工智能技术本身、以及它所带来的经济、社会、生活方面的巨大影响,都在快速的发展变化——这对人工智能的伦理治理提出了更高的要求。商汤相信,放任自流和因噎废食的态度,都不可取。AI治理是一个多目标、多维度的平衡过程,即以‘发展’的眼光,寻求均衡的发展。”

为此,在去年商汤首次发布可持续报告的基础上,商汤本年度的报告进一步拓展了“可持续发展”的内涵与外延。在发布仪式上,商汤智能产业研究院院长田丰详细介绍了商汤伦理观以及相关的实践。基于国际主流的技术伦理治理架构,商汤提出人工智能伦理治理的三个核心原则:

图:发展的AI伦理观

· 可持续发展:可持续发展是最大的社会责任。通过伦理治理,商汤希望能够推动人工智能技术促进全社会的经济、文化及环境的可持续发展。

这其中,很重要一点是人工智能的发展不仅要造福于人类,也要造福于我们的地球。随着节能减碳成为全球共识,积极推动传统产业绿色转型,早日实现碳达峰、碳中和成为诸多行业的共同诉求。而其中,电力工业是全球最主要的 CO2 排放源之一,实现电力减排、清洁高效生产和运维,将有助于推动低碳电力、低碳能源。2020 年,商汤科技与南方电网数字电网研究院达成合作,在超高压公司直流工程换流站进行了首个工业级视觉定位 AR 技术试点研究,以AI+AR技术助力实现智能电网巡检,提高电力运维效率,助力新能源大规模并网后的电网运行安全。

· 以人为本:可持续发展的主体是人,要尊重人类的基本权利,构建充满人文关怀、互相尊重的包容性AI,让技术真正造福于人。

当今的数字时代,各类智能物联网设备以及相应的软件应用遍布生活的各个方面。以技术赋能智慧生活,可以进一步释放数字时代的潜力,方便人类、改善生活体验。从行业数据和长远发展看,旅游早已成为中国居民主要的闲余活动和生活方式。例如,商汤以AI赋能智慧文旅,将故宫的藏品复制到线上;从早期各种各样的美颜特效、智能上妆,到直播时代的3D人像、数字人、虚实结合的体感游戏等等,商汤累计赋能200多款手机、AR 和VR设备、智慧大屏及消费级无人机,以实现真实世界和虚拟世界的连接,创造全新的元宇宙体验。

· 技术可控:技术是由人类开发并为人类服务的超级工具,工具的伦理责任应由人类承担;对于人工智能的技术治理,宜采用多元治理、发展式治理,以释放科技造福人类的创新发展潜力;同时,实现人工智能的法律合规、主动保护数据安全,是可信AI的关键成功因素。

基于这样的观点,商汤积极实践数据隐私保护,以自主合规性要求不断驱动产品升级。商汤是第一家获得全部三项 ISO/IEC 隐私信息管理系统、信息安全管理和个人身份信息保护认证的人工智能公司,已采取的标准保护措施包括保密分频、访问控制、数据加密及脱敏等,以防止未经授权访问、 泄露、不当使用或修改、损害或丢失数据及个人信息。

“可持续发展、以人为本、技术可控,这三条核心原则将是人工智能技术得到信任、广泛接受和长期发展的重要支柱。”杨帆表示,“在经济、社会、技术发展的不同阶段,人类社会对技术的需求、对技术的伦理的偏重各有区别。为此,要在这样三原则基础上,需求均衡、动态的发展。”

在这样理念的指导下,根据上述三原则,经由商汤人工智能伦理与治理委员会推动落实,商汤已建立起系统的人工智能伦理审查程序,以审查及检测产品及服务的潜在伦理风险。该管理体系涵盖从项目审批、产品及服务的发布,到持续运营监控,及其后的产品及解决方案迭代的整个生命周期。在评估过程中,可选择驳回新产品方案、中断进行中的产品开发项目、或停止不符合商汤原则及标准的现有产品。此外,商汤还聘请外部顾问为相关的审查程序及风险管理模型提供建议,以确保产品及服务符合伦理规范。

与本年度可持续发展报告同期发布的,还有由商汤与上海开源信息技术协会、AIII人工智能国际研究院共同倡议构建的《联合国可持续发展目标正面案例集》。案例集围绕联合国可持续发展的17个目标,收集了全球范围内40余个人工智能技术在现实生活中应用的正面案例,涵盖脱贫、无饥饿、AI智慧医疗、AI普惠教育、产业创新和基础设施等等方面,为产学研界提供一线应用案例参考,共建伦理治理生态。

“我们希望以人工智能不断造福大众、增进社会福祉、保护地球家园。在这个过程中,落实‘发展’的AI伦理观,推动负责任且可持续人工智能的发展,是商汤坚持知行合一、实现AI向善的坚定举措”杨帆表示。展望未来,商汤作为AI领域的龙头企业,将不断落实相关的实践工作,并通过与产业生态的广泛合作,共同推动人工智能伦理的平衡发展。

成为VIP会员查看完整内容
0
32

随着新代码、新项目和新章节的推出,第二版为读者提供了一个坚实的机器学习基础,并为读者提供了一个完整的学习概念。由NASA喷气推进实验室副首席技术官和首席数据科学家Chris Mattmann编写,所有的例子都伴随着可下载的Jupyter笔记本,以亲身体验用Python编写TensorFlow。新的和修订的内容扩大了核心机器学习算法的覆盖面,以及神经网络的进步,如VGG-Face人脸识别分类器和深度语音分类器。

https://www.manning.com/books/machine-learning-with-tensorflow-second-edition

使用TensorFlow的机器学习,第二版是使用Python和TensorFlow构建机器学习模型的完全指南。您将把核心ML概念应用于现实世界的挑战,如情感分析、文本分类和图像识别。实例演示了用于深度语音处理、面部识别和CIFAR-10自动编码的神经网络技术。

成为VIP会员查看完整内容
0
32

https://datascience-book.gitlab.io/

有很多数据,事实上我们创造了数据爆炸这个术语,很多时候我们意识不到这些数据表明了一些有价值的东西。有了数据,人们成为了伟大的股票交易员,他们让机器赢得了原本以为只有人类才能赢得的比赛。

事实证明,如果我们能用聪明的计算机科学对大量数据进行数学运算,我们就能做以前认为不可能的事情,而且有大量的数据。

数据科学是一个我们利用计算机科学来理解我们身边大量数据的领域。我们试图让人们理解它,我们试图预测一些事情即使我们可能不明白为什么会发生。这是科学数据。

这可能是超级智能的顶点,当然这是一个新的数据时代。欢迎来到这个奇妙的宇宙!

成为VIP会员查看完整内容
0
31

【导读】Transformer系列的算法模型是当下研究的热点之一。基于Transformer的模型在自然语言处理、计算机视觉等领域得到了广泛的应用,最具代表性的就是作为预训练模型的核心构件,如BERT等。之前已经有相关系列Transformer综述。来自中科院计算所的研究人员从计算机视觉三个基本任务(分类、检测和分割)的角度对一百多种不同的视觉变换器进行了综述,值得关注。

摘要

Transformer 是一种基于注意力的编码器-解码器架构,彻底改变了自然语言处理领域。受这一重大成就的启发,最近在将类似 Transformer 的体系结构应用于计算机视觉 (CV) 领域方面进行了一些开创性工作,这些工作已经证明了它们在各种 CV 任务上的有效性。与现代卷积神经网络 (CNN) 相比,visual Transformers 依靠有竞争力的建模能力,在 ImageNet、COCO 和 ADE20k 等多个基准测试中取得了令人印象深刻的性能。在本文中,我们全面回顾了针对三个基本 CV 任务(分类、检测和分割)的一百多种不同的视觉变换器,其中提出了一种分类法来根据它们的动机、结构和使用场景来组织这些方法. 由于训练设置和面向任务的差异,我们还在不同的配置上评估了这些方法,以方便直观地进行比较,而不仅仅是各种基准测试。此外,我们揭示了一系列基本但未开发的方面,这些方面可能使 Transformer 从众多架构中脱颖而出,例如,松弛的高级语义嵌入以弥合视觉和顺序 Transformer 之间的差距。最后,提出了三个有前景的未来研究方向,以供进一步研究。

https://www.zhuanzhi.ai/paper/81663beebc3e71dadb416550ed549c65

引言

Transformer [1]作为一种基于注意力的结构,首次在序列建模和机器翻译任务中显示出巨大的力量。如图1所示,Transformer已经逐渐成为自然语言处理(NLP)的主要深度学习模型。最新的主流模型是一些自监督的变形金刚,预先从足够的数据集训练,然后在小而具体的下游任务[2]-[9]上进行微调。生成预训练Transformer (GPT)族[2]-[4]利用Transformer解码器执行自回归语言建模任务,而Transformer的双向编码器表示(BERT)[5]及其变体[6]、[7]作为构建在Transformer编码器上的自动编码器语言模型。

在计算机视觉(CV)领域,在视觉转换器模型之前,卷积神经网络(CNN)已经成为一个主导范式[10]-[12]。受NLP[1]和[13]中自注意力机制的巨大成功启发,一些基于CNN的模型试图通过一个额外的空间[14]-[16]或通道级别[17]-[19]的自注意力层来捕捉长期依赖。而另一些人则试图用全局[20]或局部自注意力块[21]-[25]来完全替代传统的卷积。虽然Cordonnier等人从理论上证明了自注意力块[26]的有效性和效率,但在主流基准上,这些纯注意力模型仍然不如当前最先进的(SOTA) CNN模型。

如上所述,基于注意力的模型在视觉识别领域受到了极大的关注,而vanilla Transformer在NLP领域取得了巨大的成功。受到这些启发,最近有许多作品将Transformer移植到CV任务中,并取得了可比性的结果。例如Dosovitskiy等人[27]提出了一种使用图像patch作为图像分类输入的纯Transformer,在许多图像分类基准上已经实现了SOTA。此外,visual transformer在其他CV任务中也取得了良好的性能,如检测[28]、分割[29]、跟踪[30]、图像生成[31]、增强[32]。如图1所示,在[27]、[28]之后,在过去的一年中,针对各个领域提出了数百种基于transformer的模型。因此,我们迫切需要一个系统的文献调研来识别、分类和批判性地评估这些新出现的视觉Transformer的表现。考虑到读者可能来自不同的领域,我们针对这些现有的视觉变形金刚进行三个基本的CV任务,包括分类、检测和分割。如图2所示,本综述将所有这些现有方法根据其任务、动机和结构特征分为多个组。其中一些可能部分重叠。例如,一些改进不仅提高了骨干在图像分类中的性能,而且还提高了密集预测任务(即检测和分割)的性能,许多深度和层次的方法也通过改进CNN和attention来实现。

去年发表了几篇关于Transformer的综述,Tay等[86]综述了Transformer在NLP中的效率,Khan等[87]和Han等[88]总结了早期的视觉变形和先前的注意力模型,以及一些没有系统方法的语言模型。Lin等人介绍了Transformer的最新综述,对Transformer的各种变体进行了系统的综述,并简要地提到了可视化应用[89]。基于这些观察,本文旨在对近期的视觉Transformer进行全面的回顾,并对现有的方法进行系统的分类:

(1)全面性和可读性。本文全面回顾了100多个视觉Transformers的三个基本任务:分类、检测和分割。我们选取并分析了50多个具有代表性的模型,如图2所示。我们不仅从单一的角度对每个模型进行详尽的分析,而且还通过递进、对比和多视角分析等意义来建立它们之间的内在联系。

(2)直观的比较。由于这些Transformers在不同的任务中遵循不同的训练方案和超参数设置,本综述通过将它们在不同的数据集和限制下分离,呈现了多个横向比较。在此基础上,我们总结了针对每个任务设计的一系列有前途的组件,包括: 基于层次结构的主干浅局部卷积,基于稀疏注意的空间先验加速,以及用于分割的通用掩模预测方案。

(3) 深入分析。我们进一步提供了以下方面的重要见解: 从顺序任务到视觉任务的转换过程,Transformer与其他视觉网络之间的对应关系,以及不同任务中可学习嵌入(即类标记、对象查询、掩码嵌入)的相关性。最后,展望了未来的研究方向。例如,编码器-解码器Transformer骨干可以通过学习嵌入来统一三个子任务。

本文的其余部分组织如下。第2节介绍了原始Transformer的概述架构和关键组件。第三章总结了Transformer 主干的综合分类,并简要讨论了图像分类。然后我们回顾了当代的Transformer检测器,包括第四节中的Transformer neck和backbone。第五节根据嵌入的形式(即patch embedding和query embedding),阐明了在分割领域中主流的Transformer变体。此外,第二章-第四章还简要分析了其相应领域的绩效评价的具体方面。第六章从三个方面进行了进一步的探讨,并指出了未来进一步研究的方向。

总结

在上述比较和讨论的基础上,我们现就以下三项基本任务近期的改进情况作一简要总结。

  • 对于分类,一个深度层次的Transformer主干可以有效地降低计算复杂度[39],并在深度避免特征过平滑[35],[40],[59],[60]。同时,早期卷积[37]足以捕获低级特征,可以显著增强浅层的鲁棒性,降低计算复杂度。卷积投影[46]、[47]和局部注意力机制[33]、[42]都可以改善Transformer的局部性。[48]、[49]也可能是一种用位置编码替代的新方法。

  • 在检测方面,Transformer骨干得益于编码器-解码器结构,比仅使用编码器的Transformer检测器计算更少[73]。因此,解码器是必要的,但由于其收敛速度慢[72],需要的堆栈很少[70]。此外,稀疏注意力[67]有利于降低计算复杂度,加速Transformer的收敛,而空间先验[67]、[69]、[71]则有利于Transformer的性能,收敛速度稍快。

  • 对于分割,编码器-解码器Transformer模型可以通过一系列可学习的掩码嵌入[29],[84],[137],将三个分割子任务统一为一个掩码预测问题。这种无箱方法在多个基准上实现了最新的SOTA[137]。此外,还证明了基于box-based Transformer的特定混合任务级联模型[81]在实例分割任务中获得了更高的性能。

成为VIP会员查看完整内容
0
31

开放式解决问题的能力对数据科学职业至关重要。不幸的是,这些能力不能仅仅通过阅读获得。要成为一个解决问题的人,你必须坚持不懈地解决困难的问题。考虑到这一点,我围绕案例研究编写了我的书:模拟真实世界的开放式问题。案例研究范围从在线广告分析到利用新闻数据跟踪疾病爆发。完成这些案例研究后,您将非常适合开始数据科学的职业生涯。

https://www.manning.com/books/data-science-bookcamp

这本书包含了五个案例研究。每个案例研究都以详细的问题陈述开始,您需要解决这些问题。问题陈述后面有两到五个部分,介绍解决问题所需的数据科学技能。这些技能部分涵盖了基本的库,以及数学和算法技术。最后的每个案例研究部分描述了问题的解决方案。

通过本书学习到: 计算和绘制概率的技术 使用Scipy进行统计分析 如何用聚类算法组织数据集 如何可视化复杂的多变量数据集 如何训练决策树的机器学习算法

本书目录内容: 案例研究1属于基本概率论: 案例研究2从概率扩展到统计学 案例研究3着重于地理数据的无监督聚类 案例研究4关注使用大规模数值计算的自然语言处理 案例研究5完成了关于网络理论和监督机器学习的讨论

成为VIP会员查看完整内容
0
29

本书从根本上重新思考了概率论和统计学第一课的微积分。我们提供广度优先的方法,其中概率论和统计的要点可以在一个学期教授。通过模拟、数据争论、可视化和统计程序,统计编程语言R在全文中扮演着核心角色。在示例和练习中使用了来自各种来源的数据集,包括许多来自最近的开放源代码科学文章的数据集。通过模拟给出了重要事实的证明,也有一些正式的数学证明。

这本书是学习数据科学,统计,工程,计算机科学,数学,科学,商业的学生的一个优秀的选择,或任何学生想要在模拟实践课程的基础上。

这本书假设有一个学期的微积分的数学背景,并且在第三章中有一些无穷级数。在第3章和第4章中,积分和无穷级数被用于表示法和说明,但在其他章节中微积分的使用很少。由于强调通过模拟来理解结果(以及对偏离假设的稳健性),本书的大部分内容(如果不是全部的话)无需微积分也能理解。提供了许多结果的证明,并通过模拟为更多的理由,但本文不打算支持一个基于证明的课程。我们鼓励读者遵循证明,但通常只有在首先理解结果和为什么它是重要的之后,才想要理解一个证明。

成为VIP会员查看完整内容
0
29
登录查看的更多。 返回顶部
本周荟萃主题
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
新闻
新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等; [3] 狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。
图灵奖
图灵奖(A.M. Turing Award,又译“杜林奖”),由 美国计算机协会(ACM)于1966年设立,又叫“A.M. 图灵奖”,专门奖励那些对计算机事业作出重要贡献的个人。其名称取自计算机科学的先驱、英国科学家 阿兰·麦席森·图灵
Top