深度学习目前最流行的框架是Tensorflow和PyTorch,市面上讲解Tensorflow的实战教材很多,但关于PyTorch的书却很少。今天给大家推荐一本2019年最新出炉的新书《PyTorch实战 - 一个解决问题的方法》。本书内容很新,由浅入深,全面讲解了如何基于PyTorch框架搭建深度学习模型,进行模型部署的方方面面,是一本不可多得的PyTorch入门书籍。

本书介绍

人工智能产品和解决方案的开发最近已经成为一种常态;因此,对基于图论的计算框架的需求正在上升。当建模框架是动态的、灵活的,并且能够适应其他框架时,让深度学习模型在实际应用中工作是可能的。

PyTorch最近加入了图形计算工具/编程语言联盟。针对以前框架的局限性,PyTorch承诺在部署深度学习模型以及使用卷积神经网络、递归神经网络、LSTMs和深度神经网络的组合创建高级模型方面提供更好的用户体验。PyTorch是由Facebook的人工智能研究部门创建的,该部门旨在使模型开发过程简单、直接、动态,这样开发人员就不必担心在编译和执行模型之前声明对象。它基于Torch框架,是Python的扩展。

这本书面向数据科学家、自然语言处理工程师、人工智能解决方案开发人员、从事图形计算框架的现有从业人员以及图论研究人员。这本书主要讲解张量(Tensor)的基础知识、计算、执行基于算术的运算、矩阵代数和使用PyTorch框架的基于统计分布式运算。

第3章和第4章提供了关于神经网络基础知识的详细描述。探索先进的神经网络,如卷积神经网络、递归神经网络和LSTMs。读者将能够使用PyTorch函数实现这些模型。第5章和第6章主要讲解模型的微调、超参数调整以及生产环境中如何对现有PyTorch模型进行改进。读者将学习如何选择超级参数来微调模型。第7章主要讲解自然语言处理相关的应用。深度学习模型及其在自然语言处理和人工智能中的应用是该行业最苛刻的技能之一。读者将能够在深度学习模型中对PyTorch实现的执行和性能进行测试,以执行和处理自然语言。能够将PyTorch与其他基于图形计算的深度学习编程工具进行比较。
成为VIP会员查看完整内容
0
64
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

图神经网络(GNN)是一类基于深度学习的处理图域信息的方法,它通过将图广播操作和深度学习算法结合,可以让图的结构信息和顶点属性信息都参与到学习中,在顶点分类、图分类、链接预测等应用中表现出良好的效果和可解释性,已成为一种广泛应用的图分析方法.然而现有主流的深度学习框架(如Tensorflow、PyTorch等)没有为图神经网络计算提供高效的存储支持和图上的消息传递支持,这限制了图神经网络算法在大规模图数据上的应用.目前已有诸多工作针对图结构的数据特点和图神经网络的计算特点,探索了大规模图神经网络系统的设计和实现方案.本文首先对图神经网络的发展进行简要概述,总结了设计图神经网络系统需要面对的挑战;随后对目前图神经网络系统的工作进行介绍,从系统架构、编程模型、消息传递优化、图分区策略、通信优化等多个方面对系统进行分析;最后使用部分已开源的图神经网络系统进行实验评估,从精确度、性能、扩展性等多个方面验证这些系统的有效性.

http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6311

成为VIP会员查看完整内容
0
61

在人类中,注意力是所有感知和认知操作的核心属性。考虑到我们处理竞争性信息来源的能力有限,注意力机制选择、调整和关注与行为最相关的信息。

几十年来,哲学、心理学、神经科学和计算机科学都在研究注意力的概念和功能。在过去的六年中,这一特性在深度神经网络中得到了广泛的研究。目前,深度学习的研究进展主要体现在几个应用领域的神经注意力模型上。

本研究对神经注意力模型的发展进行了全面的概述和分析。我们系统地回顾了该领域的数百个架构,识别并讨论了那些注意力显示出重大影响的架构。我们亦制订了一套自动化方法体系,并将其公诸于众,以促进这方面的研究工作。通过批判性地分析650部文献,我们描述了注意力在卷积、循环网络和生成模型中的主要用途,识别了使用和应用的共同子组。

此外,我们还描述了注意力在不同应用领域的影响及其对神经网络可解释性的影响。最后,我们列出了进一步研究的可能趋势和机会,希望这篇综述能够对该领域的主要注意力模型提供一个简明的概述,并指导研究者开发未来的方法,以推动进一步的改进。

成为VIP会员查看完整内容
0
62

本书是信息论领域中一本简明易懂的教材。主要内容包括:熵、信源、信道容量、率失真、数据压缩与编码理论和复杂度理论等方面的介绍。

本书还对网络信息论和假设检验等进行了介绍,并且以赛马模型为出发点,将对证券市场研究纳入了信息论的框架,从新的视角给投资组合的研究带来了全新的投资理念和研究技巧。

本书适合作为电子工程、统计学以及电信方面的高年级本科生和研究生的信息论基础教程教材,也可供研究人员和专业人士参考。

本书是一本简明易懂的信息论教材。正如爱因斯坦所说:“凡事应该尽可能使其简单到不能再简单为止。''虽然我们没有深人考证过该引语的来源(据说最初是在幸运蛋卷中发现的),但我们自始至终都将这种观点贯穿到本书的写作中。信息论中的确有这样一些关键的思想和技巧,一旦掌握了它们、不仅使信息论的主题简明,而且在处理新问題时提供重要的直觉。本书来自使用了十多年的信息论讲义,原讲义是信息论课程的高年级本科生和一年级研究生两学期用的教材。本书打算作为通信理论.计算机科学和统计学专业学生学习信息论的教材。

信息论中有两个简明要点。第一,熵与互信息这样的特殊量是为了解答基本问题而产生的。例如,熵是随机变量的最小描述复杂度,互信息是度量在噪声背景下的通信速率。另外,我们在以后还会提到,互信息相当于已知边信息条件下财富双倍的增长。第二,回答信息理论问邀的答案具有自然的代数结构。例如,熵具有链式法则,因而,谪和互信息也是相关的。因此,数据压缩和通信中的问题得到广泛的解释。我们都有这样的感受,当研究某个问题时,往往历经大量的代数运算推理得到了结果,但此时没有真正了解问题的全莪,最终是通过反复观察结果,才对整个问题有完整、明确的认识。所以,对一个问题的全面理解,不是靠推理,而是靠对结果的观察。要更具体地说明这一点,物理学中的牛顿三大定律和薛定谔波动方程也许是最合适的例子。谁曾预见过薛定谔波动方程后来会有如此令人敬畏的哲学解释呢?

在本书中,我们常会在着眼于问题之前,先了解一下答案的性质。比如第2章中,我们定义熵、相对熵和互信息,研究它们之间的关系,再对这些关系作一点解释·由此揭示如何融会贯通地使用各式各样的方法解决实际问题。同理,我们顺便探讨热力学第二定律的含义。熵总是增加吗?答案既肯定也否定。这种结果会令专家感兴趣,但初学者或i午认为这是必然的而不会深人考虑。

在实际教学中.教师往往会加人一自己的见解。事实上,寻找无人知道的证明或者有所创新的结果是一件很愉快的事情。如果有人将新的思想和已经证明的内容在课堂上讲解给学生,那么不仅学生会积极反馈“对,对,对六而且会大大地提升教授该课程的乐崆我们正是这样从研究本教材的许多新想法中获得乐趣的。

本书加人的新素材实例包括信息论与博弈之间的关系,马尔可夫链背景下热力学第二定律的普遍性问题,信道容量定理的联合典型性证明,赫夫曼码的竞争最优性,以及关于最大熵谱密度估计的伯格(回定理的证明。科尔莫戈罗夫复杂度这一章也是本书的独到之处。面将费希尔信息,互信息、中心极限定理以及布伦一闵可夫斯基不等式与熵幂不等式联系在一起,也是我们引以为豪之处。令我们感到惊讶的是.关于行列式不等式的许多经典结论,当利用信息论不等式后会很容易得到证明。

自从香农的奠基性论文面世以来,尽管信息论已有了相当大的发展,但我们还是要努力强调它的连贯性。虽然香农创立信息论时受到通信理论中的问题启发,然而我们认为信息论是一门独立的学科,可应用于通信理论和统计学中。我们将信息论作为一个学科领域从通信理论、概率论和统计学的背景中独立出来因为明显不可能从这些学科中获得难以理解的信息概念。由于本书中绝大多数结论以定理和证明的形式给出,所以,我们期望通过对这些定理的巧妙证明能说明这些结论的完美性。一般来讲,我们在介绍问题之前先描述回题的解的性质,而这些很有的性质会使接下来的证明顺理成章。

使用不等式串、中间不加任何文字、最后直接加以解释,是我们在表述方式上的一项创新希望读者学习我们所给的证明过程达到一定数量时,在没有任何解释的情况下就能理解其中的大部分步,并自己给出所需的解释这些不等式串好比模拟到试题,读者可以通过它们确认自己是否已掌握证明那些重要定理的必备知识。这些证明过程的自然流程是如此引人注目,以至于导致我们轻视了写作技巧中的某条重要原则。由于没有多余的话,因而突出了思路的逻辑性与主題思想u我们希望当读者阅读完本书后,能够与我们共同分亨我们所推崇的,具有优美、简洁和自然风格的信息论。

本书广泛使用弱的典型序列的方法,此概念可以追溯到香农1948年的创造性工作,而它真正得到发展是在20世纪70年代初期。其中的主要思想就是所谓的渐近均分性(AEP),或许可以粗略地说成“几乎一切事情都是等可能的"

第2章阐述了熵、相对熵和互信息之同的基本代数关系。渐近均分性是第3章重中之重的内容,这也使我们将随机过程和数据压缩的熵率分别放在第4章和第5章中论述。第6章介绍博弈,研究了数据压缩的对偶性和财富的增长率。可作为对信息论进行理性思考基础的科尔莫戈罗夫复杂度,拥有着巨大的成果,放在第14章中论述。我们的目标是寻找一个通用的最矩描述,而不是平均意义下的次佳描述。的确存在这样的普遍性概念用来刻画一个对象的复杂度。该章也论述了神奇数0,揭示数学上的不少奥秘,是图灵机停止运转概率的推广。第7章论述信道容量定理。第8章叙述微分熵的必需知识,它们是将早期容量定理推广到连续噪声信道的基础。基本的高斯信道容量问题在第9章中论述。第il章阐述信息论和统计学之间的关系,20世纪年代初期库尔贝克首次对此进行了研究,此后相对被忽视。由于率失真理论比无噪声数据压缩理论需要更多的背景知识,因而将其放置在正文中比较靠后的第10章。

网络信息理论是个大的主题,安排在第巧章,主要研究的是噪声和干扰存在情形下的同时可达的信息流。有许多新的思想在网络信息理论中开始活跃起来,其主要新要素有干扰和反馈第16章讲述股票市场,这是第6章所讨论的博弈的推广,也再次表明了信息论和博弈之间的紧密联系。第17章讲述信息论中的不等式,我们借此一隅把散布于全书中的有趣不等式重新收拢在一个新的框架中,再加上一些关于随机抽取子集熵率的有趣新不等式。集合和的体积的布伦一闵可夫斯基不等式,独立随机变量之和的有效方差的熵幂不等式以及费希尔信息不等式之间的美妙关系也将在此章中得到详尽的阐述。

本书力求推理严密,因此对数学的要求相当高·要求读者至少学过一学期的概率论课程且有扎实的数学背景,大致为本科高年级或研究生一年级水平。尽管如此,我们还是努力避免使用测度论。因为了解它只对第16章中的遍历过程的AEP的证明过程起到简化作用。这符合我们的观点,那就是信息论基础与技巧不同,后者才需要将所有推广都写进去。

本书的主体是第2,3,4,5,7,8,9,10,11和巧章,它们自成体系,读懂了它们就可以对信息论有很好的理解。但在我们看来,第14章的科尔莫戈罗夫复杂度是深人理解信息论所需的必备知识。余下的几章,从博弈到不等式.目的是使主题更加连贯和完美。

成为VIP会员查看完整内容
0
59

PyTorch是Facebook于2017年初在机器学习和科学计算工具Torch的基础上,针对Python语言发布的一个全新的机器学习工具包,一经推出便受到了业界的广泛关注和讨论,目前已经成为机器学习从业人员的研发工具。

《PyTorch深度学习》是使用PyTorch构建神经网络模型的实用指南,内容分为9章,包括PyTorch与深度学习的基础知识、神经网络的构成、神经网络的知识、机器学习基础知识、深度学习在电脑视觉中的应用、深度学习在序列数据和文本中的应用、生成网络、现代网络架构,以及PyTorch与深度学习的未来走向。

《PyTorch深度学习》适合对深度学习领域感兴趣且希望一探PyTorch的业内人员阅读;具备其他深度学习框架使用经验的读者,也可以通过本书掌握PyTorch的用法。

Vishnu Subramanian在领导、设计和实施大数据分析项目(人工智能、机器学习和深度学习)方面富有经验。

擅长机器学习、深度学习、分布式机器学习和可视化等。 在零售、金融和旅行等行业颇具经验,还善于理解和协调企业、人工智能和工程团队之间的关系。

成为VIP会员查看完整内容
0
50

PyTorch非常容易学习,并提供了一些高级特性,比如支持多处理器,以及分布式和并行计算。PyTorch有一个预训练模型库,为图像分类提供开箱即用的解决方案。PyTorch提供了进入尖端深度学习的最易访问的切入点之一。它与Python编程语言紧密集成,因此对于Python程序员来说,编写它似乎是自然和直观的。独特的、动态的处理计算图的方法意味着PyTorch既高效又灵活。

本书是为那些想要使用PyTorch进行深度学习的人而写的。目的是通过直接实验让您了解深度学习模型。这本书非常适合那些熟悉Python,了解一些机器学习基础知识,并正在寻找一种方法来有效地发展他们的技能的人。这本书将集中在最重要的特征和给出实际的例子。它假设您有Python的工作知识,并熟悉相关的数学思想,包括线性代数和微分。这本书提供了足够的理论,让你开始和运行,不需要严格的数学理解。在本书结束时,您将有一个深度学习系统的实用知识,并能够应用PyTorch模型来解决您关心的问题。

成为VIP会员查看完整内容
0
47

导读:知识图谱是让机器像人类一样理解客观世界的基石。本次报告首先简要介绍知识图谱在百度的位置及整体的发展概况。接下来从通用知识图谱和行业知识图谱两个分支重点介绍百度知识图谱技术及应用的最新进展,另外会介绍两个特殊的知识图谱——事件图谱和视频理解图谱。最后介绍百度知识图谱在技术和数据开放方面的工作。

我们先通过一个非常直观的例子看一下,为什么知识是机器理解世界的一个重要基础。对于上面这张图片,如果机器完全没有任何的背景知识,它其实是很难去理解这张图片背后所表达的含义。但是因为我们人类在智能发展的过程中,是不断的积累知识并去运用知识的,所以说其实如果我们有丰富的背景知识,人类是很容易能够看懂这张图片,它可能描述出刘备、关羽和张飞桃园三结义这样的一个故事。所以从这个直观的例子我们就能很直接的理解到,知识是能够让机器像我们人类一样去理解客观世界的一个重要基础。

上图是知识图谱的一个基本结构。直观来说,知识图谱就是以图的形式来展示知识,节点用来描述客观世界中一些实体或者概念,边用来描述实体和实体之间的关系或者实体的一些属性。通过这种结构化的知识表示形式,知识图谱将存在于客观世界的丰富知识表达成机器能够处理和理解的形式,从而使机器能够像人类一样去认知世界并且做出合理的决策,进而为人类提供更加广泛的智能化服务。

01 百度知识图谱

上图回顾了百度知识图谱在过去几年的主要工作和发展历程。百度知识图谱可以说是源于搜索,服务搜索,同时随着自身技术的积累和深化,我们用知识图谱技术广泛赋能搜索之外的业务和产品线。

在图谱构建和应用方面,我们大概经历了四个比较大的阶段。第一阶段是2013年以前的Pre-KG阶段,这个阶段实际上也是学术界和业界知识图谱技术发展的一个初期阶段。当时我们以定制化的模式来生产结构化数据,并应用于百度搜索的知心产品中。第二个阶段是2014到2015年,这是我们知识图谱方法论和架构逐渐成型的一个阶段。在这个阶段,我们建立了面向垂类知识图谱构建的架构机制,并且将领域图谱应用于百度搜索的推荐、阿拉丁、智能摘要以及百度的第一代智能助理度秘等重要产品中。第三个阶段是2016到2017年。在这个阶段,百度逐渐深化建设通用知识图谱相关的架构、算法和机制。技术聚焦的重点在多领域打通、平台化、外包化的图谱构建,并深化建设了一系列特色的领域知识图谱,比如汉语知识图谱、娱乐知识图谱等。在应用落地方面主要有智能搜索问答以及百度信息流产品中基于知识兴趣点的内容推荐。第四个阶段是近两年,我们逐渐将知识图谱的能力释放出去,并深入探索了一些领域内相对前瞻的问题。这一阶段我们技术建设的重点在多元图谱的异构互联,图谱的主动收录与自学习,多媒体知识、复杂知识以及行业知识的理解构建。应用落地上除了继续在百度的搜索和信息流产品深化支持,还在法律、客服、医疗、金融等行业领域取得了一些突破和进展。值得说明的是我们在今年发布了百度知识中台,实现了规模化的产业落地。截止目前我们在通用和行业图谱数据建设层面累积了50亿实体和5500亿事实,日均响应400亿次请求,知识图谱的服务规模增长了千倍。

这里我们总结一下百度知识图谱的覆盖类目和规模。百度知识图谱覆盖十亿级实体,千亿级事实,涉及类目40多个,是最大规模的中文知识图谱,覆盖人物、影视、音乐、文学、商品、餐饮、旅游、出行等垂类。对于行业知识图谱,我们也有丰富的积累和应用。

接下来我们主要介绍百度知识图谱近两年最新的一些技术和应用情况。

02 知识图谱技术及应用

前面讲过,随着百度知识图谱的发展,近两年我们技术建设的重点在多元图谱的异构互联,也就是从通用知识图谱出发,逐步去考虑一些更复杂的知识,比如从简单的事实拓展到复杂的事件,同时我们也会考虑一些多媒体、跨媒体的知识。此外,在行业知识方面,我们重点面向医疗、法律、金融、风控等强专业性领域,去构建一站式行业知识图谱的构建、计算和应用平台。

  1. 通用知识图谱

接下来先介绍最基础的通用知识图谱,也就是开放域海量数据知识图谱的构建和应用。

面向互联网的海量开放信息,我们研发了一套基于主动学习的大规模知识图谱构建方法,主要包括无标签大数据开放知识挖掘、数据驱动的本体自动构建,以及基于多源数据的知识整合。基于这样一系列技术,我们把知识图谱扩大了几个数量级,显著提高了知识图谱的覆盖率和构建效率。

接下来针对三个技术模块进行详细展开。

① 关键技术:开放知识挖掘

首先介绍通用知识图谱构建的第一个关键技术——开放知识挖掘。为了实现大规模开放领域的信息抽取,我们基于多维数据分析和语言理解的技术自动获取知识挖掘模板,并通过不断迭代获取新模板、挖掘新知识。另一方面通过远监督的方式自动构建大规模的训练语料,为实体关系判定模型提供高质量的训练数据。

基于结构自注意力网络的富实体篇章级关系判定

这里介绍一个我们最新的且相对偏前瞻的工作。对于实体关系判定,早期我们的做法是给定一个句子,再标注两个实体之后,去判断这两个实体之间是怎样的关系。随着我们研究和应用的深入,我们可能会去处理一些更复杂的输入形式,比如在篇章级文本以及非常丰富的实体场景之下做关系的判定。这个是我们最新的一个工作。我们考虑到实体提及之间可能存在丰富的语义关联,比如最简单的共指,这些语义关联对我们进行实体之间关系判定是非常具有指导意义的。所以我们设计了一种结构自注意力机制去建模实体提及之间的语义关联,从而提升关系判定的准确率。我们这个最新的工作被AAAI 2021录取。

② 关键技术:知识自学习

通用知识图谱构建的另一关键技术是知识的自学习。我们建立了一套自顶向下和自底向上相结合的图谱构建驱动模式。所谓自顶向下是一直以来图谱构建的传统模式,也就是说它的schema是全人工构建,非常的准确,专业,且完备性也比较高。这种模式适合于知识图谱建设初期所面临的头部垂类数据的构建,它要求领域的专业知识,成本较高,对于中长尾的知识收录是比较困难的。而自底向上模式则是将知识体系的自动发现和开放知识挖掘相结合,从海量数据中自动学习元知识,它比较适用于通用域下的大规模图谱构建。

在百度是通过自底向上和自顶向下两者相结合的方式,去做知识体系的自学习。通过这种方式,我们知识图谱的schema规模增长了30倍,基于搜索需求的事实覆盖率提升了两倍。

③ 关键技术:基于多源数据的知识融合

通用知识图谱构建最后一个关键技术是基于多源数据的知识整合。面对开放领域数十亿规模的实体,我们通过基于语义空间变换的实体消歧和实体归一的技术,实现多源开放域大规模实体的归一融合,从而去解决知识表示形式多样、关联融合困难的问题。

④ 关键技术:知识图谱问答

百度知识图谱最重要的应用之一是搜索问答,针对这个应用我们有一个非常关键的技术,知识图谱问答。实际上,用户在搜索引擎上输入的查询问题类型非常多样,表达形式也是千变万化。有些问题是直接围绕实体进行相关的查询,比如“张柏芝的身高”,“魔兽世界上映时间”等等。有些问题的答案是存在于网页或者知识库里面,比如 “形容不会说话的成语”。还有一些问题可能需要进行更进一步的推理和计算才能得到,比如“Zippo能否带上飞机”,“谢霆锋的儿子的妈妈的身高”等等。这些问题比较长尾,但是它确实也存在。为了同时满足这些不同问题类型,我们开发了多方案融合的知识图谱问答技术。

具体来说,对于那些直接围绕实体相关的查询,我们会用一些基于知识库问答(KBQA)的技术进行处理,包括自动挖掘模板进行语义解析,进行文法和语义端到端子图匹配等等。对于答案存在于网页或知识库里面的问题,我们采用IRQA的方式,使用阅读理解的方式从现有网页里自动挖掘答案。最后对于需要进行推理计算的问题,我们基于动态函数计算、规则逻辑推理等方式进行处理。也就是说我们针对不同问题类型,研发适用的问答技术方案。

⑤ 知识增强的机器阅读理解

这里再给大家介绍一个我们在机器阅读理解方向相对偏前瞻性的工作,知识增强的机器阅读理解。

简单介绍一下机器阅读理解的任务形式。所谓机器阅读理解,即给定一个问题或查询(question或query),比如“人在囧途是谁的代表作?”,同时给定相应的段落(passage或paragraph),在段落中找到问题的答案。

传统基于文本的阅读理解模型,能够捕捉到答案类型和一些局部的模式,但是对于比较难的问题,尤其是当段落中包含多个相同类型的候选答案时,仍然容易犯错。比如在上图例子里,给定段落“李卫的扮演者徐峥,他的代表作品:泰囧、港囧、疯狂的石头、人在囧途”,提问“人在囧途是谁的代表作?”,如果仅仅基于文本表示,模型很可能会给出错误答案“李卫”。但如果能提供一些背景知识,比如知道徐峥是演员、毕业于哪儿、他的一些代表作等等,是能够很快判断出答案是“徐峥”而不是“李卫”。所以,我们将图谱里面的知识用起来,辅助机器能够更好地做阅读理解任务。

上图展示了我们在知识增强的机器阅读理解任务上做的相关的一些工作,基本思想都是将知识的表示和文本的表示进行融合后得到一个知识增强的文本表示,然后去更好地做机器阅读理解。实验表明在大部分场景,尤其是知识密集的医疗、法律等行业,直接将知识用起来增强文本理解的任务是非常有效的。

⑥ 关键技术:知识计算与推理

在我们的搜索引擎中还会面临一些查询,需要进一步知识计算和推理。比如当用户输入“zippo可以带上飞机吗”,智能搜索引擎可以根据“打火机不可以带上飞机”和“zippo是打火机”这两条知识,直接推断出“zippo不能带上飞机“并告诉用户。

⑦ 知识图谱应用—智能搜索

接下来介绍知识图谱在百度各个核心业务线的应用情况。智能搜索是我们最大最重要的应用,知识图谱最开始起源于搜索,也一直服务于搜索。截止到目前,百度搜索首位满足率已经达到58%,这背后是基于百度最新人工智能技术的推动,其中相当大的一部分是由知识图谱提供的AI能力。基于知识图谱,直接满足用户搜索需求,目前日满足上百亿的检索请求,其中包括各种知识图谱形态的问答卡片,以及对实体的各个维度进行信息聚合展示的卡片。此外还会基于图谱中的实体语义标签或者关系来进行推荐,搜索中用户的延展知识需求也能被极大地激发。

⑧ 知识图谱应用—智能推荐

知识图谱的另一大应用场景是信息流推荐。基于知识图谱的语义关联,我们构建了大规模关注点兴趣图谱,把文章背后蕴含的内容模型通过兴趣点图谱关联起来,为智能推荐提供更具知识关联的特性,这样分发效率会得到一个大幅度的提升。

⑨ 知识图谱应用—对话系统

知识图谱相关技术也用在对话系统中。过去一年小度智能音箱在用户规模上继续保持高速增长,在语音对话系统DuerOS中,知识图谱提供信息满足类的检索服务,实现10大类目超过100类能力覆盖,覆盖40%+的信息满足需求。

⑩ 知识图谱应用—汉语知识图谱

另外,一个比较有特色的图谱应用是汉语知识图谱,我们构造了一个多层次细粒度的汉语知识库,可以专门解决与汉语相关的查询,提供智能化的解析、推理、计算等等。

  1. 事件图谱

上面已经介绍了通用知识图谱的构建以及应用。接下来介绍我们怎么从通用知识图谱中简单的事实拓展到一些更复杂的知识,最直接的就是事件知识。

回到第一张图,实际上事件是比事实更加符合人类对客观世界的理解。比如看到上面这张图,如果机器是在一个完全没有知识或者弱知识的状态下,它会认识图中有三个人、有酒、有树等等。如果再进一步,机器有了一些实体的知识和实体的关联,它会知道三个人代表了刘备、关羽、张飞,树被识别出桃树等等。如果更进一步,让机器拥有更高级、更复杂的知识,比如事件知识,那么它可以知道这张图片描述了:东汉末年,刘备、关羽、张飞在桃园三结义的事件,其实这更符合人类对客观世界的理解。为此,我们构建了这样一个事件图谱。

所谓事件是指在特定时间、空间下,由一个或多个角色(事件主体)参与,围绕某个主题开展的一系列活动。

所谓事件图谱是包含事件、事件属性、事件关联关系的,以事件为基本单位的知识网络。

事件图谱和实体图谱之间的差异主要体现在实体图谱描述实体属性和实体之间的关系,它基本上是静态的,而事件图谱则描述客观世界的动态变化,并且侧重多个实体之间的动作。如果实体的属性或者关系发生了变化,那么就是一个事件发生了。

在任意时刻,一个事件可以映射到实体图谱上的一个子图,因为事件有参与的角色,也就是事件主体,而事件主体可以映射到实体图谱上的实体,这样就建立了事件图谱和实体图谱之间的关联,两者之间可以进行相互推断。

① 事件图谱:对动态的客观世界建模

这里展示了事件图谱的基本结构。首先是本体层,它可以类比实体图谱里面的schema。除了本体层还有一个事件层,它主要刻画事件与事件之间的关系。接下来还有一个事件论元层,所谓论元是指事件里面参与的角色,那么在论元层就可以和实体图谱进行关联。

② 事件图谱技术概览

上图展示了百度事件图谱的技术全景,包括从互联网数据中挖掘热点事件、构建事件图谱,基于事件图谱进行推理计算及搜索、推荐等应用。我们研发了包含事件检测、事件抽取、事件知识表示、事件关系挖掘等核心技术的全流程事件图谱构建方案。目前,我们已经可以实现分钟级的热点事件收录,已经积累了千万量级事件库的规模,覆盖十几个领域以及4300多种事件类型。

③ 关键技术:事件抽取—基于多轮阅读理解问答技术

事件抽取的目标是将事件文本结构化,结构化是知识收录的关键,因此它是整个事件图谱构建的关键环节。这里简要介绍一下百度在事件抽取上最新的进展。我们是基于多轮阅读理解的技术去实现事件的抽取,把传统基于分类方法转化为基于阅读理解问答任务是更具备通用性,通过多轮问答机制引入,利用论元之间的潜在语义关系,提升准确率。

④ 事件图谱应用

上图是事件图谱的应用,包括百度搜索的热点事件脉络,以及疫情脉络等等

还可以根据事件图谱做地图的POI变更检测,以及智能写作相关的应用。

  1. 视频理解图谱

接下来简要展示一下百度在多媒体、跨媒体新的媒体形态上的一些探索。

① 基于知识图谱的视频语义理解

首先来看基于知识图谱的视频语义理解。传统基于感知的视频内容分析,由于缺乏背景知识,难以做到对视频的深度语义理解。我们提出一种基于知识图谱的视频语义理解技术,充分利用知识图谱丰富且全面的事实来提升视频语义理解的效果。

基于知识图谱的视频语义理解技术,首先通过对视觉、语音、文本的多模态内容进行解析融合,利用知识子图关联技术建立与视频理解知识图谱的连接,通过背景知识以及基于多模态知识的计算与推理,实现对视频的深度语义理解。

② 视频理解图谱应用

上图是视频理解图谱的实际应用产品。目前,这一套基于知识图谱的视频理解技术在百度信息流、搜索、好看视频、全民视频等很多产品中作为关键技术进行支持。

  1. 行业知识图谱

最后,讲解一下百度在行业知识图谱构建和应用方面的一个进展。行业知识图谱主要面向医疗、法律、金融、风控等强专业性的知识。主要会介绍百度的知识中台以及行业知识图谱的应用。

① 行业智能化亟需数据到知识的转化

近年来,越来越多的行业、企业希望利用知识图谱来沉淀行业知识,提升行业应用的智能水平。

据统计,随着信息化的发展,各行各业的数据都是逐年攀升,行业数据体量巨大,行业知识需求广泛。与此形成鲜明对比的是行业数据转化困难,利用率低,人工构建成本非常的高。在这样的背景之下,行业智能化转型亟需从数据到知识的自动转化能力。

② 通用知识图谱vs.行业知识图谱

实际上,行业知识图谱和通用知识图谱在技术要求层面差异巨大,这也给行业知识图谱技术和应用带来了巨大的挑战。

具体而言,在图谱表示方面,通用知识图谱通常用简单的SPO三元组表示知识就可以了,但行业的知识类型更加复杂,往往需要表示时序、事件,甚至流程等复杂知识。在图谱构建方面,通用知识图谱的数据主要源于互联网,而对于行业而言,知识空间相对封闭,一般来说缺乏大量的标注数据,专家标注的成本非常高。在图谱服务方面,通用知识图谱通常是离线的、平台化的、在线的,而行业知识图谱往往会面临私有化、组件化的挑战。最后在图谱应用方面,通用知识图谱主要以理解为主,比如最常见的问答、推荐等应用形式,也包括在搜索里的结构化展示,而在行业里面,知识应用需求会更高,往往涉及推理计算甚至决策等,它的应用深度也会更深,所以两者差异是非常大的。

③ 知识中台产品技术视图

百度为了更好地帮助企业凝练知识,助力企业提升智能化的水平,研发了知识中台。它是基于百度多年积累的核心能力打造的全周期、智能化企业知识赋能解决方案。百度企业知识中台在底层对接行业数据,上层支持场景场景,为企业提供高效的知识生产能力、灵活的知识组织能力、便捷的知识获取能力和智能的知识应用能力。

目前,百度知识中台标准化产品矩阵包括企业搜索、智能知识库、行业知识图谱平台和决策引擎,未来还会不断丰富知识中台的核心能力和产品矩阵,去支持更多的业务场景。百度知识中台已经在包括医疗、金融、法律、能源、政务等不同的行业进行了落地,为客户取得了显著的收益。

④ 知识中台赋能智慧医疗

首先,在医疗知识图谱方面,我们已经积累了数十个医学类别,近30万医学实体,近200种关系属性类别,1000余万医学事实。构建效率是百倍于人工,知识覆盖率90%以上。

在应用效果方面,我们在合理用药方面拦截了90%以上的不合理用药,超越竞品;在病历质控方面,准确率达到95%,对比人工提升20倍以上;在辅助诊断方面,基层试点区域误诊、漏诊率大幅降低。

⑤ 知识中台赋能智慧法律

另外一个成功的应用场景是知识中台赋能智慧法律。在类案检索方面,我们实现了标准化、精细化、体系化的类案知识体系构建,类案推荐满足度达到90%,办公效率和结案率显著提升。在智能庭审方面,能够自动识别归纳庭审文书中的知识要素,庭审效率大幅提升,同时降低卷宗处理、庭审分析案件的人工成本。

03 技术及数据开放

  1. 发布数据

最后简要介绍一下技术和数据开放方面的工作。百度知识图谱和自然语言处理部连续三年发布数据,跟学界、业界同行一起举办竞赛,包括连续三年举办的语言与智能技术竞赛。在CCKS上面我们也连续两年举办实体链指评测,任务面向真实应用场景,提供人工标注大规模数据集、开源基线系统、在线排行榜以及计算能力。今年竞赛报名人数达到6000多人,是非常受大家关注的比赛。

  1. 千言

同时,今年发布了“千言”项目,这是面向自然语言处理的中文开源数据共建项目。包括7大任务,20多个中文开源数据集,提供统一数据格式和评测,并且提供了基线系统。

未来三年我们会扩大到20多项任务,100多个中文开源数据集,我们也邀请更多NLP开源数据集作者加入共建。

  1. 未来展望:趋势与挑战

在知识获取、知识表示以及知识应用方面,未来会有一些趋势和挑战。在知识获取方面,要与行业场景进行结合,知识类型更加复杂,向动态化、专业化、多元化发展。知识表示方面,表示学习和推理技术需要突破,复杂知识表示等等也需要去解决。在知识应用方面,知识图谱与深度学习、NLP、语音、视觉等这些技术需要去融合,以及一些可解释性的智能化应用技术需求。

文章作者:

王泉 博士 百度 | 资深研发工程师 王泉,资深研发工程师,负责百度知识图谱前瞻技术研究。2018年加入百度,先后在自然语言处理和知识图谱部从事技术研发工作。其长期研究方向包括知识的自动获取、表示和推理等关键技术及其在自然语言理解与生成中的应用。迄今在SIGIR、WSDM、ACL、EMNLP、NAACL、IJCAI、AAAI、IEEE TKDE、ACM TOIS等权威会议期刊上发表近30篇重要学术论文,Google Scholar引用1800余次。曾获CCKS 2020医疗事件抽取、MRQA 2019问答阅读理解、WSDM Cup 2017事实校验、CCKS 2016链接预测等多项国内外技术评测冠军。

成为VIP会员查看完整内容
0
47

本课程(以及本教材)的目标是为最广泛使用的学习架构展示学习理论的旧成果和新成果。本课程面向的是理论导向型的学生,以及那些想要获得基本数学理解的学生,这些学生在机器学习和相关领域中使用了大量的学习方法,如计算机视觉或自然语言处理。为了证明从第一性原理得出的许多结果,将作出特别的努力,同时使阐明尽可能简单。这将自然导致选择的关键结果,在简单但相关的实例中展示学习理论的重要概念。在没有证明的情况下,也将给出一些一般的结果。当然,第一性原理的概念是主观的,我将假定有良好的线性代数、概率论和微分的知识。

https://www.di.ens.fr/~fbach/learning_theory_class/index.html

目录内容:

无线数据学习 Learning with infinite data (population setting) -Decision theory (loss, risk, optimal predictors) -Decomposition of excess risk into approximation and estimation errors -No free lunch theorems -Basic notions of concentration inequalities (MacDiarmid, Hoeffding, Bernstein) 线性最小二乘回归 Liner Least-squares regression -Guarantees in the fixed design settings (simple in closed-form) -Ridge regression: dimension independent bounds -Guarantees in the random design settings -Lower bound of performance 经验风险最小化 Empirical risk minimization -Convexification of the risk -Risk decomposition -Estimation error: finite number of hypotheses and covering numbers -Rademacher complexity -Penalized problems 机器学习的优化 Optimization for machine learning -Gradient descent -Stochastic gradient descent -Generalization bounds through stochastic gradient descent 局部平均技术 Local averaging techniques -Partition estimators -Nadaraya-Watson estimators -K-nearest-neighbors -Universal consistency 核方法 Kernel methods -Kernels and representer theorems -Algorithms -Analysis of well-specified models -Sharp analysis of ridge regression -Universal consistency 模型选择 Model selection -L0 penalty -L1 penalty -High-dimensional estimation 神经网络 Neural networks -Single hidden layer neural networks

  • Estimation error
  • Approximation properties and universality 特别主题 Special topics -Generalization/optimization properties of infinitely wide neural networks -Double descent
成为VIP会员查看完整内容
0
44

人工智能是一门研究生(高年级本科生可选)专业基础课程,旨在讲授人工智能的基本理论、方法和技术,并落实到算法,主要内容包括:智能体,搜索算法,约束满足问题,逻辑智能体,自动推理,自动规划,知识表示,不确定知识和推理, 决策,机器学习,自然语言理解,机器人等。授课内容参见讲义。参考资料选自国际优秀教材和重要文献。

https://www.math.pku.edu.cn/teachers/linzq/teaching/ai/ai.html

人工智能 

1 引论

1.1  AI

1.2  基础

1.3  历史

1.4  现状

1.5  争论

2 智能体

2.1 智能体

2.2 智能程序

2.3 理性

2.4 环境

2.5 智能体结构

2.6 多智能体

3 搜索算法

3.1 问题求解主体

3.2 基本搜索算法

3.3 启发式搜索

3.4 局部搜索

3.5 在线搜索

3.6 对抗搜索

3.7 元搜索

4 约束满足问题

4.1  约束满足问题

4.2  约束传播

4.3  回溯搜索

4.4  局部搜索

4.5  结构与分解

5 逻辑智能体

5.1 知识智能体

5.2 命题逻辑

5.3 可满足性问题

5.4 一阶逻辑

5.5 AI的逻辑基础

6 自动推理

6.1 自动定理证明

6.2 前向和反向推理

6.3 归结

6.4 模型检测

7 自动规划

7.1  规划智能体

7.2  经典规划

7.3  分层规划

7.4  情态演算

7.5  偏序规划

7.6  非经典规划

7.7  排程

8 知识表示

8.1  知识

8.2  本体

8.3  产生式系统

8.4  定性物理

8.5  结构描述

8.6  框架与语义网

8.7  语义Web

8.8  知识图谱

8.9  知识嵌入

8.10  变化

8.11  解释与诊断

8.12  心智状态

8.13  常识   

9 不确定知识和推理

9.1  不确定性

9.2  概率

9.3  贝叶斯网络

9.4  概率推理

9.5  动态贝叶斯网络

9.6  因果推理

9.7  概率程序设计

9.8  概率逻辑

10 决策

10.1 决策智能体

10.2 优先性

10.3 效用

10.4 决策网

10.5 序列决策

10.6 多智能体系统

10.7 博弈论

11 机器学习

11.1 学习智能体

11.2 归纳学习

11.3 深度学习

11.4 统计学习

11.5 强化学习

11.6 迁移学习

11.7 集成学习

11.8 联邦学习

11.9 解释学习

11.10 计算学习理论

12 自然语言理解

12.1 语言

12.2 语法

12.3 语义

12.4 语言模型

12.5 神经语言系统

12.6 自然语言任务

12.7 对话 AI

13 机器人

13.1 机器人

13.2 计算机视觉

13.3 机器人感知

13.4 运动规划

13.5 控制器

13.6 智能汽车

14 人工智能哲学

14.1  AI 哲学

14.2  弱 AI

14.3  强 AI 

14.4  伦理

14.5  AI 的未来
成为VIP会员查看完整内容
0
42

本书致力于概率信息测度理论及其在信息源和噪声信道编码定理中的应用。最终的目标是全面发展香农的通信数学理论,但大部分篇幅都用于证明香农编码定理所需的工具和方法。这些工具形成了遍历理论和信息论的共同领域,并包含了随机变量、随机过程和动力系统中的信息的几个定量概念。例如熵、互信息、条件熵、条件信息和相对熵(鉴别、Kullback-Leibler信息),以及这些量的极限标准化版本,如熵率和信息率。在考虑多个随机对象时,除了考虑信息之外,我们还会考虑随机对象之间的距离或变形,即一个随机对象被另一个随机对象表示的准确性。书的大部分与这些量的性质有关,特别是平均信息和扭曲的长期渐近行为,其中两个样本平均数和概率平均数是有兴趣的。

成为VIP会员查看完整内容
0
40

人工智能是由机器表现出来的智能,而不是由人类表现出来的智能。

这本书涵盖了人工智能的各个领域的基本概念,如人工神经网络,自然语言处理,机器学习,深度学习,遗传算法等,以及它在Python中的实现。

这本书将是有用的毕业生,研究生,和研究学生谁有兴趣在这个课题或有这个课题作为他们的课程的一部分。读者可以是初学者,也可以是高级学习者。

成为VIP会员查看完整内容
0
38

图形数据缩小了人类和计算机看待世界的方式之间的差距。计算机依赖于静态的行和列数据,而人们通过关系来导航和推理生活。本实用指南演示了图形数据如何将这两种方法结合在一起。通过使用来自图论、数据库模式、分布式系统和数据分析的概念,您将到达一个独特的交叉点,即图思维。

作者Denise Koessler Gosnell和Matthias Broecheler展示了数据工程师、数据科学家和数据分析师如何用图形数据库解决复杂的问题。您将探索使用图形技术构建的模板,以及演示团队如何看待应用程序中的图形数据的示例。

使用关系和图形技术构建一个示例应用程序架构 使用图形技术构建客户360应用程序,当今最流行的图形数据模式 深入研究分层数据并对图形数据产生的新范式进行故障排除 在图表数据中找到路径,并了解为什么你对不同路径的信任会激发并告知你的偏好 使用协同过滤来设计一个受netflix启发的推荐系统

成为VIP会员查看完整内容
0
39

如今,企业创建的机器学习(ML)模型中,有一半以上都没有投入生产。主要是面临技术上的操作挑战和障碍,还有组织上的。不管怎样,最基本的是,不在生产中的模型不能提供业务影响。

这本书介绍了MLOps的关键概念,帮助数据科学家和应用工程师不仅可以操作ML模型来驱动真正的业务变化,而且还可以随着时间的推移维护和改进这些模型。通过基于世界各地众多MLOps应用的经验教训,九位机器学习专家对模型生命周期的五个步骤——构建、预生产、部署、监控和治理——提供了深刻见解,揭示了如何将稳健的MLOps过程贯穿始终。

https://www.oreilly.com/library/view/introducing-mlops/9781492083283/

这本书帮助你:

通过减少整个ML管道和工作流程的冲突,实现数据科学价值 通过再训练、定期调整和完全重构来改进ML模型,以确保长期的准确性 设计MLOps的生命周期,使组织风险最小化,模型是公正的、公平的和可解释的 为管道部署和更复杂、不那么标准化的外部业务系统操作ML模型

成为VIP会员查看完整内容
0
35

数据科学是关于量化和理解人类行为,社会科学的圣杯。在下面的章节中,我们将探索一个多方面范式的广泛理论、技术、数据和应用。我们还将回顾为大数据和数据科学开发的新技术,比如使用Dean和Ghemawat(2008)在谷歌和25开发的MapReduce范式,并在雅虎的开源项目Hadoop中实现的分布式计算。26当数据变得超大时,将算法移到数据上比将算法移到数据上要好。正如大数据颠倒了数据库范式一样,大数据也在改变人类行为研究中推理的本质。归根结底,数据科学是社会科学家利用计算机科学的一种思维方式。

https://srdas.github.io/MLBook/

成为VIP会员查看完整内容
0
36

我们为什么在这里?我们大多数人来到这里的原因很简单:我们想解决人工智能问题。那么,人工智能和这本书的书名有什么关系呢?人工智能的现代定义之一是对理性代理的研究和设计[RN09]。从这个意义上说,我们将一个系统描述为智能的,当它最大化某些预期的性能概念时。机器学习的子领域处理的是问题和算法的子集,其中代理可以获得经验(通常以某种形式的数据),可以利用这些经验来改进性能的概念[MRT12]。大多数情况下,性能是由代理人在新的和看不见的情况下如何行动来衡量的,这些情况不构成其训练经验的一部分。例如,可以训练一名代理人将英文翻译成法文,其训练经验包括大量翻译的联合国文件。然而,在评估时,它可能会在与它所见过的文件不同的联合国新文件上进行测试。很自然地,代理在它所看到的训练经验和它所评估的新情况下的表现之间存在着差距。代理泛化的能力是通过性能上的差距有多小来衡量的。

希望前面的段落已经解释了在机器学习的背景下,以及在更大的AI背景下,什么是泛化。那么,标题中还保留着哪些“分布外”词呢?如前所述,泛化是指减少一个agent在已知训练情境下的表现与同一agent在未知测试情境下的表现之间的差距。然而,有许多不同类型的未知。统计学习通常处理的一类泛化是分布的:当从训练示例生成的数据与测试示例生成的数据无法区分时。根据定义,非分布内的泛化问题称为分布外泛化问题,这是本书的主题。

这项工作的目标很简单。我们想要回顾,分布外泛化的知识。因此,这项工作的很大一部分将致力于理解(有时是微妙的)不同方法和假设之间的差异和相似性,通常以一种孤立的方式呈现。重点将放在与人工智能或现代大规模机器学习应用等想法上。此外,我们将特别注意研究不同方法的缺点,以及下一步可能是重要的。

  • 在第二章中,我们首先讨论如何量化分布外泛化。通过几个例子,我们研究了分布外泛化与处理不同分布外任务的几种常用方法之间的关系。本文将特别强调这些方法背后的假设,并说明这些方法何时有效,何时无效。

  • 在第三章中,我们将关注一个特定的分布外任务类。在这些预测任务中,就像在许多实际问题中一样,在分布之外泛化的困难在于找出数据中的哪些相关性是假的和不可靠的,以及哪些相关性代表感兴趣的现象。

  • 在第四章中,我们讨论了不同应用领域在实践中出现的分布外任务的类型,以及这些领域在过去是如何处理这些问题的。

  • 在第五章中,我们为分布外泛化和人工智能背景下的新研究领域奠定了基础。在本章中,我们将关注在探索或强化学习环境中与世界交互的agent,以及它们如何从分布外泛化中获益。

成为VIP会员查看完整内容
0
32

来自阿肯色大学zhang lu 博士介绍《因果发现和因果推理》的Slides。

因果分析的黄金法则是:没有任何因果论断可以纯粹通过统计方法建立起来。

成为VIP会员查看完整内容
0
31

强化学习(RL)作为一种可行的、强大的技术,用于解决各种复杂的跨行业业务问题,包括在不确定性下的顺序优化决策。尽管RL被归类为机器学习(ML)的一个分支,但它的看待和处理方式往往与机器学习的其他分支(监督和非监督学习)非常不同。事实上,RL似乎掌握了开启人工智能前景的关键——人工智能可以根据观察到的信息的变化来调整决策,同时不断朝着最优结果前进。RL算法在无人驾驶汽车、机器人和策略游戏等备受瞩目的问题上的渗透,预示着未来RL算法的决策能力将远超人类。

本书重点研究支撑RL的基础理论。我们对这一理论的处理是基于本科水平的概率、优化、统计和线性代数。我们强调严谨但简单的数学符号和公式来发展理论,并鼓励你把方程写出来,而不是仅仅从书中阅读。偶尔,我们引用一些高等数学(如:随机微积分),但本书的大部分是基于容易理解的数学。特别是,两个基本的理论概念- Bellman最优方程和广义策略迭代-贯穿全书,因为它们构成了我们在RL中所做的几乎所有事情的基础,甚至在最先进的算法中。

本书第二部分用动态规划或强化学习算法解决的金融应用。作为随机控制问题的许多金融应用的一个基本特征是,模型MDP的回报是效用函数,以捕捉金融回报和风险之间的权衡。

成为VIP会员查看完整内容
0
31

https://github.com/Dairongpeng/algorithm-note

目录概览 第一节 复杂度、排序、二分、异或 第二节 链表、栈、队列、递归、哈希表、顺序表 第三节 归并排序、随机快排介绍 第四节 比较器与堆 第五节 前缀树、桶排序以及排序总结 第六节 链表相关面试题总结 第七节 二叉树基本算法 第八节 二叉树的递归思维建立 第九节 认识贪心算法 第十节 并查集、图相关算法介绍 第十一节 暴力递归思维、动态规划思维建立 第十二节 用简单暴力递归思维推导动态规划思维 第十三节 单调栈和窗口及其更新结构 第十四节 类似斐波那契数列的递归 第十五节 认识KMP算法与bfprt算法 第十六节 认识Manacher(马拉车)算法 第十七节 认识Morris遍历 第十八节 线段树 第十九节 打表技巧和矩阵处理技巧 第二十节 组累加和问题整理 第二十一节 哈希函数有关的结构和岛问题 第二十二节 解决资源限制类题目 第二十三节 有序表原理及扩展 第二十四节 AC自动机和卡特兰数

成为VIP会员查看完整内容
0
31

摘要: 电子病历是医院信息化发展的产物, 其中包含了丰富的医疗信息和临床知识, 是辅助临床决策和药物挖掘等的重要资源.因此, 如何高效地挖掘大量电子病历数据中的信息是一个重要的研究课题.近些年来, 随着计算机技术尤其是机器学习以及深度学习的蓬勃发展, 对电子病历这一特殊领域数据的挖掘有了更高的要求.电子病历综述旨在通过对电子病历研究现状的分析来指导未来电子病历文本挖掘领域的发展.具体而言, 综述首先介绍了电子病历数据的特点和电子病历的数据预处理的常用方法;然后总结了电子病历数据挖掘的4个典型任务(医学命名实体识别、关系抽取、文本分类和智能问诊), 并且围绕典型任务介绍了常用的基本模型以及研究人员在任务上的部分探索;最后结合糖尿病和心脑血管疾病2类特定疾病, 对电子病历的现有应用场景做了简单介绍.

https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200402

成为VIP会员查看完整内容
0
30

监督学习在过去取得了巨大的成功,然而监督学习的研究进入了瓶颈期,因其依赖于昂贵的人工标签,却饱受泛化错误(generalization error)、伪相关(spurious correlations)和对抗攻击(adversarial attacks)的困扰。自监督学习以其良好的数据利用效率和泛化能力引起了人们的广泛关注。本文将全面研究最新的自监督学习模型的发展,并讨论其理论上的合理性,包括预训练语言模型(Pretrained Language Model,PTM)、生成对抗网络(GAN)、自动编码器及其拓展、最大化互信息(Deep Infomax,DIM)以及对比编码(Contrastive Coding)。自监督学习与无监督学习的区别主要在于,无监督学习专注于检测特定的数据模式,如聚类、社区发现或异常检测,而自监督学习的目标是恢复(recovering),仍处于监督学习的范式中。下图展示了两者之间的区别,自监督中的“related information” 可以来自其他模态、输入的其他部分以及输入的不同形式。

成为VIP会员查看完整内容
0
31
登录查看的更多。 返回顶部
本周荟萃主题
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
新闻
新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等; [3] 狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。
图灵奖
图灵奖(A.M. Turing Award,又译“杜林奖”),由 美国计算机协会(ACM)于1966年设立,又叫“A.M. 图灵奖”,专门奖励那些对计算机事业作出重要贡献的个人。其名称取自计算机科学的先驱、英国科学家 阿兰·麦席森·图灵
Top