VLDB会议全称International Conference on Very Large Date Bases,是数据库领域的顶级学术会议和另外两大数据库会议SIGMOD、ICD共同构成了数据库领域的三大顶级会议。本教程讲述数据增强机器学习相关主题。

近年来,我们看到了新的数据增强(DA)技术的发展,用于创建基于机器学习的解决方案所需的额外训练数据。在本教程中,我们将全面概述由数据管理社区开发的用于数据准备和数据集成的技术。除了调查利用规则、转换和外部知识创建额外训练数据的特定任务DA操作符之外,我们还探索了高级DA技术,如插值、条件生成和DA策略学习。最后,我们描述了数据挖掘与其他机器学习范式(如主动学习、预训练和弱监督学习)之间的联系。我们希望这一讨论能够为高质量数据集创建的整体数据增强框架的未来研究方向提供启示。

https://vldb.org/2021/?program-schedule-tutorials

成为VIP会员查看完整内容
0
28

相关内容

世界数据库业界三大会议之一

VLDB会议全称International Conference on Very Large Date Bases,是数据库领域的顶级学术会议和另外两大数据库会议SIGMOD、ICD共同构成了数据库领域的三大顶级会议。本教程讲述知识图谱相关主题。

通用知识库(KBs)是一些数据驱动应用的重要组件。从可用的网络资源实际构建的这些KBs远未完成,这在管理和使用方面提出了一系列挑战。在本教程中,我们将讨论如何表示、提取和推断DBs和KBs中的完整性、召回和否定。我们首先介绍了部分封闭世界语义下知识表示和查询的逻辑基础。(ii)我们展示了如何在KBs和文本中识别召回信息,以及(iii)如何通过统计模式估计召回信息。(iv)我们展示了如何识别有趣的否定陈述,以及(v)如何在比较概念中定位召回。

像Wikidata[32]、DBpedia[2]或Yago[30]这样的网络规模知识库(KBs)被用于从问答到个人助理的各种应用中。它们从网络资源中构建而成,专注于代表积极的知识,即真实的陈述。它们不存储否定语句。它们也是不完整的,也就是说,它们不包含感兴趣领域的所有真实陈述。这意味着,如果一条语句不在知识库中,我们就不知道它在现实世界中是假的,还是只是不存在。

这给KBs的管理和应用带来了重大挑战: 首先,知识库管理人员可能想知道知识库在哪里不完整,以便他们可以优先完成工作。这尤其适用于像NELL[4]这样的KBs,他们想要自动补全。其次,KB应用程序需要知道哪里的数据是不完整的,以便向最终用户发出质量问题的提示。例如,如果KB中恰好没有东京,那么查询“日本最大的城市”可能返回错误的答案。类似地,在企业设置中用于问答的知识库需要知道某个问题何时超出了它的知识[22]。这尤其适用于布尔问题,如“空客制造了这架飞机吗”,在这种情况下,“不”可能仅仅来自丢失的信息。最后,对于总结关于一个实体的显著信息的要求,一个全面的回答还应该包含不适用的显著事实。

传统上,知识库的构建和保存主要集中在出处和准确性方面[23,33]。然而,近年来,描述回忆和负面知识的形式主义日趋成熟[1,5,18],估计召回的统计和基于文本的方法也在兴起[3,7,12 - 14,17,24,29]和推导负面陈述[1,13]。将这些方法系统化,并使它们能够被普通数据库用户访问,是本教程的主题。本教程对理论和实践都有兴趣。它将向听众介绍完整性评估和否定方面的最新进展,并向他们提供一整套方法,以便更好地代表和评估特定数据集的召回。

成为VIP会员查看完整内容
0
50

本教程将是关于无监督学习和强化学习的交叉。随着自然语言处理中基于语言模型的预训练和计算机视觉中的对比学习的出现,无监督学习(UL)在过去几年中真正得到了发展。在这些领域中,无监督预训练的一些主要优势是在下游有监督学习任务中出现的数据效率。在如何将这些技术应用于强化学习和机器人方面,社区中有很多人感兴趣。考虑到问题的连续决策性质,RL和机器人技术比被动地从互联网上的图像和文本中学习面临更大的挑战,它可能不会那么简单。本教程将涵盖如何在强化学习中应用和使用无监督学习的基本模块,希望人们可以带回最新的最先进的技术和实践的知识,以及在这个具有挑战性和有趣的交叉领域的广泛的未来可能性和研究方向。

https://icml.cc/Conferences/2021/Schedule

成为VIP会员查看完整内容
0
31

常识性知识是人工智能应用的基础。尽管面向实例的断言的信息提取和知识库构建(例如布拉德·皮特的出生日期或安吉丽娜·朱莉的电影奖)已经得到了很多关注,但关于一般概念(政客、自行车、打印机)和活动(吃披萨、修理打印机)的常识直到最近才得到解决。在本教程中,我们为汇编和巩固这些常识知识(CSK)提供了最先进的方法。我们将介绍基于文本提取、多模态和基于Transformer的技术,特别关注与WSDM社区相关的web搜索和排名问题。

https://www.mpi-inf.mpg.de/commonsense-tutorial-wsdm-2021

成为VIP会员查看完整内容
0
22

对话人工智能系统通过完成用户请求或进行简单的聊天与人类用户进行交互。这些系统的应用范围从个人帮助、健康帮助到客户服务等等。在这个由三部分组成的教程中,我们将首先概述最先进的模块化对话AI方法,这些方法通常被面向任务的对话系统所采用。然后,我们将概述当前基于序列到序列、生成的对话AI方法。我们将讨论普通的基于生成的模型的挑战和缺点,如缺乏知识、一致性、同理心、可控性、多功能性等。然后我们将强调当前的工作,以解决这些挑战,并在改进深度生成为基础的ConvAI。在本教程的最后一部分,我们将指出对话AI的挑战和未来研究的可能方向,包括如何减轻不适当的回复和终身学习。我们还将概述模块化和基于生成的对话AI的共享任务和公开可用资源。

https://nips.cc/Conferences/2020/Schedule?showEvent=16657

成为VIP会员查看完整内容
0
20

https://www.aminer.cn/grla_ecmlpkdd2020

图表示学习为挖掘和学习网络数据提供了一个革命性的范例。在本教程中,我们将系统地介绍网络上的表示学习。我们将以阿里巴巴、AMiner、Microsoft Academic、微信和XueTangX的行业案例作为教程的开始,来解释网络分析和网络图挖掘如何从表示学习中受益。然后,我们将全面介绍图表示学习的历史和最新进展,如网络嵌入、图神经网络及其预训练策略。独特的是,本教程旨在向读者提供图形表示学习的基本理论,以及我们在将这方面的研究转化为工业应用中的实际应用方面的经验。最后,我们将为开放和可重现的图表示学习研究发布公共数据集和基准。

成为VIP会员查看完整内容
0
68

特定领域的知识库(KB)从各种数据源精心整理而来,为专业人员提供了宝贵的参阅咨询。由于自然语言理解和人工智能的最新进展,会话系统使这些KBs很容易被专业人员访问,并且越来越受欢迎。尽管在开放域应用程序中越来越多地使用各种会话系统,但特定于域的会话系统的需求是完全不同的,而且具有挑战性。在本文中,我们针对特定领域的KBs提出了一个基于本体的对话系统。特别是,我们利用领域本体中固有的领域知识来识别用户意图,并利用相应的实体来引导对话空间。我们结合了来自领域专家的反馈来进一步细化这些模式,并使用它们为会话模型生成训练样本,减轻了会话设计人员的沉重负担。我们已经将我们的创新集成到一个对话代理中,该代理关注医疗保健,这是IBM Micromedex产品的一个特性。

https://dl.acm.org/doi/abs/10.1145/3318464.3386139

成为VIP会员查看完整内容
0
21

【导读】新加坡国立大学的Xiang Wang、Tat-Seng Chua,以及来自中国科学技术大学的Xiangnan He在WSDM 2020会议上通过教程《Learning and Reasoning on Graph for Recommendation》介绍了基于图学习和推理的推荐系统,涵盖了基于随机游走的推荐系统、基于网络嵌入的推荐系统,基于图神经网络的推荐系统等内容。

Tutorial摘要:

推荐方法构建预测模型来估计用户-项目交互的可能性。之前的模型在很大程度上遵循了一种通用的监督学习范式——将每个交互视为一个单独的数据实例,并基于“信息孤岛”进行预测。但是,这些方法忽略了数据实例之间的关系,这可能导致性能不佳,特别是在稀疏场景中。此外,建立在单独数据实例上的模型很难展示推荐背后的原因,这使得推荐过程难以理解。

在本教程中,我们将从图学习的角度重新讨论推荐问题。用于推荐的公共数据源可以组织成图,例如用户-项目交互(二部图)、社交网络、项目知识图(异构图)等。这种基于图的组织将孤立的数据实例连接起来,为开发高阶连接带来了好处,这些连接为协作过滤、基于内容的过滤、社会影响建模和知识感知推理编码有意义的模式。随着最近图形神经网络(GNNs)的成功,基于图形的模型显示了成为下一代推荐系统技术的潜力。本教程对基于图的推荐学习方法进行了回顾,重点介绍了GNNs的最新发展和先进的推荐知识。通过在教程中介绍这一新兴而有前景的领域,我们希望观众能够对空间有更深刻的理解和准确的洞察,激发更多的想法和讨论,促进技术的发展。

Tutorial大纲:

成为VIP会员查看完整内容
0
166
小贴士
相关VIP内容
专知会员服务
29+阅读 · 8月7日
专知会员服务
31+阅读 · 7月23日
专知会员服务
20+阅读 · 2020年12月10日
专知会员服务
68+阅读 · 2020年10月18日
专知会员服务
21+阅读 · 2020年9月25日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
98+阅读 · 2020年5月6日
相关论文
Lalli Myllyaho,Mikko Raatikainen,Tomi Männistö,Jukka K. Nurminen,Tommi Mikkonen
0+阅读 · 9月16日
Rachele Carli,Amro Najjar
0+阅读 · 9月14日
Michael Leybovich,Oded Shmueli
0+阅读 · 9月13日
Xianfeng Zeng,Yijin Liu,Ernan Li,Qiu Ran,Fandong Meng,Peng Li,Jinan Xu,Jie Zhou
0+阅读 · 9月13日
Grigory Fedyukovich,Philipp Rümmer
0+阅读 · 9月10日
Manoj Kumar,Dirk Weissenborn,Nal Kalchbrenner
9+阅读 · 2月8日
Weihao Xia,Yulun Zhang,Yujiu Yang,Jing-Hao Xue,Bolei Zhou,Ming-Hsuan Yang
16+阅读 · 1月14日
Timothée Lacroix,Guillaume Obozinski,Nicolas Usunier
8+阅读 · 2020年4月10日
Peng Sun,Guang Chen,Guerdan Luke,Yi Shang
5+阅读 · 2018年10月18日
Krishna Kumar Singh,Santosh Divvala,Ali Farhadi,Yong Jae Lee
12+阅读 · 2018年4月3日
Top