摘要:基数估计是查询优化中一个基本但长期未解决的问题。本文研究者提出了一个前瞻性的问题:「我们是否准备好在生产中部署这些 learned 的基数模型?」研究包括三个主要部分:

首先,关注静态环境 (即没有数据更新) 并在统一的工作负载设置下,对四个真实世界的数据集比较了五种新的 learned methods 和九种传统方法。结果表明,learned models 确实比传统方法更准确,但是它们往往需要较高的训练和推理成本;

其次,探索这些 learned models 是否适用于动态环境 (例如频繁的数据更新)。研究发现,它们无法跟上快速数据更新并返回由于不同原因造成的重要错误。对于不太频繁的更新,它们可以表现得更好,但它们之间没有明确的赢家;

第三,更深入地研究了 learned models,并探索它们何时可能出错。结果表明,learned methods 的性能可以很大程度上受到变化的影响,比如偏斜或领域大小。更重要的是,其行为很难解释,而且常常难以预测。

成为VIP会员查看完整内容
0
4

相关内容

最佳长论文奖

对YouTube上错误信息过滤泡沫的审计:泡沫破裂和最近的行为变化

错误信息过滤气泡在自适应系统中的负面影响已经为研究人员所知有一段时间了。几项研究调查了用户仅仅从提供的商品中选择“错误选项”进入错误信息过滤泡沫的速度,其中最显著的是YouTube上的研究。然而,到目前为止,还没有研究调查“泡沫破裂”需要什么,也就是说,恢复泡沫外壳。我们提出了一项研究,在这项研究中,预编程的代理(扮演YouTube用户)通过观看虚假信息推广内容(针对各种主题)深入到虚假信息过滤气泡中。然后,通过观察虚假信息揭穿内容,代理试图打破泡沫,达到更平衡的推荐组合。我们记录了特工们遇到的搜索结果和建议,并分析了它们是否存在错误信息。我们的关键发现是,过滤气泡的破裂是可能的,尽管不同的主题表现不同。此外,我们观察到过滤气泡在某些情况下并没有真正出现。我们还与之前的研究进行了直接比较。遗憾的是,尽管YouTube最近做出了承诺,但我们并未发现错误信息的出现有多大改善。

https://dl.acm.org/doi/10.1145/3460231.3474241

最佳学生论文

从用户互动中老虎机学习的方法通常需要一个特定上下文-动作组合将产生的奖励模型——例如,点击推荐的概率。这种常见的机器学习任务非常重要,因为上下文和动作的数据生成过程往往受到推荐系统本身的扭曲。事实上,当在数据收集时间部署的推荐策略不是均匀随机地选择其行动时,就会导致选择偏差,从而阻碍有效的奖励模型。这反过来又使离线策略学习——行业中的典型设置——变得特别具有挑战性。在这项工作中,我们提出并验证了一般的悲观奖励模型方法的离线策略学习的推荐。贝叶斯不确定性估计允许我们对自己的奖励模型表示怀疑,而这反过来又可以用来生成保守的决策规则。我们展示了它是如何缓解众所周知的决策现象,即所谓的优化者的诅咒,并将其与现有的悲观策略学习工作进行比较。当脊回归器对奖励进行建模时,利用后验均值和方差的可用封闭形式表达式,我们展示了如何有效地将悲观主义应用到离线策略推荐用例中。在广泛的环境中进行的经验观察表明,在决策过程中保持保守可以显著地提高推荐性能。我们方法的优点在现实环境中表现得最为明显,即有限的日志随机性、有限的训练样本和更大的行动空间。

https://dl.acm.org/doi/10.1145/3460231.3474247

最佳Demo

我们提出了Grapevine,一个用户控制的推荐,使本科生和研究生找到一个合适的研究建议。该系统通过使用最先进的知识提取、基于grape的推荐和智能用户界面,结合了探索性搜索、用户建模和推荐系统等领域的思想。在本文中,我们演示了系统的关键组件以及它们如何作为一个整体工作。

https://dl.acm.org/doi/10.1145/3460231.3478879

成为VIP会员查看完整内容
0
5

随着深度学习在移动端的兴起,推理延迟(inference latency)已经成为在各种移动和边缘设备上运行深度神经网络(DNN)模型的一个重要指标。为此,预测DNN模型推理的延迟非常必要,尤其是对于无法在真实设备上测试延迟或者代价太高的任务,例如从巨大的模型设计空间中寻找具有延迟约束的有效的DNN模型。然而,由于不同边缘设备上运行时(runtime)的不同优化导致了模型推理延迟的巨大差异,准确预测推理延迟仍然非常具有挑战性。目前,现有方法无法实现高精度的预测。

https://air.tsinghua.edu.cn/Uploads/UEditor/Files/20210709/6376145008525256118804429.pdf

在本文中,我们提出并开发了 nn-Meter,可高效、准确地预测 DNN 模型在不同边缘设备上的推理延迟。它的关键思想是将整个模型推理划分为内核(kernel),即设备上的执行单元,然后执行内核级预测。nn-Meter 建立在两个关键技术之上:

内核检测:通过一组设计好的测试用例来自动检测模型推理的执行单元; 自适应采样:从大空间中有效地采样最有益的配置,以构建准确的内核级延迟预测器。

我们在三个常用的边缘硬件平台(移动 CPU、移动 GPU 和Intel VPU)上实现了nn-Meter系统、并使用包含26,000个模型的大型数据集进行评估,结果nn-Meter的表现明显优于先前的最好方法。

成为VIP会员查看完整内容
0
19

本文介绍了核持续学习,这是一种简单但有效的持续学习变体,利用核方法的非参数特性来处理灾难性遗忘。我们使用情景记忆单元来存储每个任务的样本子集,以学习基于核岭回归的任务分类器。这并不需要记忆重放,并且系统地避免了分类器中的任务干扰。我们进一步引入变分随机特征来学习每个任务的数据驱动内核。为此,我们将核持续学习表述为一个变分推理问题,其中随机傅里叶基被合并为潜在变量。从每个任务的核心推断出随机傅立叶基上的后验分布。通过这种方式,我们能够针对每个任务生成更多的信息内核,更重要的是,coreset的大小可以减少,以实现更紧凑的记忆,从而在情景记忆的基础上实现更有效的持续学习。对四个基准的广泛评估证明了内核对持续学习的有效性和前景。

https://arxiv.org/abs/2107.05757

成为VIP会员查看完整内容
0
14

当测试数据和训练数据的分布相似时,基于深度神经网络的方法已经取得了惊人的性能,但如果没有相似的分布,则性能可能表现很差。因此,消除训练和测试数据之间分布变化的影响对于构建具有良好性能的深度模型至关重要。传统的方法要么假设训练数据已知的异质性(例如域标签),要么假设不同域的容量近似相等。在本文中,我们考虑一个更具有挑战性的情况,即上述两种假设都不成立。为了解决这一问题,我们提出通过学习训练样本的权重来消除特征之间的依赖关系,这有助于深度模型摆脱虚假的相关性,从而更加关注区分性特征和标签之间的真实联系。大量的实验清楚地证明了我们的方法在多个分布泛化基准上的有效性,与最先进的同行相比。通过大量的分布泛化基准实验,包括PACS、VLCS、mist - m和NICO,我们证明了该方法的有效性,并与最新的同类方法进行了比较。

https://www.zhuanzhi.ai/paper/dd9a8778840b02be8c81aebac3c94263

成为VIP会员查看完整内容
0
13

在许多现实世界的应用中,包括社交网络、推荐系统、本体论、生物学和计算金融,图表自然地出现了。传统上,图的机器学习模型大多是为静态图设计的。然而,许多应用程序都涉及到图形的演变。这为学习和推理带来了重要的挑战,因为节点、属性和边会随着时间而变化。在这一报告中,我们回顾了最近的进展表示学习动态图,包括动态知识图谱。我们从编码器和解码器的角度来描述现有的模型,根据它们所使用的技术对这些编码器和解码器进行分类,并对每一类的方法进行分析。我们也回顾了几个突出的应用和广泛使用的数据集,并强调了未来的研究方向。

问题: 学习动态节点表示。 挑战: 时间变化图结构:可以出现链接和节点 然后消失,社区一直在变化。 我要求节点表示同时捕捉结构 邻近性(如静态情况)和它们的时间性 进化。 事件的时间间隔不均匀。 改变的原因: 可以来自不同的方面,例如: 在合作网络,研究社区和职业 阶段的观点。 需要对多方面的变化进行建模。

成为VIP会员查看完整内容
0
45

在一个常见的机器学习问题中,使用对训练数据集估计的模型,根据观察到的特征预测未来的结果值。当测试数据和训练数据来自相同的分布时,许多学习算法被提出并证明是成功的。然而,对于给定的训练数据分布,性能最好的模型通常会利用特征之间微妙的统计关系,这使得它们在应用于分布与训练数据不同的测试数据时,可能更容易出现预测错误。对于学术研究和实际应用来说,如何开发能够稳定和稳健地转换数据的学习模型是至关重要的。

因果推理是指根据效果发生的条件得出因果关系的结论的过程,是一种强大的统计建模工具,用于解释和稳定学习。本教程侧重于因果推理和稳定学习,旨在从观察数据中探索因果知识,提高机器学习算法的可解释性和稳定性。首先,我们将介绍因果推论,并介绍一些最近的数据驱动方法,以估计因果效应从观测数据,特别是在高维设置。为了弥补因果推理和机器学习之间的差距,我们首先给出了稳定性和鲁棒性学习算法的定义,然后将介绍一些最近的稳定学习算法来提高预测的稳定性和可解释性。最后,我们将讨论稳定学习的应用和未来的发展方向,并提供稳定学习的基准。

http://kdd2020tutorial.thumedialab.com/

成为VIP会员查看完整内容
0
56

题目: Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

简介:

在过去的十年中,深度学习证明了计算机视觉和自然语言处理所带来的挑战的最新准确性,从而使这些领域发生了革命性变化。深度学习模型现在是自动驾驶,医学成像和神经机器翻译等应用程序的基本构建块。但是,在生产中部署这些模型时,仍然存在许多挑战。研究人员和从业人员必须解决各种各样的问题,包括如何有效地设计,培训和部署资源密集型深度学习模型,以及如何在确保对变化条件的鲁棒性的同时使这些方法自动化。本文提供并评估了提高深度学习训练和推理效率以及底层系统对环境变化的鲁棒性的新方法。我们通过关注为优化模型的准确性和资源使用而优化的许多超参数来解决这些问题。这些超参数包括模型架构的选择,训练数据集,优化算法,优化算法的超参数(例如学习率和动量)以及训练时间预算。当前,在实践中,几乎所有超参数在训练之前都进行了一次调整,此后保持不变,然而最佳的超参数值会随时间变化(例如,随着训练的进行或替换用于推理的硬件时)。我们将动态调整应用于传统上被认为是静态的超参数。通过三个案例研究,我们表明,使用运行时信息来动态适应传统上静态的超参数可以提高机器学习训练和推理的效率。 首先,我们提出并分析Selective-Backprop,这是一种新的重要采样方法,它以在线方式对高损失示例进行优先排序。在Selective-Backprop中,被认为具有挑战性的示例是可调超参数。通过优先处理这些具有挑战性的示例,Selective-Backprop可以将给定的目标错误率训练到比静态方法快3.5倍的目标。接下来,我们探索AdaptSB,它是Selective-Backprop的变体,可以动态调整我们对具有挑战性的示例进行优先级排序的方式。在“选择性反向传播”中,分配给难度不同示例的优先级保持不变。在AdaptSB中,我们将分配给不同类别示例的优先级视为可调超参数。通过对数据集和训练阶段动态地调整示例优先级,AdaptSB在出现标签错误的数据集上表现优于Selective-Backprop。 最后,我们提出并分析了Mainstream,这是一种视频分析系统,可让并发应用共享共享边缘资源,以最大程度地提高汇总结果质量。在Mainstream中,我们认为应用程序共享的程度是一个可调参数。 Mainstream在部署时使用更专业的DNN自动确定正确的权衡方案,以提高每帧的准确性并保留更多的非专业基础模型。结果显示,与静态ap方法相比,Mainstream将平均事件检测F1分数提高了多达87倍。

成为VIP会员查看完整内容
Improving Deep Learning Training and Inference.pdf
0
40
小贴士
相关VIP内容
专知会员服务
14+阅读 · 7月15日
专知会员服务
13+阅读 · 5月20日
相关论文
Wadii Boulila,Ayyub Alzahem,Aseel Almoudi,Muhanad Afifi,Ibrahim Alturki,Maha Driss
0+阅读 · 10月17日
Li Hu,Peng Zhang,Bang Zhang,Pan Pan,Yinghui Xu,Rong Jin
3+阅读 · 4月9日
Peng Wang,Kai Han,Xiu-Shen Wei,Lei Zhang,Lei Wang
6+阅读 · 3月26日
Deep Learning in Video Multi-Object Tracking: A Survey
Gioele Ciaparrone,Francisco Luque Sánchez,Siham Tabik,Luigi Troiano,Roberto Tagliaferri,Francisco Herrera
36+阅读 · 2019年7月31日
Xuelong Li,Hongli Li,Yongsheng Dong
5+阅读 · 2019年7月29日
Contrastive Bidirectional Transformer for Temporal Representation Learning
Chen Sun,Fabien Baradel,Kevin Murphy,Cordelia Schmid
3+阅读 · 2019年6月13日
Xiao Shen,Fu-Lai Chung
4+阅读 · 2019年1月7日
Ali Diba,Mohsen Fayyaz,Vivek Sharma,Amir Hossein Karami,Mohammad Mahdi Arzani,Rahman Yousefzadeh,Luc Van Gool
8+阅读 · 2017年11月22日
Top