7 Papers & Radios | 几分钟说话视频实现虚拟数字人复刻;ICLR 2021八篇杰出论文

2021 年 4 月 4 日 机器之心
机器之心 & ArXiv Weekly Radiostation

参与:杜伟楚航、罗若天

本周的重要论文包括斯坦福大学和谷歌大脑的研究者提出了基于随机微分方程(SDE)的分数生成式建模、DeepMind 的研究者提出的使用图神经网络来学习网格模拟的模型 MeshGraphNets等。


目录:

  1. Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks

  2. Score-Based Generative Modeling through Stochastic Differential Equations

  3. Rethinking Architecture Selection in Differentiable NAS

  4. Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with 1/n Parameters

  5. Learning Mesh-Based Simulation with Graph NetworksLearning Mesh-Based Simulation with Graph Networks

  6. Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime

  7. AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis 

  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks

  • 作者:Curtis G. Northcutt、Anish Athalye、Jonas Mueller

  • 论文链接:https://arxiv.org/pdf/2103.14749.pdf


摘要: 众所周知,测试集是我们拿来衡量机器学习模型性能的基准。如果测试集错误百出,我们得到的性能数据也会存在很大偏差。在一篇新论文中,麻省理工 CSAIL 和亚马逊的研究者对 10 个主流机器学习数据集的测试集展开了研究,发现它们的平均错误率竟高达 3.4%。其中,最有名的 ImageNet 数据集的验证集中至少存在 2916 个错误,错误率为 6%;QuickDraw 数据集中至少存在 500 万个错误,错误率为 10%。

各数据集中存在的错误示例。

研究者本次调查的十个数据集以及它们的测试集错误率。

将「青蛙」标记成「猫」,将「狮子」标记成「猴子」。

推荐: ImageNet 验证集 6% 的标签都是错的,MIT:十大常用数据集没那么靠谱

论文 2:Score-Based Generative Modeling through Stochastic Differential Equations

  • 作者:Yang Song、Jascha Sohl-Dickstein、Diederik P. Kingma 等

  • 论文链接:https://openreview.net/pdf?id=PxTIG12RRHS


摘要: 本文中,来自斯坦福大学和谷歌大脑的研究者主要介绍了基于随机微分方程(SDE)的分数生成式建模。他们提出了一个通过缓慢注入噪声来平滑地将复杂数据分布转化为已知先验分布的随机微分方程,以及通过缓慢地去除噪声来将先验分布转化回数据分布的逆时 SDE。非常重要的一点是,逆时 SDE 只依赖于扰动数据分布随时间变化的梯度场。通过利用分数生成式建模的进展,该方法可以准确地通过神经网络估计分数,并使用数值 SDE 求解器来生成样本。此外,研究者引入了预测器 - 纠正器框架来纠正离散逆时 SDE 演化中出现的误差,推导出了从与 SDE 相同的分布中采样的等价神经常微分方程(ODE),从而使得精确的似然计算成为可能,并提升了采样效率。

求解逆时 SDE 得到分数生成式模型(score-based generative model)。

基于 SDE 的分数生成式建模。

CIFAR-10 数据集上不同逆时 SDE 的对比。

推荐: 本文为 ICLR 2021 杰出论文之一,一作宋飏(Yang Song)本科毕业于清华大学,现为斯坦福大学计算机科学系博士生。

论文 3:Rethinking Architecture Selection in Differentiable NAS

  • 作者:Ruochen Wang、 Minhao Cheng、 Xiangning Chen 等

  • 论文链接:https://openreview.net/pdf?id=PKubaeJkw3


摘要: 可微神经架构搜索( NAS)是目前最流行的神经架构搜索方法之一,具有搜索效率高、搜索简单等优点,这种方法通过基于梯度的算法在权重共享的 supernet 中联合优化模型权重和架构参数来实现。虽然关于 supernet 优化的讨论很多,但架构选择过程却很少受到关注。该研究根据实验和理论分析表明,架构参数的多少并不代表对 supernet 性能的贡献。该研究提出了一种基于扰动的架构选择的替代方案,它可以直接测量每个操作对 supernet 的影响。该研究用提出的架构选择重新评估了几种可微 NAS 方法,并发现它能够从底层 supernet 中连续提取显著改进的架构。此外,研究发现,该研究所提出的选择方法可以大大改善 DARTS 的几种失效模式,这表明 DARTS 中观察到的泛化能力差的大部分原因是基于量级的架构选择失败,而不是 supernet 的完全优化问题。

通过替代梯度更新(alternative gradient update),DARTS 利用双目标(bilevel objective)共同优化α和模型权重 w。

CIFAR-10 数据集上 SOTA 图像分类器的对比。

推荐: 本文为 ICLR 2021 杰出论文之一,一作 Ruochen Wang 本科就读于上海财经大学,现为 UCLA 计算机科学硕士。

论文 4:Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with 1/n Parameters

  • 作者:Aston Zhang、Yi Tay、Shuai Zhang 等

  • 论文链接:https://openreview.net/pdf?id=rcQdycl0zyk


摘要: 近来一些研究显示出超复杂空间中表征学习的成功。具体来说:带有四元数的全连接层(四元数是指 4D 超复数),其中用四元数的汉密尔顿积代替了全连接层中的实值矩阵乘法,这种方法节省了参数,只有 1/4 的可学习参数,在各种应用中实现了可与之前的方法媲美的性能。但是,这种超复杂空间只以几种预定义维度(4D、8D 和 16D) 存在。这限制了利用超复杂乘法的模型的灵活性。为此,该研究提出了一种对超参数乘法进行参数化的方法,使得模型能够从数据中学习乘法规则,而无需考虑此类规则是否预先定义。结果,该方法不仅包含汉密尔顿积,而且还学会了在任意 nD 的超复杂空间上运行。与全连接层的对应对象相比,使用任意 1/n 可学习参数可以提供给更大的架构灵活性。在自然语言推理、机器翻译、文本样式迁移和主谓词一致方面对 LSTM 和 transformer 模型进行应用的实验验证了该方法的架构灵活性和有效性。

在人工数据集上,本文提出的参数化超复杂乘法运算(parameterized hypercomplex multiplication, PHM)层可以在 3D 真实空间学习旋转,在四元数空间中学习 Hamilton 算法乘积。

LSTM、Quaternion LSTM 和 PHM-LSTM 在 MNLI、QNLI、SNLI、DNLI 和 SciTail 等五个数据集上的自然语言推理准确率结果对比。

机器翻译(BLEU)结果对比。

推荐: 本文为 ICLR 2021 杰出论文之一,一作 Aston Zhang 为《动手学深度学习》的作者之一,博士毕业于 UIUC,现为亚马逊高级科学家。

论文 5:Learning Mesh-Based Simulation with Graph Networks

  • 作者:Tobias Pfaff、Meire Fortunato、Alvaro Sanchez-Gonzalez 等

  • 论文链接:https://openreview.net/pdf?id=roNqYL0_XP


摘要: DeepMind 的研究者提出了一个使用图神经网络来学习网格模拟的模型 MeshGraphNets。通过训练,该模型可以在网格图上传递信息,并在前向模拟过程中适应网格离散化。实验表明,该模型可以准确地预测各种物理系统的动力学,包括有空气动力学、结构动力学等。该模型的自适应性使其可以学习与分辨率无关的动力学,并能在测试时扩展至更复杂的状态空间。该研究提出的方法扩展了神经网络模拟器可以解决的问题范围,并有望提升复杂科学建模任务的效率。

MeshGraphNets 在球体动力学(SphereDymanic)中的模拟原理图。

模拟效果展示。

与其他方法的模拟效果对比。

推荐: 本文为 ICLR 2021 杰出论文之一,利用图网络来学习基于网格的模拟。

论文 6:Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime

  • 作者:Atsushi Nitanda、 Taiji Suzuki

  • 论文链接:https://openreview.net/pdf?id=PULSD5qI2N1


摘要: 该研究分析了用于回归问题的超参数两层神经网络的平均随机梯度下降的收敛性。研究发现,神经正切核 (NTK) 在基于梯度方法的全局收敛性方面起着重要作用。然而,在 NTK 机制下,仍有收敛速度分析的空间。该研究证明了通过利用目标函数和与 NTK 相关的 RKHS 的复杂性,平均随机梯度下降可以达到 minimax 最优收敛速度,并且具有全局收敛保证。此外,该研究还证明了在一定条件下,通过对 ReLU 网络的平滑逼近,可以以最优的收敛速度学习由 ReLU 网络的 NTK 指定的目标函数。

算法 1:平均随机梯度下降。

神经正切核的定义。

推荐: 本文为 ICLR 2021 杰出论文之一。

论文 7:AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis

  • 作者:Yudong Guo、Keyu Chen、Sen Liang 等

  • 论文链接:https://arxiv.org/pdf/2103.11078.pdf


摘要: 作为构建未来虚拟世界诸多应用的主干,如何创造栩栩如生的虚拟数字人,一直是计算机视觉、计算机图形学与多媒体等人工智能相关学科密切关注的重要研究课题。近日,中国科学技术大学联合的卢深视科技有限公司、浙江大学与清华大学共同打造的 AD-NeRF 技术,引发了学界及业界关注。来自中科大张举勇课题组等机构的研究者们在近期大火的神经辐射场(NeRF: Neural Radiance Fields)技术基础上,提出了一种由语音信号直接生成说话人视频的算法。仅需要目标人物几分钟的说话视频,该方法即可实现对该人物超级逼真的形象复刻和语音驱动。

AD-NeRF 工作的算法流程框架。

完整、稳定的头部与身体躯干合成。

支持背景与视角编辑。

推荐: 数字人黑科技 AD-NeRF 面世,几分钟说话视频即可复刻,中科大等机构出品。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:


本周 10 篇 NLP 精选论文是:


1. A study of latent monotonic attention variants.  (from Hermann Ney)
2. Leveraging neural representations for facilitating access to untranscribed speech from endangered languages.  (from Dan Jurafsky)
3. A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods.  (from Dan Roth)
4. Correcting Automated and Manual Speech Transcription Errors using Warped Language Models.  (from Li Erran Li, Dilek Hakkani Tür)
5. FeTaQA: Free-form Table Question Answering.  (from Dragomir Radev)
6. InsertGNN: Can Graph Neural Networks Outperform Humans in TOEFL Sentence Insertion Problem?.  (from Xiang Bai)
7. PnG BERT: Augmented BERT on Phonemes and Graphemes for Neural TTS.  (from Yonghui Wu)
8. BASE Layers: Simplifying Training of Large, Sparse Models.  (from Luke Zettlemoyer)
9. XRJL-HKUST at SemEval-2021 Task 4: WordNet-Enhanced Dual Multi-head Co-Attention for Reading Comprehension of Abstract Meaning.  (from Hao Wu)
10. Evidence-based Verification for Real World Information Needs.  (from Iryna Gurevych)


本周 10 篇 CV 精选论文是:

1. Read and Attend: Temporal Localisation in Sign Language Videos.  (from Andrew Zisserman)
2. Broaden Your Views for Self-Supervised Video Learning.  (from Andrew Zisserman)
3. Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers.  (from Ivan Laptev, Josef Sivic, Andrew Zisserman)
4. Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval.  (from Andrew Zisserman)
5. Distribution Alignment: A Unified Framework for Long-tail Visual Recognition.  (from Jian Sun)
6. OTA: Optimal Transport Assignment for Object Detection.  (from Jian Sun)
7. Improving robustness against common corruptions with frequency biased models.  (from Cordelia Schmid, Thomas Brox)
8. Composable Augmentation Encoding for Video Representation Learning.  (from Cordelia Schmid)
9. Boundary IoU: Improving Object-Centric Image Segmentation Evaluation.  (from Ross Girshick, Piotr Dollár, Alexander C. Berg)
10. Sparse Auxiliary Networks for Unified Monocular Depth Prediction and Completion.  (from Wolfram Burgard)


本周 10 篇 ML 精选论文是:


1. Multi-Source Causal Inference Using Control Variates.  (from Michael I. Jordan)
2. An Introduction to Robust Graph Convolutional Networks.  (from Philip S. Yu)
3. Touch-based Curiosity for Sparse-Reward Tasks.  (from Aaron Courville)
4. Convolutional Dynamic Alignment Networks for Interpretable Classifications.  (from Bernt Schiele)
5. Avalanche: an End-to-End Library for Continual Learning.  (from Tinne Tuytelaars, Davide Maltoni)
6. Combating Adversaries with Anti-Adversaries.  (from Philip H. S. Torr)
7. Hierarchical Quantized Federated Learning: Convergence Analysis and System Design.  (from Khaled B. Letaief)
8. DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation.  (from Peter Stone)
9. Prediction of Landfall Intensity, Location, and Time of a Tropical Cyclone.  (from Sandeep Kumar)
10. Predicting Landfall's Location and Time of a Tropical Cyclone Using Reanalysis Data.  (from Sandeep Kumar)

登录查看更多
0

相关内容

ICML 2021论文收录
专知会员服务
122+阅读 · 2021年5月8日
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
10+阅读 · 2021年3月21日
【EMNLP2020最佳论文】无声语音的数字化发声
专知会员服务
11+阅读 · 2020年11月20日
专知会员服务
45+阅读 · 2020年10月5日
ICLR 2018十佳论文
论智
5+阅读 · 2017年12月4日
Arxiv
0+阅读 · 2021年6月4日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
3+阅读 · 2018年12月19日
Arxiv
4+阅读 · 2018年4月26日
VIP会员
相关VIP内容
ICML 2021论文收录
专知会员服务
122+阅读 · 2021年5月8日
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
10+阅读 · 2021年3月21日
【EMNLP2020最佳论文】无声语音的数字化发声
专知会员服务
11+阅读 · 2020年11月20日
专知会员服务
45+阅读 · 2020年10月5日
Top
微信扫码咨询专知VIP会员