7 Papers & Radios | CS博士生2840页毕业论文；「黑进」果蝇大脑跑NLP任务

会员服务 ·

7 Papers & Radios | CS博士生2840页毕业论文；「黑进」果蝇大脑跑NLP任务

2021 年 1 月 31 日 机器之心

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周引起广泛关注的论文包括德州大学奥斯汀分校 2840 页的博士毕业论文，以及研究者们「黑」进果蝇的神经网络，用它来跑 NLP 算法。

目录：

Matrix Theory: Optimization, Concentration and Algorithms
Image-to-Image Translation: Methods and Applications
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph
Fusing Global Domain Information and Local Semantic Information to Classify Financial Documents
Deep Image Retrieval: A Survey
Can a Fruit Fly Learn Word Embeddings?
Self-Organizing Intelligent Matter: A blueprint for an AI generating algorithm
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Matrix Theory: Optimization, Concentration and Algorithms

作者：Zhao Song
论文链接：https://repositories.lib.utexas.edu/bitstream/handle/2152/80715/SONG-DISSERTATION-2019.pdf?sequence=1&isAllowed=y

摘要：一篇论文的篇幅竟然多达数千页，比很多教材都要厚，这简直无法想象。不过，学术界的「能人异士」层出不穷，德州大学奥斯汀分校的 CS 博士生 Zhao Song 就做到了。这是一篇 2019 年 8 月提交的博士论文，总篇幅达到了 2840 页，其中目录就占了 31 页。此外在致谢部分，论文作者还以整整 5 页的篇幅感谢了合作者、提供宝贵意见以及读博期间帮助过他的人。

在这篇博士论文中，作者旨在 提供对矩阵的更好理解 ，并且文中的很多见解对古老的、已经得到充分研究的算法问题带来了改进。具体来讲，作者从三个层面对计算机科学和机器学习领域的矩阵展开了研究。不过，作者在论文第 1 页做了免责声明，表示：「这篇论文不符合德州大学奥斯汀分校当前的写作格式指南，论文仅供参考使用。」

作者提出了一种在当前矩阵乘法时间上运行的新算法。

定理 8.1.1：k 均匀强瑞利分布（Strongly Rayleigh Distribution）的矩阵切尔诺夫边界。

卡迪森 - 辛格问题。

推荐：篇幅达 2840 页、目录就有 31 页，这位华人小哥的博士论文堪比教材

论文 2：Image-to-Image Translation: Methods and Applications

作者：Yingxue Pang、Jianxin Lin、Tao Qin、Zhibo Chen
论文链接：https://arxiv.org/pdf/2101.08629.pdf

摘要： 图像到图像转换（Image-to-image, I2I）的目的是在保留内容表征的同时将图像从源域迁移至目标域。由于 I2I 在许多计算机视觉和图像处理问题中得到了广泛应用，例如图像合成、分割、风格迁移、复原和姿势估计，因此 I2I 引起了越来越多的关注并取得了巨大进展。在本文中，来自中科大和微软亚研的研究者对近年来出现的 I2I 研究工作进行了综述。他们分析了现有 I2I 工作的关键技术，并描述了社区取得的主要进展。此外，研究者还详细阐述了 I2I 对学术界和产业界的影响，指出了相关领域中存在的一些挑战。

图像到图像转换的图示。

图像到图像转换方法概览。

双域（two-domain）I2I 图示。

推荐： 一篇非常详实的图像到图像转换综述论文。

论文 3：ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

作者：Fei Yu、Jiji Tang、Weichong Yin 等
论文链接：https://arxiv.org/abs/2006.16934

摘要： 随着大规模无监督预训练技术在 NLP 的各个任务上取得了显著的效果提升，越来越多的研究者注意到了预训练对于诸如视觉问答和视觉常识推理等视觉 - 语言任务 (Vision-Language Tasks) 的重要性。现有的视觉 - 语言预训练 (Vision-Language Pre-training) 方法通过大规模图像 - 文本数据集上的视觉定位（Visual grounding）任务来学习联合表示，例如基于随机掩码的掩码语言建模 (Masked LM) 以及在整个图像 / 文本层级的图像 - 文本匹配。但是，仅基于随机掩码并预测文本中的词，现有方法在预训练过程中无法区分普通词和描述细粒度语义的词，从而忽略了构建跨模态的细粒度语义对齐的重要性。如物体（人和船）、物体属性（船是白的）以及物体之间的关系（人站在船上）等这些细粒度的语义对于精准理解一些真实视觉场景是至关重要的。因此，更好的视觉 - 语言联合表示应能够刻画这些细粒度语义的跨模态对齐。

在百度这篇被 AAAI 2021 接收的论文《ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph》中，研究者们提出了一种基于知识增强的视觉 - 语言预训练技术， 基于场景图知识构建了场景图预测任务，从而学习到刻画细粒度语义对齐的联合表示 ，在视觉问答、视觉常识推理等五个多模态典型任务上取得了 SOTA 效果，并取得视觉常识推理 VCR 榜单的第一名。

ERNIE-ViL 的场景图预测图示。

ERNIE-ViL 模型设置。

推荐： 百度提出基于知识增强的视觉 - 语言预训练技术 ERNIE-ViL。

论文 4：Fusing Global Domain Information and Local Semantic Information to Classify Financial Documents

作者：Mengzhen Fan、Dawei Chen、Fangzhou Yang 等
论文链接：https://dl.acm.org/doi/10.1145/3340531.3412707

摘要： 在本文中， 瞰点科技联合华师、哈佛、交大等机构的研究者提出了一种名为 GraphSEAT 的文本分类框架 ，可以为中国顶级金融信息服务供应商提供金融文本分类服务。具体来讲，他们创建了用于建模目标金融文本全局结构的异构图，其中文本和金融命名实体被视为节点（node）。并且，利用边缘（edge）将文本连接到包含的命名实体，然后利用注意力机制训练图卷积网络（GCN）以学习包含文本域信息的嵌入表征。

此外，研究者利用神经序列编码器从文本的词序列中提取语义信息，并通过注意力机制融合文本学得的两个表征，最终形成了文本的整体嵌入表征并进行预测。最后，研究者在自己发布的真实金融新闻数据集和其他 3 个公开数据集上进行大量实验，以评估 GraphSEAT 框架的性能。结果表明，该框架优于全部 8 个同类型的基准模型，特别是在研究者自己的数据集上。

模型结构图。

本文模型和对比方法在多个数据集上的实验结果。

控制变量实验结果。

推荐： 面向量化投资的细粒度金融文本分类，瞰点科技与华师大共同发布 GraphSEAT。

论文 5：Deep Image Retrieval: A Survey

作者：Wei Chen、Yu Liu、Weiping Wang 等
论文链接：https://arxiv.org/pdf/2101.11282.pdf

摘要： 在这篇综述论文中， 来自荷兰莱顿大学等机构的研究者回顾了基于深度学习算法和技术的基于内容的图像检索（content based image retrieval, CBIR）研究 。他们介绍了该领域常用的数据库、基准和评估方法，还指出了该领域面临的挑战，并提出未来潜在的发展方向。

图像检索领域的主要研究汇总和对比。

深度特征提取与深度特征增强。

深度图像检索领域的代表性方法。

推荐：深度图像检索领域的综述论文。

论文 6：Can a Fruit Fly Learn Word Embeddings?

作者：Yuchen Liang、Chaitanya Ryali、Benjamin Hoover 等
论文链接：https://openreview.net/forum?id=xfmSoxdxFCG

摘要： 果蝇脑蘑菇体是神经科学中研究最多的系统之一，其核心由一群 Kenyon 细胞组成。这些细胞接受来自多种感官方式的输入，被伽马氨基丁酸能神经元（Anterior Paired Lateral Neurons，APL 神经元）抑制，从而创造了输入的稀疏高维表征。

具体而言，其主要感知方式是嗅觉，但也有来自感知温度、湿度、视觉的神经元的输入。这些输入通过一组突触权重传递给大约 2000 个 Kenyon 细胞。Kenyon 细胞通过 APL 神经元相互连接，后者会发送一个强大的抑制信号到 Kenyon 细胞。这个循环网络形成了 Kenyon 细胞之间的赢者通吃效应，并让一小部分「冠军」神经元之外的所有神经元都失声了。

在这项论文中， 研究者将该网络模体（motif）进行了数学化建模，并将其应用于一项常见的 NLP 任务：学习非结构化文本语料库中的词与上下午之间的相关结构 。

网络架构图。

计算效率。

推荐： 科学家「黑进」果蝇大脑跑 NLP 任务，发现效率比 BERT 高

论文 7：Self-Organizing Intelligent Matter: A blueprint for an AI generating algorithm

作者：Karol Gregor、Frederic Besse
论文链接：https://arxiv.org/pdf/2101.07627.pdf

摘要： 近日， DeepMind 的研究者提出了一种人工生命框架，旨在促进智能生物体的出现 。该框架中没有明确的智能体概念，而是由原子元素构成的环境。这些元素包含神经操作，通过信息交换和环境中包含的类物理规则进行交互。研究者讨论了进化过程如何导致由许多此类原子元素构成的不同生物体的出现，这些原子元素可以在环境中共存和繁荣。此外，研究者还探讨了这如何构成通用 AI 生成算法的基础，并提供了这种系统的简化版实现，讨论了需要做哪些改进才能进一步扩大规模。

系统网格图示。

运行结果。

推荐： 新方向！DeepMind 提出人工生命框架，促进智能生物体的出现。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Enriching Non-Autoregressive Transformer with Syntactic and SemanticStructures for Neural Machine Translation. (from Philip S. Yu)

2. Low Resource Recognition and Linking of Biomedical Concepts from a Large Ontology. (from Andrew McCallum)

3. PolyLM: Learning about Polysemy through Language Modeling. (from Bernhard Pfahringer)

4. Joint Coreference Resolution and Character Linkingfor Multiparty Conversation. (from Hongming Zhang)

5. Event-Driven News Stream Clustering using Entity-Aware Contextual Embeddings. (from Kathleen McKeown)

6. Transformer Based Deliberation for Two-Pass Speech Recognition. (from Tara N. Sainath)

7. Beyond Domain APIs: Task-oriented Conversational Modeling with UnstructuredKnowledge Access Track in DSTC9. (from Yang Liu, Dilek Hakkani-Tur)

8. Representations for Question Answering from Documents with Tables and Text. (from Kristina Toutanova, Mari Ostendorf)

9. Attention Can Reflect Syntactic Structure (If You Let It). (from Joakim Nivre)

10. Generating Syntactically Controlled Paraphrases without Using Annotated Parallel Pairs. (from Kai-Wei Chang)

本周 10 篇 CV 精选论文是：

1. RAPIQUE: Rapid and Accurate Video Quality Prediction of User Generated Content. (from Alan C. Bovik)

2. Deep Learning for Scene Classification: A Survey. (from Matti Pietikäinen, Li Liu)

3. Deep Video Inpainting Detection. (from Larry S. Davis)

4. Learning Spatial and Spatio-Temporal Pixel Aggregations for Image and Video Denoising. (from Ming-Hsuan Yang)

5. Bottleneck Transformers for Visual Recognition. (from Tsung-Yi Lin, Jonathon Shlens, Pieter Abbeel)

6. Nondiscriminatory Treatment: a straightforward framework for multi-human parsing. (from Tong Zhang)

7. A Closer Look at Temporal Sentence Grounding in Videos: Datasets and Metrics. (from Wei Liu)

8. Global-Local Propagation Network for RGB-D Semantic Segmentation. (from Wei Liu)

9. CPTR: Full Transformer Network for Image Captioning. (from Wei Liu)

10. Hessian-Aware Pruning and Optimal Neural Implant. (from Kurt Keutzer)

本周 10 篇 ML 精选论文是：

1. The MineRL 2020 Competition on Sample Efficient Reinforcement Learning using Human Priors. (from Ruslan Salakhutdinov, John Schulman, Oriol Vinyals)

2. An Efficient Statistical-based Gradient Compression Technique for Distributed Training Systems. (from Mohamed-Slim Alouini)

3. Adversarial Laws of Large Numbers and Optimal Regret in Online Classification. (from Noga Alon)

4. PyGlove: Symbolic Programming for Automated Machine Learning. (from Quoc V. Le)

5. Benchmarking Invertible Architectures on Inverse Problems. (from Carsten Rother)

6. Continual Learning of Generative Models with Limited Data: From Wasserstein-1 Barycenter to Adaptive Coalescence. (from Junshan Zhang)

7. Curriculum Learning: A Survey. (from Nicu Sebe)

8. Investigating Bi-Level Optimization for Learning and Vision from a Unified Perspective: A Survey and Beyond. (from Zhouchen Lin)

9. SDF-Bayes: Cautious Optimism in Safe Dose-Finding Clinical Trials with Drug Combinations and Heterogeneous Patient Groups. (from Mihaela van der Schaar)

10. Efficient Graph Deep Learning in TensorFlow with tf_geometric. (from Changsheng Xu)

登录查看更多

相关内容

矩阵论

关注 6

随着科学技术的迅速发展，古典的线性代数知识已不能满足现代科技的需要，矩阵的理论和方法业已成为现代科技领域必不可少的工具。诸如数值分析、优化理论、微分方程、概率统计、控制论、力学、电子学、网络等学科领域都与矩阵理论有着密切的联系，甚至在经济管理、金融、保险、社会科学等领域，矩阵理论和方法也有着十分重要的应用。当今电子计算机及计算技术的迅速发展为矩阵理论的应用开辟了更广阔的前景。因此，学习和掌握矩阵的基本理论和方法，对于工科研究生来说是必不可少的。全国的工科院校已普遍把“矩阵论”作为研究生的必修课。

2840页博士论文！《矩阵理论:优化、集中和算法》，德州大学奥斯汀Zhao Song

专知会员服务

49+阅读 · 2021年1月25日

NeurIPS 2020最佳论文奖项出炉！GPT-3、伯克利等3篇论文摘得！

专知会员服务

11+阅读 · 2020年12月8日

【伯克利胡戎航博士论文】视觉与语言推理的结构化模型，124页pdf

专知会员服务

43+阅读 · 2020年10月31日

如何撰写好你的博士论文？CMU-Priya博士这30页ppt为你指点

专知会员服务

58+阅读 · 2020年10月30日