真实 VS 合成，我们需要的真实数据微乎其微？| 一周最火AI论文

会员服务 ·

真实 VS 合成，我们需要的真实数据微乎其微？| 一周最火AI论文

2019 年 7 月 23 日 大数据文摘

大数据文摘专栏作品

作者：Christopher Dossman

编译：Jiaxu、云舟

呜啦啦啦啦啦啦啦大家好，本周的AI Scholar Weekly栏目又和大家见面啦！

AI ScholarWeekly是AI领域的学术专栏，致力于为你带来最新潮、最全面、最深度的AI学术概览，一网打尽每周AI学术的前沿资讯。

每周更新，做AI科研，每周从这一篇开始就够啦！

本周关键词：神经网络理解、情感识别、三维姿态估计

本周热门学术研究

大规模广播谈话语料库发布

一组研究人员在2018年10月至2019年3月期间发布了大量从美国广播中采集的语音识别抄本。这些数据包括28万多小时的广播中近28亿字的转录语音，以及有关语音的元数据。

本研究使用一个转录系统检查新的音频文件并将其转录后写回到数据中。元数据包括诸如性别、地理位置、说话者转换标示以及广播节目信息等。数据采用JSONL格式，每行一个JSON文档。每一行代表一个音频片段，其中可能包含多个由字典对象和键表示的语句。

尽管存在着听写错误，但这一语料库在自然语言处理、社会科学、会话分析等领域仍然具有很好的应用前景。未来可能会发布新版本的RadioTalk，附带额外的转录音频和当前语料库的改进转录。

代码：

https://github.com/social-machines/RadioTalk

原文：

https://arxiv.org/abs/1907.07073

跨语言语音情感识别系统

研究人员提出了一种基于生成对抗网络的多语言SER模型。该算法具有学习语言不变表示的能力。该模型对源语言数据和目标语言数据使用特征编码网络，并使用鉴别器模型强制源编码模型学习类似于目标语言的表示；以及用于情绪识别的分类器。

该模型在四种不同的语言情感数据集上进行了评估，包括乌尔都语数据集，该数据集还包含了其他语言，这些语言的标签数据很难找到，而且主流社会对这些语言的研究也不多。乌尔都语是巴基斯坦的官方民族语言和印度宪法承认的22种官方语言之一。

结果表明，该模型可以显著提高所有数据集（包括非主流的乌尔都语数据）的基线跨语言SER性能，而不需要任何标签。

SER从语言中识别出不同类型的人类情感，对于实现许多现代现实应用的自动化非常有帮助。这一新模式对于为下一代跨文化应用构建更强大的模式至关重要。

原文：

https://arxiv.org/abs/1907.06083

基于单个RGB相机的关节三维姿态估计与动作识别

最近，研究人员提出了一种基于深度学习的多任务模型，用于基于RGB视频序列的关节三维人体姿态估计和动作识别。这种方法分为两个阶段。首先，研究人员设计并训练了一个实时二维姿态探测器来确定人体重要关键点的精确像素位置，并设计了一个双流神经网络来将检测到的二维关键点映射成三维姿态。

其次，他们利用有效的神经结构搜索（ENAS）模型来寻找一个最佳的网络结构，该网络结构用于通过基于图像的中间表示来模拟估计三维姿态的时空演化，并执行动作识别。对于3.6M、MSR Action3D和SBU Kinect交互数据集进行的评估验证了该方法的有效性。

该方法表明，通过简单的网络设计和二维关键点的训练，可以有效地估计三维人体姿态。此外，它需要一个低计算预算的训练和推理。

然而，框架自然依赖于二维探测器的输出质量，并且无法从失败的二维输出中恢复三维姿态。为了应对这一挑战，研究人员目前正在扩大研究范围，在模型中添加额外的视觉证据以提高性能。初步结果令人鼓舞。

原文：

https://arxiv.org/abs/1907.06968

真实数据VS合成数据，我们需要的真实数据微乎其微？

本文深入探讨了用合成数据代替实际数据的效果。研究人员分析了真实数据不足的影响。他们混用真实数据和合成数据，并通过模拟工具创建大量新的合成数据。在分析每个数据集域的相似性后，他们针对深度神经网络的训练过程提出了见解。

本文中，研究人员分析了使用大量合成数据和少量真实数据混合构成的数据集的训练效果。发现使用有限的真实数据并通过微调合成训练模型比混合训练的效果更佳。

该研究提供了关于动态使用真实数据和合成数据的见解，未来有望能够使用较少量真实数据训练神经网络，从而使得未来的研究更加经济有效。

原文：

https://arxiv.org/abs/1907.07061

当我们谈论理解神经网络时，我们在谈论什么？

你能说出神经网络中的操作是怎样起作用的吗？除了指示网络的权重和基本操作之外，我们能够说出它如何将图像分类为猫或狗，或者它如何在多个动作中做出选择吗？

这项研究工作讨论了应用于神经网络和其他人工系统的复杂性问题。即使对系统有完整的观察，也有对所有相关功能的总体描述，研究人员也很难产生有意义的“理解”。以此为背景，他们提出了疑问，当我们谈论理解神经计算时，我们在谈论什么呢？他们认为，大脑的生成过程与神经网络不同，因为它从一个世界中获取信息，并将其作为一种分布式的权重变化模式存储，这种模式是非常难以整合的。

神经网络科学家试图通过研究输出对系统变化的敏感性来了解他们的网络。他们研究了哪种刺激可以欺骗系统，并且可视化了网络中的元素。通过移除网络中的单元，他们可以分析系统在受干扰情况下的反应。但是，尽管是熟悉这些方法的人也不能断定他们可以很好地理解像AlexNet，AlphaGo或GPT2这样的模型。

在当前的神经网络方法下，人们无法对他们构建的系统所做的计算进行有意义地理解。这些方法远远无法为从业者提升网络效率而提供足够的理解。本文的结论是，神经科学应该专注于理解当下的发展。同时，应该开发相应的方法来了解大脑。我们不应该问大脑是如何工作的，而应该问它是如何学习工作方法的。

原文：

https://arxiv.org/abs/1907.06374v1

其他爆款论文

Bach Doodle：第一款基于人工智能的Google 涂鸦：

https://arxiv.org/abs/1907.06637

识别查询检索的交互模型：

https://arxiv.org/abs/1907.07564

第四次东方语言识别挑战的基线结果：

https://arxiv.org/abs/1907.07626

使用HODGEPODGE和大型弱标记、合成及未标记数据检测声音事件：

https://arxiv.org/abs/1907.07398

神经网络在频谱感知方面的差异：

https://arxiv.org/abs/1907.07321

AI新闻

谷歌发布具有附加功能和潜在应用的新USE多语言模块：

http://ai.googleblog.com/2019/07/multilingual-universal-sentence-encoder.html

微软致力于实现3D捕捉并展示了如何将其应用于微软的服务和技术中：

https://www.zdnet.com/article/microsofts-latest-holoportation-demo-shows-off-its-mixed-reality-ai-translation-technologies/

Google AI改善语言障碍人士的沟通：

https://ai.googleblog.com/2019/07/parrotron-new-research-into-improving.html

人工智能在2019年现状：机器学习，自然语言处理，游戏和知识图等方面的突破：

https://www.zdnet.com/article/the-state-of-ai-in-2019-breakthroughs-in-machine-learning-natural-language-processing-games-and-knowledge-graphs/

IBM推出了针对企业策划的开放式机器学习数据集中心：

https://www.zdnet.com/article/ibm-launches-open-ml-dataset-hub-curated-for-the-enterprise/

黑色小圆动图分割线

3个月，深度学习从理论到实战（英语）

全球最火机器学习社区School of AI清华专场

每周一次社区实战

专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家，在北京生活5年。他是深度学习系统部署方面的专家，在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验，他还教授了1000名学生了解深度学习基础。

LinkedIn：

https：//www.linkedin.com/in/christopherdossman/

志愿者介绍

后台回复“志愿者”加入

点「在看」的人都变好看了哦

登录查看更多

相关内容

转录

关注 0

【KDD2020-清华大学】图对比编码的图神经网络预训练

专知会员服务

46+阅读 · 2020年6月18日

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

17+阅读 · 2020年4月15日

【WWW2020-微软】理解用户行为用于文档推荐

专知会员服务

36+阅读 · 2020年4月5日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

专知会员服务

27+阅读 · 2020年3月18日

【UCLA-微软-WWW2020】异构图Transformer，Heterogeneous Graph Transformer

专知会员服务

137+阅读 · 2020年3月8日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

57+阅读 · 2020年3月6日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

74+阅读 · 2020年1月13日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

你跳宅舞的样子很专业：不，这都是AI合成的结果

机器之心

11+阅读 · 2019年9月28日

新研究起底人类和机器注意力机制的区别|一周AI最火论文

大数据文摘

4+阅读 · 2019年7月2日

Hey Siri，帮我把这个boss打一下：基于音频的游戏代理探索 | 一周AI最火论文

大数据文摘

7+阅读 · 2019年6月17日

图数据表示学习综述论文

专知

52+阅读 · 2019年6月10日

SFFAI 31 报名通知 | 情感语音识别与合成

人工智能前沿讲习班

17+阅读 · 2019年5月30日

利用上下文常识，让AI读懂不完整人类指令 | 一周AI最火论文

大数据文摘

12+阅读 · 2019年5月6日

Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术

大数据文摘

4+阅读 · 2019年4月29日

只闻其声也能「看透」你，来自「声音画像师」的秘密

机器之能

3+阅读 · 2019年4月21日

1400小时开源语音数据集，你想要都在这儿

AI100

18+阅读 · 2019年3月1日

谷歌开源 AI 可在嘈杂环境中区分声音，准确率达92%

开源中国

5+阅读 · 2018年11月14日

Co-Generation with GANs using AIS based HMC

Arxiv

3+阅读 · 2019年10月31日

Keyphrase Generation for Scientific Articles using GANs

Arxiv

8+阅读 · 2019年9月24日

A Comparative Study on Transformer vs RNN in Speech Applications

Arxiv

4+阅读 · 2019年9月13日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

3+阅读 · 2019年5月18日

Challenges in Building Intelligent Open-domain Dialog Systems

Arxiv

21+阅读 · 2019年5月13日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

Improving the Transformer Translation Model with Document-Level Context

Arxiv

4+阅读 · 2018年10月8日

The Users' Perspective on the Privacy-Utility Trade-offs in Health Recommender Systems

Arxiv

5+阅读 · 2018年4月13日

Variational Recurrent Neural Machine Translation

Arxiv

5+阅读 · 2018年1月16日

Multilingual Topic Models

Arxiv

3+阅读 · 2017年12月18日

VIP会员