普林斯顿联合Adobe 连声音都能PS了

普林斯顿联合Adobe 连声音都能PS了 | 2分钟读论文

2017 年 8 月 10 日 AI研习社

来源 / Two Minute Papers

翻译 / 季伟

校对 / 贤儿响叮当

整理 / 雷锋字幕组

AI 研习社出品系列短视频《 2 分钟论文》，带大家用碎片时间阅览前沿技术，了解 AI 领域的最新研究成果。

第3期介绍文字语音转换技术。也就是，我们写下一段文字，计算机把文字转化成语音。这在阅读新闻或者在无官方旁白的情况下，对于创作有声读物非常有用。

一般来讲，我们可以获取语音波形，也可以对语音波形进行编辑。但手工波形则非常困难，因为传统技术通常无法准确地找到波形中单词或字母的分界，更不用说编辑了。

有了这种技术，我们可以剪切、复制甚至编辑文本。这项工作由普林斯顿大学和Adobe的研究人员共同完成，被Adobe自诩为配音界的Photoshop。

想看看基于文本的音频叙述编辑到底怎么操作的？戳下方视频了解详情。

本期论文

"VoCo: Text-based Insertion and Replacement in Audio Narration"

音频编辑技术VoCo：基于文本的插入和替换

▷ 观看论文解读大概需要 3 分钟

学霸们还请自行阅读论文以获得更多细节

论文原址

http://gfx.cs.princeton.edu/pubs/Jin_2017_VTI/

关注 AI 研习社（okweiwu），回复 1 领取

【超过 1000G 神经网络／AI／大数据、教程、论文！】

后台回复 “我要进群” 加入 AI 技术讨论群

吴恩达这本书是你踏入DeepLearning.ai的必修课

▼▼▼

登录查看更多

相关内容

读论文

关注 0

《为读博入坑开个好头》节省时间、减轻压力、稳步前进

专知会员服务

61+阅读 · 2020年7月1日

如何写一份有效的机器学习/自然语言处理论文摘要？ Elvis Saravia

专知会员服务

38+阅读 · 2020年5月17日

你的毕业论文过了吗？宗老师这份《如何撰写毕业论文？》27页ppt帮你把把关，中科院自动化所模式国重宗成庆研究员

专知会员服务

148+阅读 · 2020年4月3日

普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

专知会员服务

154+阅读 · 2020年3月29日

【慕尼黑工业大学-Matthias Niessner】人工智能驱动的视频合成及其意义，104页ppt

专知会员服务

23+阅读 · 2020年3月15日

Capsule Networks，胶囊网络，57页ppt，布法罗大学

专知会员服务

69+阅读 · 2020年2月29日

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

专知会员服务

78+阅读 · 2020年2月3日

【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程

专知会员服务

85+阅读 · 2019年12月11日

【元学习 | ICASSP2020提交论文】学习低资源语音识别，国立台湾大学 | 李宏毅

专知会员服务

57+阅读 · 2019年11月21日

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

专知会员服务

85+阅读 · 2019年10月29日

浙大学霸本科生顶会研究！只需20分钟音频，AI就能逼真模仿你的声音

量子位

8+阅读 · 2019年6月3日

脑机接口重大突破！华裔科学家首次用AI直接从大脑合成语音

AI前线

6+阅读 · 2019年4月25日

【学界】GAN跨界合成高保真音乐，Jeff Dean听了都陶醉

GAN生成式对抗网络

7+阅读 · 2019年3月1日

王源也推荐！“读诗成曲”游戏火了，思必驰揭秘背后技术

量子位

4+阅读 · 2019年1月29日

SFFAI11 报名通知 | 图像分割专题

人工智能前沿讲习班

9+阅读 · 2018年11月26日

已删除

将门创投

5+阅读 · 2018年11月15日

视频 | 波士顿动力进化【8min】

机器学习算法与Python学习

4+阅读 · 2018年11月15日

业界 | 带有韵律的合成语音：谷歌展示基于Tacotron的新型TTS方法

机器之心

3+阅读 · 2018年3月30日

直播 | 搜狗研究员：基于LSTM-RNN的语音声学建模技术 | 学术青年分享会

AI科技评论

4+阅读 · 2017年10月10日

IEEE TIP论文直播：深度神经网络如何图像去雾！（附直播微信群）

AI研习社

4+阅读 · 2017年8月7日

Perception of prosodic variation for speech synthesis using an unsupervised discrete representation of F0

Arxiv

3+阅读 · 2020年3月14日

Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks

Arxiv

8+阅读 · 2020年3月12日

Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

Arxiv

6+阅读 · 2020年3月1日

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

Arxiv

4+阅读 · 2020年1月11日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Pay Less Attention with Lightweight and Dynamic Convolutions

Arxiv

4+阅读 · 2019年1月29日

Multi-Head Attention with Disagreement Regularization

Arxiv

9+阅读 · 2018年10月24日

Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Arxiv

5+阅读 · 2018年6月4日

Fine-grained Video Classification and Captioning

Arxiv

7+阅读 · 2018年4月24日

Continuous Time Dynamic Topic Models

Arxiv

3+阅读 · 2015年5月16日