「会演戏」的AI主播!番茄小说落地情感配音技术

2021 年 12 月 2 日 新智元



  新智元报道  

编辑:QQ

【新智元导读】字节跳动AI Lab 智能语音与音频团队(Speech & Audio Team,后文简称 SA 团队 ),最新升级的「情感配音」技术在番茄免费小说平台落地,它不仅可以朗读小说,还可以化身戏精」表演出人物的喜怒哀乐」。
这一新功能借助自然语言理解(Natural language processing,NLP)将网文转换成剧本,自动区分旁白对话和对应的情感,采用情感化语音合成(Text-to-Speech,TTS)技术,合成出单人多风格情感的有声书,能以抑扬顿挫的韵律赋予旁白故事感,以丰富充沛的情感演绎角色对话,从而让听众获得真人播讲般的沉浸式听感。


准确、平淡的合成语音被广泛应用在语音助手、新闻朗读等领域,但如果你想在小说阅读场景使用「毫无感情」的合成声音,让霸道总裁、俏皮黄蓉用平直冷冰的机械音讲故事,那就行不通了。


为了让AI主播能「哭」会「笑」,像专业配音演员一样传达「深刻的人类情感」,字节跳动 AI Lab SA 团队最新升级了「情感配音」技术,并为番茄免费小说提供 AI 朗读支持。


点击下方音频,你能听得出这居然是 AI 演播的作品嘛?



如何打磨出这样令人惊艳的效果?这期间经历了怎样的思考和抉择,本文将为您揭秘该技术诞生和演进的历程。


解决「两大难」,「情感配音」技术的抉择


番茄免费小说是中国最活跃的免费小说移动阅读平台之一,致力于打造网络文学多元发展产品矩阵。随着 5G 和智能设备的普及,声音内容的消费场景不断被拓展,「听书」功能将成为各阅读 APP 拓展其使用场景的利器。AI 语音合成技术能减少内容有声化的时间和财务成本,但在小说阅读场景中,常规机器合成语音的「机械」听感,难以增强文本生动性和感染力,用户也较难营造身入其境的沉浸感。


AI 能否进行情感化配音,通过情感演绎小说文本,展现小说人物性格特征和情感变化?


面对不同的情节(例如当霸道总裁自负的笑出来时),角色能否做出诸如哭泣、大笑等「高浓度」的情感演绎?


AI 能否像配音演员一样理解文本,并支持业务规模化生产的需求?


面对来自业务的「灵魂三问」,字节跳动 AI Lab 语音合成相关负责人表示,有声阅读 AI 技术需要突破以下两个难点:


  1. 「贴近真人的 AI 合成音色」:训练具有情感能力、多种副语言(笑声、哭腔、疑问、叹词、语气词)表达能力的 AI 音色,实现更精彩的演绎;


  2. 「自动精准的 AI 文本理解」:通过文本理解,自动区分旁白和对话,自动判定情感、重音、句间停顿时长;


针对 AI 阅读场景,目前在业界没有完整的技术方案,甚至没有太多相关的学术论文。


为了解决「两大难」,字节跳动 AI Lab SA 团队将技术路线定为:通过语音合成技术(TTS)积累数量丰富的 AI 音色矩阵,生产具有丰富情感演绎效果的单播有声书,覆盖番茄各类题材,攻克难点「1」。同时通过自然语言理解技术(NLP)实现自动化的文本语意理解,识别出不同角色的情感、重音、停顿表达,攻克难点「2」。


下文将以番茄免费小说为例,展示字节SA 团队如何从「情感表达」、「副语言」、「文本理解」三个维度,打造质量堪比付费广播剧的AI朗读效果。


「能说」「会演」,AI 主播为番茄小说「听书」注入情感


为了让 AI 配音更像真人,能够理解剧本中的关键词及情感,字节跳动 AI Lab SA 团队在满足发音清晰、韵律连贯、语调起伏的基础上,研发了基于半监督学习的端到端风格控制声学模型(Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervised Training in Text-To-Speech, P-F Wu, etc, submitted to ICASSP 2022),使得 AI 模型不仅「能说」,而且「会演」


 

字节跳动 AI Lab SA 团队相关负责人介绍,他们会按照普鲁契克情感色轮(Plutchik's Wheel of Emotions)设计情感类型,可以提供开心、悲伤、惊讶、恐惧等多种情感色彩,再通过情感迁移的方式,让原本没有情感的发音人获得多情感合成效果。


相比于传统技术,上述新技术对于录制语音库的限制更少,可以允许发音人在更大范围内自由发挥。同时,专门加入的一些情绪脚本,可以更好地收集情感语音,帮助声学模型使用半监督学习 Global Style Tokens(GSTs)对情感表征进行建模,实现说话人音色与情感的解耦。



能「哭」会「笑」,7 种笑声模型以声传情


但仅仅实现情感表达还远远不够,通过与真人主播的详细对比分析,字节跳动SA 团队发现人类语言是以声传情的,因此「副语言」是口语表达不可或缺的重要因素。「副语言」也称「类语言」,指伴随话语的某些声音现象,包括的语音要素特征如停顿、重音、语速、语调等,以及言语的功能性发声如笑声、哭声、叹息声、叫喊声等。于是,团队针对「副语言」现象进行了精细化的建模还原,实现了在有声书中常见的重音停顿、疑问反问、笑声哭腔、以及各类叹息、叫喊声等。值得一提的是,在每一类「副语言」现象中,字节跳动 AI Lab SA 团队都进行了十分细致的建模,单单一个笑声就有多达 5~7 种,适用于不同情境下的不同语意表达。



另外,针对小说场景,字节跳动 AI Lab SA 团队还对风格适配度、情感连续性、情感区分性、段落疲劳度进行更加细分的测评,保证合成的效果足够接近真人且具有沉浸感。


突破小说理解技术,AI 文本理解效率远超人工


对于有声小说而言,仅仅在声学层面实现高表现力的合成还远远不够,如何能够实现小说文本的语意理解自动制作话本,才是贴近真人朗读和批量化生产的关键。


在精品 AI 有声书制作中,往往需要人工对小说文本进行标识:划分出对话与旁白的文本,并标识出每个角色的台词及其所要表达出的情感。这一过程往往十分的耗时耗力,导致了精品 AI 有声书无法大规模地扩量生产。


针对这一痛点,字节跳动 AI Lab SA 团队提出了「AI 文本理解」模型 - 一套多任务的长文本理解 AI 系统(A Chapter-Wise Understanding System for Text-To-Speech in Chinese Novels, J-J Pan, etc, ICASSP 2021)。


「AI 文本理解」通过对于上万本的小说学习,能够自动化地从小说文本中区分出对话的角色、判别出对话中所想要表达出的情感、预测出合理的句间停顿,极大地提升了精品 AI 有声书的制作效率,使得标注人力不再成为 AI 有声书生产的瓶颈。


 

关于字节跳动 AI Lab 智能语音与音频团队


字节跳动 AI Lab 智能语音与音频团队(AI-Lab Speech & Audio Team),致力于为公司各个业务提供音频理解、音频合成、对话交互、音乐检索和智能教学等多种 AI 能力与方案。自 2017 年成立以来,团队专注于研发行业领先的 AI 智能语音技术,不断探索 AI 与业务场景的结合,以实现更大的用户价值。我们为今日头条、抖音、剪映、西瓜视频、番茄小说、飞书办公套件、大力智能教育台灯等字节跳动旗下的明星级产品提供了各类 AI 解决方案。截至目前,已服务了上百个业务合作伙伴。伴随字节跳动业务的飞速发展,我们的语音识别和语音合成覆盖了多种语言和方言。未来,我们希望发展 70+ 语言和 20+ 方言,用于满足内容创作与交流平台的需求。团队已有 15 篇论文入选 AI 顶级会议,其中音频生成方向接受了 7 篇论文。


团队招聘信息:https://mp.weixin.qq.com/s/gSE5UI6ociOkLlhejGlefw

团队采访内容:https://mp.weixin.qq.com/s/q32uJ_XZhq9CQurMBIjz4A



登录查看更多
0

相关内容

语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域中的一项前沿技术。 随着计算机技术的不断提高,语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成,再发展到混合语音合成;合成语音的质量、自然度已经得到明显提高,基本能满足一些特定场合的应用需求。目前,语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用,取得了巨大的经济效益。 另外,随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现,语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。
《华为云数据库在金融行业的创新与探索》华为26页PPT
专知会员服务
12+阅读 · 2022年3月23日
《华为云金融行业 保险全业务上云解决方案》18页PPT
专知会员服务
15+阅读 · 2022年3月23日
中银国际《虚拟人行业研究》报告,40页pdf
专知会员服务
53+阅读 · 2022年3月18日
《人工智能安全测评白皮书》,99页pdf
专知会员服务
357+阅读 · 2022年2月26日
产业元宇宙白皮书(2021-2022)
专知会员服务
113+阅读 · 2022年2月18日
专知会员服务
79+阅读 · 2021年7月28日
元宇宙风口之下,虚拟数字人先火了
AI前线
0+阅读 · 2022年1月20日
从抖音、快手背后的技术,谈AI内容产品的启发
人人都是产品经理
1+阅读 · 2021年12月1日
AI数据派祝您中秋快乐
THU数据派
0+阅读 · 2021年9月21日
多模态人工智能大模型“紫东太初”诞生记
中国科学院自动化研究所
2+阅读 · 2021年8月11日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员