Speech summarization is typically performed by using a cascade of speech recognition and text summarization models. End-to-end modeling of speech summarization models is challenging due to memory and compute constraints arising from long input audio sequences. Recent work in document summarization has inspired methods to reduce the complexity of self-attentions, which enables transformer models to handle long sequences. In this work, we introduce a single model optimized end-to-end for speech summarization. We apply the restricted self-attention technique from text-based models to speech models to address the memory and compute constraints. We demonstrate that the proposed model learns to directly summarize speech for the How-2 corpus of instructional videos. The proposed end-to-end model outperforms the previously proposed cascaded model by 3 points absolute on ROUGE. Further, we consider the spoken language understanding task of predicting concepts from speech inputs and show that the proposed end-to-end model outperforms the cascade model by 4 points absolute F-1.


翻译:语音摘要通常通过使用语音识别和文本摘要模型的级联来进行。语音摘要模型的端到端建模由于记忆和计算长输入音频序列产生的限制而具有挑战性。文件摘要的近期工作启发了降低自省复杂性的方法,使变压器模型能够处理长序列。在这项工作中,我们引入了单一的单一模型,使语音摘要模型的端到端优化。我们从基于文字的模型到语音模型,将有限的自留技术应用到语音模型,以解决记忆和计算限制。我们证明,拟议的模型学习直接总结“如何-2套教学视频”的语音。拟议的端到端模型在ROUGE上以绝对的3点比先前提议的级联模型高出了3个。此外,我们考虑了从语音投入中预测概念的口头语言理解任务,并表明拟议的端到端模型比级模型的绝对F-1点超出4个级联模型。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
【文本摘要】Text Summarization文本摘要与注意力机制
深度学习自然语言处理
9+阅读 · 2020年3月15日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
48+阅读 · 2021年9月11日
Arxiv
4+阅读 · 2019年12月2日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2019年3月19日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年12月18日
VIP会员
相关VIP内容
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
【文本摘要】Text Summarization文本摘要与注意力机制
深度学习自然语言处理
9+阅读 · 2020年3月15日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
48+阅读 · 2021年9月11日
Arxiv
4+阅读 · 2019年12月2日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2019年3月19日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年12月18日
Top
微信扫码咨询专知VIP会员