Automatic height and age estimation of speakers using acoustic features is widely used for the purpose of human-computer interaction, forensics, etc. In this work, we propose a novel approach of using attention mechanism to build an end-to-end architecture for height and age estimation. The attention mechanism is combined with Long Short-Term Memory(LSTM) encoder which is able to capture long-term dependencies in the input acoustic features. We modify the conventionally used Attention -- which calculates context vectors the sum of attention only across timeframes -- by introducing a modified context vector which takes into account total attention across encoder units as well, giving us a new cross-attention mechanism. Apart from this, we also investigate a multi-task learning approach for jointly estimating speaker height and age. We train and test our model on the TIMIT corpus. Our model outperforms several approaches in the literature. We achieve a root mean square error (RMSE) of 6.92cm and6.34cm for male and female heights respectively and RMSE of 7.85years and 8.75years for male and females ages respectively. By tracking the attention weights allocated to different phones, we find that Vowel phones are most important whistlestop phones are least important for the estimation task.


翻译:使用声学特征的发言者的自动高度和年龄估计被广泛用于人体-计算机互动、法证等目的。在这项工作中,我们提出一种新颖的注意机制,即利用关注机制来建立一个用于估计身高和年龄的端到端结构。注意机制与长期短期内存编码器相结合,能够捕捉输入声学特征的长期依赖性。我们修改传统使用的注意方法 -- -- 计算背景矢量,仅在时间跨时间跨时间跨度时段注意的总和 -- -- 引入一个经过修改的上下文矢量,该矢量也考虑到各编码单位的完全注意,给我们一个新的交叉注意机制。除此之外,我们还调查共同估计发言者身高和年龄的多任务学习方法。我们在TIMIT文集上培训和测试我们的模型。我们的模型超越了文献中的若干方法。我们分别对男女高度的根平均值(RMSE)为6.92cm6.34厘米,对男女高度的根平均值为6.85年,而RME为8.75年,给我们提供了一个新的交叉注意机制。除此之外,我们还调查了一种多任务学习方法,以联合估计发言者的重量分别用于不同的移动电话。

0
下载
关闭预览

相关内容

注意力机制综述
专知会员服务
199+阅读 · 2021年1月26日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
145+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
tensorflow LSTM + CTC实现端到端OCR
机器学习研究会
26+阅读 · 2017年11月16日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
3+阅读 · 2018年3月14日
VIP会员
相关资讯
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
tensorflow LSTM + CTC实现端到端OCR
机器学习研究会
26+阅读 · 2017年11月16日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员