课程简记:深度学习与人类语言处理 ——李宏毅,2020 (P2&3)

2020 年 8 月 26 日 AINLP

原创 · 作者 | 阿芒Aris

学校 | 北京理工大学

研究方向 | 自然语言处理



语音识别系统中的输入和输出

李宏毅老师2020新课深度学习与人类语言处理课程主页:
http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
视频链接地址:
https://www.bilibili.com/video/BV1RE411g7rQ
课程视频及课件请关注AINLP公众号,回复'DLHLP'获取

P2 是课程安排,无需阐述

Speech Recognition 语音辨识 输入输出部分


输入:语音,形式化表示为 长度为T,维度为d 的向量
输出:文字,形式化表示为 长度为N 的tokens序列,词表(tokens总数)为V

输入:Acoustic Feature 声学特征


如何将一段语音转换为长度为T,维度为d 的向量,详细可参考《数位语音处理》第七章
  类似于word2vec里的window一样,从头取25ms的语音,将这25ms的语音转换为一个向量frame(音框),之后往右移10ms的框框,则可以得到在1s内将得到100个frames(注意,相邻的frame将会有重叠,且数据量很大)
其中这个frame形式有三种:

  1. 传统的400 个sample点(假设16KHz的声波,则25ms内便有400个点,400个数值)

  2. 39维的MFCC,不细讲可参考下图

  3. 80维的filter bank output,近年来流行的,取代

根据统计ICASSP、ASRU,得到 :

Frame Probability
filter bank output 75%
MFCC 18%
waveform 4%
spectrogram 2%
other 1%


(一个window的音波做DFT (离散傅里叶变换Discrete Fourier Transform)得到spectrogram,这一步很重要,因为声音讯号颇为复杂,同样人听起来一样的声音其声音讯号可能会有大不同,而经过DFT得到spectrogram是与同义的声音讯号有较强的相关性,之后再通过filter bank(根据哺乳类声学器官设计的filter),通常会再取log(log很重要,讯号处理中的log很巧妙),再经过离散余弦变换DCT(Discrete Cosine Transform)得到最终的MFCC

输出:Token

与传统的文字处理不同,一般的文字处理都以词表中的词为token,而声学中有四种主流的token形式

  1. Phoneme: a unit of sound 音位,音素 (发音的基本单位)

      可将模型的输出选为phoneme,如读取语音one punch man 输出 W AH N P AH N CH M AE N ,再根据Lexicon(可视为“词汇表”)还原文本,而这个Lexicon是需要一定的语言学家提供,很多语言是找不到Lexicon的

  2. Grapheme:the smallest unit of a writing system (书写的最小单位,如英文字母、中文汉字)

       依旧是 one punch man的语音输入,可将输出选为one_punch_man, 26个英文字母加空格和其他特殊符号,对于中文可以直接使用字且无空格的要求。

  3. Word:词

       直接输出词,对于很多语言来说,词有很多,如中文,常用字较少,但词可谓无数

  4. Morpheme:the smallest meaningful unit (<word,>grapheme) 词素(有意义的词根及其扩展)

      输出词根+词缀,而得到这样的数据有两种方法,其一linguistic语言学家、其二statistic统计得到。

  5. Bytes

      这是最新的一种token方式,根据UTF-8编码通过语音预测bytes,其优点在语言无关性。

根据统计:

Tokens Probability
Grapheme 字母、汉字 41%
Phoneme 音素 32%
Morpheme 词根、缀 17%
Word 词 10%

数据集

模型


将在下一篇中解释模型

欢迎大家评论指正,共同学习。




本文由作者授权AINLP原创发布于公众号平台,欢迎投稿,AI、NLP均可。原文链接,点击"阅读原文"直达:


https://blog.csdn.net/qq_44574333/article/details/108045411



欢迎加入李宏毅老师课程学习交流群
进群请添加AINLP小助手微信 AINLPer(id: ainlper),备注李宏毅




推荐阅读

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,分享、点赞、在看三选一吧🙏

登录查看更多
0

相关内容

李宏毅(Hung-yi Lee)目前任台湾大学电机工程学系和电机资讯学院的助理教授,他曾于 2012 年获得台湾大学博士学位,并于 2013 年赴麻省理工学院(MIT)计算机科学和人工智能实验室(CSAIL)做访问学者。他的研究方向主要是机器学习(深度学习)和语音识别。
专知会员服务
39+阅读 · 2020年10月17日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
103+阅读 · 2020年8月30日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
李宏毅 -《深度学习人类语言处理》国语版(2020)视频课程及ppt分享
一文让你入门CNN,附3份深度学习视频资源
机器学习算法与Python学习
12+阅读 · 2018年3月10日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
干货 | 自然语言处理(3)之词频-逆文本词频(TF-IDF)详解
机器学习算法与Python学习
3+阅读 · 2017年12月19日
机器学习(29)之奇异值分解SVD原理与应用详解
机器学习算法与Python学习
5+阅读 · 2017年11月30日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
Arxiv
0+阅读 · 2020年10月9日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
5+阅读 · 2020年3月26日
Arxiv
6+阅读 · 2019年7月11日
Deep Learning for Energy Markets
Arxiv
10+阅读 · 2019年4月10日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
4+阅读 · 2017年7月25日
VIP会员
相关资讯
李宏毅 -《深度学习人类语言处理》国语版(2020)视频课程及ppt分享
一文让你入门CNN,附3份深度学习视频资源
机器学习算法与Python学习
12+阅读 · 2018年3月10日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
干货 | 自然语言处理(3)之词频-逆文本词频(TF-IDF)详解
机器学习算法与Python学习
3+阅读 · 2017年12月19日
机器学习(29)之奇异值分解SVD原理与应用详解
机器学习算法与Python学习
5+阅读 · 2017年11月30日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
相关论文
Arxiv
0+阅读 · 2020年10月9日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
5+阅读 · 2020年3月26日
Arxiv
6+阅读 · 2019年7月11日
Deep Learning for Energy Markets
Arxiv
10+阅读 · 2019年4月10日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
4+阅读 · 2017年7月25日
Top
微信扫码咨询专知VIP会员