怒拒 Facebook 后,传奇语音大牛、Kaldi 之父将加盟小米

2019 年 10 月 18 日 新智元

AI WORLD 2019 世界人工智能峰会今日开幕!


10 月 18 日,2019 中关村论坛平行论坛 ——AI WORLD 2019 世界人工智能峰会在北京启幕。峰会由海淀区政府、中关村科学城管委会主办,新智元、海淀园管委会、智源研究院承办。新智元杨静、科大讯飞胡郁、微软王永东、华为王成录、英特尔宋继强、旷视及智源学者孙剑、滴滴叶杰平、AWS 张峥、依图颜水成、地平线黄畅、autowise.ai 黄超等重磅嘉宾中关村论剑,重启充满创新活力的 AI 未来。峰会现场,新智元揭晓 AI Era 创新大奖,并重磅发布 AI 开放创新平台和献礼新书《智周万物:人工智能改变中国》。峰会多平台同步直播,马上观看:

【腾讯科技】
客户端:https://view.inews.qq.com/a/TEC2019101600718500    
PC 端:http://v.qq.com/live/p/topic/74606/preview.html
【海淀融媒】
上午场:m.365yg.com/i6748195040323062540/      
下午场:m.365yg.com/i6748216659368184584/
【新浪科技】
http://video.sina.com.cn/l/p/1728577.html



   新智元报道  

编辑:鹏飞、张佳
【新智元导读】由于一场学生闹剧被约翰·霍普金斯大学开除语音大牛、语音识别开源工具Kaldi之父Daniel Povey的新动向近日终于明晰:他将加盟小米公司。你对Dan加入小米怎么看?欢迎来新智元 AI 朋友圈与大咖一起讨论~


近日,国际语音识别领域的大神级人物、前约翰·霍普金斯大学教授、 语音识别开源工具 Kaldi 的开发者 Daniel Povey 的新动向终于明晰了:他将加盟小米公司


Daniel Povey在个人Twitter上宣布,他已经非常接近与小米签订一项工作协议,工作地点位于北京;他还表示将在2019年底动身前往北京,并将在那里组建一个小团队,开发新一代的“PyTorch-y” Kaldi。


Daniel Povey的推特


今年8月,Dan Povey 因一场学生闹剧被约翰·霍普金斯大学解雇。

Dan Povey


Facebook 马上向 Dan Povey 伸出橄榄枝,Dan 接受了。


但 Facebook 表示暂时只能给 Dan 6 个月的 “合同工” 合约,直到完成对所发生的事情的调查,并将根据调查结果决定是否正式聘请。


Dan 拒绝了,并讽刺 Facebook 的所作所为让他感觉 “déjà vu(似曾相识)”。


Dan 随后在个人主页上汇报,他计划去一家中国公司工作,并且 “或许会在一所中国大学兼职”。


消息一出,国内学界业界颇为兴奋,纷纷猜测大神将去哪儿。



现在,Dan Povey 的新工作终于明晰:这家中国公司,就是小米


目前尚不知道Dan将在小米从事哪方面的工作,不过,从双方的情况来看,Dan在小米应该会继续从事语音方面的研究,帮助推动小米旗下语音平台 —— 小爱同学的发展。


语音界传奇 Dan,开发 Kaldi 撑起语音识别开源软件半边天

非语音方向的读者可能不熟悉 Dan Povey,在语音界,Dan Povey 可以说是一个传奇。

Dan Povey 是语音界赫赫有名的大佬,根据 LinkedIn 的信息,自 2012 年以来,他一直在约翰・霍普金斯大学担任助理研究教授。在加入霍普金斯大学之前,他曾在微软和 IBM 担任研究员。


略扫一遍知乎上的讨论,我们发现,Dan 教授在学生中有着极高的声誉,他的一堆 “标签” 甚至让路人圈粉。


他曾经的学生说:“Dan 是我见过的最纯粹耿直善良的 researcher,不仅学术水平极佳,至今仍居 coding 一线,灵感来了写代码写到不舍昼夜,仅靠一个土豆维生。”


工作狂 :Dan 是个工作狂,据称,他每天工作 14 小时以上,除了回复邮件,就是在写代码;


热心 :关心学生、主动兼任维护服务器、出来开会曾为了帮助穷学生而 share 旅馆,甚至经常给无家可归者钱;


纯粹 :他的理想是 “干掉” Nuance(一家早期非常有名的语音识别公司),给大家提供免费的语音识别工具。这让他在并不十分美好的巴尔的摩一呆就是 7 年,全心地开发和维护 Kaldi;Kaldi 的论坛上,几乎每个帖子都能得到回复,Dan 回复邮件几乎是有求必应。


……


Dan Povey 最著名的工作是领导开发了  Kaldi ,这是一个开源的语音识别工具包,在 Apache 许可下免费提供。


Kaldi 旨在为语音识别开发者提供灵活、可扩展的软件,支持线性 linear transforms、MMI、 boosted MMI 和 MCE 判别训练、特征空间判别训练和深度神经网络,并且已经提供 TensorFlow 集成。

关于 Kaldi 名字的来源,据说 Kaldi 是传说中发现咖啡的咖啡之神的名字,Dan 希望工具包像咖啡那样容易、方便、流行。


现在,Kaldi 已经成为最广泛使用的开源语音识别工具包之一,许多语音识别团队都依靠 Kaldi。这套工具包自 2011 年发布以来,下载量已经超过了两万多次,合著的论文目前也已经被引用一千多次。可以说 Kaldi 撑起了语音识别开源软件的半边天。


Kaldi 的影响是巨大的,它是第一个完全用 C++ 编写的,基于加权有限状态及理论的语音识别开源软件,它的模块化与高度可扩展性设计,详细的说明文档,完备公开的教程,也是它受广大开发者喜爱的一个主要原因。


它目前被业界广泛采用作为标准工具,包括学术界的 MIT、CMU、GHU、剑桥,国内的清华、上海交大等等,工业界包括微软、谷歌、IBM,Facebook 等等,它的推出也极大推进整个语音识别领域的发展。


有趣的是,Dan Povey 也是剑桥大学语音识别工具包 HTK 的作者之一,他是领导 HTK 工具包开发的 Phil Woodland 教授的学生。经过若干年的发展,Kaldi 集成的技术已经多于 HTK,老师开发了第一代语音识别开源软件,学生开发了第二代语音识别开源软件。

一场学生闹剧令语音大牛遭解雇:教授深夜闯入,只为夺回服务器


语音界大佬愤而出走,怒拒 Facebook转投中国,缘起于一次 “为了夺回服务器” 的反抗,以及因此发生的一场闹剧式的解雇风波。


事情生在 5 月 7 日的午夜,Dan Povey 带着一把断线钳,试图趁着夜黑风高闯入被抗议的学生占领的行政楼,夺回 CLSP(语言语音处理中心)维护的服务器的控制权。


被学生占领的 Garland Hall 外墙


在这之前,行政楼 Garland Hall 已经被静坐抗议的学生占领长达 34 天,他们将窗户封紧,大门用铁链锁上。


但 Dan 负责维护的 CLSP 的服务器在大楼里,在试图向学校申请进入大楼维护服务器无果之后,他决定阻止这场抗议。


Dan 以工作狂闻名,他的学生 Guoguo Chen 在知乎上说:“这么些年和 Dan 接触下来,感觉有两个点是不能触碰的,一个是时间,一个是服务器。”


Guoguo Chen 说:“Dan 还有一个不能接受的便是服务器的不稳定。Dan 在很多事情上都比较宽容,但是如果谁乱用了服务器的资源,会收到 Dan 非常严厉的警告。Dan 觉得数据和计算资源,对整个 CLSP 来说,都是非常非常重要的资产,需要随时保证 CLSP 的每一个人都可以使用到。我相信这也是为什么 Dan 在这次事件中,会试图夺回服务器,避免数据和及其资源的损失。”


根据当地报纸的报道,那天夜里,在其他六名 “社会闲散人士” 的陪同下,Dan 携带钳子前往大楼,费力地试图剪断抗议学生在门上绑的铁链,夺回服务器的控制权。


视频拍摄到 Dan 被学生们推出大楼

但他失败了。随即引发了肢体冲突,Dan 被学生们推挤出大楼。Dan 在他的网站上解释,强行进入大楼是因为研究用的服务器故障,而该服务器在学生占领的大楼内。


“夺回服务器” 事件后,Dan Povey 先是被停职,随后在 8 月 8 日,被校方以 “危害学生安全” 为由解雇。


Dan 公开了这封解雇信,并说他会提前离开。他在自己的网站上辩护说:“或许我失去了工作,但至少我依旧保有尊严和独立的思想。


他说,自己被炒鱿鱼是因为他是白人男性,而抗议的学生是少数族裔。在个人主页的陈述中,他写道:“对于美国人及美国各类机构而言,似乎没什么比被指控种族主义(或类似主义)更可怕的了。这导致了我们这里看到的荒谬的事实:如此巨大的机构竟因几个被蛊惑的孩子陷入瘫痪。”


他表示自己有很多出路:“我告诉朋友,再不济我就到中国或者俄罗斯去。但我要告诉各位,不论发生什么,我永远不会道歉,不会退缩。”


在公开信中,他写道:

最后,我留下几句鲍勃·迪伦的歌词:


我不对我做的任何事感到遗憾

我很高兴我战斗了,我只希望我们胜利


最后,欢迎 Dan 来中国,祝福他在中国的工作愉快~

更多阅读:
语音界传奇Dan Povey突遭美霍普金斯大学解雇,计划转投中国

Dan 的主页:

http://www.danielpovey.com/index.html

知乎讨论:

https://www.zhihu.com/question/339481009



目前,新智元AI朋友圈已经汇聚了包括贾扬清、周志华、胡郁、王永东、宋继强、周伯文、孙剑、颜水成、黄超、汪玉等在内的众多产学研AI领袖,成为首个汇聚人工智能百万创新者与开发者的生态社区,欢迎加入!

登录查看更多
0

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
还在修改博士论文?这份《博士论文写作技巧》为你指南
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
【哈佛《CS50 Python人工智能入门》课程 (2020)】
专知会员服务
111+阅读 · 2020年4月12日
【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程
专知会员服务
82+阅读 · 2019年12月11日
【课程】概率图模型,卡内基梅隆大学邢波
专知会员服务
69+阅读 · 2019年11月4日
在中国被禁的探探,正在印度兴起
腾讯创业
4+阅读 · 2019年5月18日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
华为和其“公关危机”下的5G发布会
1号机器人网
7+阅读 · 2019年1月27日
无人驾驶免费、人脸识别免费、语音识别免费…百度要干啥?
人工智能机器人联盟
4+阅读 · 2017年12月15日
高二进清华,大二开公司,29岁登上福布斯亚洲领袖人物榜
人工智能机器人联盟
5+阅读 · 2017年11月18日
吴恩达:AI论文已经够多了,赶紧“搞点事”吧!
全球人工智能
4+阅读 · 2017年11月15日
吴恩达说,AI论文够多了,赶紧搞吧!
云头条
20+阅读 · 2017年11月13日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
10+阅读 · 2018年2月4日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关资讯
在中国被禁的探探,正在印度兴起
腾讯创业
4+阅读 · 2019年5月18日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
华为和其“公关危机”下的5G发布会
1号机器人网
7+阅读 · 2019年1月27日
无人驾驶免费、人脸识别免费、语音识别免费…百度要干啥?
人工智能机器人联盟
4+阅读 · 2017年12月15日
高二进清华,大二开公司,29岁登上福布斯亚洲领袖人物榜
人工智能机器人联盟
5+阅读 · 2017年11月18日
吴恩达:AI论文已经够多了,赶紧“搞点事”吧!
全球人工智能
4+阅读 · 2017年11月15日
吴恩达说,AI论文够多了,赶紧搞吧!
云头条
20+阅读 · 2017年11月13日
Top
微信扫码咨询专知VIP会员