谷歌AI拜大年:为聋哑人带来科技福利,首页涂鸦有惊喜

2019 年 2 月 5 日 量子位
晓查 发自 家中
量子位 出品 | 公众号 QbitAI

大年初一,谷歌用人工智能为大家带来了双份的喜悦。

首先是谷歌AI博客更新了一项新的技术,为聋哑人带来了科技福利,只要有一部Android手机就能享受到实时语音转文字的技术。

逢年过节,谷歌涂鸦(Google Doodle)自然也不会缺席,今年过年谷歌把TensorFlow技术融入Doodle中,每个人都可以试一试这个十二生肖皮影戏。

实时语音转文字

这项服务名为实时转写(Live Transcribe),现已在谷歌Play商店提供免费下载

Live Transcribe支持70多种语言,覆盖全球80%以上的人口,当然包括中文在内。

语言转文字已经不是什么稀奇的技术,谷歌也早已在YouTube中加入了这项功能。但Live Transcribe的强大之处在于,它达到了为聋哑人提供实时对话的实用程度。

以前基于实时语音转文字,通常需要计算密集型模型、详尽的用户研究和昂贵的连接访问。

为了解决这些问题,谷歌使用云服务提高实时转写的准确性,但也带来了的网络数据消耗的问题。

为此,谷歌基于此前在AudioSet上的VGGish模型,实现了一个基于设备的神经网络语音检测器。它能检测语音并自动管理到云端的网络连接,最大限度地减少长时间的数据使用。

为了使实时转录尽可能直观,谷歌与专门面向聋人提供高等教育的加拉德特大学合作,启动用户体验研究合作。

转换后的文字需不需要用不同颜色显示单词的可信度?这是一个问题。传统上认为这对用户有帮助。


而谷歌的研究表明,如果这些单词如果在可信度上没有区分,文本反而更易于阅读。因此Live Transcribe展示的文字全是白色。

另一个提升用户体验的是显示当前环境噪声水平。在嘈杂房间里识别讲话内容是一个很大的挑战。

为了解决这一问题,软件中加入了一个指示器,形象地展示语音与噪声的大小关系,让用户根据实际情况实时调整手机话筒的位置。上图中的小圆点代表环境噪声大小,大圆表示语言的实时音量。

最后附上Live Transcribe的下载地址:

https://play.google.com/store/apps/details?id=com.google.audio.hearing.visualization.accessibility.scribe

十二生肖皮影戏

谷歌今天首页的Doodle已经变成庆祝中国农历新年,内容不仅仅是猪年的窗花,点击进去有更多惊喜——用TensorFlow技术教你皮影戏。

皮影戏是中国一种讲故事的古老艺术方式,用剪纸或手势放在光源前,投影在半透明的屏幕上。

现在,所有人都可以用Google Doodle的影子艺术来庆祝农历新年。用户可以在相机前摆出不同手势变化出十二生肖造型。

去年谷歌就已经开始利用TensorFlow和TPU处理器来识别用户的手势,现在又用TensorFlow.js把它移植到浏览器中,在任何带前置摄像头的手机或电脑上都可以直接运行这套手势识别的机器学习模型。

试玩地址:

https://shadowart.withgoogle.com/?lang=zh-cn

加入社群

为给AI从业者提供更好的交流平台,量子位现开放「AI+行业」社群,将会不定期邀请AI大咖、知名企业家、技术大牛进群分享,福利多多,欢迎小伙伴入群交流。


面向人群:AI相关从业者,技术、产品等人员,根据所在行业可选择相应行业社群;


入群方式:请在量子位公众号(QbitAI)对话界面回复关键字“行业群”,获取入群方式。


Ps.为保证社群价值,小助手会对申请入群的朋友进行审核,请大家理解!

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !



登录查看更多
0

相关内容

谷歌公司(Google Inc.)成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎。公司总部称为“Googleplex”,位于美国加州圣克拉拉县的芒廷维尤。业务包括互联网搜索、云计算、广告技术等,同时开发并提供大量基于互联网的产品与服务,其主要利润来自于AdWords等广告服务。
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
61+阅读 · 2020年5月25日
专知会员服务
31+阅读 · 2020年4月24日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
Kong 1.1 带来声明式配置与无数据库部署模式
开源中国
8+阅读 · 2019年3月28日
谷歌NeurIPS 2018:全新NLP工具炼成会改变文风的AI
全球人工智能
3+阅读 · 2018年12月12日
怎样用声纹识别,提升智能硬件产品的用户体验?
人人都是产品经理
6+阅读 · 2018年8月27日
亚马逊发布实时人脸识别功能,精度提高10%
AI前线
4+阅读 · 2017年11月22日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关资讯
相关论文
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
3+阅读 · 2017年12月18日
Top
微信扫码咨询专知VIP会员