成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
投喂4万种噪声,20种语言方言实时转录,搜狗「开挂」录音笔这样炼成
2020 年 2 月 28 日
机器之心
机器之心报道
作者:寓扬
一款「开挂」的录音笔,你会喜欢吗?
在 AI 的加持下,录音笔仿佛有了开挂的「人生」:
最高支持 10 米远距离拾音,可过滤 4 万余种真实噪音;可根据用户语言习惯个性化转写,语音转写准确率达 98%;还能区分不同人声,做重点标记,自动提炼摘要。
它还能充当你的翻译官,支持 63 种语言的对话翻译,以及同声传译。
你可以用它做会议录音、听课记录、采访,也可以用它与不同国家的游客交流,甚至可以拿着它刷美剧。
没错,这正是搜狗新推出的新款 AI 录音笔 S1。它的背后,不单单是一款硬件,更是搜狗 AI 能力的集合。
搜狗公司 CEO 王小川道出了他们做 AI 硬件的目的,「随着 AI 技术的进步,我们希望用户能更自由的表达,用你的声音、表情或肢体来表达,机器就可以理解,这些我们能做到的时候,就算达到了一个技术高度。」
01、搜狗 AI 录音笔是如何炼成的?
从搜狗输入法到语音交互、机器翻译,再到 AI 硬件,这背后有着深刻的搜狗 AI 发展逻辑。
早在 2016 年,当时搜狗没有做 AI 硬件,而是做了语音开放平台「知音引擎」,尝试技术输出。
但当时各路语音平台纷纷涌现,方案上没有谁真正不可替代,客户往往在多家间来回切换。另一方面,通用技术平台体验并不理想,加上 AI 行业处于早期,软件免费的思路还停留在很多人心中。
因此从 2017 年下半年开始,搜狗开启 AI 硬件的探索,沉淀技术,打磨硬件与场景。
2018 年上半年,搜狗推出探索之作——AI 翻译机和 AI 录音笔。
如今 AI 硬件,已和输入法、搜索一样,是搜狗的几大重要战略之一。
接着 2019 年 3 月,搜狗又推出一款小巧的 AI 录音笔 C1,它具备了最新产品的雏形,支持语音转写、云端分享、中英同传等多种 AI 功能。
更重要的是,C1 的出现让略显疲态的录音笔行业鲜活了起来。经过用户一段时间的使用,搜狗对用户行为数据深入分析后,第一次呈现了用户的真实画像。
搜狗发现,使用录音笔的第一大场景并非大家预想的媒体采访,而是企业内部的商务场景,比如会议记录,占比高达 44%;其次是学习培训占比 24%,媒体采访占比 21%,这三大场景占总使用场景的近九成。
正是基于对三大场景的思考,在 C1 的基础上,搜狗推出全新的 S1 和 E1 两款 AI 录音笔,还与故宫宫廷文化合作推出两款联名产品。
对比这两代产品,搜狗 CTO 杨洪涛解释,C1 系列解决的是随身便携的录音需求,可以像领件一样夹在衣领上,它的使用空间相对近场,一般不要超过 3 米。而最新发布的 S1 和 E1 产品,主要解决复杂场景的录音需求,能在多人会议、课堂听讲、嘈杂背景采访中使用,可将使用范围扩大到 5~10 米。
为了满足更为复杂专业的需求,搜狗在远距离拾音、降噪上投入颇多。AI 录音笔 S1 搭配 2 颗哈曼指向性麦克风和 6 颗全向麦克风,在麦克风阵列算法的加持下,可有效过滤噪音,实现最高 10 米远距离拾音。
更重要的是,它还采用 AI 降噪,能够过滤 4 万余种真实噪音,让人声收录更清晰。
搜狗 AI 交互技术部总经理陈伟解释道,
在硬件降噪基础上,搜狗首次将基于深度学习的降噪能力完全产品化。「我们使用了 4 万多种噪声,让模型学习到人声与噪声的区别,从而达到超出麦克风阵列以及行业其他降噪方案的更好降噪效果。」
在现场的测试环节,AI 录音笔 S1 面对键盘敲打、吹风机等的考验下,依然能够过滤噪音,提取清晰的人声。
可以看出,在硬件之路上摸爬滚打近 3 年后,搜狗对于 AI 硬件的理解也更为深刻。
只有面向用户体验,深入场景打磨技术,将技术、硬件、场景融合才能构建 AI 的竞争力。
02、AI 要转化为服务能力
搜狗内部有一句话叫,只做技术是不够的,技术要转化为服务能力。因为没有面向场景的深度优化,技术往往是一种鸡肋。
搜狗 AI 录音笔 S1
围绕多人会议、学习培训、媒体采访等核心场景,搜狗 AI 录音笔 S1 除了做到
「超强拾音」
外,还具备
「准确转写」
、
「高效整理」
、
「全能翻译」
的能力,也呈现出搜狗将技术转化为服务能力的思考。
如果放在一个工作流中,录完音后,如何准确快速地语音转写至关重要。如果交给人来做是个繁重的体力活,而语音转写软件多不准确。
搜狗称,
AI 录音笔 S1 及 E1 目前已能达到 98% 的转写准确率
。这一数字背后搜狗做了大量的优化工作。
首先,搜狗输入法每天 8.3 亿次的语音请求,为听写服务提供了绝佳的「练兵场」,结合远场语音数据和真实场景的优化,已能将准确率达到不错的效果。
在此基础上,搜狗又打通用户输入法账号,根据用户的语言习惯,进行个性化转写。此外,搜狗语音团队还专门围绕财经贸易、医疗卫生、IT 科技、政法、文化体育等 5 个领域,构建专用语言模型,进一步提升行业词汇的识别,做到了 98% 的准确率。
S1 及 E1 这两款产品也十分高效,均可做到录音 1 小时,出稿 5 分钟,并且支持 10 种语言和 10 种方言的录音与转写。
搜狗 AI 录音笔 E1
接下来是高效整理。结合使用场景,搜狗做了一些非常实用的功能点,让人印象深刻的是
「敲重点」和智能摘要
技术。
当你在听课或者参加会议时,突然听到一句神来之笔或者金句,「敲重点」就派上用场了。S1 有一个专用「M」键,按一下,它就会将这句话标记为重点。
面对一篇万字长文,如何能快速获取其关键信息。正是出于这种考虑,搜狗推出智能摘要功能,但其效果如何呢?
陈伟坦言,在 AI 录音笔中提取摘要,远大于学术研究中的摘要生成问题,因为录音笔是在噪声环境下,语音识别难以保证 100% 的准确率,从噪音文本中整理出符合文章语意的摘要是相当困难的。
因此在技术路线上,搜狗没有使用生成模型,而是采用抽取式的摘要能力,基于原文找到关键词,再通过排序算法,从文章中抽取关键句,形成摘要,保证足够的精度。
此外,AI 录音笔 S1 还能支持 5 人内的人声分离,从而在文稿中自动分段呈现。考虑到掌声、笑声、点赞等节点可能会出现一些重点或金句,它还会自动识别并重点标记。
除了录音笔所需要的服务外,搜狗还将 AI 翻译能力内嵌其中。
目前搜狗 AI 录音笔 S1 支持 63 个语种的在线翻译,9 种离线翻译。在对话过程中,S1 还具备自由对话功能,能够自动识别说话人是否讲完,进而呈现翻译结果,无需手动操作。
此外,它还具备同声传译功能,你可以带着它听英文演讲、报告,屏幕上就会同步翻译中文字幕。
种种服务背后,正如搜狗 CTO 杨洪涛所言,
AI 录音笔是为了让人们更自由的表达,而这背后所用到的技术,相当多是对搜狗原有技术体系的复用,并针对硬件做更好的 AI 优化。
03、AI 加持,行业呈现「新蓝海」
与搜狗 AI 录音笔迭代一同上演的是,录音笔行业的洗牌与变革。
录音笔是一个相对狭小的传统市场,过去 20 年间没有太多变化,随着智能手机集成功能的持续丰富,它面临被手机替代的风险。
因此我国录音笔每年销量在 400 多万台徘徊,增长基本停滞,市场多被索尼、爱国者、纽曼等硬件厂商占据。
随着搜狗 AI 录音笔 C1 推出,市场格局开始出现变化。2019 年 6 月,它便成为京东录音笔类目单品销量冠军、天猫录音笔类目单品销售额冠军,随后 11 月又拿下天猫京东双平台单品总销量冠军。
更为重要的是,AI 录音笔的出现,在主流电商平台上,让原本趋于平缓甚至下滑的录音笔品类访客数据明显上升,
既有的市场天花板正在被打破,行业呈现「新蓝海」。
到 2020 年一季度,AI 录音笔的销量已占据整个录音笔市场的 35%,行业变革正在上演。
与此同时,行业逐渐意识到 AI 优质服务的重要性,不少公司主动找到搜狗,甚至包括一些硬件上的竞争对手,询问能否购买搜狗的 AI 能力。
对于搜狗而言,尽管在硬件上取得一定成绩,但很难一家独大。因为在 C 端硬件市场,即使是最大的玩家,也很难占据 50% 以上的市场份额。但软件不同,后者可以发挥网络效应,一家独大。
内外部因素碰撞下,搜狗决定再往前迈一步,开放 AI 录音笔背后的听写服务。去年 8 月,搜狗联合爱国者、纽曼、索尼录音笔、万城集团等录音笔行业头部企业,成立 AI 创新联盟,将搜狗 AI 能力开放给业界。
传统录音笔以硬件为主的商业模式也正在被打破,「硬件+服务」的新型收益模式正在形成。
搜狗 CTO 杨洪涛称,「过去传统硬件主要是卖毛利,未来我们希望探索一种服务化模式,通过 AI 能力向用户提供更多增值服务,扩展传统商业模式的空间。」
在 AI 录音笔身上,我们看到两条不断交织的线,一条是搜狗 AI 的演进线,在「自然交互+知识计算」的指引下,从最初的语音识别发展到机器翻译、搜狗分身,再到如今的多模态交互。
另一条是 AI 硬件变革线,将 AI 能力不断注入硬件中,升级一个行业,而录音笔只是第一个。
本
文为机器之心报道,
转载请联系本公众号获得授权
。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):
hr@jiqizhixin.com
投稿或寻求报道:content
@jiqizhixin.com
广告 & 商务合作:
bd@jiqizhixin.com
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
搜狗
关注
1
搜狗凭借对前瞻性技术趋势的把握和敏锐的市场嗅觉,已经成为中国互联网的创新典范,也是最具发展潜力的公司之一。搜狗的产品围绕互联网的最基础应用,其中输入法、浏览器、搜索三大产品均名列前茅。2010年8月9日,在引入阿里巴巴集团和云峰基金等战略投资者之后,搜狗从搜狐分拆,成为独立运营的公司,王小川出任搜狗首席执行官。
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【Nature论文】定量和定性变量混合的材料设计的贝叶斯优化
专知会员服务
20+阅读 · 2020年3月19日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
2019年人工智能发展白皮书,中国科学院大数据挖掘与知识管理重点实验室,附47页pdf
专知会员服务
160+阅读 · 2020年2月27日
人类语言技术展望,中国科学院自动化研究所研究员宗成庆
专知会员服务
47+阅读 · 2020年2月15日
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
智能客服在腾讯游戏的实践,腾讯AI平台部 智能客服方向技术负责人唐国华,第八届全国社会媒体处理大会SMP2019
专知会员服务
36+阅读 · 2019年10月24日
问答与对话-技术与系统之问答系统【唐都钰 段楠】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期
专知会员服务
50+阅读 · 2019年10月23日
面向社会媒体的多模态情感分析与表达,搜狗AI交互技术中心高级总监陈伟,第八届全国社会媒体处理大会SMP2019
专知会员服务
48+阅读 · 2019年10月22日
2019语音技术报告:语音经济规模将超移动应用
新智元
9+阅读 · 2019年7月23日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
搜狗AI合成主播再次进化,发布站立式合成主播
量子位
3+阅读 · 2019年2月20日
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
微软文本-语音合成转换技术新里程碑!完美再现真人声调
新智元
4+阅读 · 2018年9月25日
业界 | 专访达观数据CEO陈运文:文档审阅2.0时代到来
机器之心
4+阅读 · 2018年8月16日
解密阿里妈妈“AI 智能文案”:1 秒钟 20000 条背后的奥妙
雷锋网
5+阅读 · 2018年6月21日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
Google 推出最强 AI 产品阵容,但他们却觉得更该让 AI 人人可得
PingWest品玩
4+阅读 · 2017年12月2日
智能语音成“AI四大项目” 千亿市场待开发
IT时报
3+阅读 · 2017年11月26日
Text Level Graph Neural Network for Text Classification
Arxiv
9+阅读 · 2019年10月8日
Latent Relation Language Models
Arxiv
21+阅读 · 2019年8月21日
Object Tracking in Satellite Videos Based on a Multi-Frame Optical Flow Tracker
Arxiv
5+阅读 · 2018年4月25日
A Study on Overfitting in Deep Reinforcement Learning
Arxiv
7+阅读 · 2018年4月20日
Unsupervised Machine Translation Using Monolingual Corpora Only
Arxiv
5+阅读 · 2018年4月13日
Large Scale Local Online Similarity/Distance Learning Framework based on Passive/Aggressive
Arxiv
5+阅读 · 2018年4月5日
Parallel Tracking and Verifying
Arxiv
8+阅读 · 2018年1月30日
Finding ReMO (Related Memory Object): A Simple Neural Architecture for Text based Reasoning
Arxiv
4+阅读 · 2018年1月26日
Polypus: a Big Data Self-Deployable Architecture for Microblogging Text Extraction and Real-Time Sentiment Analysis
Arxiv
3+阅读 · 2018年1月11日
Tracking in Aerial Hyperspectral Videos using Deep Kernelized Correlation Filters
Arxiv
6+阅读 · 2017年12月27日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
搜狗
噪声
AI
转录
准确率
搜狗输入法
相关VIP内容
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【Nature论文】定量和定性变量混合的材料设计的贝叶斯优化
专知会员服务
20+阅读 · 2020年3月19日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
2019年人工智能发展白皮书,中国科学院大数据挖掘与知识管理重点实验室,附47页pdf
专知会员服务
160+阅读 · 2020年2月27日
人类语言技术展望,中国科学院自动化研究所研究员宗成庆
专知会员服务
47+阅读 · 2020年2月15日
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
智能客服在腾讯游戏的实践,腾讯AI平台部 智能客服方向技术负责人唐国华,第八届全国社会媒体处理大会SMP2019
专知会员服务
36+阅读 · 2019年10月24日
问答与对话-技术与系统之问答系统【唐都钰 段楠】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期
专知会员服务
50+阅读 · 2019年10月23日
面向社会媒体的多模态情感分析与表达,搜狗AI交互技术中心高级总监陈伟,第八届全国社会媒体处理大会SMP2019
专知会员服务
48+阅读 · 2019年10月22日
热门VIP内容
开通专知VIP会员 享更多权益服务
【博士论文】ࣞ动态三维人体的隐式神经表示方法研究
大语言模型训练数据
【新书】动力系统的收缩理论,258页pdf
适应性异常检测在识别网络物理系统攻击中的应用:系统性文献综述
相关资讯
2019语音技术报告:语音经济规模将超移动应用
新智元
9+阅读 · 2019年7月23日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
搜狗AI合成主播再次进化,发布站立式合成主播
量子位
3+阅读 · 2019年2月20日
微软小冰:全双工语音对话详解
AI100
7+阅读 · 2019年2月10日
微软文本-语音合成转换技术新里程碑!完美再现真人声调
新智元
4+阅读 · 2018年9月25日
业界 | 专访达观数据CEO陈运文:文档审阅2.0时代到来
机器之心
4+阅读 · 2018年8月16日
解密阿里妈妈“AI 智能文案”:1 秒钟 20000 条背后的奥妙
雷锋网
5+阅读 · 2018年6月21日
搜狗推出唇语识别技术 提升远场语音交互
智东西
3+阅读 · 2017年12月14日
Google 推出最强 AI 产品阵容,但他们却觉得更该让 AI 人人可得
PingWest品玩
4+阅读 · 2017年12月2日
智能语音成“AI四大项目” 千亿市场待开发
IT时报
3+阅读 · 2017年11月26日
相关论文
Text Level Graph Neural Network for Text Classification
Arxiv
9+阅读 · 2019年10月8日
Latent Relation Language Models
Arxiv
21+阅读 · 2019年8月21日
Object Tracking in Satellite Videos Based on a Multi-Frame Optical Flow Tracker
Arxiv
5+阅读 · 2018年4月25日
A Study on Overfitting in Deep Reinforcement Learning
Arxiv
7+阅读 · 2018年4月20日
Unsupervised Machine Translation Using Monolingual Corpora Only
Arxiv
5+阅读 · 2018年4月13日
Large Scale Local Online Similarity/Distance Learning Framework based on Passive/Aggressive
Arxiv
5+阅读 · 2018年4月5日
Parallel Tracking and Verifying
Arxiv
8+阅读 · 2018年1月30日
Finding ReMO (Related Memory Object): A Simple Neural Architecture for Text based Reasoning
Arxiv
4+阅读 · 2018年1月26日
Polypus: a Big Data Self-Deployable Architecture for Microblogging Text Extraction and Real-Time Sentiment Analysis
Arxiv
3+阅读 · 2018年1月11日
Tracking in Aerial Hyperspectral Videos using Deep Kernelized Correlation Filters
Arxiv
6+阅读 · 2017年12月27日
大家都在搜
PRML
无人艇
大型语言模型
无人机蜂群
自主系统
RE-NET
智能推荐
壁画
笛卡尔
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top