搜狗今天刚刚发布了全新的AI智能录音笔「搜狗S1」。王自如在体验之后决定把这款专业的录音笔推荐给大家,有专业录音需求或者感兴趣的小伙伴都欢迎点开视频详细了解!
点击上方观看视频
为了方便大家快速了解这款产品,我们就从录音笔的两大使用场景来跟大家介绍这款产品。
录音笔的两大场景就是:一个是「录音时的收音过程」,另一个就是「录音后的素材整理过程」,搜狗S1录音笔在这两大场景中都有一系列的创新和探索。
首先我们先说「录音时的收音过程」这个场景。从外观上就不难看出,相比于传统录音笔的单一麦克风,搜狗S1最大的不同点在于,在机身顶部不仅配置了两颗「哈曼10毫米指向型」麦克风,并且还在屏幕的四周配置了6颗全向型麦克风。
当你打开录音笔并进入到录音场景选择界面时,你会看到有四种录音场景可以选择。首先,在会议模式和采访模式这两种模式下,录音笔会调用8颗麦克风同时工作,并且这8颗麦克风的「收音权重」是基本相同的。若你把搜狗S1平放时,这8颗麦克风会以录音笔为中心,形成一个360度声音覆盖区。当其中一个方向有人声说话时,搜狗S1不仅可以判断声音的方向,还可以保证各个方向收录的音量都是一致的。
而当你开启了「听课模式」,搜狗S1会将8麦阵列形成的波束方向指向录音笔正前方,用来采集更远距离主讲人的人声信息,会明显优于传统录音笔仅靠两个指向麦克风的收音效果。
那么搜狗S1是如何做到全向录音并且可以降噪的呢?
这里要分成三个层面去看。首先第一个是空间层面,搜狗S1的8颗麦克风通过「阵列波束」的方法,判断人声方向的同时也收集了其他方向传来的噪声。然后通过优化全向信噪比的方式完成第一次的语音增强和噪声压制。
虽然通过第一层面的优化后,降噪有一定的提升了,但是还会存在两个问题:首先,全向优化信噪比并不能精准的抑制全部噪声,其次,与人声方向相同的噪声无法抑制,导致增强的人声不够纯净。那么这里就要进行第二个层面的优化了,通过判断信号「时域频域」的信息特征,进一步辨别人声方向中的噪声,尤其是对一些相对稳态的噪声比如空调声、循环的机械噪声都可以做到比较好的压制了。
但是,那些不稳定、不规则的噪声怎么办呢?
那就要进行第三个层面的优化。第三层就是让AI神经网络引擎进行机器学习,通过超大规模的AI训练让计算机能够识别这是哪种噪声,并且它有什么样的声音特性。当AI能够准确分辨出噪音的时候,噪声压制就变得容易多了。
那么讲完了原理,那实际的降噪效果到底怎么样呢?请大家观看视频中的测试环节!
录制过程中的场景我们介绍完了,我们再来看看「录制完成后的素材整理」部分。
我们看到了搜狗S1在「拾音」上的能力,但其实这里的「shi」音,有两种意思,一种是拾起的拾,另一种是识别的识。因为搜狗S1还具备了一个「录音转写」功能,在录音的同时,就可以实时转录出文字并显示在屏幕下方。在录制完成后还可以直接上传云端服务器进行通篇转写。理论上1个小时的录音文件在网络正常的情况下可以在5分钟就转录完成,并且理论识别率可以做到98%左右。
其实,「语音识别」这件事儿所能牵扯的技术就非常多了,比如HMM(隐马尔科夫声学模型)、NLP(Nautral Language Processing)语义分析技术、ANN(人工神经网络)技术等等等等,但这些技术是负责把声音先转化成文字,而文字到底准不准确,这个问题如果只是依靠计算机算法是远远不够的。
搜狗作为一个以输入法而闻名的企业,截止到2019年6月,搜狗输入法的日活用户量已经达到了4.5亿人次,占据中国输入法市场第一名。在我们的现实对话场景中经常会涉及到人名、地名、专业名词甚至俚语,如果想要识别率非常高,必须要借助一个具有庞大用户量、并且不断更新的词库才有可能完成。
而搜狗经过多年的深耕积累,已经打造了一个。比如,当你在搜狗S1录音笔上登陆了你的搜狗账号之后,如果你手机上的搜狗输入法授权了相关的读取权限,那么搜狗S1录音笔在转写时,如果遇到了你通讯录里的名字,也能够做到更加准确的转写出来。
当然,除了能够转写之外,搜狗S1还添加了两个独创的功能,第一个就是「区分讲话人」功能。在转写的时候,可以根据录音中不同发言人的音色、音调、声音方向等等信息,自动把转写出的句子,按人拆分。目前这个功能还处在体验版阶段,我们做了几次测试,发现在人物切换时的正确率还是比较高的,但是当两个人的音色比较相近的时候,区分的准确性就会下降,这个跟人耳的逻辑是相似的。
另一个功能就是「识别掌声笑声」,在录音中识别出掌声和笑声后,会自动在句子后面标注出来,方便后期整理时找到当时的语境情绪。
经常开会的朋友应该了解,通常一个正式的会议很可能长达一个小时或者几个小时,转录的文字稿也可能「成千上万」字,那么后期整理这些录音素材通常都很头疼。尤其是,如果你本人不在现场,去听别人的录音,不听完你可能很难知道整篇的重点是什么。
面对这个问题,搜狗S1上推出了「智能摘要」功能,在转录完成后,会通过我们上面提到的NLP 语义分析+搜狗搜索引擎中的关键字检索等等技术,自动生成一个「智能摘要」,可以分段查看录音中的重点。这个功能我们觉得虽然不能完全依赖,但总是聊胜于无吧。
以上我们提到的所有的功能,还只是在中文层面上。搜狗S1目前支持了中英文两种语言的转录。转录功能日后会支持更多语种和方言。而我们以上说到的「AI降噪」、「区分讲话人」、「识别掌声笑声」等功能同样适用于英文。
提到多语言,搜狗S1录音笔不仅可以完成录音笔的工作,还可以进行实时对话翻译和同声传译。对话翻译可以最多支持63种语言,其中有9种主流语言可以下载离线包,就算是没网也可以实时翻译。
另外,为了方便用户传输这些录音和文档,搜狗S1还支持了物理4G Sim卡,所有录制和转录的文件都可以通过WIFI或者4G网络随时同步到电脑或者手机APP中。但只有手动点击了「确认转录」之后才会上传云端,所有大家不用担心隐私安全问题。
最后总一下,搜狗S1是一款很专业的全能录音笔。首先在「录音」这项功能上搜狗S1通过8麦克风阵列,能够捕捉多个方向的声音信息,并且支持AI智能降噪。然后在录制完成之后,还可以做到「准确转录」、「语音分析」和「智能摘要」。从「前期录音」到「后期整理」两个层面都完成的不错,甚至还融合了一个随身翻译机。
在如今的互联网时代,我们会看到越来越多传统的产品添加上互联网元素,这件事本身没有对错,关键在于,你是如何利用资源,并且是否能够给消费者带来实实在在的用户体验提升。对于「录音」这件事儿,痛点就在于,首先,你能不能录的到非常重要,其次,录制后能不能高效地使用也同样重要。基于这两点,我们认为搜狗S1录音笔综合表现还是不错的。如果你和我们一样对录音笔有着比较高的要求,那么搜狗S1可能会是一个很值得考虑的选择。
欢迎大家在留言区告诉我们你对录音设备的看法和意见,以后有更多好物再推荐给大家!下期不见不散!
搜狗AI录音笔好不好用?
你说了算
敬请关注【 Zaaap! 】公众号
免费体验活动不日上线
//
▼热门推荐