希尔贝壳：如何用技术创新颠覆传统数据标注产业的“野蛮生长”

会员服务 ·

希尔贝壳：如何用技术创新颠覆传统数据标注产业的“野蛮生长”

2019 年 4 月 10 日 猎云网

希尔贝壳成立之初就开源了178小时的AISHEll-1中文普通话精标语音数据集。

文丨猎云网 ID：ilieyun
作者丨吕梦

数据是人工智能的基础，但不是所有数据都有应用价值，采集回来的数据往往要经过清洗、标注才能为算法可用。与此同时，数据标注得越精准，对算法模型训练的效果也就越好。

这些高质量数据诞生的背后，是一家家数据标注工厂的兴起——它们大都位于河北、河南、山东等地区，倚靠相对低廉的劳动力支撑起AI产业链的重要一环。随着我国人口红利的逐渐消失，传统标注工厂在“人工成本”方面的优势正不断被削弱。

针对数据标注在成本、效率、质量等方面的痛点，一家专注人工智能大数据技术创新的创业公司，决定通过技术创新来改变这个人工智能光环背后的“人工”产业。

卜辉是这家公司的创始人，韩国高丽大学硕士毕业后一直从事语音识别方向的研究，对语音数据库建设以及语音智能产品有着深入的研究。

彼时，基于2012年AlexNet在ImageNet大赛上一举夺魁带动的深度学习热潮仅过去两年，而那场轰动世界的AlphaGo人机大战两年后才向公众展现它的惊人战绩。一切尚在蓄势。

2017年，在算法、算力和数据的三轮驱动下，人工智能从概念走向实用。其中，算法被大量开源，而算力部分，GPU市场被英伟达垄断，国内的创业公司大都是围绕FPGA、ASIC等进行边缘研发。

从这个逻辑来看，一旦创业公司无法在算法和算力部分拉开本质的区别，数据和应用场景就成为其价值最大化的重要依据。

期间，大量和语音识别相关的产品的问世，也让卜辉意识到，数据的需求正不断聚焦，尤其是当AI和场景结合之后，相比大量的基础数据库，与产品相匹配的场景数据的价值将越来越大。

因此，卜辉在决定从自己最擅长的“语音数据”市场切入，并在17年4月创办了希尔贝壳。

开源全球最大中文语音数据库

基于语音识别、声纹识别、音频检索等语音相关技术，希尔贝壳成立之初就开源了178小时的AISHEll-1中文普通话精标语音数据集。同时搭载Kaldi语音识别系统做了一套开源方案，将有研发价值的数据贡献到科研教育机构。

这个阶段卜辉发现，高校学生在使用这套方案的同时，很多中小型企业也在利用它进行语音识别的方案和产品相关研究，但效果就偏弱了一些。

因此，在2018年6月23日Kaldi第三届全国线下技术交流会上，作为联合主办方之一的希尔贝壳再次开源了目前全球最大的中文开源数据库AISHEll-2，时长1000小时。这个开源项目不只局限于数据，还包括Kaldi社区的基础设施和配套的recipe应用。同时成立了AISHELL Foundation来共同推进语音数据和技术的不断开源计划。

据悉，AISHELL-2由1991名来自中国不同口音区域的发言人参与录制，文本内容主要涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。并经过专业语音校对人员转写标注，通过了严格质量检验，数据库文本正确率在98%以上，

在此之前，从未有一家公司开源这么大的中文语音数据库——这套方案不仅让中小型企业享有语音识别开发的能力，同时还让希尔贝壳收获了全球最大的高校资源群体。

卜辉告诉猎云网，目前申请AISHEll-2数据库的高校数量全球已超过300所，企业近50家。其中对高校免费开放，企业则收取一定数额的费用。

清华大学语音与语言技术中心副主任王东认为，“希尔贝壳的开源数据具有很高的学术价值，我们做学术这么久一直在数据上有瓶颈。AISHELL-1,AISHELL-2会像ImageNet在图像领域的影响一样，推动语音行业的发展”。

在卜辉看来，庞大的高校群体通过接触到希尔贝壳的语音数据库进入语音产业，这个意义非同一般，“很多高校不具备商业行为所以语音数据量十分缺乏，而这个量级的数据库的开源能帮助学生进行更扎实的学习、研究，为语音行业的发展输送了资源和人才”。

此外，对企业端来说，这套数据库的开源也为那些对数据有迫切需求、却无法进行单独定制数据的中小型公司提供了搭建自己业务能力的机会。

以技术创新突围传统数据标注市场

卜辉坦言，整个18年，团队都在不断“证明”自己在AI语音数据方面的能力，并在进行语音能力和语音数据处理、融合方面的平台研发。

而在18年底回顾行业时，他发现，技术成本的降价速度惊人，“比如一套通用AI系统相比一年前，价格基本折了三分之一，但是成就技术的数据并没有贬值。相反，数据处理、采集和加工的人力成本越来越高”。

很长一段时间里，数据标注拼的都是人工劳力。大部分业务需求的不稳定，迫使初创企业很少能完全自建具有规模的数据标注团队，而是以“众包”方式将项目外包给一些小的数据外包团队。

随着业务量的增大，行业所需的数据标注量也在急剧增长。为了不断压低成本，传统的“众包”模式在数据标注质量、效率和安全性上都无法得到有效保障。一层层“众包”的利润折损之下，是大量数据标注团队的“野蛮生长”。

如何使人工成本降低的情况下提升数据质量，卜辉认为，应当基于一个强大的智能化工作平台，通过完善技术和管理手段来提高数据质量的管控和质检，将人从重复的标注工作中解放出来，做到智能化工作和管理，提高整个标注效率。

希尔贝壳研发了四套智能标注落地方案，即语音数据质量评测系统、语音自动转写系统、场景数据集测试系统和音频检索系统、智能化数据标注众包大数据分析系统。实现从人工到技术，再让技术助理人工完成高效的标注训练。

除了具备解决数据标注”最后人工成本一公里”的技术创新能力，希尔贝壳还拥有自建数据库的能力，并将根据不同应用场景定制更优质的数据库，以提高深度学习的精度，精准解决产品需求。

“好的数据对AI应用很重要，数据有很多类型，希尔贝壳是站在技术落地的角度对数据进行分析，所以数据产品也很精准”，作为希尔贝壳的客户之一，人工智能解决方案提供商roobo CTO雷宇认为，“在数据处理工艺上，希尔贝壳应用了很多前沿技术，这是区别于传统数据公司最大的优势之一”。

卜辉一直是“人工智能民主化”的倡导者，他表示，团队接下来的方向，就是通过技术创新改变传统数据标注产业的生存环境，通过积累的人工智能技术和创新赋能给更多行业从业者，在人工智能大数据行业的生产模式上实现新的突破。

- END -

热文 推荐

☞永不纠结朱啸虎

☞惊现汽车坟场？官方否认，但背靠吉利的共享汽车依然不赚钱

未经允许严禁转载

授权请后台回复 “猎云网”

登录查看更多

相关内容

数据标注

关注 2

2020年中国《知识图谱》行业研究报告，45页ppt

专知会员服务

240+阅读 · 2020年4月18日

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

专知会员服务

162+阅读 · 2020年2月27日

新时期我国信息技术产业的发展

专知会员服务

71+阅读 · 2020年1月18日

阿里巴巴达摩院发布「2020十大科技趋势」

专知会员服务

108+阅读 · 2020年1月2日

【德勤】中国人工智能产业白皮书，68页pdf

专知会员服务

310+阅读 · 2019年12月23日

《信息技术人工智能面向机器学习的数据标注规程》，中国电子工业标准化技术协会

专知会员服务

59+阅读 · 2019年12月14日

【大数据白皮书 2019】中国信息通信研究院

专知会员服务

138+阅读 · 2019年12月12日

《华为智能安防ICAN智能指数评级体系白皮书》（2019版），20页PDF，华为技术有限公司编

专知会员服务

8+阅读 · 2019年11月8日

《云计算发展白皮书（2019年）》，55页PDF，中国信息通信研究院编

专知会员服务

39+阅读 · 2019年11月7日

2019年人工智能行业现状与发展趋势报告，52页ppt

专知会员服务

124+阅读 · 2019年10月10日

2019年中国人工智能基础数据服务行业白皮书

艾瑞咨询

28+阅读 · 2019年9月16日

【中台】数据智能深度报告，看清数据中台和业务中台的未来

产业智能官

18+阅读 · 2019年5月13日

技术动态 | 事理图谱，下一代知识图谱

开放知识图谱

29+阅读 · 2018年12月28日

【物联网】物联网产业现状与技术发展

产业智能官

15+阅读 · 2018年12月17日

依图做语音了！识别精度创中文语音识别新高点

新智元

3+阅读 · 2018年12月12日

语音技术开发者利器，希尔贝壳开源了1000小时中文语音数据库

猎云网

9+阅读 · 2018年6月26日

首发| 这家数据公司又融1000万用AI辅助人工标注服务京东小米

铅笔道

75+阅读 · 2018年6月13日

【知识图谱】深度分析金融知识图谱创业：需从“数据”竞争跨向“技术”竞争

产业智能官

3+阅读 · 2018年5月19日

预防性医疗将成大健康产业领跑，这家公司要用AI技术打造数据“永动机” | AI创新50

黑智

5+阅读 · 2018年1月17日

如何系统地学习数据挖掘？

数据库开发

11+阅读 · 2017年10月22日

Deep Learning for Hindi Text Classification: A Comparison

Arxiv

4+阅读 · 2020年1月19日

Teacher-Student Training for Robust Tacotron-based TTS

Arxiv

5+阅读 · 2019年11月7日

Deep Learning based Pedestrian Detection at Distance in Smart Cities

Arxiv

4+阅读 · 2019年3月28日

CHIP: Channel-wise Disentangled Interpretation of Deep Convolutional Neural Networks

Arxiv

5+阅读 · 2019年2月7日

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Multi-Head Attention with Disagreement Regularization

Arxiv

9+阅读 · 2018年10月24日

Reciprocal Attention Fusion for Visual Question Answering

Arxiv

5+阅读 · 2018年7月22日

Generating Fine-Grained Open Vocabulary Entity Type Descriptions

Arxiv

4+阅读 · 2018年5月27日

Identifying Semantic Divergences in Parallel Text without Annotations

Arxiv

3+阅读 · 2018年3月29日

Textually Customized Video Summaries

Arxiv

4+阅读 · 2018年3月1日

VIP会员