新智元报道
三人打下的专注语音技术独角兽,如今又成功融资了。
前段时间,美国音频API平台AssemblyAI完成了3000万美元的B轮融资。
这是一个可以自动将音频和视频文件以及实时音频流转换为文本的平台。
AssemblyAI的创始人兼首席执行官Dylan Fox表示,
「我们正在构建用于定制化语音识别的API,开发人员可以用我们的API 将语音转录成文字或者创建自己的语音接口,而且他们不需要做任何数据上的挖掘和训练,我们会为他们完成海量自定义字词的识别。」
语音识别,人人可定制
提到语音识别,大多数人并不会觉得有多特别。它已经融入到我们生活方方面面,呼叫Siri、翻译、语音转文字等。
但是要知道,能够得心应手的使用这一技术,其背后语音模型的训练和语音数据的挖掘分析并不是一个小工程。
在国内语音市场中,科大讯飞占据鳌头。在国外,AssemblyAI这一新兴初创公司便成功引起了市场的注意。
在思科工作的2年期间,Dylan Fox便在寻找能够用提供语音识别和NLP的简便服务,但在当时并没有这样的服务,这便成为他创立公司时的灵感。
2017年,他离开思科,与另外2人一同创立了AssemblyAI,当时仅得到了17万美元的种子轮融资。
公司刚刚创立,要建立一个定制化的语音识别系统需要面对不少挑战。
就比如,他们需要大量的GPU ,因为语音模型的训练是计算密集型任务。
幸运的是,他们获得了知名孵化机构Y Combinator的支持,为他们搭建起了服务器。
除了硬件方面需要支持,AssemblyAI还需要大量用户数据进行训练。因此,他们开发了一个Harvest爬虫软件,从网上收集音频数据。
经过多年的发展,AssemblyAI已经可以为80多种语言提供基于 API 的人工智能服务。
此外,它还能够提供多种模型供企业使用,比如情感分析模型、实体检测模型、内容审核模型等。
现在,华尔街日报,Spotify,BBC等知名公司都是它的客户。
关于AssemblyAI更多了解,可以听听Fox怎么说。
AssemblyAI创始人采访
以下内容是对AssemblyAI创始人兼首席执行官Dylan Fox的最新采访:
最初是什么吸引你进入机器学习的?
是从学习如何编程,并在大学期间参加了华盛顿特区的Python聚会开始的。大学的课程让我发现自己更倾向于算法类型的编程问题,自然而然地将我引向了机器学习和 NLP道路。
在创立 AssemblyAI 之前,当时您在思科担任高级软件工程师,主要做什么工作?
作为思科一名高级软件工程师,我主要专注于协作产品的机器学习。
您在思科工作,以及语音识别技术来源的问题是如何激励你创建 AssemblyAI 的?
在之前工作中,我有机会参与许多人工智能项目,包括几个需要语音识别的项目。但所有提供语音识别服务的公司都过时得离谱,很难从中买到任何东西,而且运行的是过时的人工智能技术。
随着我对人工智能研究越来越感兴趣,我注意到在语音识别领域有很多工作正在进行,而且研究进展得很快。
正是这些因素促使我思考,「如果你能用最新的人工智能研究建立一家Twilio风格的API公司,让开发者更容易访问最先进的人工智能模型来进行语音识别,获得更好的开发者体验,那会怎样?」
创立AssemblyAI的公司的想法便是从这里开始的。
构建准确可靠的语音识别技术背后的最大挑战是什么?
成本和人才是任何公司在构建准确可靠的语音识别技术时面临的最大挑战。
这些数据的获取成本很高,通常需要花费数十万小时来构建一个强大的语音识别系统。不仅如此,训练的计算需求是巨大的。在生产中为这些模型提供服务也是昂贵的,并且需要专门的人才来优化。
构建这些技术还需要一种专业技能,这就是为什么客户来找我们来寻求我们在内部研究、训练和部署强大AI模型的一个重要原因。他们可以通过简单的 API 获得对 ASR 和 NLP 的最先进 AI 模型的多年研究。
除了纯粹转录音频和视频内容之外,AssemblyAI还提供了其他模型,您能介绍一下这些模型是什么吗?
AssemblyAI的人工智能模型套件不仅限于实时和异步转录。我们将这些附加模型称为音频智能模型,因为它们可以帮助客户分析和更好地理解音频数据。
摘要模型提供了一个整体摘要,以及时间编码的摘要,这些摘要会随着对话中的主题发生变化,自动分割并为每个章节生成摘要。
情感分析模型可以检测音频文件中每句话的情感,每个句子都可以标记为正面、负面或中性。
实体检测模型可识别音频文件中的各种实体,例如个人或公司名称、电子邮件地址、日期和位置。
主题检测模型标记音频和视频文件中所说的主题。预测的主题标签遵循标准化的 IAB 分类法。
内容审核模型可检测音频和视频文件中的敏感内容,例如仇恨言论、暴力、敏感的社会问题等等。
对于使用AssemblyAI的公司来说,最大的用例是什么?
电话、视频、虚拟会议和媒体。
CallRail 是电话领域客户的一个很好的例子,它利用 AssemblyAI 的人工智能模型ーー核心转录、自动转录亮点和 PII 编辑ーー向客户提供强大的对话智能解决方案。
基本上,CallRail现在可以大规模地自动显示和定义他们给客户电话中的关键内容,例如特定的客户请求、常见问题以及常用的关键词和短语。
我们的 PII 编辑模型可以帮助他们自动检测和删除记录文本中的敏感数据(如社会安全号码、信用卡号码、个人地址等)。
在视频方面,从视频流平台到 Veed 等视频编辑器都是使用的 AssemblyAI 的核心转录模型来简化用户的视频编辑过程。
Veed还允许其用户转录其视频并使用字幕直接对其进行编辑。
AssemblyAI最近完成了3000万美元的B轮融资。未来将如何加速AssemblyAI的使命?
人工智能领域正在取得的进展令人难以置信。我们的目标是通过一组简单的 API 将这一进展向互联网上的每个开发人员和产品团队公开。
随着我们继续研究和训练用于 ASR 和 NLP 任务的最新人工智能模型,我们将继续通过简单的 API 向开发人员和产品团队免费提供这些人工智能模型。
过去的6个月,我们推出了对15种新语言的 ASR 支持——包括西班牙语、德语、法语、意大利语、印地语和日语,发布了对我们的摘要模型、实时 ASR 模型、内容审核模型和其他产品的更新。
我们几乎没有用过首轮融资,但这笔新融资将使我们能够积极扩大我们的努力。
有了这笔新的资金,我们将能够加速推动产品路线图,建立更好的人工智能基础设施以加速我们的人工智能研究和推理引擎,并扩大我们的人工智能研究团队。现在团队成员就有来自DeepMind、谷歌大脑、Meta AI、宝马和思科的研究人员。
我们的使命是通过简单的 API,让开发人员和产品团队能够大规模地使用最先进的 AI 模型。