我做了一个把猫叫声翻译成人类语言的应用，价值百万津巴布韦元 - 专知

会员服务 ·

0

我做了一个把猫叫声翻译成人类语言的应用，价值百万津巴布韦元

2022 年 4 月 28 日 AI前线

作者 | Ege Kuzubasioglu

译者 | 王强

策划 | 冬梅

价值百万津巴布韦元的想法

这个故事始于那个“企业家”老兄在领英上给我发的信息。

“你只管编程吧，兄弟，我给你 20% 的股份，只要你给我做一个能自动驾驶我的车的应用......”在我拒绝异想天开先生的慷慨提议之前，我暗暗下定决心，有一天我要做一个听起来很时髦的应用，而且它不会涉及区块链技术，或 NFT 之类的东西（我还不知道 NFT 到底是个啥）。

快到一月时，我的女朋友问我：

“如果你能为我做一个情人节的应用，岂不是很酷？”这听起来是个非常棒的主意，原因有二；第一，这样我就用不上发愁礼物的事儿了，第二，我终于可以做前面要做的那个应用了。

名叫 Gilbert 的猫

这是我们的猫咪 Gilbert，他什么都挺好的，就是喵喵叫得太厉害了...... 真的非常烦人。因为他太能叫，我只好翻阅以前的机器学习笔记，然后做了一个应用来理解他到底在说什么。这是一个能把喵星人语言翻译成英语的应用。

超级复杂的机器学习内容

我认为，要想翻译猫的语言，首先你应该能分辨出一段声音是否是猫的叫声。听起来很合乎逻辑对不对？为此我设计了一个非常复杂的深度学习算法，可以分辨出各种声音——开个玩笑。其实我只是用了华为技术公司 ML 套件中的声音检测器。它可以检测出多达 12 种不同的声音，其中之一就是猫叫。

于是我们可以区分喵喵叫和放屁声了，现在怎么办？在下面这个阶段，我需要一堆猫叫声的样本，还要有附带的注释标注对应的猫行为类型。在这个阶段，我沿用了 Yagya Raj Pandeya 和 Joonwhoan Lee 所做的工作，《使用迁移学习分类家猫叫声》。所幸猫咪不会谈论政治。当它们说话时，内容几乎都是与特定情况或行为相关的。

饿了
想玩 / 想打猎 / 想出门
恼火 / 有危险
困了
快乐 / 舒适
饥渴
愤怒既然我已经有了分类好的行为，现在是时候收集一些样本了。好消息是有很多人在猫叫的时候录了下来，坏消息是我的 Youtube 历史上有了一大堆这样的搜索记录：

“性感的猫叫声——1 小时高质量”

也许有人会好奇，不过上面就是性感的猫叫声的频谱图像

当我把所有原始的样本数据收集成 MP3 格式后，就该把它与 Gilbert 发出的声音做对比了。请记住，因为这个应用是专门针对 Gilbert 的，所以所有用到的数据都来自 1 岁的公猫。

在这个阶段，我必须将应用记录的声音与样本数据做比较，并决定它属于哪种猫叫声类型。

现在我们有了 Gilbert 的原始音频和我们预训练的样本，是时候对比音频频谱，找出它属于 7 种行为中的哪一种了。为此，我使用了一个从谷歌的音频分析器分叉出来的分析器。

当我知道它是哪种类型的猫叫声后，就从行为列表中随机显示一段话。比方说，叫声对应的行为类型是“饥饿”，而当时的时间是在中午 12 点之前，这种情况下我们可能会看到应用显示一句话：“我饿了，把我的早餐给我！”

应用

这个应用叫 WDGS，意思是“Gilbert 在说什么？”，我还不打算开源，因为它仍处于学习阶段：ML 套件的声音检测器是不稳定的，代码也写得很粗糙，所以它看起来像意大利面条……

是的，这就是我在空闲时间制作的应用。

资源

https://developer.huawei.com/consumer/en/hms/huawei-mlkit

https://www.ijfis.org/journal/view.html?uid=827&&vmd=Full

https://github.com/bewantbe/audio-analyzer-for-android

https://developer.android.google.cn/jetpack/compose?hl=en

原文链接：

https://medium.com/@egek92/how-i-made-an-app-that-translates-cat-sounds-to-human-language-9c40c487a2d4

你也「在看」吗？👇

登录查看更多

0

相关内容

区块链技术

区块链技术

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

专知会员服务

64+阅读 · 2022年4月26日

通俗易懂！MIT《深度强化学习》课程，附Slides与视频

通俗易懂！MIT《深度强化学习》课程，附Slides与视频

专知会员服务

72+阅读 · 2022年4月24日

【Science Advances】MIT最新论文《特化类脑功能在深度神经网络中自发应用》，人脸识别的优化解决方案

【Science Advances】MIT最新论文《特化类脑功能在深度神经网络中自发应用》，人脸识别的优化解决方案

专知会员服务

16+阅读 · 2022年4月10日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

专知会员服务

41+阅读 · 2022年3月15日

中科院自动化所徐波团队最新《视觉-语言预训练》综述

中科院自动化所徐波团队最新《视觉-语言预训练》综述

专知会员服务

67+阅读 · 2022年2月23日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【干货】用BRET进行多标签文本分类（附代码）

【干货】用BRET进行多标签文本分类（附代码）

专知会员服务

85+阅读 · 2019年12月27日

知识神经元网络 KNN（简介），12页pdf

知识神经元网络 KNN（简介），12页pdf

专知会员服务

15+阅读 · 2019年12月25日

MIT：用无监督为世界上每个像素都打上标签！人类：再也不用为1小时视频花800个小时了

MIT：用无监督为世界上每个像素都打上标签！人类：再也不用为1小时视频花800个小时了

新智元

0+阅读 · 2022年4月22日

图灵测试，时至今日还有意义吗？

图灵测试，时至今日还有意义吗？

大数据文摘

0+阅读 · 2022年3月8日

中科院自动化所最新《视觉-语言预训练》综述

中科院自动化所最新《视觉-语言预训练》综述

专知

5+阅读 · 2022年2月23日

这个AI女友会用声音调情了！害羞、挑逗样样都会，还从不生气

这个AI女友会用声音调情了！害羞、挑逗样样都会，还从不生气

新智元

0+阅读 · 2022年2月18日

人类史上首个用「意念」发的推特！Synchron脑机接口帮助渐冻症患者意念刷手机

人类史上首个用「意念」发的推特！Synchron脑机接口帮助渐冻症患者意念刷手机

新智元

0+阅读 · 2022年1月4日

AI 真的能够理解人类语言吗？

AI 真的能够理解人类语言吗？

CSDN

1+阅读 · 2021年12月24日

调戏微软文言文AI翻译：“永不舍汝”、“其母之”是什么鬼？？？

调戏微软文言文AI翻译：“永不舍汝”、“其母之”是什么鬼？？？

THU数据派

0+阅读 · 2021年9月1日

法研杯cail2019阅读理解比赛记录（第5名团队分享）

法研杯cail2019阅读理解比赛记录（第5名团队分享）

AINLP

50+阅读 · 2019年8月29日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

干货|如何轻松愉快的理解条件随机场（CRF）？

干货|如何轻松愉快的理解条件随机场（CRF）？

机器学习研究会

26+阅读 · 2017年8月2日

基于颅内脑电的汉语语音基本单元神经编码与解码研究

国家自然科学基金

0+阅读 · 2014年12月31日

视频中事件的内容分析与语义描述

国家自然科学基金

1+阅读 · 2014年12月31日

语音感知的心理基础：上下文基频信息对声调感知的影响

国家自然科学基金

0+阅读 · 2014年12月31日

视频情感理解及在互联网恐怖视频识别中的应用

国家自然科学基金

1+阅读 · 2013年12月31日

基于高光谱成像技术的人类组织血氧遥测与情感识别

国家自然科学基金

0+阅读 · 2013年12月31日

面向人类健康的体外诊察信息感知与计算方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

驾驶舱话音记录器音源识别和说话人识别的基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

多源信息系统知识获取的粒计算方法

国家自然科学基金

0+阅读 · 2011年12月31日

面向海量数据的语境离群点检测技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

跨文化多模态情感语音的心理、生理及声学研究

国家自然科学基金

0+阅读 · 2009年12月31日

Rethinking Surgical Instrument Segmentation: A Background Image Can Be All You Need

Arxiv

0+阅读 · 2022年6月27日

NovelCraft: A Dataset for Novelty Detection and Discovery in Open Worlds

NovelCraft: A Dataset for Novelty Detection and Discovery in Open Worlds

Arxiv

0+阅读 · 2022年6月23日

"Computer Says No": Algorithmic Decision Support and Organisational Responsibility

Arxiv

0+阅读 · 2022年6月23日

Making the case for audience design in conversational AI: Rapport expectations and language ideologies in a task-oriented chatbot

Arxiv

0+阅读 · 2022年6月21日

An Ontological Approach to Analysing Social Service Provisioning

Arxiv

0+阅读 · 2022年6月20日

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Arxiv

31+阅读 · 2021年11月1日

K-AID: Enhancing Pre-trained Language Models with Domain Knowledge for Question Answering

Arxiv

15+阅读 · 2021年9月22日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

VIP会员

相关主题

区块链技术

相关VIP内容

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

专知会员服务

64+阅读 · 2022年4月26日

通俗易懂！MIT《深度强化学习》课程，附Slides与视频

通俗易懂！MIT《深度强化学习》课程，附Slides与视频

专知会员服务

72+阅读 · 2022年4月24日

【Science Advances】MIT最新论文《特化类脑功能在深度神经网络中自发应用》，人脸识别的优化解决方案

【Science Advances】MIT最新论文《特化类脑功能在深度神经网络中自发应用》，人脸识别的优化解决方案

专知会员服务

16+阅读 · 2022年4月10日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

专知会员服务

41+阅读 · 2022年3月15日

中科院自动化所徐波团队最新《视觉-语言预训练》综述

中科院自动化所徐波团队最新《视觉-语言预训练》综述

专知会员服务

67+阅读 · 2022年2月23日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【干货】用BRET进行多标签文本分类（附代码）

【干货】用BRET进行多标签文本分类（附代码）

专知会员服务

85+阅读 · 2019年12月27日

知识神经元网络 KNN（简介），12页pdf

知识神经元网络 KNN（简介），12页pdf

专知会员服务

15+阅读 · 2019年12月25日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

MIT：用无监督为世界上每个像素都打上标签！人类：再也不用为1小时视频花800个小时了

MIT：用无监督为世界上每个像素都打上标签！人类：再也不用为1小时视频花800个小时了

新智元

0+阅读 · 2022年4月22日

图灵测试，时至今日还有意义吗？

图灵测试，时至今日还有意义吗？

大数据文摘

0+阅读 · 2022年3月8日

中科院自动化所最新《视觉-语言预训练》综述

中科院自动化所最新《视觉-语言预训练》综述

专知

5+阅读 · 2022年2月23日

这个AI女友会用声音调情了！害羞、挑逗样样都会，还从不生气

这个AI女友会用声音调情了！害羞、挑逗样样都会，还从不生气

新智元

0+阅读 · 2022年2月18日

人类史上首个用「意念」发的推特！Synchron脑机接口帮助渐冻症患者意念刷手机

人类史上首个用「意念」发的推特！Synchron脑机接口帮助渐冻症患者意念刷手机

新智元

0+阅读 · 2022年1月4日

AI 真的能够理解人类语言吗？

AI 真的能够理解人类语言吗？

CSDN

1+阅读 · 2021年12月24日

调戏微软文言文AI翻译：“永不舍汝”、“其母之”是什么鬼？？？

调戏微软文言文AI翻译：“永不舍汝”、“其母之”是什么鬼？？？

THU数据派

0+阅读 · 2021年9月1日

法研杯cail2019阅读理解比赛记录（第5名团队分享）

法研杯cail2019阅读理解比赛记录（第5名团队分享）

AINLP

50+阅读 · 2019年8月29日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

干货|如何轻松愉快的理解条件随机场（CRF）？

干货|如何轻松愉快的理解条件随机场（CRF）？

机器学习研究会

26+阅读 · 2017年8月2日

相关基金

基于颅内脑电的汉语语音基本单元神经编码与解码研究

国家自然科学基金

0+阅读 · 2014年12月31日

视频中事件的内容分析与语义描述

国家自然科学基金

1+阅读 · 2014年12月31日

语音感知的心理基础：上下文基频信息对声调感知的影响

国家自然科学基金

0+阅读 · 2014年12月31日

视频情感理解及在互联网恐怖视频识别中的应用

国家自然科学基金

1+阅读 · 2013年12月31日

基于高光谱成像技术的人类组织血氧遥测与情感识别

国家自然科学基金

0+阅读 · 2013年12月31日

面向人类健康的体外诊察信息感知与计算方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

驾驶舱话音记录器音源识别和说话人识别的基础研究

国家自然科学基金

0+阅读 · 2012年12月31日

多源信息系统知识获取的粒计算方法

国家自然科学基金

0+阅读 · 2011年12月31日

面向海量数据的语境离群点检测技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

跨文化多模态情感语音的心理、生理及声学研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Rethinking Surgical Instrument Segmentation: A Background Image Can Be All You Need

Arxiv

0+阅读 · 2022年6月27日

NovelCraft: A Dataset for Novelty Detection and Discovery in Open Worlds

NovelCraft: A Dataset for Novelty Detection and Discovery in Open Worlds

Arxiv

0+阅读 · 2022年6月23日

"Computer Says No": Algorithmic Decision Support and Organisational Responsibility

Arxiv

0+阅读 · 2022年6月23日

Making the case for audience design in conversational AI: Rapport expectations and language ideologies in a task-oriented chatbot

Arxiv

0+阅读 · 2022年6月21日

An Ontological Approach to Analysing Social Service Provisioning

Arxiv

0+阅读 · 2022年6月20日

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Arxiv

31+阅读 · 2021年11月1日

K-AID: Enhancing Pre-trained Language Models with Domain Knowledge for Question Answering

Arxiv

15+阅读 · 2021年9月22日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员