成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
语音识别
关注
753
语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
综合
百科
VIP
热门
动态
论文
精华
How I Built ASR for Endangered Languages with a Spoken Dictionary
Arxiv
0+阅读 · 10月6日
Advanced Clustering Techniques for Speech Signal Enhancement: A Review and Metanalysis of Fuzzy C-Means, K-Means, and Kernel Fuzzy C-Means Methods
Arxiv
0+阅读 · 10月3日
UniVoice: Unifying Autoregressive ASR and Flow-Matching based TTS with Large Language Models
Arxiv
0+阅读 · 10月6日
Scaling Multi-Talker ASR with Speaker-Agnostic Activity Streams
Arxiv
0+阅读 · 10月4日
MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition
Arxiv
0+阅读 · 10月5日
Fun-ASR Technical Report
Arxiv
0+阅读 · 10月5日
Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition
Arxiv
0+阅读 · 10月4日
Drax: Speech Recognition with Discrete Flow Matching
Arxiv
0+阅读 · 10月5日
HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition
Arxiv
0+阅读 · 10月5日
Listening or Reading? Evaluating Speech Awareness in Chain-of-Thought Speech-to-Text Translation
Arxiv
0+阅读 · 10月3日
Revisiting Direct Speech-to-Text Translation with Speech LLMs: Better Scaling than CoT Prompting?
Arxiv
0+阅读 · 10月3日
EvolveCaptions: Empowering DHH Users Through Real-Time Collaborative Captioning
Arxiv
0+阅读 · 10月2日
Backdoor Attacks Against Speech Language Models
Arxiv
0+阅读 · 10月1日
Breaking the Code: Security Assessment of AI Code Agents Through Systematic Jailbreaking Attacks
Arxiv
0+阅读 · 10月1日
Spiralformer: Low Latency Encoder for Streaming Speech Recognition with Circular Layer Skipping and Early Exiting
Arxiv
0+阅读 · 10月1日
参考链接
父主题
模式识别
语音技术
子主题
科大讯飞
Cortana
小i机器人
Siri
云知声
Nuance
语音助手
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top