语音识别论文 - 专知

会员服务 ·

语音识别

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMs

Arxiv

0+阅读 · 11月2日

Reference Microphone Selection for Guided Source Separation based on the Normalized L-p Norm

Reference Microphone Selection for Guided Source Separation based on the Normalized L-p Norm

Arxiv

0+阅读 · 10月31日

Speak & Spell: LLM-Driven Controllable Phonetic Error Augmentation for Robust Dialogue State Tracking

Arxiv

0+阅读 · 10月30日

UV-Attack: Physical-World Adversarial Attacks for Person Detection via Dynamic-NeRF-based UV Mapping

Arxiv

0+阅读 · 10月30日

Application of Whisper in Clinical Practice: the Post-Stroke Speech Assessment during a Naming Task

Arxiv

0+阅读 · 10月28日

POWSM: A Phonetic Open Whisper-Style Speech Foundation Model

Arxiv

0+阅读 · 10月28日

Are ASR foundation models generalized enough to capture features of regional dialects for low-resource languages?

Arxiv

0+阅读 · 10月29日

Explainable Disentanglement on Discrete Speech Representations for Noise-Robust ASR

Arxiv

0+阅读 · 10月29日

A Neural Model for Contextual Biasing Score Learning and Filtering

Arxiv

0+阅读 · 10月27日

BEST-RQ-Based Self-Supervised Learning for Whisper Domain Adaptation

BEST-RQ-Based Self-Supervised Learning for Whisper Domain Adaptation

Arxiv

0+阅读 · 10月28日

RegSpeech12: A Regional Corpus of Bengali Spontaneous Speech Across Dialects

Arxiv

0+阅读 · 10月28日

Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models

Arxiv

0+阅读 · 10月24日

M-CIF: Multi-Scale Alignment For CIF-Based Non-Autoregressive ASR

Arxiv

0+阅读 · 10月25日

Arabic Little STT: Arabic Children Speech Recognition Dataset

Arxiv

0+阅读 · 10月27日

Are ASR foundation models generalized enough to capture features of regional dialects for low-resource languages?

Arxiv

0+阅读 · 10月27日

参考链接

父主题

子主题

微信扫码咨询专知VIP会员