语音学论文 - 专知

会员服务 ·

语音学

语音学（phonetics）：语言学的语音学（linguistic phonetics），实验语音学，音法学（基础音法学、共时音法学、演化音法学）。语音学中较受公认的三大分支：发音语音学（articulatory phonetics, 肺、喉、唇舌等说者发音器官的位置、形状、动作），声学语音学（acoustic phonetics, 语音声波的频率、响度等频谱-时间的性质），听觉语音学（auditory phonetics, 听觉系统对语音如何接受、分类、识别）；三者范畴间的对应程度/协调，印象记音与仪器分析的对应程度/协调

Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMs

Arxiv

0+阅读 · 11月2日

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Arxiv

0+阅读 · 10月28日

Cross-Corpus Validation of Speech Emotion Recognition in Urdu using Domain-Knowledge Acoustic Features

Arxiv

0+阅读 · 10月28日

Oral Tradition-Encoded NanyinHGNN: Integrating Nanyin Music Preservation and Generation through a Pipa-Centric Dataset

Arxiv

0+阅读 · 10月28日

GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment

Arxiv

0+阅读 · 10月28日

Audio-Visual Speech Enhancement In Complex Scenarios With Separation And Dereverberation Joint Modeling

Arxiv

0+阅读 · 10月29日

Beamforming in the Reproducing Kernel Domain Based on Spatial Differentiation

Beamforming in the Reproducing Kernel Domain Based on Spatial Differentiation

Arxiv

0+阅读 · 10月31日

UTI-LLM: A Personalized Articulatory-Speech Therapy Assistance System Based on Multimodal Large Language Model

Arxiv

0+阅读 · 10月31日

Expressive Range Characterization of Open Text-to-Audio Models

Arxiv

0+阅读 · 10月31日

Reference Microphone Selection for Guided Source Separation based on the Normalized L-p Norm

Reference Microphone Selection for Guided Source Separation based on the Normalized L-p Norm

Arxiv

0+阅读 · 10月31日

Multi-Representation Attention Framework for Underwater Bioacoustic Denoising and Recognition

Arxiv

0+阅读 · 10月29日

Representing Classical Compositions through Implication-Realization Temporal-Gestalt Graphs

Arxiv

0+阅读 · 10月31日

'Studies for': A Human-AI Co-Creative Sound Artwork Using a Real-time Multi-channel Sound Generation Model

'Studies for': A Human-AI Co-Creative Sound Artwork Using a Real-time Multi-channel Sound Generation Model

Arxiv

0+阅读 · 10月31日

UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens

Arxiv

0+阅读 · 10月30日

Phoenix-VAD: Streaming Semantic Endpoint Detection for Full-Duplex Speech Interaction

Arxiv

0+阅读 · 10月30日

参考链接

微信扫码咨询专知VIP会员