1.1 语音识别基础框架
1.2 鸡尾酒会问题
2.1 基于多通道会议场景的Speaker Diarization任务
2.2 嘈杂环境下的说话人自适应噪声过滤及说话人识别
2.3 基于图神经网络的说话人无监督训练
3.1 高表现力声码器——HIFI-TTS
|
|
CMOS gain |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3.2 高表现力声学模型
4.1 口语语言处理(SLP)
4.2 联合文本和音素表征学习
4.3 区分式自学习的标点技术
4.4 自适应滑窗的篇章分割技术
4.5 基于池化的长文本建模技术
4.6 基于掩码的关键词抽取技术
5.1 自适应麦克风阵列信号处理
5.2 引入关键词mask进一步提升在极低信噪比和散射噪声场景下的唤醒性能
5.3 完善的多通道远场数据模拟工具, 可在训练阶段引入完全的数据匹配
5.4 基于关键词检测模型的多路信息融合和通道选择机制,提升关键词检测性能,降低计算量
5.5 推理阶段的前后端反馈联动
5.6 面向嵌入式低资源的信号处理与神经网络极致加速
开源微服务最佳实践
点击阅读原文查看详情。