主题: Multimodal Deep Learning
摘要: 深层神经网络促进了多媒体数据分析在自然语言、视觉和语音领域的统一框架中的融合。图像字幕、唇读或视频声处理是利用深度神经表征的泛化特性的一个新的令人兴奋的研究领域的一些首次应用。本教程将首先回顾用于编码和解码视觉、文本和音频的基本神经结构,然后回顾那些成功地跨模式转换信息的模型。
作者简介: Xavier Giro-i-Nieto,巴塞罗那加泰罗尼亚大学(UPC)的副教授,是智能数据科学和人工智能研究中心(IDEAI-UPC)的成员,也是巴塞罗那超级计算中心(BSC)的访问研究员。他与都柏林城市大学数据分析洞察中心、哥伦比亚大学数字视频和多媒体以及Vilynx、Mediapro和Crisalix的工业合作伙伴密切合作。他是UPC学校具有深度学习的人工智能研究生学位的主管,并负责协调UPC TelecomBCN的深度学习课程,以及2018年巴塞罗那深度学习研讨会的总主席。他是IEEE多媒体事务的副主编,并为机器学习、计算机视觉和多媒体领域的顶级会议做评论。