在现实世界中,人类通过综合运用视觉、听觉、触觉、嗅觉等多种感官,来接触和理解大千世界。我们通过不同感官获得的信息,就是天然地以"多模态"形式存在的。
从这个意义上说,人工智能的发展就是向人的智能靠近的过程。多模态学习是一个绕不开的发展方向。
多模态学习带来全新应用场景
在互联网信息爆发且形式愈加丰富的时代,图文及短视频内容在互联网内容中所占比例不断提高。单一模态,往往难以提供对图文、视频等信息的完整描述。与此同时,在应用领域对内容的理解贯穿了整个搜索、推荐系统。
正如,我们已经习惯在购物APP上用“识图”代替文字搜索;在智能家居领域,语音交互、手势交互正在成为流行趋势;与智能机器人的交流也不再是机械式的文字对话,而进入到更深层次的语音理解、图片理解阶段。
我们需要从多个粒度去理解内容,如何融合多个模态的特征信息,逐渐成为多个领域广泛存在的新挑战。因此,关注多模态技术的发展已经是当今学界和工业界的共识。
如今的挑战
尽管多模态从上个世纪70年代诞生至今,经历了几十年的发展,但在当下的工业界多模态的落地依然面临着诸多挑战,以致于一些场景呈现“伪多模态”的应用状态,从而影响了用户体验——
● “语义鸿沟”依然存在;
● 如何掌握大量匹配的多模态数据;
● 多模态信息中的不确定性;
● 不同模态之间的精细对齐;
● 多模态预训练的有效架构等等。
所以,如今当学界和业界再次高度聚焦多模态的时候,究竟在讨论什么?
大咖解读等你来听
4月20日19:00,由小红书技术团队出品的直播节目【REDtech 来了】第一期就将围绕多模态话题开讲。上半期小红书技术团队邀请到了来自上海交通大学电子信息与电气工程学院副教授、博导谢伟迪,北京航空航天大学教授、博导刘偲,上海科技大学信息学院副教授、博导高盛华就多模态内容理解的相关研究展开分享。
预计在4月27日举办的下半期直播将聚焦多模态理解与创作,中国科学院自动化所研究员赫然,浙江大学“百人计划”研究员、博导周晓巍,悉尼理工科技大学ReLER实验室讲师朱朝霖,将接棒带来学界对多模态的最新研究成果。
上述高校学者将分享“跨模态图像内容理解和视频生成”,“语言指导的视觉定位”,“多模态视觉内容生成”,“多模态检索、定位与生成的方法”,“便捷的三维数字化技术”,“自监督学习在多模态内容理解中的技术与应用”等议题,欢迎到直播间互动提问!
解锁小红书多模态密码
除此之外,小红书多模算法组负责人汤神也将以小红书的实践为例,重点介绍小红书在内容质量评价、多模态搜索与交易内容理解等领域对多模态技术的探索与研发应用。
小红书智能算法组负责人张德兵则会带来多模态技术在智能创作中的应用和挑战,一同探讨如何让理解更精细,让创作更有个性化、多样性、表现力、便捷性。
作为国内独树一帜的内容社区,截至2021年10月,小红书月活跃用户数已经超过2亿。如何处理和理解如此大规模的UGC内容,进行更精准高效的分发,正是多模态技术最大的应用方向之一。
还可以看到,目前国内的互联网应用中,小红书的内容以图文笔记和短视频为主流,每天都会产生大规模的分享笔记,以及海量的用户即时行为。这给多模态人机交互留下了很大的想象空间。
这种生态中诞生了非常多的有价值、且极具有挑战的问题,涉及到视觉、NLP、音频、用户行为等多个模态信息的理解和综合利用。因此,小红书也是讨论如何更好定义多模态,和充分发挥多模态核心价值的绝佳实践场景。
对内容的多模态理解贯穿了小红书整个搜索、推荐与交易系统。目前小红书技术团队已经在短视频理解、内容质量评价、多模态检索、交易内容理解、三维数字化、智能创作等领域对多模态技术展开了研发应用。
独一无二的社区生态,广泛、复杂、高实时、真实的用户场景,海量的多模态数据,复杂多变的即时性用户行为,这些因素共同创造了小红书在多模态实践方面得天独厚的优势。小红书的创新和探索也将为多模态的真正落地提供新的方向和范式。
关注【小红书技术团队】,准时开播,不见不散。
预约成功后请扫下方二维码进入直播交流群,若扫码进群达到上限,可添加小助手微信,回复“多模态”。
我们将在微信群内发布直播链接、嘉宾演讲精华和抽奖活动, 可提问互动,问题有机会被嘉宾pick解答哦。
专属简历投递入口:
REDtech@xiaohongshu.com
直播交流群
小助手
整理不易,请点赞和在看