今天起，种草小红书的多模态AI技术

2022 年 4 月 25 日 机器之心

机器之心报道

编辑：思

在人工智能领域，存在着这样一种技术，它像人类利用视觉、嗅觉、味觉、听觉等多感官理解现实世界一样，希望充分利用文本、图像、语音和视频等多种模态，这就是「多模态学习」。多模态学习的研究时间不算太长，但应用前景非常广泛，比如电商购物平台中的以图搜图的检索技术、智能家居以及车载智能助手的语音交互等。

不过要说多模态技术真正实现了落地似乎还太早，从多模态数据标注到跨模态转化，该领域都面临着众多挑战。这就需要研究社区和业界持续探索新的发展方向和技术范式。

作为国内独特的以图文和短视频内容为主的社区，小红书社区每天产生海量的UGC（用户原创内容）多模态数据，这为其在产品开发和落地中采用多模态技术提供了丰富的「土壤」。4月20日，在小红书「REDtech 来了」第一期线上直播节目中，小红书技术团队联合学界几位学者大咖围绕多模态话题展开了精彩分享。

北京航空航天大学教授、博导刘偲，《语言指导的视觉定位》
上海科技大学信息学院副教授、博导高盛华，《跨模态图像内容理解和视频生成》
上海交通大学电子信息与电气工程学院副教授、博导谢伟迪，《自监督学习在多模态内容理解中的技术与应用》
小红书多模算法组负责人汤神，《多模态技术在图文与视频内容分发的内容与挑战》

为此，机器之心简单整理了各位学者、算法工程师在REDtech中的演讲，并期待能向读者介绍什么是多模态学习，多模态学习难在哪里，以及多模态任务在学术研究、工业应用上都是什么样的。

如果存在「智能」，那一定绕不开多模态

什么样的模型才算得上是「智能」？可能很多读者会认为如果模型能逻辑推理，能联想，而不只 Copy 之前类似的数据，那也许能称得上智能。这岂不是像人一样需要大量信息，综合各种知识？对，这就是多模态学习未来的样子，统合语音、语言、视觉等，做出更「智能」的判断。

容易想到，既然需要综合各方面，那多模态很核心的内容即将不同类型的数据「表示」出来，并在这一基础上融合、理解、对齐不同类型的数据。

文字显然能强化模型对图片内容的理解，如上体现为斑马与碎石路的位置关系。选自 arXiv: 1907.09358。

研究多模态，到底在研究什么？

多模态学习总给人一种它还有很长路要走的感觉：多种模态数据之间语义鸿沟该如何填补？多模态之间的精细对齐又该怎么做？很多研究者都在探索多模态学习中的重要问题：

如何表征：我们分别用卷积表征图像， LSTM、 Transformer 表征语言，还是说用统一的模型结构表征多种数据？
如何融合：语言如何影响视觉，视觉如何影响语言，多种类型数据之间的交互关系是什么样的，又该设置怎样的损失函数？
如何对齐：「枣红」就是这张图片杯子中的颜色吗，不同类型数据中的相同概念该怎样对齐？
如何预训练：我们能将语言、图像等各种模态的数据扔给一个模型，期待它能学会广义的「背景知识」吗？

当然，这些都只是多模态学习的一角，怎样获得更多的多模态数据，怎样通过自监督学习降低对复杂数据的依赖，怎样结合知识图谱等结构化信息等等，都是多模态学习正在积极尝试处理的问题。

日常的生活，智能的多模态

尽管有那么多令人头疼的问题，多模态学习在我们的日常生活中却也越来越亮眼。用图片搜索关注的话题，用手势给智能家居下达指令，用文字描述场景以搜索视频片段，这类应用从多个粒度理解内容，融合多个模态的特征信息，给我们提供更便捷的应用。

单纯根据小红书的一篇图片笔记，提取各种标签信息，下次搜索文字「中央公园」就能连接到这张图片。

正因为多媒体信息愈加丰富，图文内容、短视频等等数据都在累积，单一的文字或图像，已经不能完整地描述图文、视频信息。语言融合视觉，多模态学习更「智能」地认识事物，以前很多不敢想的场景都能得到应用，也许以后贴几张图，模型就能帮我写篇游记，也许我写条笔记，模型就能帮我生成张应景配图吧。

内容理解：跨越语言与视觉的艺术

现在的多媒体内容，俨然需要多模态学习更精准地描述，有鉴于此，小红书技术团队邀请了多模态学习领域的研究者，共同探讨多模态学习到底在做什么，都是怎么做的。因为四位演讲者的分享内容特别丰富，没办法在一篇文章中全部展现出来，为此机器之心希望从横跨语言与视觉两种模态为视角，介绍内容理解怎样做才好。

更加完整的演讲内容，读者可回看视频：

可能读者在观看视频中会有一种感觉，确实如高盛华老师在视觉定位任务所展示的，图像与文字的融合能更完整地描述事物；但它们之间却又有巨大的语义鸿沟，这一点在刘偲老师介绍的远程视觉指代定位就有体现。此外，实际生活中图像与文字的数据肯定不是一一对应的，那怎样用尽可能少的人工标注成本更好地训练多模态模型？这也是谢伟迪老师一直在关注的问题。

视觉文字，本相辅相成

视觉与文字，到底哪些是相辅相成的？上海科技大学高盛华表示，对于多模态内容理解，重要的就是发现跨模态数据之间的一致性（Consistency）。但是，由于多模态数据刻画的是数据的不同，它们之间存在着奇异性（Singularities）。

以文本生成图像为例，给定文本「一只红色的鸟」，一致性体现在，文字「红色」与「鸟」这两个概念和在图像中是有对应实体的；但「一只红色的鸟」可以是站在树上，也可以是躲在叶子中，还能是掠在水面上，这又体现了多模态数据之间的奇异性。

因此，高盛华表示，对于图像或视频理解任务，通常要对模态进行融合，并在融合的时候保证模态间的一致性，去除它们的奇异性。

举个例子，在常规目标检测，模型能做的就是框出需要的物体，至于这个物体的位置关系、状态等等都是难以理解的。但是在视觉定位任务中，文本与图像需要相互融合，以令模型更深地理解数据。如下图给定图像和一段文本描述「在树荫下仰头站着的长颈鹿」，我们希望模型能准确找到绿框所指的长颈鹿。

对于这类视觉定位任务，传统做法采用先检测再匹配的两阶段式思路，即先把每一个目标检测出来再判断它们跟文本特征描述是否匹配。而在高盛华团队的方案中，不仅要找出对应的目标，也希望刻画目标与目标之间的关系，比如「斑马前面的长颈鹿」。通过增加物体与物体之间空间关系的语言描述，比如「谁在谁的上面 / 下面/左边/右边」，我们可以用空间相对位置关系提取特征。

具体而言，为了融合自然语言与图像，如下图所示除了Backbone 抽取视觉信息，LSTM抽取语言信息，我们还需要为图像加上坐标（Coordinate）信息，以便于刻画物体与物体之间显式的位置关系。可以认为，下图中上下左右这四种池化操作可以作为一种桥梁，沟通了文本中关于位置的描述，以及图像中物体位置关系。即强化了文本与图像关于空间位置的「一致性」，降低了空间位置描述的「奇异性」。

高盛华表示，这种利用物体与物体之间的关系来做视觉定位的方案，在所有数据集上都比其他方法效果更好，速度也更快。我们可以认为，这项工作表明了，当我们为视觉、图像搭建有效的沟通方法，对齐两种模态数据中相同的概念，它们必然相辅相成提供更好的内容理解效果。

无独有偶，北京航空航天大学刘偲在演讲中也分享了一种渐进式融合图像与语言的方法，逐步在图像中找到语言描述的实体，强化模型对两种模态更精细的理解。

「跨模态渐进式理解模型」，先找到人，再找到白色飞盘，然后定位「holding」这个动作，最后找到了「拿着白色飞盘的人」。该方法同样通过匹配语言与视觉中的相同概念，而令模型更好地理解数据。

语义鸿沟，融合视觉文字仍然很难

前面很多研究表明融合视觉与文字能促进模型更好地理解内容，但与此同时，它们之间的鸿沟又不可忽视。正如刘偲所介绍的远程视觉指代定位任务，给 AI 一个指令：「找到办公室桌子上的鼠标」，短短的一行文字，模型却要处理大量的视觉信息，并拥有一些先验的知识，才有可能完成这个任务。

模型需要从视觉上判断哪里是客厅，哪里是办公室，并想到办公室才有鼠标。然后从视觉上判断会议桌、电脑桌，并「知道」鼠标经常和电脑放在了一起，所以优先看看电脑桌上面有没有鼠标。

这种对跨模态内容的理解显然很难，语音与视觉间的语义鸿沟，已经不止是内容本身的差异，同时还延伸到了隐藏在文字与图像的背后的背景知识。

刘偲等研究者探索的这个任务在语义层次上已经很深了，因此语义鸿沟也非常大。但另一方面，在我们日常产生的多模态数据，它可不像学术界使用的数据比较干净，语义对齐的状态也不是那么好，这同样会带来很大的语义差异。

数据鸿沟，难道只能「人工」智能？

在实际的场景中，小红书面临着许多巨大的挑战。过去存量的图文数据，以及每天用户新发布的笔记，其数据集总量是非常巨大的；然后数据噪音也很严重，站内存在着部分图文不相关的笔记。似乎在实际应用中，不止语义上，「数据鸿沟」也不可忽视：如何在大体量、大噪音的数据场景中有效训练模型？

降低数据的人工标注，提高模型的自监督学习似乎是多模态学习必不可少的方向。 上海交通大学谢伟迪在演讲中，就着重介绍自监督学习在多模态内容理解中的应用。说到自监督学习，那必不可少的就是对比学习了（Contrastive Loss），谢伟迪表示对比学习的思想很简单有效，拉近同类图片的距离，拉远不同类图片的距离。

对视频片段做随机数据增强以得到 z_i 与 z_j，拉近它们的距离（pull）。同时对于不同视频片段 z_j 与 z_p，拉远它们的距离（repel）。

这就是自监督学习中最朴素的一种想法，同理也能扩展到多模态数据，比如图片与文字出现在一起，那就拉近它们间的距离，而不相关的图片与文字，那就拉远它们的距离。小红书多模算法组负责人汤神也表示，「互联网上存在大量天然的，对齐的多模态数据，例如小红书的笔记中，就存在天然的文本到文本，文本到图片，文本到视频的天然对齐关系。如何利用它们，就需要对比损失等自监督学习方法，在海量的天然数据中训练模型。」

尽管自监督学习降低了人工成本，但相比有监督学习，多模态自监督学习受益于海量的天然训练数据，其在零样本分类, 以及作为预训练模型给下游任务使用等方面，已经能够超越基于监督数据训练的模型。

实践：小红书中的多模态

学界重点关注多模态间的融合与表征，但业界总归要把它应用到实践中。我们可能想不到小红书多模态背后数亿、甚至数十亿量级的训练数据，想不到巨大模型参数量背后分布式训练的困难，想不到多模态模型部署所需要的计算资源与延迟控制。这些学界可能不需要太过关心，但对于真正应用来说都是最困难的地方。

以图搜笔记，应用看起来简单，实际会遇到很多困难。工业界大部分应用场景，多模态模型无法真正广泛应用与落地。

尽管多模态投入应用很难，但得益于小红书图文、短视频这样的多模态数据场景，多模态算法团队还是开发了很多应用。「除了搜索、推荐，还有电商内容理解、社区生态、广告系统等，都需要多模态技术的支持」，小红书算法团队表示，「对图文、视频内容的理解，横跨了小红书众多技术与应用」。

小红书多模算法组负责人汤神总结了如下多模态技术框架，在业务层面划分为内容质量评价体系、多模态搜索和交易（电商）内容理解，它们是多模态技术在内容分发场景当中最核心的三个技术栈。

内容质量评价体系

小红书建立了一套完整的内容质量评价架构，如下图左所示，这套完整的架构既具备了基础原子能力，又能快速组装满足不同业务的定制化需求。下图右展示了内容质量和画风调性模型的拆解，其中内容质量维度拆分成信息量、内容价值等，画风调性维度则拆分成画质、美学、BGM分类等模型。

以图片维度的画质与美学分类为例，如何利用单模型评估画质美学是业界和学界公认的难题。人们对美的理解主观且多元素，因此它也是一个多模态问题，其数据标注和模型拟合都比较难。 小红书通过batch-wise ranking的多元素标注，提高整体标签的质量，然后采用画质和美学的多任务学习方式提高模型的精度。

多模态搜索之图搜

与其他电商平台一样，图搜也是小红书提供的重要功能之一，但最大的区别在于其 更加注重用户的意图，换言之搜索的不光是产品本身，更是搭配和氛围感 。以搜索鞋子为例，小红书会关注用户的延展搜索需求，比如鞋子的不同买家秀、鞋子与不同衣服的搭配等。这样一来，图搜不再只是展示商品，更为年轻人提供了一种新的生活方式&种草平台和消费决策入口。

小红书以生活分享类内容为重心的图搜，因为用户上传的数据多种多样，质量也得不到保证，所以图搜对复杂环境下检测和识别物体提出了很多新的技术挑战。

为了解决这些问题，小红书对于特征的大规模分类问题就做了大量的探索， 在数据标注、网络结构设计、损失函数和训练方式四个方面进行技术上的改进， 比如网络设计中加入图像的全局和局部信息以进行端到端搜索；应用无监督领域自适应（UDA）技术，利用有限标注数据和海量无标注数据提高整个模型在真实场景的泛化能力；通过多任务学习解决召回结果类目不一致的问题等等。

小红书图搜技术的简单框架。

汤神表示，多模态搜索不仅在图搜能发挥出巨大的价值，其在确保图文一致、自动为图片打标签等搜索、推荐的诸多应用中也发挥了很大的作用。

电商内容理解

小红书对电商内容理解有着得天独厚的条件，但要利用多模态技术解决两个重要问题。其一是供货，通过用户的诉求指导整个商品消费的供给；其二是盘货，通过多模态技术在平台的视角盘点到底在卖什么以及平台当前货的调性如何。如下图所示，当在小红书 APP看到用户发了推荐某款墨镜的笔记之后，可以利用图搜进行这款墨镜的种草、消费。

对于电商内容理解，小红书采用的一项核心技术是「主体识别」。主体识别是在图片中找到相关关注的目标，并对这些目标的主体显著性进行排序分析。因此，小红书设计了一个同时进行检测和主体排序的端到端模型，提供了基于位置敏感的记忆力模块，达到整体SOTA的效果。

总之，通过以上展示的多模态技术和产品应用，我们可以看到，小红书作为行业领先的 UGC生活方式分享平台，对于实现多模态的前沿研究具有以下两方面的优势。

一，小红书具有海量、优质和多元化的多模态笔记数据，并配套有丰富的用户反馈数据，已然成为实践多模态内容理解算法的最佳落地场。

二，小红书拥有大量来自各种领域的视频创作内容，创作质量高，来源可靠，为多模态特征学习提供优良的数据基础，赋能高质量智能生成与创作。小红书用户内容覆盖的领域非常丰富，可以辅助多任务自适应学习、跨任务相关性建模以及高阶社交活动理解等。

未来，小红书还将在多模态智能创作领域发力。所谓多模态智能创作，即在多模态内容理解的基础上，帮助人们进行多种形式的创作，如创意生成、素材匹配、智能配乐、特效玩法、形象驱动、一键成片等。作为一个非常特殊的UGC视频创作生态，小红书希望更多普通人记录和分析自己的生活，共创多元、真实、美好、有用的社区生态。多媒体技术和智能创作可以帮助更高效地进行内容创作，记录生活，表达态度。这也与小红书「标记我的生活」的口号完美契合。

最后， 4 月 27 日 19:00-21:00，小红书将迎来「REDtech 来了」第二场线上直播节目。 届时悉尼科技大学讲师&助理教授朱霖潮、浙江大学博导 & 国家级青年人才项目入选者周晓巍、中科院自动化所研究员 & 博导赫然以及小红书社区智能算法负责人张德兵将继续为读者带来 多模态理解与创作 为主题的分享，敬请期待。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

多模态学习

关注 44

现实世界中的信息通常以不同的模态出现。例如，图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如，图像通常表示为特征提取器的像素强度或输出，而文本则表示为离散的词向量。由于不同信息资源的统计特性不同，发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型，可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中，每个模态对应结合了两个深度玻尔兹曼机（deep boltzmann machines）.另外一个隐藏层被放置在两个玻尔兹曼机上层，以给出联合表示。

【图文实录】创新工场首席科学家、澜舟科技创始人周明：认知智能的进展和思考

专知会员服务

28+阅读 · 2022年3月24日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

多模态预训练模型简述

专知会员服务

113+阅读 · 2021年4月27日

5G+智能时代的多模搜索技术

专知会员服务

22+阅读 · 2021年4月1日