来源:量子位 本文为约3060字,建议阅读5分钟
本文介绍 了小红书在多模态技术方向的探索。
小红书变了。
你以为它还在“美妆”、“穿搭”,但现在在社交媒体上,关于小红书的不少说法画风却有些令人意外。
俨然有了那么一点“搜索引擎”的味道。
这是发生了甚么事?
扒了扒数据,我们发现,去年一年,小红书科技数码内容同比增长500%、体育赛事同比增长1140%,美食类消费DAU甚至一度超过美妆。
而在小红书的首页,下拉菜单中的品类标签已经多达30多个。做菜教程、居家指南、户外露营、旅游攻略、考研考公甚至是创业,其内容之广泛,早已远超当年安身立命的美妆赛道。
更有意思的一个数据是,小红书此前对外披露,有高达30%的用户进入到小红书之后会直接进行搜索。
也就是说,不断泛化的UGC内容正在不断冲击突破小红书的社区内容版图,而随之而来的用户行为,也已完全不同于外界对小红书的固有想象。
从外界看去,小红书的变化不可谓不大。从内部技术的角度出发,面临的挑战其实也正在成倍递增。
内容泛化和高频搜索,加上图片、文字、视频等不同模态内容混杂,对搜索和推荐优化来说都提出了更高的要求。
再者,互联网用户对于内容质量的要求日益提升,要求平台、机器能更进一步把握用户心理的需求始终都在增长。
所以,背后愈加复杂的搜索、推荐机制,应该如何应对?
作为为数不多的大量图文+短视频混杂的内容社区,小红书给出的关键词是:多模态学习。
所谓多模态,指的是文本、图像、声音等不同的信息表现形式。
而多模态学习,要做的就是建立起能把不同类型信息结合起来的统一模型。
简单来说,一旦AI能够将不同形态的信息,如图像和文字融会贯通,就能在“理解”这件事上更进一步。
也就能达成这样的效果:
让AI根据“空中天使,虚幻引擎效果”的提示作画,AI会给出如下答案。
如果说AI看文作画还只是让人觉得“不明觉厉”,多模态技术对于互联网产品更实际的意义究竟在何处?
就在最近,小红书技术团队举办的一场对外的AI公开课,就分享了他们在多模态算法上的探索。从中恰好可以一窥当前学术界热度正酣的“多模态学习” + 拥有海量UGC内容的内容社区会产生怎样的化学反应。
先来看搜索。
在打开小红书搜索结果页时,App还会给用户推荐更多相关的搜索词:
以往,这些查询词是纯文本的形式。
而在应用多模态技术之后,现在,这些查询词多了一层更美观且有关联性的“底图”。也就是说,AI会自动筛选出与查询词相匹配的图案,并在搜索结果界面展示给用户。
别看只是这么一个简单的改变,小红书多模算法组负责人汤神透露,加入该功能后,UVCTR(独立访客点击率)和PVCTR(页面浏览量点击率)提升了2-3倍。
除此之外,多模态技术在搜索中的另一重点体现,就是以图搜图。
有关商品、植物花卉等特定物品的图片搜索,并不鲜见。不过,如果用户想要搜索的是某种氛围感、某种整体风格呢?
这实际上是给AI提出了一个新的挑战:复杂环境下的物体检测与识别。
为了解决这个问题,小红书技术团队以三个核心模块实现了离线构建和在线索引的能力:
前置模块
特征大规模检索
排序模块
在前置模块中,技术团队研发了多种多模态标签,覆盖目标检测、主题识别、商品属性、人体属性等诸多维度。
在特征模块中,技术团队通过基于Norm Classifier的多任务学习,解决了召回结果类目不一致的问题。
在排序模块中,技术团队利用OCR以及标题中抽取出的品牌词等NLP相关信息,进行多模态信息集成,显著提升了检索准确率。
而如果说搜索的变化更容易被看见,多模态技术在内容质量评价中的应用,则在更深层次上影响着小红书的整体“画风”。
去年7、8月份开始,在给各种笔记打类目标签、构建纯分类多模态系统的基础上,小红书技术团队开始更多关注到笔记内容质量评价体系的建立。
也就是说,让AI学会去判断什么样的笔记更“有用”、更具美学价值。
为此,小红书技术团队列举了两个比较核心的基础原子能力:
封面图画质美学模型
多模态笔记质量分模型
前文提到的搜索推荐词底纹图片,其实也是基于这样的基础能力实现的。另外,依托于这套内容质量评价体系,还能实现图文、视频等不同种类笔记的结构化,搜索结果页的去重等等优化功能。
说了这么多,简单总结一下,多模态技术在业务场景中的应用,对于小红书最大的影响就是:让优质的内容能更容易被需要的人看到,让呈现在用户眼前的整体画风和内容审美得到提升。
如此一来,对于一个以UGC为主的社区来说,用户与内容生产者之间的正向循环也就更容易达成,对于整体的社区氛围而言无疑是有利的。
这也正是其笔记内容越来越多元,用户构成越来越多元的关键所在。
前文已经说到,小红书“画风”的优化,与当下整个互联网工业界的技术新趋势不无关系。
现在,图文内容和短视频内容在社交媒体上已然成为主流,而传统的单一模态,显然已经难以完整描述这些文本、图像、声音交汇的信息。
融合多个模态的特征信息,逐渐成为各种实际应用场景,尤其是搜索、推荐等对内容理解有着高要求的领域中普遍存在的新挑战。
而小红书本身在场景和业务角度,早已具备关键条件和迫切需求。
首先,从场景角度来看,小红书上发布的内容以图文和视频为主,天然拥有海量多模态数据。
并且,这些多模态数据背后,还配套有丰富的用户反馈数据。
其次,业务高速发展中的小红书会面临各种corner case。比如用户发布的内容,不仅涵盖美食、美妆、家居、科技产品等等诸多不同的类目,还可能出现只有图片的没有文字的笔记、图片+音乐的笔记、没有标题的短视频等等情况。
而这些新的挑战和独一无二的多模态应用场景,也恰恰给多模态技术的落地提供了充足的空间。
实际上,为了应对用户需求的变化,小红书内部技术的积累展开得更早。并且如今已经发展到了一个从对内满足业务需求,到对外实现技术输出的新阶段。
比如今年,小红书技术团队就中了2篇CVPR论文,分别涉及视频检索和视频内容理解。
而就在这两天,小红书还对外开启了“AI公开课”,几大高校博导教授都参与其中,着实吸引了不少来自学界的关注。这场名为“REDtech来了”的线上直播,主题正是关注多模态在学界和工业界的最新发展趋势。
此外,还有“AI+音乐”、“跨模态图像内容理解和视频生成”,以及“自监督学习在多模态内容理解中的技术与应用”等诸多干货分享。
而针对当前多模态研究的产学研现状,大咖们也分享了不少精彩观点。
谢伟迪老师谈到:“每个模态中含有不同的不变性和共存性。例如,在文字中,当我们提及“吉他”,它可能对应着视觉中的成千上万种不同样子的吉他。我们听见狗叫的时候,很大概率也会在视觉上看见狗。
因此,合理地利用不同模态数据的特性进行协同训练,能够实现更加高效的表征学习,向下游推理任务进行泛化。”
“弱相关的数据集,就是相关性问题,并没有弱相关的问题,如果做机器学习的话,一定是从输入到输出,中间就是学了一些function而已。”
“模态之间的不对齐一定不是弱相关,一定是会有很强的相关性,不然的话,网络学不出来。当然我们现在想尝试去做因果性,大部分我们认为的因果性,很多都是由相关性来决定的。”
当然啦,除了内容理解,随着多模态学习研究热潮而备受关注的,还有AI内容创作,也就是包括数字人技术在内的多模态人机交互。比如最近,就有一个名为“Dream by WOMBO”的AI看文作图工具,连续多日登上Apple Store图形和设计区榜第一。
而这也正是小红书在探索的另一大多模态技术方向。