有人翻小红书种草，有人却翻到了最新AI技术趋势

2022 年 4 月 26 日 THU数据派

  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
          来源：量子位 
         
      
      
        
     
     
       
    
    
      
   
   
     
  
  
    
  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
            本文为约3060字，建议阅读5分钟 
           
           本文介绍 
           了小红书在多模态技术方向的探索。

小红书变了。

你以为它还在“美妆”、“穿搭”，但现在在社交媒体上，关于小红书的不少说法画风却有些令人意外。

俨然有了那么一点“搜索引擎”的味道。

这是发生了甚么事？

扒了扒数据，我们发现，去年一年，小红书科技数码内容同比增长500%、体育赛事同比增长1140%，美食类消费DAU甚至一度超过美妆。

而在小红书的首页，下拉菜单中的品类标签已经多达30多个。做菜教程、居家指南、户外露营、旅游攻略、考研考公甚至是创业，其内容之广泛，早已远超当年安身立命的美妆赛道。

更有意思的一个数据是，小红书此前对外披露，有高达30%的用户进入到小红书之后会直接进行搜索。

也就是说，不断泛化的UGC内容正在不断冲击突破小红书的社区内容版图，而随之而来的用户行为，也已完全不同于外界对小红书的固有想象。

从外界看去，小红书的变化不可谓不大。从内部技术的角度出发，面临的挑战其实也正在成倍递增。

内容泛化和高频搜索，加上图片、文字、视频等不同模态内容混杂，对搜索和推荐优化来说都提出了更高的要求。

再者，互联网用户对于内容质量的要求日益提升，要求平台、机器能更进一步把握用户心理的需求始终都在增长。

所以，背后愈加复杂的搜索、推荐机制，应该如何应对？

内容社区的多模态挑战

作为为数不多的大量图文+短视频混杂的内容社区，小红书给出的关键词是：多模态学习。

所谓多模态，指的是文本、图像、声音等不同的信息表现形式。

而多模态学习，要做的就是建立起能把不同类型信息结合起来的统一模型。

简单来说，一旦AI能够将不同形态的信息，如图像和文字融会贯通，就能在“理解”这件事上更进一步。

也就能达成这样的效果：

让AI根据“空中天使，虚幻引擎效果”的提示作画，AI会给出如下答案。

如果说AI看文作画还只是让人觉得“不明觉厉”，多模态技术对于互联网产品更实际的意义究竟在何处？

就在最近，小红书技术团队举办的一场对外的AI公开课，就分享了他们在多模态算法上的探索。从中恰好可以一窥当前学术界热度正酣的“多模态学习” + 拥有海量UGC内容的内容社区会产生怎样的化学反应。

多模态搜索

先来看搜索。

在打开小红书搜索结果页时，App还会给用户推荐更多相关的搜索词：

以往，这些查询词是纯文本的形式。

而在应用多模态技术之后，现在，这些查询词多了一层更美观且有关联性的“底图”。也就是说，AI会自动筛选出与查询词相匹配的图案，并在搜索结果界面展示给用户。

别看只是这么一个简单的改变，小红书多模算法组负责人汤神透露，加入该功能后，UVCTR（独立访客点击率）和PVCTR（页面浏览量点击率）提升了2-3倍。

除此之外，多模态技术在搜索中的另一重点体现，就是以图搜图。

有关商品、植物花卉等特定物品的图片搜索，并不鲜见。不过，如果用户想要搜索的是某种氛围感、某种整体风格呢？

这实际上是给AI提出了一个新的挑战：复杂环境下的物体检测与识别。

搜表情包

为了解决这个问题，小红书技术团队以三个核心模块实现了离线构建和在线索引的能力：

前置模块
特征大规模检索
排序模块

在前置模块中，技术团队研发了多种多模态标签，覆盖目标检测、主题识别、商品属性、人体属性等诸多维度。

在特征模块中，技术团队通过基于Norm Classifier的多任务学习，解决了召回结果类目不一致的问题。

在排序模块中，技术团队利用OCR以及标题中抽取出的品牌词等NLP相关信息，进行多模态信息集成，显著提升了检索准确率。

内容质量评价体系

而如果说搜索的变化更容易被看见，多模态技术在内容质量评价中的应用，则在更深层次上影响着小红书的整体“画风”。

去年7、8月份开始，在给各种笔记打类目标签、构建纯分类多模态系统的基础上，小红书技术团队开始更多关注到笔记内容质量评价体系的建立。

也就是说，让AI学会去判断什么样的笔记更“有用”、更具美学价值。

为此，小红书技术团队列举了两个比较核心的基础原子能力：

封面图画质美学模型
多模态笔记质量分模型

前文提到的搜索推荐词底纹图片，其实也是基于这样的基础能力实现的。另外，依托于这套内容质量评价体系，还能实现图文、视频等不同种类笔记的结构化，搜索结果页的去重等等优化功能。

说了这么多，简单总结一下，多模态技术在业务场景中的应用，对于小红书最大的影响就是：让优质的内容能更容易被需要的人看到，让呈现在用户眼前的整体画风和内容审美得到提升。

如此一来，对于一个以UGC为主的社区来说，用户与内容生产者之间的正向循环也就更容易达成，对于整体的社区氛围而言无疑是有利的。

这也正是其笔记内容越来越多元，用户构成越来越多元的关键所在。

小红书为什么会变？

前文已经说到，小红书“画风”的优化，与当下整个互联网工业界的技术新趋势不无关系。

现在，图文内容和短视频内容在社交媒体上已然成为主流，而传统的单一模态，显然已经难以完整描述这些文本、图像、声音交汇的信息。

融合多个模态的特征信息，逐渐成为各种实际应用场景，尤其是搜索、推荐等对内容理解有着高要求的领域中普遍存在的新挑战。

而小红书本身在场景和业务角度，早已具备关键条件和迫切需求。

首先，从场景角度来看，小红书上发布的内容以图文和视频为主，天然拥有海量多模态数据。

并且，这些多模态数据背后，还配套有丰富的用户反馈数据。

其次，业务高速发展中的小红书会面临各种corner case。比如用户发布的内容，不仅涵盖美食、美妆、家居、科技产品等等诸多不同的类目，还可能出现只有图片的没有文字的笔记、图片+音乐的笔记、没有标题的短视频等等情况。

而这些新的挑战和独一无二的多模态应用场景，也恰恰给多模态技术的落地提供了充足的空间。

从对内满足业务需求到对外输出

实际上，为了应对用户需求的变化，小红书内部技术的积累展开得更早。并且如今已经发展到了一个从对内满足业务需求，到对外实现技术输出的新阶段。

比如今年，小红书技术团队就中了2篇CVPR论文，分别涉及视频检索和视频内容理解。

而就在这两天，小红书还对外开启了“AI公开课”，几大高校博导教授都参与其中，着实吸引了不少来自学界的关注。这场名为“REDtech来了”的线上直播，主题正是关注多模态在学界和工业界的最新发展趋势。

此外，还有“AI+音乐”、“跨模态图像内容理解和视频生成”，以及“自监督学习在多模态内容理解中的技术与应用”等诸多干货分享。

而针对当前多模态研究的产学研现状，大咖们也分享了不少精彩观点。

谢伟迪老师谈到：“每个模态中含有不同的不变性和共存性。例如，在文字中，当我们提及“吉他”，它可能对应着视觉中的成千上万种不同样子的吉他。我们听见狗叫的时候，很大概率也会在视觉上看见狗。

因此，合理地利用不同模态数据的特性进行协同训练，能够实现更加高效的表征学习，向下游推理任务进行泛化。”

“弱相关的数据集，就是相关性问题，并没有弱相关的问题，如果做机器学习的话，一定是从输入到输出，中间就是学了一些function而已。”

“模态之间的不对齐一定不是弱相关，一定是会有很强的相关性，不然的话，网络学不出来。当然我们现在想尝试去做因果性，大部分我们认为的因果性，很多都是由相关性来决定的。”

当然啦，除了内容理解，随着多模态学习研究热潮而备受关注的，还有AI内容创作，也就是包括数字人技术在内的多模态人机交互。比如最近，就有一个名为“Dream by WOMBO”的AI看文作图工具，连续多日登上Apple Store图形和设计区榜第一。

而这也正是小红书在探索的另一大多模态技术方向。

—— END ——

登录查看更多

相关内容

小红书

关注 0

在小红书，发现世界，分享生活。

微信搜一搜中的智能问答技术

专知会员服务

39+阅读 · 2022年6月18日

「联邦学习隐私保护」最新2022研究综述

专知会员服务

117+阅读 · 2022年4月1日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

【MILA-唐建】几何深度学习药物发现，87页ppt，附视频与PPT

专知会员服务

62+阅读 · 2022年2月17日

“推荐算法”究竟是什么？人大《算法向善与个性化推荐发展研究》报告帮你快速了解，附48页pdf

专知会员服务

47+阅读 · 2022年2月9日

ICML 2021 | 向抗视觉混淆的主动目标跟踪迈进

专知会员服务

12+阅读 · 2021年7月6日

IJCAI2021 | 知识驱动的零样本学习综述及K-ZSL评测数据集

专知会员服务

35+阅读 · 2021年6月8日

图像描述生成研究进展

专知会员服务

71+阅读 · 2021年3月29日

京东《未来科技趋势白皮书》，101页pdf

专知会员服务

55+阅读 · 2021年2月3日

2020年中国《知识图谱》行业研究报告，45页ppt

专知会员服务

240+阅读 · 2020年4月18日

今天起，种草小红书的多模态AI技术

机器之心

2+阅读 · 2022年4月25日

火爆的多模态学习，小红书即将开讲！

CVer

1+阅读 · 2022年4月18日

崔健视频号演唱会刷屏背后：事件营销的新热搜

36氪

0+阅读 · 2022年4月18日

多模态大咖齐刷刷翻开小红书

量子位

0+阅读 · 2022年4月15日

种草、广告与带货

人人都是产品经理

0+阅读 · 2022年2月24日

微信是一切流量的尽头

人人都是产品经理

0+阅读 · 2022年2月21日

视频号到底能不能做好？

人人都是产品经理

0+阅读 · 2022年2月15日

“春节不长胖”已经成为一门生意了

人人都是产品经理

0+阅读 · 2022年2月4日

多模态AI崛起，2022年人工智能5大发展趋势

CSDN

2+阅读 · 2022年1月20日

从抖音、快手背后的技术，谈AI内容产品的启发

人人都是产品经理

1+阅读 · 2021年12月1日

海南人群长寿相关基因位点的筛查与鉴定

国家自然科学基金

0+阅读 · 2014年12月31日

高原鼢鼠（Myospalax baileyi）扩散机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于目标语义的网络图像检索技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向军事情报的多媒体大数据分析与展示

国家自然科学基金

40+阅读 · 2014年12月31日

基于微博社区的知识图谱构建与分析

国家自然科学基金

27+阅读 · 2014年12月31日

自然魔法师：神奇的表面张力

国家自然科学基金

0+阅读 · 2013年12月31日

基于用户建模的个性化微博排序研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于主体个性化的微博情感分析关键技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于移动互联网的图标广告推荐方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于模型的结构性程序错误的诊断方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

Computationally Efficient PAC RL in POMDPs with Latent Determinism and Conditional Embeddings

Arxiv

0+阅读 · 2022年6月24日

Discrete-Continuous Smoothing and Mapping

Arxiv

0+阅读 · 2022年6月23日

Efficient Adaptive Federated Optimization of Federated Learning for IoT

Arxiv

0+阅读 · 2022年6月23日

Graphical Evidence

Arxiv

0+阅读 · 2022年6月22日

A Spatio-Temporal Neural Network Forecasting Approach for Emulation of Firefront Models

Arxiv

0+阅读 · 2022年6月22日

Cross-Domain Few-Shot Graph Classification

Arxiv

13+阅读 · 2022年1月20日

A Survey of Uncertainty in Deep Neural Networks

Arxiv

30+阅读 · 2021年7月7日

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering

Arxiv

20+阅读 · 2021年5月27日

Graph Neural Network for Traffic Forecasting: A Survey

Arxiv

35+阅读 · 2021年1月27日

Learning Heterogeneous Knowledge Base Embeddings for Explainable Recommendation

Arxiv

11+阅读 · 2018年5月9日

VIP会员