一文详解面向多级多模态场景的召回引擎

会员服务 ·

一文详解面向多级多模态场景的召回引擎

2020 年 6 月 15 日 CSDN

作者| 阿里文娱开发专家崇懿、

阿里文娱开发专家慧善

责编 | 屠敏

头图 | CSDN 下载自视觉中国

出品 | CSDN（ID：CSDNnews）

优酷视频搜索在文本搜索系统的基础上，不断探索视频搜索的方案，在多模态输入、多级多模态索引、跨模态检索上积累了丰富经验，并应用到C端B端场景中。本次分享将揭开多模态图引擎的面纱。

背景

随着智能手机及移动互联网的快速发展，人们接触到的多模态数据在数量和类别上都在飞速增长。计算、存储能力不断突破，人工智能技术也得以发展，在云、端测中CV技术、AR/VR技术都为人们提供更便利、智能的体验。

优酷作为视频平台拥有海量OGC、UGC视频内容，视频内容数据是一个高维度多模态的数据，有标题、简介、评论等文本信息，有视频帧的图像信息，有声音，也有连贯的动作视频片段。传统的基于倒排索引的搜索引擎只适合检索文本信息，对于多媒体内容检索能力不足。

为了让用户更便捷的找到多媒体内容，增加多模态搜索能力，开创性设计与研发多级多模态搜索引擎（MMS）。提供分布式大规模多层级多模态索引能力，低延时跨模态级联检索能力，多层级检索、融合、排序能力。

系统概况

基于阿里平台的Hippo（在线服务调度）、SAP（应用服务框架）等基础设施开发部署。MMS主要是在索引结构、检索控制、执行框架、部署等方面做了系统设计和选型。

关键技术

1. 分布式多级多模态索引结构设计

每层级独立构建分布式索引，索引类型包括倒排及向量索引。以视频、帧（图片）、人脸举例，索引结构如下：

1. 视频meta 文本，视频的元信息包括视频的名字，节目信息等，相对于线上的视频全库检索，这里只包含少量比较的字段，保证对视频的搜索精确召回。

2. 视频帧向量，我们把优质视频按关键帧切割，生成帧embeding 向量供检索，同时包含一些其他的帧的meta文本信息。

3. 人脸帧向量，对于切割帧中出现的明星，人物等，会识别出来并且向量化放在单独的检索库中

视频、帧、人脸存在层级关系；同时帧图片及人脸都有表征向量建的向量索引，支持亿级别规模，分10个分片，Top10的召回率90%以上。

2. 向量检索

视频帧索引和人脸索引都集成了向量内容，通过算法提取到8.6 亿的高维视频帧向量，3800万的人脸向量，如此巨大的索引数据同时也考验我们对向量存储召回的选择，在经过多次的索引构建测试以后，我们选择aitheta 作为向量的执行召回引擎，aitheta 是拍立淘团队开发的向量检索引擎，在数据规模非常大时aitheta 的召回延时和召回率均优于faiss，同时indexlib 插件已经集成aitheta，可以很方便的使用，即使使用aitheta，对于10亿级别的高维向量检索，aitheta 的支持性也不是很好，我们团队专门做了一些优化，比如向量降维、自动化调参等。

在上层应用检索上我们使用Ha3 的向量查询能力，并且在这基础上进行功能扩充和优化，首先支持了向量检索的匹配分的返回，使用方可以更容易的进行按查询匹配的相关性进行截断和多维度打分，其次对于多个向量的查询，对返回结果添加来源向量标记，方便上层应用进行打散等业务逻辑。

向量召回架构

3. 检索调度

MMS的复杂性在于其在线检索逻辑，在支持层级及多模态query输入的基础上，如何控制跨层级、跨模态的检索。通过定义标准的跨层级和跨模态准则，根据用户的输入形成在线检索逻辑。

基本的检索流程如下图：

会由multi-call进行多层级、多模态扩展查询逻辑，其中关键是多级、跨模态的扩展查询逻辑。

1）跨层级

跨层级的检索由用户输入的层级作为起始检索点，用户想要的输出作为终点作为扩展，系统具有自适应推理能力。

2）跨模态

跨模态检索会有两种形式的解决方案，使用不同场景，索引构建前，不同模态数据做统一表征，映射到统一空间，在线进行向量检索，此处内容表征的占主要，MMS主要解决是在文本、向量间进行跨模态检索。

4. 图化执行引擎

复杂检索逻辑及低延迟服务能力要求，需要有高效的执行框架，图化执行引擎具备最大限度并行能力。同时对算子进行抽象，可以更自由编排及复用。

MMS选择Suez图化执行引擎，采用DAG执行引擎+业务逻辑算子的实现方式。

DAG 全图化引擎是阿里搜索AI·OS 的重要部分，主要思路是把业务逻辑和基础组件拆分并封装成tensorflow 的算子形式，在运行时数据以流(tensorflow里的Tensor)的方式传递，然后根据业务需求组装算子成静态执行图。正是 tensorflow 这种静态图的灵活性，我们甚至可以把MMS作为子图嵌入到其他应用中，也可以在MMS中嵌入其他的深度模型作为子图。全图化以后的应用支持异构设备，异步并行计算等tensorflow特性。

5. 通用性算子实现

搜索逻辑中会设计query parser、merge、sort通用逻辑，基于图化执行引擎接口实现通用算子：

1）query parser算子负责解析请求，查询串使用简单文本方式，相对于pb/binary方式，可视化的查询串更加直观，同时查询语法简单且强大。查询串支持查询文本查询，向量查询，或者同时有两者，支持高级语法，可以控制的查询参数粗排精排等；

2）merge融合多层级doc，补全所需要的正排、summary信息；

3）sort是搜索排序逻辑，排序后选取Top N返回；

4）result是结果返回和处理逻辑，基于查询使用文本方式，我们希望结果也是直接可视化，所以在构建结果的时候支持了json/xml，同时为了兼顾性能，我们也支持protobuf 的返回格式，同时还加入snappy/lz4 方式压缩，使返回结果集更小，传输效率更高；为了方便调试，我们加入了调试参数，可以保存聚合调试参数，输出引擎内部的调试内容。