Al 技术在快手短视频创作与理解的应用

2021 年 12 月 9 日 AI前线

口述 | 王仲远，快手技术 VP

整理 | 王强

审校 | 刘燕

在 AICon 全球人工智能与机器学习技术大会（2021）北京站上，快手技术 VP 王仲远带来了主题为《Al 技术在快手短视频创作与理解的应用》的演讲，分享了快手在 AI 技术领域的实践与探索成果。本文由 InfoQ 根据王仲远的演讲内容整理，希望对你有所启发。作为国内短视频行业头部平台之一，快手有 3.2 亿日活用户，月活达 5.7 亿，此外还有 1.8 亿海外月活用户，存量短视频已达数百亿量级。在快手平台上，用户每天会花超过 100 分钟观看短视频及直播内容，用户相互关注数也超过 140 亿。

快手平台内容丰富多彩，山河美景、萌宠、搞笑、极限运动、才艺、美食……包罗万象。从内容在快手平台上的流转过程这一视角分析，可以将全流程抽象为内容生产、内容理解和内容分发三大环节。本次分享将分别介绍 AI 技术在这三大环节的应用。

AI 技术在内容生产环节的应用

AI 技术在快手平台内容生产环节应用非常广泛，其中美颜、美体、自动字幕、自动配音是标配的基础 AI 能力；智能变声、魔法表情、AR/MR、智能视频创作、虚拟主播等属于高级 AI 应用。

美颜几乎是每一个同类 App 标配的能力。传统美颜技术主要依赖滤波器 LUT 的方式，需要大量的去磨皮、接滤镜等工作。

在 AI 时代，很多 AI 技术被用于美颜流程，获得较传统方式更加自然的效果。除美颜外还有头发生长、画质增强、双眼皮等变美方式，通过 AI 可以轻松实现。

在核心技术实现上，快手采用 encoder-decoder 结构，其中的重采样卷积结构采用先降维，再升维的网络结构，从而能在手机上流畅运行。除美颜外，AI 还可以应用于人脸属性的变换，如年轻人变老、瘦人变胖、改变性别等。

在人脸属性变换中有两种技术路线。一种是域迁移技术，使用青年组照片通过 CycleGAN 这样的方式学习预设的老年组照片。另一种技术路线使用隐空间来做一些属性的编辑操控，如 StyleClip，从而改变人脸属性，实现变老、变年轻或者变性别的效果。

平台还在流行人像风格化，比如非常流行的手绘画、东方国漫风格等。此类复杂的变化基本都通过 StyleGAN 等深层次网络实现。为了更高效获得数据，快手团队使用 StyleGAN-blending 等方式生成高质量的配对数据，并使用半监督混合训练框架及 Human-in-loop 策略，以适配快手场景的风格模型训练与迭代，来深层匹配人像风格化的生成结果。

除了对人脸视觉信息的变换外，团队还可以对声音做多种变化。以智能 RAP 为例，用户只需上传一个视频，系统会自动做视频场景理解，通过 NLP 技术生成一段 rap，使用语音技术生成说唱效果。此外，原始声音可以变换为小哥哥、卡通小新、四川方言等种种风格。

音频领域的另一大 AI 应用是 AI 歌手，该项目立项已有两年多时间，音准等指标有了明显进步。AI 歌手的能力帮助很多快手用户，尤其是不太擅长唱歌的用户实现了当歌手的梦想，因为智能变声功能可以学习用户的音色，通过 AI 歌手功能准确唱出歌曲。此外，快手团队还研发了 AI 自动作曲能力，已经在小森唱 App 上线相关功能。

视觉及声音的很多变换玩法落地都会搭配快手的魔法表情功能，这是一个帮助用户低成本创作视频的辅助工具。团队将 AI、MR 技术融入到了魔法表情功能中，例如在视频中的建筑上做出熊猫，在地毯上加花纹，放飞许愿灯，建筑物表面加 AR 广告等等。此外还有团队自研的流体特效，可以根据手机方位感知水流变动。魔法表情功能背后涉及三大核心模块，包括位姿跟踪、深度估计和场景重建。

智能创作是平台内容生产环节近期的研发重点，旨在依托素材的混剪帮助用户更加便捷地创作高质量短视频。它的应用场景非常广泛，如用户增长、商业化广告、内容供给补足等各种各样的新玩法。

例如一段效果接近专业水准的宣传视频，传统上需要数十万成本、几周时间才能制作完成，现在 AI 模型只需 30 秒就能生成。这样的专业级短视频制作能力是每一个用户都能体验到的，会使得高质量视频制作进入到普惠化时代。

短视频智能创作背后同样依赖于平台强大的素材理解能力，以及跨模态语义匹配、智能配乐、语音合成、转场特效等能力，最终合成效果出色的影片。

AI 技术在内容理解环节的应用

当众多内容生产后上传到快手平台，平台需要对这些内容做内容理解。每一天有数千万短视频被上传到平台，团队希望让机器也能像人类一样理解这些视频的内容。

理解内容的第一步是对杂乱无章的视频做基础的分类和标签，像图书馆归纳书籍一样一样对视频分门别类。快手平台的类目达到 4 至 5 层级，类目树有数千个节点。例如运动属于一级类目，下分游泳、滑雪、健身等次级类目。

快手通过这些类目和标签对平台上每一个作品进行结构化处理，表达成让机器可以理解的多模态 Embedding。通过多模态 Embedding，系统可以快速检索出在平台上和某个视频相似的其他视频。

除了视频级内容理解以外，快手团队还在研发“万物检索”功能，希望实现元素级检索。例如某个视频中某一件画作出自谁手，某个包的品牌等信息，都需要更加细粒度的内容理解能力。

快手已经实现了对内容视频中的实体或者元素进行识别的能力，并能通过识别来找到包含同款商品或者相似元素的短视频。该功能背后用到了多模态理解细粒度元素的系统，其中包含细粒度主体检测和检索功能。

AI 技术在内容分发环节的应用

在内容分发侧，快手团队将 AI 技术和推荐技术做了融合。

在快手平台上，推荐是无处不在的，推荐场景也有众多差异，例如单列精选页、上下滑形态、双列发现页等等。关注页的推荐融合了社交信息，同城页融入了地理信息，以此类推。