爱奇艺视频场景下的自然语言处理应用

2017 年 10 月 3 日 AI前线 假期仍爱岗敬业的
作者|Moment
编辑|Natalie
自然语言处理(Natural Language Processing,简称 NLP)是人工智能的一个重要分支,它研究能实现人与机器之间用自然语言进行有效通信的各种理论和方法,即让机器“懂”人类的语言。

爱奇艺是一家以科技创新为驱动的娱乐公司,致力于为用户提供丰富、高清、流畅、和智能化的专业视频体验。

在爱奇艺的视频场景下,自然语言处理的使命即是让机器更好地理解娱乐相关的视频 / 图文内容,从而为用户提供智能化的服务。

本文简介爱奇艺自然语言处理团队专注在哪些 NLP 课题以及取得的进展,并举例说明我们的使用场景。

更多精彩文章请添加微信“AI 前线”(ID:ai-front)
一. 引言

NLP 涉及的面非常广,包括语音识别 / 合成、信息检索,信息抽取,问答系统,机器翻译、对话系统等。

在爱奇艺,自然语言处理团队专注于以下 7 个方向:

1. 词法分析和知识图谱

2. 打标签(Tag Recommendation)

3. 查询理解

4. 热门事件发现和聚合

5. 语音助手

6. 舆情分析

7. 电影票房和电视剧 VV(video view)预测

从而实现更好地理解视频 / 图文内容,用户的搜索意图和用户的评论,为搜索、推荐、广告、社交、舆情监控的智能化提供基础服务和技术支持,并探索 NLP 的直接应用业务。

二. 词法分析和知识图谱

我们的词法分析作为文本分析的基础服务,已广泛引用于多个亿级流量的业务线。

图 1:词法分析平台

图 1 显示了现阶段的词法分析功能:

分词、词性标注、词权重、新词发现、实体识别 / 链接功能等,采用的技术主要包括 CRF、L2R、CNN、CNN+CRF、LSTM+CRF。

其中,实体识别是词法分析中的重点也是难点。除了通用的人名、地名、组织机构名的识别,我们还特别关注娱乐领域的影视剧名、游戏名、文学作品名、游戏解说名等的识别。

上述的娱乐领域的实体识别挑战较大,主要包括:

  1. 目前工业界和学术界还鲜有相关工作的介绍。

  2. 实体本身的规律性弱。任何一个词都有可能是实体的一部分,例如“杀破狼”、“西游记之孙悟空三打白骨精”等;

  3. 实体词与实体词之间、以及实体词与普通词之间的歧义性大,如电影“十二生肖”、“功夫”、“长城”、电视剧“解密”,既是普通名词也是实体词,“非诚勿扰”即可能是电影,也可能是综艺或普通词。

  4. 缺乏训练语料

我们首先在训练语料的准备上做了大量的工作,包括:

(1)使用启发式规则自动构建了 100 万句弱标注的视频语料。

(2)人工方式标注了几万句的精准标注的视频语料。

在实体词典的构建上,使用数据挖掘技术实时地从全网挖掘影视剧名 / 角色名 / 艺人名 / 游戏名等领域词典。

算法上不仅在传统的 CRF 模型上做了很多的尝试,也在深度学习方法进行了一些探索。CRF vs. CNN vs. LSTM 等对比实验表明,如图 2 所示的双层 CNN+CRF 模型获得较优的性能。在 2 个不同的测试集上,我们的模型对剧名识别的 f-score 分别是 82.1% 和 72.6%。

实体识别 / 链接服务除了作为底层的 NLP 基础服务应用于各业务线,我们也开发了多个直接应用业务。

  1. 通过实体识别进行泡泡圈子的内容分发:即从图文 / 视频 / 图集中的文本中准确地识别明星、剧名;对识别出的明星、剧名按照和内容的匹配度进行重要性打分、并根据重要性将内容自动分发到对应的明星圈子和影视剧圈子。

  2. 通过实体识别将 feed 流中的视频和电影票(图 3 左)、游戏(图 3 中)、电商(图 3 右)、漫画和文学等垂线业务进行关联。可在不损伤用户体验的情况下,提高对垂直业务线的导流,进而实现一键购买电影票、下载游戏和下单电商等。

图 3:基于实体识别 / 链接的 feed 流视频与垂线业务的关联

在视频领域知识图谱,我们可以分析出视频与视频、视频与人、人与人,人与视频的关系。再结合精确的语义分析、实现了用户查询的精确回答(图 4)。未来我们还要继续挖掘游戏、文学等更多垂直领域的实体属性和实体关系。

图 4:基于知识图谱的问答系统

三. 打标签

标签 是从对内容(视频、图文、或图集)的描述(标题、摘要、或正文)中提取可表示内容的一种元数据(关键词或术语)、有助于更好的个性化内容推荐、更高效的内容编辑。

标签可以是一个封闭的预定义分类体系(我们称之为类型标签),也可以是从内容中提取的开放的关键词集合(内容标签)。

表 1:视频描述(标题)及其类型和内容标签

类型标签 采用的是基于 SVM 的分类算法,特征包括字的 n-gram、词的 n-gram、主题语言模型特征、词典特征等。

传统的内容标签抽取方法分二步走:

  1. 基于启发式规则的候选标签生成。

  2. 基于无监督(TextRank,ExpandRank)或有监督(Maui,CeKE)算法的候选打分,并输出概率最大的作为系统标签。

按我们经验和对业务的了解,我们将基于打分或者分类的内容标签任务转化为一个序列标注任务,并采用 CRF 模型。该算法具有:

01. 可以抽取任意长度的词组作为标签

02. 不再需要单独的候选抽取模块

03. 可以获得最佳的性能

目前、标签服务已经应用于视频推荐、爱奇艺头条、泡泡、视频编辑等业务等。

四. 查询理解

查询理解包括个性化的默认搜索词、查询补全、查询纠错和查询分类等。

其中个性化的默认搜索词是在用户发生搜索行为前,通过用户在爱奇艺的历史行为猜测用户可能感兴趣的 query。其本质是一个推荐系统,方法是计算用户画像和 query 的相似度。优秀的个性化默认搜索词可以增加用户黏性,提高用户体验,进一步地引导用户行为。

查询补全是在用户发生搜索行为的过程中,通过用户不完整的输入(我们称之为 token)与 query 的匹配度,query 的点击量、专辑与否、freshness 等提示用户一些可能感兴趣的 query,提高搜索效率。

五. 语音助手

我们的语音助手已落地在爱奇艺 VR 一体机和爱奇艺 APP 上。通过 VR 语音助手,可以实现和 VR 一体机的虚拟女友 Vivi 进行 40 多种交互,包括视频播放 / 搜索、天气查询、和 Vivi 的互动、VR 设备设定(亮度调高、音量调低)等。

在 APP 里,语音助手可实现便捷地购买 VIP 会员(我要买爱奇艺 VIP 会员),下载游戏(我想下载爱奇艺斗地主游戏)、直接观看电视剧的某一集或电影等。

图 5:APP 上的语音助手

语音助手简单来说,即是 把用户说的话(utterance),转换为结构化的语义表示,从而执行相应的动作(action),分为如图 6 所示的 3 个大模块:语音识别、语音识别纠错、语义解释

语义解析模块又进一步分为 意图分类(intent classification)和 要素抽取(slot filling)。

需要说明的是,第二节介绍的词法分析,特别是影视剧名识别,和第四节介绍的基于爱奇艺全网搜索的查询纠错让我们的语音助手鲁棒性,特别是在影视娱乐、游戏领域得到较大的优化。

图 6:语音助手框架图

六. 舆情分析

舆情分析 可直观反映观众对剧和艺人的关注焦点和态度,为版权方和自制剧的内容运营、内容营销策略制定、营销趋势把握提供参考。

我们使用自然语言处理中的句法分析技术,从 UGC 内容(用户评论、弹幕、泡泡圈子)中抽取评价对象、评价词以及情感色彩,从而形成对用户观影评论、社交互动的多维度结构化舆情分析。

图 7 是对电影“战狼 2”从 视觉效果、场面、演员 三个维度的舆情分析结果。

图 7:电影“战狼 2”的部分舆情分析结果

带情感的热词分析效果可以访问爱奇艺指数网站 http://index.iqiyi.com/ ,其中 词的大小反应提及频度, 词的颜色反映情感色彩

七. 电影票房和电视剧 VV 预测

无论是票房还是 VV 的预测,都面临很大的挑战,包括:

01 提前时间长(提前 1 年 / 半年等), 可获取的信息有限

02 上线前影响因素较多 (如同期影片、突发事件)

03 训练样本少(少于 1000 部)

04 站内外多个数据源的数据融合、清洗等

基于大数据和机器学习算法,我们对电影票房、电视剧 VV(video view)、综艺 VV 等提前 60 天、180 天、360 天等多个时间窗口预测,为版权剧采购立项、自制剧立项、广告售卖等提供科学的数据支撑。

为获得较好的性能,我们在数据清洗和特征工程上做了很多尝试。最后采用了包括时间类、题材类、播放平台和方式类、指数类、ip 类、前作类、趋势类等 100 多维特征、并对丢失特征的补全和部分特征的变换。

模型上对比了线性模型、SVM、随机森林、GBDT、DNN、stacking 集成方法等。

在最近的 90 部版权电视剧上最优的 R2 准确率为 85%。vv 超 10 亿的头部剧预测误差在 30% 以内的占 67%,误差在 50% 以内是 100%。

图 8 是部分剧的预测 vv 与真实 vv 的比较。

图 8:部分头部版权剧提前 180 天、60 天预测值和真实值的对比

八. 总结

基于用户弱标注和人工精准标注数据、使用机器学习和深度学习的自然语言处理技术更好地理解视频、理解用户,从而让搜索、推荐、数据挖掘更智能,为用户提供智能化的专业视频体验。

接下来,我们要进一步优化上述功能模块,并拓展在视频场景下的更多应用。

在算法上,将进一步探索更有效的深度学习模型、文本和图像的融合、迁移学习等提高系统的性能。

作者介绍

Moment,2016 年至今任职于爱奇艺技术产品中心 - 搜索广告部,主要负责自然语言处理(NLP)和商业系统的研发和管理工作。博士毕业于中科院自动化所自然语言处理方向,先后在日本 ATR 研究所、日本情报通信研究机构(NICT)、英国爱丁堡大学(短期访问)和索尼中国研究院担任自然语言处理、语音识别与机器翻译等研发工作。曾在 EMNLP、COLING、CIKM、INTERSPEECH、ICASSP、Computer Speech & Language 等国际会议和期刊发表文章 20 余篇。

今日荐文

点击下方图片即可阅读

结束创业后,我如何用两个月时间入门 AI


登录查看更多
8

相关内容

词法分析(英语:lexical analysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。 词法分析(lexical analysis)包括汉语分词和词性标注两部分。和大部分西方语言不同,汉语书面语词语之间没有明显的空格标记,文本中的句子以字串的形式出现。 因此汉语自然语言处理的首要工作就是要将输入的字串切分为单独的词语,然后在此基础上进行其他更高级的分析,这一步骤称为分词(word segmentation 或tokenization)。除了 分词,词性标注也通常认为是词法分析的一部分。给定一个切好词的句子,词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记(part-of-speech tag),比如,名词(noun)、动词(verb)、形容词(adjective)等。
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
214+阅读 · 2020年4月26日
专知会员服务
156+阅读 · 2020年4月21日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
98+阅读 · 2019年12月14日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
80+阅读 · 2019年10月12日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
108+阅读 · 2019年6月21日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
爱奇艺视频人物识别技术及应用
QCon
7+阅读 · 2019年4月8日
视频内容理解在Hulu的应用与实践
AI前线
12+阅读 · 2019年2月16日
word2vec在工业界的应用场景
全球人工智能
5+阅读 · 2018年1月7日
从CNN视角看在自然语言处理上的应用
人工智能头条
5+阅读 · 2017年10月24日
自然语言处理在人机对话中的应用
京东大数据
8+阅读 · 2017年8月11日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
Neural Response Generation with Meta-Words
Arxiv
6+阅读 · 2019年6月14日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
4+阅读 · 2015年8月25日
VIP会员
相关资讯
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
爱奇艺视频人物识别技术及应用
QCon
7+阅读 · 2019年4月8日
视频内容理解在Hulu的应用与实践
AI前线
12+阅读 · 2019年2月16日
word2vec在工业界的应用场景
全球人工智能
5+阅读 · 2018年1月7日
从CNN视角看在自然语言处理上的应用
人工智能头条
5+阅读 · 2017年10月24日
自然语言处理在人机对话中的应用
京东大数据
8+阅读 · 2017年8月11日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
Top
微信扫码咨询专知VIP会员