机器学习在知乎:深度学习助力内容分析处理,智能问答产品或成未来目标

2017 年 7 月 10 日 AI前线 Vincent

编辑|陈思
知乎,中文互联网最大的知识社交平台,用户通过这个平台,彼此之间分享经验、交流知识。从 2010 年发展至今,知乎已经拥有超过 8400 万用户。如此庞大的用户群体,每天都会产生十分巨大的数据,如果只依靠人工管理,将会是一个巨大的挑战。知乎将人工智能引用在各个不同的应用场景,InfoQ 记者来到知乎,采访到知乎机器学习团队负责人张瑞,他将为我们解密机器学习如何为知乎提供高效运营管理。
知乎与机器学习

关于人工智能的产品,张瑞说:“大家在讲人工智能的时候,可能看到的最为显眼的东西,或者是说最能抓人眼球的东西,是直接把机器学习技术包装成一个产品去卖。比如说无人车,它直接做的东西就是无人驾驶;还有比如说面部识别技术,去做监控,或者安防。这些东西你能直接看到,这就是一个人工智能的产品。”但是对于知乎,张瑞认为知乎首先是一个用户体验导向的产品,为了保障用户体验,实际上用到大量的人工智能,或者机器学习的技术是以 AI 为支撑的一个产品。

据了解,知乎很早就开始做机器学习方面的工作,比如说知乎的搜索和推荐。搜索和推荐里面有很多的策略,实际上是用机器学习和数据挖掘的技术。在 2016 年之前,机器学习 case by case 地应用在一些业务场景上面,去解决业务面临的问题。随着知乎的产品发布的节奏逐渐加快,同时有许多业务场景,需要用到机器学习技术,去提升用户体验,提高社区运营效率。从那年之后,知乎的产品发布的节奏逐渐加快,同时有许多业务场景,需要用到机器学习技术,去解决一些用户体验的问题,或者社区管理的问题。这个时候,再去纯粹依靠人力进行产品决策和社区运营,就会非常的浪费工程师的人力资源。

“所以我们在 16 年的时候,我们就开始组建一个统一的机器学习和数据挖掘的团队,然后大家会在一块,比如说我们构建统一的推荐引擎,然后把这个推荐引擎用到各个业务上面去,比如我们的社区,知识付费产品等,然后会用到各个产品上去,来节省我们工程师的人力,提高我们做事的效率,以及最重要的,不断提升用户体验。”张瑞说。

使用机器学习技术,可以更加精细地对用户和内容进行建模,促进内容生产和内容分发的效率。具体说来,可以把知乎对机器学习的应用划分为 6 大场景,也就是用户画像、内容分析、排序、推荐、商业化和社区管理。

机器学习的应用场景
推荐

知乎有很多的推荐业务场景,比如邀请回答,从技术层面来讲,其实就是推荐问题。在知识社区里面,这个问题其实被称为问题路由,知乎技术团队做了很多的研究,怎么去把问题路由做得更加高效。张瑞说,知乎在做问题路由的时候,其实有很多机器学习,或者数据挖掘的技术在里面:比如说首先要知道,一个用户是不是适合回答某一个问题,或者说他回答某一个问题的频率是怎么样的,然后它回答出来,回答答案的质量是怎么样的。对于用户,机器学习会做的这样一个标签,或者说预测分析。

在问题的方面,机器学习会把问题进行基本的理解,比如说这个问题是属于哪个领域的,它的难度是怎么样的,然后去匹配到这个领域下面,适合回答这个问题的人。从回答者的角度来看,既然知道他适合回答哪方面的问题,在等待回答的页面上就会给他推送一些他可能适合回答的问题。

对于问题路由,人和机器,这两方面的表示,现在还是习惯于把它表示成一种,人能工理解的标签。张瑞举例说:“比如说用户 A,他是互联网的一个权威的回答者,他也比较愿意去分享他在互联网的内容。然后问题 A,恰好是互联网下面一个比较深度的问题,可以交给用户 A 来回答。我们是根据这种,人能工理解的标签,去做的匹配。”而现在,张瑞的团队希望加入一些更深度的东西:假如说一个人,他可以表示成一组向量,或者就是说现在比较火的技术,嵌入式表示。这个象量人看上去可能只是一串数字,完全不能理解,但是机器可以去理解它,之后做出更好的推荐,“我们也在努力的往这方面去做一些积极的尝试。”

用户画像

在张瑞看来,用户画像实际上是一切个性化策略的基础。个性化策略,可以把它叫做个性化推荐,也可以说是“千人千面”,每个人看到的东西都是不一样的,或者说每个人看到的东西都是为他自己量身定制的。想要对用户实现这种个性化的推荐策略,或者是千人千面的内容的分发,首先要知道用户对什么东西感兴趣,要确定知道这个用户的属性。

可以说,准确有效的用户画像是进行一切个性化策略的基础。张瑞说:“我们现在已经初步建立了一套用户画像的体系,并且对一些重要标签进行了挖掘,例如用户的活跃度、People Rank,常用登录地点;作为生产者在特定话题下的权威度;作为消费者对特定话题的兴趣,等等。这些用户标签被用在了个性化排序、推荐、问题路由等一系列任务中,取得了不错的效果。”

张瑞补充说,接下来知乎还会对用户的属性进行更深入的挖掘,例如,对用户进行社群分析,并且定位整个信息传播网络中的关键节点,也就是所谓的 Key Opinion Leader;希望用户的兴趣标签变得更加「动态化」和「可预测」,例如,如果一个用户最近对「怀孕期间的健康」这种话题比较感兴趣,那么可以推测,用户在几个月后,可能会对「育儿」这个话题产生兴趣;他的团队还希望能通过用户的分享来重构他的经历,也计划进一步挖掘用户的消费能力和消费意愿,等等。知乎期望能在接下来的一段时间内,能够对用户进行全方位的了解和刻画。

内容分析

关于内容分析,为了给用户去做更好的匹配,用户画像从用户方面了解这个用户喜欢看什么。而内容分析,需要知道用户喜欢的这个内容是什么,才能给用户的兴趣更好的匹配内容。

当用户看到比如一个有关于互联网的回答,从用户的角度看可能已经得到了回答,但是对于知乎的团队这还远远不够,张瑞解释说:“我们还需要知道更细一点:我们需要知道他评论的是不是某个技术,或者说某个事件;我们需要知道这个东西,它是不是和某些人,某些地点,或者是某个时间点有关系。然后在什么范围下,哪些人会比较喜欢去看这样的内容,我们会把这个内容去分享到对应的人的手机屏幕上,或者说他可以接收到这个信息的渠道里面。我们去做这种内容的分析,本身来讲是为了更高效的给用户实现信息分发,或者说是提高他的接收信息的效率。”

知乎上每天都会产生大量的新内容,这些内容需要在第一时间被分析和处理,打上各种各样的标签。因此,知乎构建了一条内容分析的流水线,保证站内每条内容发生变化时,都会立即进入这条流水线进行自动分析,然后第一时间把分析结果同步给搜索、推荐、社区等各个业务场景,对每条内容而言,这个过程大概在 10 秒左右,这种实时性能够满足我们的业务要求。据张瑞介绍,目前在这条流水线上,已经针对文本、图像、音频等数据进行了一些基础分析,例如文本分类、命名实体识别,图像色情、暴恐内容检测,音频降噪等等。

“我们也会逐步往这条流水线上添加更多的组件,例如最近一个重要的工作,是从不同维度刻画内容质量,这些维度包括内容的时效性、专业性、严肃性、准确性,等等。我们还计划对内容进行语义分析,例如自动摘要,让用户在 Feed 流这样信息密集场景中,不用点开卡片就能初步判定内容的大概情况,从而提升筛选内容的效率。”

违规信息处理

知乎每天可以产生大量的信息,其中难免会有一些违规信息出现。但是,具体如何处理就成了一个挑战:主要靠人工筛选是行不通的,费事又费力;但是如果使用机器筛选,添加的限制过于严格,就有可能造成误删的情况发生。

信息处理是跟用户体验非常相关的东西,假如误放过一些东西,对于认真讨论问题的用户,或者说是遵守规则的用户来讲是非常不公平的。“错杀”了之后,对用户的体验造成的影响,也是非常大的。针对违规信息处理,知乎现在整体的思路就是机器辅助运营人员,机器 + 人工的模式去做的整套的一个处理流程。

对于机器来讲,首先是要识别出来信息中的一些不好的东西。对识别出来的东西,并不是进行一个简单的分类,而是有一个基本的置信度的概念在里面。“比如说一段文本,我们可以判断它是一个低俗内容的文本或者是涉及色情的文本的这种概率有多大。然后在认为执行度非常大的情况下,机器会进入一个自动处理的流程,比如说做一些折叠。这个现在在比如说垃圾信息,或者是鉴黄处理上面,准确度是非常高的,能达到 99% 以上。”如果仍然有误伤的话,张瑞说,用户可以通过申诉或者举报,去把误伤的内容再找回来。

而误伤本身也可以作为下一步模型或者是机器去判别改进的非常重要的样本。加在模型迭代进入的步骤里面对于一些置信度低的处理,需要运营人员做非常专业的判断,去界定它到底是不是一个违规的东西。

深度学习

一般谈到机器学习,就会讲到深度学习。深度学习在很多方面,其实都已经显示出了,超越传统的机器学习技术的一些潜力,知乎在深度学习方面,现在也进行了探索,有一些成果。

张瑞介绍说,知乎首先是在基础的内容分析和处理方面,使用了深度学习技术。

例如,用深度学习来识别图片中一些不好的内容,比如违规涉黄的图片。不仅是图像处理,知乎的深度学习还应用到文本分析和处理上面。传统机器学习技术来提取文本摘要,相对有一些 Badcase,这些 Badcase 是制约浅层学习的机制,解决不了问题的需求。而深度学习,在有足够大的样本的情况下,能够很好的解决这个问题。

另外在业务上面知乎也在尝试使用机器学习,现在主要用的场景有两个:

第一个是 推荐

在推荐方面,把问题路由设立一个推荐问题,把问题和用户都打上一些人能看懂的标签,这个标签通过浅层学习,比如说分类聚类的一些方式,去打上的。深度学习的使用不光在问题路由,还包括一些其他个性化推荐,比如说知识市场的推荐上,张瑞说,知乎在尝试了一件事情:通过一个网络,把用户和内容都去做一个嵌入式的表示,这个表示是通过深度学习做出来的,人看不懂它是什么东西,但是机器能够很好的理解。引入深度学习技术,也是因为知乎本身的数据量达到了一定的阈值,或者说达到了一个可以尝试使用深度学习,来去改进效率的水平线之上,所以知乎才会使用深度学习的技术。

另外一个使用场景是 搜索

搜索里面有很多语义理解相关的东西。如果是像原来自己统计语言处理,或者规则式的语言分析就需要很多的人工去实现。深度学习在收集到大量数据的情况下,恰好能够去做关于用户的判断:比如用户表示什么样的需求,和搜索结果是不是符合。深度学习在处理两个关系之间的匹配方面有比较大的优势,所以知乎尝试把深度学习引入到搜索当中来,顺便做深度的语义匹配。

未来的规划

关于知乎未来的发展方向,张瑞表示,依旧会去做户体验导向的这样一个产品,然后把深度学习技术,或者说把机器学习技术应用在产品上面,最终目的还是为了去改进用户体验。

在一段时间内,知乎的机器学习技术首先要做的还是支撑现有的产品,同时可能会激发出来跟现在产品方向相关的一些其他产品。关于“其他产品”,张瑞为我们剧透了一些内容:“我们想要做的一个东西希望能够对知乎上面的内容,去进行一个深度的加工。我们现在去做问题路由、做内容的分发,所有的内容,实际上在知乎这边,是经过一个浅层的东西,知乎相当于一个信息的路由器,一边接收一边给发出去但是中间并没有经过比较深的加工。”随后张瑞解释了“深加工”的意思:可以对这些内容进行归纳和总结,比如在用知乎的时候,去搜索一个事件,反馈给用户的,不是说这个事件在知乎上面大家相关的讨论都是什么,而是总结一下,关于这个事件大家在知乎上面讨论的热点都是什么。在这些热点上,有多少人表现出了不同的观点和看法,有多少人赞同、有多少人反对。这是提高用户接收信息,或者说接收知识效率的非常重要的一个改进。“我们在尝试去催生出一些这样让用户使用起来更方便的产品。”

张瑞随后补充道,另一个设想是期待机器学习技术能够帮助知乎构建一个更加智能、高效的用户交互接口。“一个设想是:智能问答产品,使用自然语言生成手段,以一种更加自然、易于理解的方式,将知识库中的信息提供给用户;更 进一步,我们是不是可以让知乎成为一个汇聚了众多用户的知识和见解的大脑,和用户进行更自然、形式更加丰富的相互交流呢?这也是业内的一个比较前沿的研究方向,像 MSRA 和 Google 研究院也在做类似的工作,我们也希望知乎能够在这方面能有自己的积累。”

专家简介

张瑞,知乎机器学习团队负责人。2012 年毕业于北京邮电大学通信工程研究生专业,毕业后一直从事搜索引擎及自然语言处理方向的研发工作,此前曾就职于百度及豌豆荚。


AI 前线微信社群
入群方法

关注 AI 前线公众账号(直接识别下图二维码),点击自动回复中的链接,按照提示进行就可以啦!还可以在公众号主页点击下方菜单“加入社群”获得入群方法~AI 前线,期待你的加入!



登录查看更多
4

相关内容

知乎是中文互联网最大的知识社交平台,拥有认真、专业和友善的独特氛围,连接各行各业的精英。用户分享着彼此的专业知识、经验和见解,为中文互联网源源不断地提供高质量的信息。

商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
【课程】浙大陈华钧教授《知识图谱导论》课程系列PPT
专知会员服务
170+阅读 · 2019年10月29日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
知乎八年,大而不美
新榜
7+阅读 · 2019年1月26日
已删除
将门创投
7+阅读 · 2018年12月12日
【工业互联网】工业互联网与工业大数据分析的应用
产业智能官
12+阅读 · 2017年12月26日
深度解析京东个性化推荐系统演进史
CSDN云计算
6+阅读 · 2017年12月11日
2017全球大数据产业八领域典型公司盘点分析
人工智能学家
3+阅读 · 2017年12月6日
王海峰首谈百度AI战略布局(PPT)
新智元
3+阅读 · 2017年9月15日
有了场景和画像才懂用户
互联网er的早读课
6+阅读 · 2017年8月26日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
8+阅读 · 2018年12月6日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
6+阅读 · 2018年6月21日
Arxiv
4+阅读 · 2018年4月26日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
【课程】浙大陈华钧教授《知识图谱导论》课程系列PPT
专知会员服务
170+阅读 · 2019年10月29日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
相关资讯
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
知乎八年,大而不美
新榜
7+阅读 · 2019年1月26日
已删除
将门创投
7+阅读 · 2018年12月12日
【工业互联网】工业互联网与工业大数据分析的应用
产业智能官
12+阅读 · 2017年12月26日
深度解析京东个性化推荐系统演进史
CSDN云计算
6+阅读 · 2017年12月11日
2017全球大数据产业八领域典型公司盘点分析
人工智能学家
3+阅读 · 2017年12月6日
王海峰首谈百度AI战略布局(PPT)
新智元
3+阅读 · 2017年9月15日
有了场景和画像才懂用户
互联网er的早读课
6+阅读 · 2017年8月26日
Top
微信扫码咨询专知VIP会员