点击上方“中国计算机学会”轻松订阅!
6月24日下午,CCF YOCSEF与腾讯高校合作举办“社交网络与大数据前沿”学术报告会,报告会特别邀请到“犀牛鸟海外专家”卡耐基梅隆大学 Christos Faloutsos 教授;中科院计算所副研究员、微信AI科学顾问罗平博士;清华大学崔鹏副教授畅谈社交网络前沿研究。以下分享的是罗平博士的主题报告“大数据背景下的行为机理和可解释性挖掘 (兼谈微信AI生态)”的视频和PPT。
罗平博士在报告中分享了因为社交网络上用户行为的不确定性和数据的不完备性所带了的数据分析的挑战,针对这些挑战,如何探究行为背后的深层机理,并挖掘可解释的行为因果关联。并介绍了其研究成果在互联网产品设计与运营中的实际应用。同时,作为微信AI科学顾问,罗平就微信的AI能力、未来的AI生态布局向大家一一做了介绍。
科普视频《小手机刷出大科学》
首先谈谈现在比较火爆的深度学习。深度学习方法并不是在所有场景下都能工作,尤其是在行为分析的应用上不具有太多功效。
语言和行为这两种行为的共同特点都是离散型随机变量的序列数据
行为的特点:不确定性
行为的不确定性是非常高的。人们的消费行为是由很多种因素共同决定的,比如心理、传播和社会上的影响,根据以往买东西的内容,很难预测下一个应该买什么。
第二个特点:行为数据的不完备性
人们的行为数据是分散在网络的各个地方的,供分析的数据只是这些数据的片段,这样预测行为就增加了更大的难度。
所以,深度学习模型在行为数据分析上功效不大。针对行为数据的不确定性和不完整性,谈谈我们在探究行为背后的深层机理和挖掘行为间的因果关联,此两方面的尝试。
首先介绍我们在探究手机浏览行为背后的机理的工作。这个工作发表在IJCAI 2016,详见如下论文:
Ping Luo, Ganbin Zhou, Jiaxi Tang, Rui Chen, Zhongjie Yu, Qing He.
Browsing Regularities in Hedonic Content Systems. IJCAI, 2016.
每个人花费在手机上的时间非常多
人们无时无刻不在用这些APP......
行为分析的工作是,从行为日志里获得分析本质的机理,特别关注的问题是:人为什么要离开一个APP?作为网站的管理员来讲,他们希望用户留在APP/网站上的时间越长越好。
研究思路:从用户行为日志可以分析用户主要受什么因素的影响而离开APP。通过这些分析,从新组织网站内容,来延长用户浏览时间。
我们使用一个用户总量过亿的手机App的日志数据。向“鲜柚桌面”的手机壁纸App致谢!
APP的操作和功能展示
浏览到某个页面的时候,用户就想退出了,回到手机界面。
把这个问题简化分析,一页有9张图片,9个数字,把这些数字变成一个序列
采样了41天的150多万的数据来分析。
分析结果制作了一个科普视频《小手机刷出大科学》,视频从本文上方视频中观看。
序列长度的分布曲线符合逆高斯分布,同时发现曲线背后蕴含非常深刻的物理学和心理学的含义,心理学上符合的Threshold model。
同时,从分析结果可以看出,并不是你点的图片越多,保存的图片越多,继续浏览的意愿就越强烈;实际上是呈现一种“过犹不及”的现象。
根据以上分析结论,从新组织网站内容;比如一个图片APP,怎样组织图片才能延长用户浏览的时间。从细节上说,就是在用户浏览的过程中随时去评估用户离开的概率,动态安排内容。
第二项工作,介绍如何利用概率图模型建模,挖掘不同模态(例如线上和线下)行为间的因果关联。这项工作发表在KDD 2016,详见如下论文:
Ping Luo, Su Yan, Zhiqiang Liu, Zhiyong Shen, Shengwen Yang, Qing He.
From Online Behaviors to Offline Retailing. KDD, 2016.
线上行为:
线下行为:
网上搜索行为与线下购买行为
通过线上行为分析,能够预测线下购买行为。
网上购物虽然火爆,从统计数据来看,全中国90%的零售业都是发生在线下。
基本想法:通过线上搜索得到用户的意图,进而得到线上品牌的推荐。
比如:购买EVISU品牌服装的用户网上搜索的是 游戏、漫画、大学相关的内容。
挑战:
多样性的模态数据:数据来自于不同模态的数据,线上模态和线下模态;
模态缺失性:比如有些用户只有线下的,没有线上的模态;
解释性:通过线上的搜索推测出线下的购买行为,应该具有可解释性,而不是“黑盒子”。
线上线下主题建模:
根据以上模型,在推荐的时候用的是因果关系
线上搜索与线下购买商品的关系
比如:搜索宠物的人群线下可能喜欢购买日韩时尚的品牌
线上搜索游戏方面的人群,可能喜欢穿这些运动品牌
线上搜索母婴,线下也是会购买母婴产品
线上搜索减肥操、钟汉良、奶粉等词语,这部分人可能是全职太太,孩子大概四五岁,线下可能会给老公买户外衣服,给孩子买衣服。
在北京某标杆性线下商场,真实评估:
结果发现,结合线上线下数据做推荐的话,你每条推荐短信带来的价值会提高接近30%。
总结2:在比较稀缺的行为数据上面,概率图模型的方法可以去挖掘一些行为之间的因果关系。这样去做推荐,对商业有一定的帮助。
下面介绍一下微信AI生态
微信AI主要做三方面的工作:语音、图像、自然语言处理
微信已经是大家“不可或缺”的社交平台。微信未来的发展方向是成为新一代的信息和知识获取平台。
微信公众号的文章质量非常高,文章里边包含各种领域的专业知识,这些就是非结构化的知识库。
比如微信公号:贤二机器僧
谢谢各位~
讲者:罗平
罗平博士,现任中国科学院计算技术研究所博士生导师,副研究员。研究兴趣主要集中在:数据挖掘、人工智能、机器学习等相关领域的智能算法与模型研究,并特别关注智能技术在金融、互联网领域的创新应用。近年,在数据挖掘、人工智能、大数据等领域的多个顶级国际会议(SIGKDD、IJCAI、CIKM、ICDM)和期刊(TKDE、TIT、 TKDD)上发表四十多篇高质量论文;所指导的学生论文获得第21届国际信息和知识管理大会(CIKM 2012)“最佳学生论文”奖,并两次获得数据挖掘领域国际主流学术会议“最佳论文提名奖”(CIKM 2010、SDM 2010);拥有10余项美国专利。同时,结合多年学术界和工业界的经验,曾为多个知名企业(腾讯、百度、上交所等)提供技术咨询;现担任微信AI科学顾问。
CCF推荐
【精品文章】
山世光、颜水成、李航、俞凯:深度学习和大数据结合的红利还能持续多久?
【精品视频】
招聘岗位:项目管理、刊物编辑、高级文秘、网站建设、美工设计、新媒体运营、会员发展、人力资源等。
简历投递:hr@ccf.org.cn
CCF为员工提供六险一金、年假、免费体检、餐补、交通、通讯补助、全面的培训体系、丰富的团建活动、高于业界平均水平的工资和奖金!
加入CCF,与计算机领域顶尖专家一起工作!
在公众号回复框回复“招聘”查看招聘详情。
更多CCF精彩报道请关注微信公众号