达观数据创始人陈运文:算法技术剖析海量数据,数据价值驱动企业收益

2017 年 9 月 19 日 数据猿 陈运文

在数据不断增加和算法技术日益优良的并行时代,借助技术去挖掘数据蕴藏的价值,利用数据蕴藏的价值去驱动企业的运营和发展,这是技术、数据、企业收益三者之间的良性循环,各个行业均如此,金融行业亦不能免俗


作者 | 陈运文

官网 | www.datayuan.cn

微信公众号ID | datayuancn


本文为数据猿推出的“金融科技价值—数据驱动金融商业裂变”大型主题策划活动第一部分的文章/案例/产品征集部分;感谢 达观数据创始人陈运文 先生的投稿


大数据正在融入我们的工作和生活中,数据挖掘和深度学习正改变我们对世界的认知,今后我们所看到、所听到的都是数据优化过的结果。这就是数据的价值和能量。


我们每天使用的各种APP,从基本的吃穿住行类到精神层面的学习升华类,无一不是数据的力量在支撑其运作。


比如你在亚马逊购买一件衬衫,亚马逊搜索系统会根据你的年龄、对品牌喜好等维度推荐结果,而不是正常搜索结果排列。亚马逊超过30%的购买收入由个性化推荐系统所贡献,背后大数据功不可没。目前,大数据不但在购物方面功不可没,也在文字喜好、视频推荐等方面的影响越来越大。


回首创业前期的职场经历,无论是百度的技术研发还是盛大文学的数据负责人,都是在与数据打交道,彼时利用技术挖掘数据提高自己企业的效率和收入,而此时则是擅用技术的力量剖析用户的海量数据,为更多企业提升收益。


从职场技术负责人到技术服务企业创始人,转换的不止是身份和视角,更是如何最大化帮助更多企业挖掘数据价值的“野心”。期间,见证了大数据技术的不断成长,也目睹了越来越多的企业对数据的重视和寄希望于数据来更懂每个用户的过程。企业想要分析挖掘的数据形式多有不同,可能是常态化的文档信息,也可能是动态化的用户信息,亦或是数据库中的日志信息。借此机会来分享科技和金融两个不同行业通过技术辅助数据,数据衍生价值的典型场景。


文本挖掘助力大型科技企业高效分析海量文档


大型科技企业充斥着大量有复用价值的文档、资料和内容性信息,比如中兴、华为,或是以邮件形式沉浮于邮箱之中,或是以各种电子文档的形式散落于计算机各个硬盘。


企业需要针对这些有可用价值的文字内容进行重要信息提取,比如抽取出文档中的专有名词,通过这些专有名词构造知识图谱,如若人工处理这些文档来进行逻辑构建和知识图谱生成,所耗人力和时间成本可想而知。


目前多数科技企业甚至是大型企业的电子文档资料仍然依靠人工手段进行核心内容的阅读和提取,进而焕发文档内在可用信息的“第二春”,但即便亲力亲为,人工过失也是难免。


针对大型科技企业的海量文本,利用机器学习技术自动从原始文献中提取摘要,从而反映文档的中心内容,类似于中学里语文考试从一篇文章中概括出主体思想和中心大意。基于文章内容自动提取摘要,减少文档阅读时间,提高获取效率。


此处不得不提及的一个词语“实体”,就是一篇文档中出现的人名、地名、产品名、机构名称等,实体连起来就是关系网,由此得出实体间的逻辑关系,进而依托全网信息构建知识图谱。


既有实体,不得不提标签,标签就是文档中的核心词语。如果面对长篇累牍的科技企业文档资料,晦涩枯燥,实行人工打标签,效率低且无法持续工作。


高冷的金融行业,逃不开数据驱动的宿命


金融企业拥有海量的用户数据,但受困于数据处理能力的限制,往往只对少数高净值用户提供定制化服务,而绝大部分的用户服务难以实现个性化。随着大数据技术的不断发展,金融企业可以通过拆分用户的长期稳定偏好和短期波动偏好,不断调整兴趣画像模型,构造精准“用户画像”。利用构建好的“用户画像”,分析每位用户潜在的金融服务需求方向,针对性地进行金融产品推广营销。


“用户画像”对于金融企业构建金融资讯生态也大有裨益,通过实时分析用户所偏好的资讯类型,为每位用户推荐最合适的资讯,既保证了用户对于特定资讯信息的实时更新,也增加了资讯的点击率。但在此过程中,资讯推荐的多样性和惊喜度尤为重要,以避免单一类型资讯推荐带来的枯燥感。


用户对于金融产品和金融资讯的获取不单是依靠个性化推荐被动获取,直接搜索相关金融产品和资讯关键词主动获取也是常用之道,因此,高效智能的搜索引擎可以帮助用户精准直达搜索目标,显著提升用户的使用体验。企业可以通过对用户行为深度分析和智能搜索技术,实时识别用户搜索意图,并对用户的搜索词进行搜索提示和搜索词纠错,为用户高效送达目标金融产品和相关金融资讯。


但需注意,金融行业是一个极其注重用户数据隐私的行业,用户数据的流失也意味这用户信任的流失,所以金融企业除却自我技术研发外,在选择利用第三方技术时,如何兼顾数据的可用性和私密性也是重中之重,所以选择技术优良且值得信任第三方这一事项不容忽视。


在数据不断增加和算法技术日益优良的并行时代,借助技术去挖掘数据蕴藏的价值,利用数据蕴藏的价值去驱动企业的运营和发展,这是技术、数据、企业收益三者之间的良性循环,各个行业均如此,金融行业亦不能免俗。


- 作者介绍 -


陈运文,现任达观数据CEO,上海市计算机学会多媒体分会副会长。中国知名大数据技术专家,国际计算机学会(ACM)和国际电子电器工程师学会(IEEE)高级会员,中国计算机学会(CCF)会员,复旦大学计算机博士和杰出毕业生,曾担任盛大文学首席数据官,腾讯文学高级总监、数据中心负责人,百度核心技术研发工程师等职务,曾带领团队多次获得ACM竞赛冠亚军。



作为整体活动的第二部分,2017年10月25日,数据猿还将在北京举办千人规模的“2017金融科技价值——数据驱动金融商业裂变”峰会并将在现场举行文章、案例、产品的颁奖典礼


相关阅读:


易日升总裁史建伟:大数据风控模型在消费金融场景下的六大应用

诸葛io产品VP于晓松:「场景化」增长的践行者 ——探寻大数据时代的商业变革


来源:数据猿


登录查看更多
1

相关内容

商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
97+阅读 · 2019年12月14日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
产品总监如何管理团队,搭建一个强大的队伍?
人人都是产品经理
17+阅读 · 2018年12月19日
用深度学习挖掘海量文本中的宝藏
AI前线
8+阅读 · 2018年3月13日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
5+阅读 · 2018年1月29日
Arxiv
25+阅读 · 2018年1月24日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
Top
微信扫码咨询专知VIP会员