分享嘉宾:孙拔群 贝壳找房 行业图谱负责人
编辑整理:王少华
内容来源:贝壳找房知识图谱技术大会
出品平台:DataFun
注:本文内容所涉及的公司内部数据,已全部脱敏,仅体现发展趋势。
导读:现如今传统行业纷纷拥抱互联网,将业务逐渐线上化。但由于传统行业的数字化程度不高,以及信息流通速度比较慢,导致难以快速了解到市场发生的变化以及自身所处的位置。而行业知识图谱技术通过合理的引入内部和外部数据,并进行充分的融合和挖掘,可以清晰的看到行业整体的发展趋势,更好的赋能传统行业的进一步发展。
本文将从以下几个方面进行阐述:
▌为什么要做行业知识图谱
首先回答下上面的三个问题:
1. 我是谁
通过对公司内部数据,如业务流水交易数据,行为数据等进行分析,可以准确的了解到自身的发展状况。比如对贝壳找房的相关内部数据分析,可以知道目前的门店数有13000多家,以及具体的体量规模,挂牌交易量和覆盖人群等情况。但仅内部数据难以准确的描述公司在整个市场中的位置。
2. 我在哪
通过引入外部数据,可以定量化的描述行业整体的发展状况,从而了解自身所处的位置。比如通过业界对贝壳的评价,以及一些市场行业数据的分析,可以得到贝壳的交易规模和房源挂牌量都是业界第一。从横向维度上进行比较,即与房产中介和房源平台对标的情况,可以知道贝壳找房现为业界领头羊;从纵向时间维度上来看,可以对比十年前的自己和竞争对手与现在的自己的变化情况;从数据上来看,比如门店挂牌量和门店带看量可以反映经纪人作业的情况,或者通过区域门店与GMV的占比来进一步明确自身的市场定位。
3. 我去哪
通过融合后的行业数据图谱对行业整体进行分析,可以清楚的看到市场潜在的增长空间和增长方向,从而更好的设定自己的发展目标和价值追求点。比如贝壳找房的愿景是服务2亿家庭的品质居住平台。
▌行业知识图谱解决问题的思路
1. 做什么
经过自我剖析和了解市场后,可以制定明确的发展目标和具体实现的步骤、方案,以及合理的效果评价,从而形成一个正向的循环过程。
举例来说,通过行业图谱,明确了贝壳找房发展的价值空间,如房源量预计可以年增长11%。基于此便可以制定公司层面的核心目标,比如GMV的年增长率。再然后到具体的业务部门,为了促进GMV的增长,可能需要提高差异化的房源增量线索供给。进一步的,依据业务目标就可以制定技术目标,即搭建我们的情报分析平台,以及引入更多的数据。
2. 怎么做
首先需要有一套知识图谱技术应用的框架:
具体有:
智能问答:比如对话助手,智能客服,和经纪人的知识赋能。
智能推理:基于图谱的关联关系进行推荐搜索,并给出排序理由,以及利用智能推理实现文本生成。
社区发现:有风控预警,用户画像,和知识融合。
有了技术平台后,便可以构建情报系统。包括提供给决策者或作业人员使用的提效工具,以及线索增量和大盘决策等应用。
3. 做啥样
通过算法,数据和应用,构建起整体的技术平台:
重点是要评价目标的达成效果和目标设定本身。从而解决垂直领域在情报上的欠缺。
▌行业数据引入的逻辑和方法
为了构建行业知识图谱,需要引入的外部数据有以下五个方面:
对标竞品:竞争对手的产品情况。
专业内容:房地产政策,如金融,原材料,宏观经济情况。
上下游:开发商,物业,建筑商等。
环境周边:医院,学校等POI点
用户群体:长租住户,短租住户等
▌数据加工的过程和实体融合
通常引入的不同来源的数据格式多种多样,因此需要经过数据清洗和实体融合的过程。对于贝壳找房来说,重点融合小区,楼栋,门店,指标体系这几方面的数据。
小区的融合:贝壳目前的覆盖的小区有40多万,只占到70%左右。通过数据融合,得到全国小区73万,准确率有98%。从而确定贝壳在小区维度之后的发展方向。
门店的融合:因为成交数据难以获取到,通常采用门店数据量的对比间接评价与竞品之间的价值比例。
▌行业图谱的建立和情报分析的过程
1. 行业图谱的建立
目前,贝壳构建好的行业图谱包含的三元组数量有480亿。实体类型有经纪人,门店,学校,公园,房源,购物中心,幼儿园等140多个类别,主要采用其中高频的60多个。关系数量有230个,加上属性有1800个左右。目前采用的存储平台从以前的Neo4j和JanusGraph,逐渐迁移到Dgraph。
图谱建立的难点在于如何构建图谱的关联关系,因此需要相关的业务专家支持才能做好实体的属性。另外,通过在公司层面建立图谱编辑平台,从而统一不同部门的所构建的图谱本体。
2. 情报分析的能力
通过构建好的图谱,可以大大提高情报分析的能力,主要包括三个方面:
提效:包括报盘匹配和门店选址两个应用。报盘匹配是将成交的房源与具体的门店进行关联,之前主要由经纪人来完成,现在通过图谱,可以实现90%-80%的准召率;门店选址是通过对某个区块内的门店数,商业体,人流量等进行加权计算,从而得到给定区域可以容纳的商家数,以及最佳选址。该功能目前还在研发中。
增量:由于某些小区没有在内部挂牌,或者地址不准确,可能导致搜索没有数据,从而不能进行相应的关联推荐。但通过情报系统可以了解到其他商家挂牌的小区,从而更好的辅助经纪人作业。
决策:GMV数据通常不能直接得到,但可以通过挂牌数,门店数和经纪人作业情况等数据来模拟得到GMV数据,从而为贝壳的进一步发展给予指导。
▌行业知识图谱在智能应用上的作用和表现
目前基于贝壳行业知识图谱开发的应用有:
小贝助手:IM场景下基于三元组的知识问答。当经纪人接受多个客户的同时咨询时,可以对客户问题进行相应答案的提示,从而提高经纪人的回答准确率,为经纪人提效。
搜索效果:当搜索不到任何结果时,可以推荐对应的站外热度,相关房源和对应的地址。
AI讲房:主要是VR看房场景的文稿自动生成。
今天的分享就到这里,谢谢大家。
如果您喜欢本文,欢迎点击右上角,把文章分享到朋友圈~~
欢迎加入DataFunTalk 知识图谱技术交流群,跟同行零距离交流。如想进群,请加逃课儿同学的微信(微信号:DataFunTalker),回复:知识图谱,逃课儿会自动拉你进群。
孙拔群
贝壳找房 | 行业知识图谱负责人
——END——