何谓时空数据?
文 | 黄善清
8 月 10 日至 16 日,IJCAI 2019 在中国澳门隆重召开,其中 14 日至 16 日为 Industry Day 环节,是大会专为业界思想碰撞与交流而设的重磅环节,邀请了众多来自国内外的 AI 企业与机构代表前来做大会报告。
当中,京东集团副总裁、京东数字科技首席数据科学家、京东城市总裁郑宇做了场题为《Building Intelligent Cities with Big Data and AI》的大会报告,在本次报告中,他强调了智能城市领域数据的特殊性,他表示,时空数据拥有不一样的结构与属性,意味着需要使用不一样的数据管理与人工智能算法来进行应对,而不能单纯直接套用已有针对语音、图像和文本的算法。
所以我们准备做这么一个统筹的事情。
首先,我们针对数据的结构以及关联的时空属性,做了一个分类方法上的设计。
按照结构区分,可分为:
点数据
网络数据
按照关联的时空属性区分,可分为三种:
空间静态时间静态
空间静态时间动态
时空动态
将这三种时空属性乘以两种结构,我们就会获得六种数据的分类方式。
什么是时空静态的点数据?我们会说像个车站或宾馆,它的位置是不变的;宾馆的属性,比如有多少层楼,房间有多大,同样也是固定的。所以它既是时空静态数据,也是点数据。
什么是空间静态时间动态数据?传感器,比如我们把一个空气质量监测站点建在一个地方,建好后它的位置是不变的,但它的读数却每个小时都在变化着。
什么是时空动态的数据?比如你给滴滴发请求时,可能 13:10 也同样有个人在给滴滴发请求,然后 13:20 又有另一个人在同个地方给滴滴发请求,这也意味着它的时间和空间是一直在变化的,甚至包括还有人使用摩拜扫码。这些都属于时空变化的点数据。
除此之外,这三类时空属性的数据还有对应的网络数据。
路网其实是一个静态结构,路一旦修好后,它的结构是不变的,它属于空间静态时间静态的网络结构。
可一旦我们往马路上叠加交通流量,它立马就变成一个空间静态时间动态的网络结构。
那什么属于时空都动态的网络数据呢?比如固定轨迹,即是一系列点的结合,它同样也是一个网络结构。
换而言之,这六种数据结构覆盖了一座城市涉及的所有数据类型,我们可以用这 6 种结构来表示所有数据,或者用它的组合来表达所有类型。
那么数据的类型不一样,从时空属性上来说又存在哪些差异?
在时间和空间方面,它们都拥有专属的距离与空间层次。从距离上说,比如两个点之间的距离、两边之和大于第三边三角不等式以及地理学第一定律;从空间上说,包括一个城市、不同区域、不同街道、不同小区。处在不同的层次,它所代表的含义是不一样的,那么你在不同层次上的表达,对于运算的体现与帮助也是有差别的。
所谓邻近性,即是相邻的两个时间点,它的读数可能会比较接近,比如离得不远的两个身体,所感受到的气温都会比较接近;另外我们也看到时空数据存在着周期性,比如今早8点的交通流量很可能与昨天早上8点的交通流量是很相似的,而今早 8 点的交通流量则与今天中午 12 点的交通流量特别不一样,这就打破了之前我们所说的邻近规律,这个时候我们就可以看下一个属性;趋势性,这其实是一种预判,比如可能随着气温变得越来越冷,我们起床起得越来越晚,然后出门的时间也就越来越晚,因此早高峰也就出现得越来越晚。
所以说周期性并非恒定不变的,而是拥有一个趋势性的上扬或下降,我想表达的就是这个意思。
演讲中我主要谈三点,分别是效率问题、版权保护问题和安全问题。
先说效率问题,我们现在有一个大系统,可以用更少的资源,以更快的速度来处理数据,特别是轨迹数据管理这一块。同时它已兼容已有的云计算平台,这一点其实很重要,说明我们无需从头建立平台,只要改变一下存储格式,就能有效提升轨迹数据的查询效率至一百倍,索引和数据和存储的大小也减少了七倍。这些都是跟最好的方法进行对比。
过去我们并不重视时空数据的版权保护问题,比如你把时空数据拷贝一份拿出来卖,然后别人再拷贝一份拿去卖,你也无从得知,因为运转单都一样。高阶一点的,会随意帮你做点修改,然后告诉你这个数据是属于我的。一旦缺乏这种保护机制,未来就很难形成一个数据融合共享机制。
解决方案方面,我们的一个具体想法是让数据带有密钥,首先将空间化成区域,再把轨迹放到空间里,利用空间将轨迹切成几段,然后每一段里面再按照另外一个密钥参数切成很多时间小段,接着每一小段里会隐藏一个亿比特的信息。隐藏的方式是什么?我们的方法是算这一段轨迹的质心,而这个质心有个地理学的计算定律。当我怀疑别人在出售我的数据时,我就把它拿来并用算法进行提取,如果连续好几个提取出来都是我的信息,那就基本可以肯定是我的秘钥做的。原理有点像数字水印,但却是符合轨迹数据的。
第三点是安全性,因为有些数据的机密性太强,是不允许进行分享的,比如说结婚登记数据、社保信息、犯罪记录等等。我们的解决方案是通过数字网关技术将各个平台的内部联到一起,在不泄漏信息的情况下,把不可逆的中间结果拿来互换一番,最终解决各自的问题。
第一个,怎么做数据变换。城市的好多数据拿来后,我们都是没法直接使用的,毕竟它们不是简单的图片,不然可以直接放在CNN 或者 RNN上搞定。在这种情况下,我们应该怎么做数据变换?
第二,怎么将时空属性给 encode 进去?如果完全不encode,只把它当成一个数据来做的话,周期性、趋势性就会反映不出来,你的结果就不会十分准确。
第三,数据融合。怎么把不尽相同的数据融合在一起做决策?
基于这三者挑战,我们把现在可以使用深度学习能力进行解决的城市应用场景,变成了多种不同的时空应用场景。
郑宇:我今日的分享核心紧紧围绕时空数据,从数据表达、数据管理、数据分析到数据挖掘,提出了一整套不一样的方法论,有别于过去针对文本与图像的处理方案。其实任何一套数据,都应该拥有专属的一套方法理论,从建模、表达、管理、存储管理到挖掘分析一整套流程下来。
郑宇:大概可以分为三大类。一类是以图像为代表的非结构化数据,它的存储与挖掘方法都是比较传统的;第二类是以表格为存储形式的政务数据,比如一个人的姓、收入等等,都属于表格结构化的数据;第三类就是我强调的时空数据,这一类会比较特别,既不属于前面两类,也没有太多人去关注。我们相信在 5G 时代来临以后,第三类数据的数量会越来越大,这是未来毫无疑问的发展方向,所以我们就想重点去解决这部分问题。
郑宇:如果是时空数据问题,我相信方法论总会推陈出新,再结合实际的问题,加上研究时间的投入,最终都会一个接一个被解决掉。
郑宇:我们的团队跟事业部是一种深度绑定、深度融合的关系,很多人在两边都同时兼有岗位。比如我们的成员有可能既是一个部门的经理,也可能是研究院的一个 CV 研究员。当然,也有真正有个别少量的,不是特别多,这部分人就会纯粹做研究,因为我们毕竟还是会需要一些基础理论层面的东西,只不过是说我们会提前把问题进行拆解,再告诉他我们大概需要的是一个什么属性、什么功能的东西,然后交由他们去解决算法本源的问题。然后我们还有一部分人负责做衔接作用、偏应用型的研究。
郑宇:一大半人都是做的应用型研究,一小半人做基础型研究,大概是六四开的比例。人员数量方面,光 AI 部分目前已有三十几个人,然后加上大数据团队的话,大概是一百来人的规模。
郑宇:从技术层面来说,他起码得具备数据挖掘的基础知识。但要说真正去设计一个特别复杂的模型,那倒不一定,因为我们的平台都已经将这些组件开放出来了,比如说交通流量预测、人员预测、空气质量预测、选址模块等,你只要直接进行调用,就可以快速构建出自己的模型。
所以你只需要拥有基本的数据挖掘与人工智能基础知识,但不用特别高深;第二是要懂应用,且对行业背景有所了解,否则可供调用的模块很多,但对于该使用哪个工具、业务需求是什么,这到底是一个预测问题,还是一个优化问题,还是一个分类问题,还是一个回归问题,在此基础上从业务出发,把它关联回来。
郑宇:商业项目交付、解决方案产品经理、行业专家,这些都是我们需要的人才。我们目前这一块业务的增长非常快,需要更多人一起加入进来。
郑宇:在安全、稳定的情况下去做数据互通,做到万物互连、数据互通,这是第一层;第二层是大数据与智能技术,利用大数据、人工智能技术去改变交通、金融等领域;第三层,它一定是个生态城市,包括宜居绿色的生态,包括不同机构与产业之间形成的技术合作,等于一个生态,因为我不可能什么问题都自己解决。就是这样一个概念。