京东副总裁郑宇：城市数据属于时空数据，拥有独特的处理方法论

京东副总裁郑宇：城市数据属于时空数据，拥有独特的处理方法论 | IJCAI 2019

2019 年 8 月 17 日 AI科技评论

微信图片_20190816141657.jpg

何谓时空数据？

文 | 黄善清

8 月 10 日至 16 日，IJCAI 2019 在中国澳门隆重召开，其中 14 日至 16 日为 Industry Day 环节，是大会专为业界思想碰撞与交流而设的重磅环节，邀请了众多来自国内外的 AI 企业与机构代表前来做大会报告。

当中，京东集团副总裁、京东数字科技首席数据科学家、京东城市总裁郑宇做了场题为《Building Intelligent Cities with Big Data and AI》的大会报告，在本次报告中，他强调了智能城市领域数据的特殊性，他表示，时空数据拥有不一样的结构与属性，意味着需要使用不一样的数据管理与人工智能算法来进行应对，而不能单纯直接套用已有针对语音、图像和文本的算法。

大会报告结束后，我们对郑宇进行了专访，请其解读针对大会报告中的最新研究成果，并趁机聊了聊京东智能城市研究院的最新近况。以下为采访全文。

郑宇独家解读《Building Intelligent Cities with Big Data and AI》大会报告

简单来说，城市的数据种类很多，所以让大家感觉有点纷繁复杂，按以前的方法，大家就会来一个数据建一个表格，并未对数据的结构与规律进行分析。

所以我们准备做这么一个统筹的事情。

首先，我们针对数据的结构以及关联的时空属性，做了一个分类方法上的设计。

按照结构区分，可分为：

点数据
网络数据

按照关联的时空属性区分，可分为三种：

空间静态时间静态
空间静态时间动态
时空动态

将这三种时空属性乘以两种结构，我们就会获得六种数据的分类方式。

什么是时空静态的点数据？我们会说像个车站或宾馆，它的位置是不变的；宾馆的属性，比如有多少层楼，房间有多大，同样也是固定的。所以它既是时空静态数据，也是点数据。
什么是空间静态时间动态数据？传感器，比如我们把一个空气质量监测站点建在一个地方，建好后它的位置是不变的，但它的读数却每个小时都在变化着。
什么是时空动态的数据？比如你给滴滴发请求时，可能 13：10 也同样有个人在给滴滴发请求，然后 13:20 又有另一个人在同个地方给滴滴发请求，这也意味着它的时间和空间是一直在变化的，甚至包括还有人使用摩拜扫码。这些都属于时空变化的点数据。

除此之外，这三类时空属性的数据还有对应的网络数据。

路网其实是一个静态结构，路一旦修好后，它的结构是不变的，它属于空间静态时间静态的网络结构。
可一旦我们往马路上叠加交通流量，它立马就变成一个空间静态时间动态的网络结构。
那什么属于时空都动态的网络数据呢？比如固定轨迹，即是一系列点的结合，它同样也是一个网络结构。

换而言之，这六种数据结构覆盖了一座城市涉及的所有数据类型，我们可以用这 6 种结构来表示所有数据，或者用它的组合来表达所有类型。

那么数据的类型不一样，从时空属性上来说又存在哪些差异？

在时间和空间方面，它们都拥有专属的距离与空间层次。从距离上说，比如两个点之间的距离、两边之和大于第三边三角不等式以及地理学第一定律；从空间上说，包括一个城市、不同区域、不同街道、不同小区。处在不同的层次，它所代表的含义是不一样的，那么你在不同层次上的表达，对于运算的体现与帮助也是有差别的。

从时间上分析的话，它的属性包括临近性、周期性以及趋势性三大块。

所谓邻近性，即是相邻的两个时间点，它的读数可能会比较接近，比如离得不远的两个身体，所感受到的气温都会比较接近；另外我们也看到时空数据存在着周期性，比如今早8点的交通流量很可能与昨天早上8点的交通流量是很相似的，而今早 8 点的交通流量则与今天中午 12 点的交通流量特别不一样，这就打破了之前我们所说的邻近规律，这个时候我们就可以看下一个属性；趋势性，这其实是一种预判，比如可能随着气温变得越来越冷，我们起床起得越来越晚，然后出门的时间也就越来越晚，因此早高峰也就出现得越来越晚。

所以说周期性并非恒定不变的，而是拥有一个趋势性的上扬或下降，我想表达的就是这个意思。

在明确好数据模型后，考虑到数据的结构与属性不一样，因此我们得有专门的管理方法。

演讲中我主要谈三点，分别是效率问题、版权保护问题和安全问题。

先说效率问题，我们现在有一个大系统，可以用更少的资源，以更快的速度来处理数据，特别是轨迹数据管理这一块。同时它已兼容已有的云计算平台，这一点其实很重要，说明我们无需从头建立平台，只要改变一下存储格式，就能有效提升轨迹数据的查询效率至一百倍，索引和数据和存储的大小也减少了七倍。这些都是跟最好的方法进行对比。

过去我们并不重视时空数据的版权保护问题，比如你把时空数据拷贝一份拿出来卖，然后别人再拷贝一份拿去卖，你也无从得知，因为运转单都一样。高阶一点的，会随意帮你做点修改，然后告诉你这个数据是属于我的。一旦缺乏这种保护机制，未来就很难形成一个数据融合共享机制。

解决方案方面，我们的一个具体想法是让数据带有密钥，首先将空间化成区域，再把轨迹放到空间里，利用空间将轨迹切成几段，然后每一段里面再按照另外一个密钥参数切成很多时间小段，接着每一小段里会隐藏一个亿比特的信息。隐藏的方式是什么？我们的方法是算这一段轨迹的质心，而这个质心有个地理学的计算定律。当我怀疑别人在出售我的数据时，我就把它拿来并用算法进行提取，如果连续好几个提取出来都是我的信息，那就基本可以肯定是我的秘钥做的。原理有点像数字水印，但却是符合轨迹数据的。

国内业界有几个正在思考这件事情的人，至于学界思考这件事情的人基本上等于零。业界有这个需求，却不知道应该怎么做；学界的人并不怎么在乎这件事情，因为数据分享对他们而言就是一件免费的事情。现在我们经常说要推数据交易，搞大数据交易平台，可你缺乏这一块技术的话，你说谁敢卖，对吧？

第三点是安全性，因为有些数据的机密性太强，是不允许进行分享的，比如说结婚登记数据、社保信息、犯罪记录等等。我们的解决方案是通过数字网关技术将各个平台的内部联到一起，在不泄漏信息的情况下，把不可逆的中间结果拿来互换一番，最终解决各自的问题。

关于深度学习应该怎么与时空数据相结合，我这里总结了三大挑战：

第一个，怎么做数据变换。城市的好多数据拿来后，我们都是没法直接使用的，毕竟它们不是简单的图片，不然可以直接放在CNN 或者 RNN上搞定。在这种情况下，我们应该怎么做数据变换？

第二，怎么将时空属性给 encode 进去？如果完全不encode，只把它当成一个数据来做的话，周期性、趋势性就会反映不出来，你的结果就不会十分准确。

第三，数据融合。怎么把不尽相同的数据融合在一起做决策？

基于这三者挑战，我们把现在可以使用深度学习能力进行解决的城市应用场景，变成了多种不同的时空应用场景。

比如说城市里有些稀疏的站点，在这之前我们预测这些站点的读数应该是多少，这是一类问题。

第二类问题，我把城市转换变成均匀的格子，希望每个格子都能进行预测。

第三点就是它可能并非均匀的网格，而是由不规则的网格所组成，在这种前提下应该怎么做预测？

第四点是做区域与区域之间的转移预测，这是相对于单点预测而言的，就是从A到B有多少人，从B到C又有多少人。

第五个就是我定义一个路线，然后想预测路线的时间、油耗等属于动态预测层面的东西。

？

AI 开发者： 通过今日的分享，您想传达的核心观点是什么？

郑宇：我今日的分享核心紧紧围绕时空数据，从数据表达、数据管理、数据分析到数据挖掘，提出了一整套不一样的方法论，有别于过去针对文本与图像的处理方案。其实任何一套数据，都应该拥有专属的一套方法理论，从建模、表达、管理、存储管理到挖掘分析一整套流程下来。

？

问： 城市数据整体来说可以分为几种类型？

郑宇：大概可以分为三大类。一类是以图像为代表的非结构化数据，它的存储与挖掘方法都是比较传统的；第二类是以表格为存储形式的政务数据，比如一个人的姓、收入等等，都属于表格结构化的数据；第三类就是我强调的时空数据，这一类会比较特别，既不属于前面两类，也没有太多人去关注。我们相信在 5G 时代来临以后，第三类数据的数量会越来越大，这是未来毫无疑问的发展方向，所以我们就想重点去解决这部分问题。

？

问： 所以从您的角度来看，这部分问题的难点体现在什么地方？

郑宇：如果是时空数据问题，我相信方法论总会推陈出新，再结合实际的问题，加上研究时间的投入，最终都会一个接一个被解决掉。

现在最重要的事情，是如何将大数据与人工智能领域的知识与行业背景、行业知识相结合，这其实是两个不同的领域，一个是 domain work，一个是 data science。你也许懂得很多工具模型、算法、K 平台，但你可能不懂交通、不懂环境，那你的方法就很难落地。如何将理论与各个行业的业务知识进行结合，并形成真正的落地方案，这也是我觉得目前国内许多AI企业特别是研究院，都会遇到很多难点的环节。

？

问： 要组成一支既懂技术又懂业务的团队，其实还挺有挑战性的，京东智能城市研究院在这块有哪些经验可以分享的吗？

郑宇：我们的团队跟事业部是一种深度绑定、深度融合的关系，很多人在两边都同时兼有岗位。比如我们的成员有可能既是一个部门的经理，也可能是研究院的一个 CV 研究员。当然，也有真正有个别少量的，不是特别多，这部分人就会纯粹做研究，因为我们毕竟还是会需要一些基础理论层面的东西，只不过是说我们会提前把问题进行拆解，再告诉他我们大概需要的是一个什么属性、什么功能的东西，然后交由他们去解决算法本源的问题。然后我们还有一部分人负责做衔接作用、偏应用型的研究。

？

问： 京东智能城市研究院的人员结构组成是什么样的？

郑宇：一大半人都是做的应用型研究，一小半人做基础型研究，大概是六四开的比例。人员数量方面，光 AI 部分目前已有三十几个人，然后加上大数据团队的话，大概是一百来人的规模。

？

问： 您认为一名 AI 开发者要想涉及智能城市领域，他必须具备哪些能力？

郑宇：从技术层面来说，他起码得具备数据挖掘的基础知识。但要说真正去设计一个特别复杂的模型，那倒不一定，因为我们的平台都已经将这些组件开放出来了，比如说交通流量预测、人员预测、空气质量预测、选址模块等，你只要直接进行调用，就可以快速构建出自己的模型。

所以你只需要拥有基本的数据挖掘与人工智能基础知识，但不用特别高深；第二是要懂应用，且对行业背景有所了解，否则可供调用的模块很多，但对于该使用哪个工具、业务需求是什么，这到底是一个预测问题，还是一个优化问题，还是一个分类问题，还是一个回归问题，在此基础上从业务出发，把它关联回来。

？

问： 目前京东智能城市研究院有哪些招人的需求？

郑宇：商业项目交付、解决方案产品经理、行业专家，这些都是我们需要的人才。我们目前这一块业务的增长非常快，需要更多人一起加入进来。

？

问： 您在这个领域深耕也有一段时日了，结合这些年的经历，您会怎么去定义“智能城市”这个概念？

郑宇：在安全、稳定的情况下去做数据互通，做到万物互连、数据互通，这是第一层；第二层是大数据与智能技术，利用大数据、人工智能技术去改变交通、金融等领域；第三层，它一定是个生态城市，包括宜居绿色的生态，包括不同机构与产业之间形成的技术合作，等于一个生态，因为我不可能什么问题都自己解决。就是这样一个概念。