利用大数据“看天吃饭”？亿级APP的机器学习深度应用实践！

2017 年 9 月 13 日 51CTO博客 王雪燕

约友出行被拒，理由是“墨迹天气（以下简称墨迹）”实时空气质量提示 PM2.5 指数爆表。和大多工具类 APP 商业变现方式一样，墨迹也是各种简单粗暴的广告。

根据 2016 年底墨迹提交的创业板招股书中显示，广告营收占比 95% 以上，年利润 2000 多万，可谓押宝广告赚满钵。

押宝广告的变现方式真的能走远吗？从墨迹的使用场景看，它的用户粘性和产品矩阵还有待提升，这也直接影响到未来的广告转化率。

近日了解到，墨迹从 2015 年底到 2016 年初，便开始布局 B 端的业务，基于公司发展积累的技术人才、海量气象数据和对气象领域的研究及国家对气象数据的开放程度，为对气象有特殊需求的行业提供企业级气象服务，这又将是一种新的吸金方式。

无论是 C 端的流量变现还是 B 端的定制化气象服务解决方案，想要商业化成功，气象数据是基石。

墨迹高级技术总监王磊介绍，从塞班那个年代，墨迹 APP 创始就开始积累数据直至今日，原始数据全部保留。

近四五年，细分领域的大数据变得越来越重要，墨迹也开始发力，建设大数据平台和投入人力，试图从海量气象数据中，找到用户及天气预报中的模型和规律。基于这些做个性化推荐，精细化服务，当然也包括商业化运营。

海量气象数据的来源与分析

数据来源

做气象预测，观测数据是充分必要条件，直接影响预报的准确性。观测数据理想的状态是观测点足够多，气象预测就会更精准。如在北京布设 100 个点，可北京面积广阔，点与点之间的温度、气压又是多少？

墨迹的数据主要来源于三方面：第三方气象组织、各种设备传感器和时景社区。

第三方气象组织

和其他气象公司合作，如中国国家气象局，美国 NOAA（美国国家海洋和大气管理局）的 GFS，欧洲 EC（欧洲中期天气预报中心），日本气象卫星数据以及中国国家气象局的数据等。

这些组织有全球观测数据，这些观测数据通过卫星做遥感，所以质量相对较高，每天约有 500G 左右的量。

各种设备传感器

如墨迹 C 端用户的手机基本都带有气压计、温度传感器。还有和外部的通用汽车合作，汽车上也有余量计，传感器且量非常大。还有魅族、华为手机也预装了墨迹 APP，可从中获得相关数据。

这部分数据量每天约 8000 万左右，但由于形式不一，每个设备上的数据都有偏差波动，导致质量参差不齐，要进行统一化的处理才能投入使用。

时景社区

就是实时天气社区，每天约有十万天气照片上传到时景社区，总气象图片资源达亿级，是目前国内最大的实时天气图片社区。

数据分析

墨迹的数据分析分为两部分，一部分是 0~2 两个小时的短时预报和 2~8 小时的短临预报。另一部分是 8 小时到 15 天的中长期预报。

机器学习主要用在短时预报，主要采用业界比较先进的神经学习网络，如用 FCN 网络（全卷积网络）和 Conv-LSTM 网络（长短时记忆网络）等这些具体的分支，实现把不同来源的数据做噪音的排除，之后融合，去学习这些气象数据在历史上的变化趋势。

短时预报除 C 端用户可以在出门前查看实时天气之外，B 端用户也可以结合气象，节省成本，提升效率。

墨迹商业化 VP 张明明介绍，像运输、末端物流、农业等行业对短时预报的需求相对较高。例如中石油物流配送案例，双方把历史天气数据和中石油的销售数据整合，进行模型训练，帮助中石油解决周期长且跨省的资源调配问题。

短时预报采用的技术是机器学习，中长期预报是另一套体系，以下内容将围绕短时预报具体的发展历程、技术细节等内容展开。

机器学习在墨迹天气的应用实践

短时预报的发展历程与系统架构

墨迹短时预报系统是从 2015 年纠察小队长内测开始发展，一步步趋近成熟。如下图，是墨迹短时预报的发展历程：

在整个的发展历程中，墨迹有三次里程碑事件：

如下图，是墨迹短时预报的顶层设计：

墨迹短时预报的顶层设计由输入（数据源、反馈、WRF）、中间层（去噪、外推）和输出（预测图）三部分构成。

短时预报系统所涉及的主要技术

短时预报系统使用的技术有很多，这里主要分享两部分：

算法模型。有深度学习图像去噪算法（CNN 网络）、深度学习图像外推算法（RNN 循环网络）、机器学习雨雪分辨模型（SVM 支持向量机分类）、模式预报数据融合等。
算法实现。有 Google Tensorflow 深度学习框架、Caffe 深度学习框架、Opencv 图像处理库、Sklearn 机器学习库等。