首个官方气象数据集公开,已训练出20多个“青出于蓝”的AI

2018 年 11 月 3 日 量子位
郭一璞 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

让AI来做天气预报,可能是很有前途的一件事儿。

在今年AI Challenger天气预报赛道的采访中,中国气象局北京气象研究所副所长陈敏透露,本次比赛已经有20支参赛队伍的预报结果优于传统的数值模型式预报。

 传统数值模型预报方式比真实情况有偏差

也就是说,这些队伍通过AI预报的天气,比传统方法更靠近真实的天气数据。

其中,效果最好的队伍要素预报的均方根误差减小百分率已经达到了40%以上。

不过,由于天气预报涉及到许多不同的数据因子,本次比赛仅限于用AI预报2-m温度2-m湿度10-m风速三个物理量,也就是气象站距离地面2米高处的温度湿度,以及10米高处的风速。

因此,要真正实现全面超越传统方式,道阻且长。

气象部门首次公开天气数据集

本次AI Challenger天气预报赛道的比赛中,用到的是气象部门三年的真实数据,这也是首次有气象部门向同类赛事公布数据集。

其中训练集包含1188天的天气样本,验证集包含89天的样本,测试集则包含这个秋天从8月29日起到11月3日的天气数据。

所有数据来自中国气象局北京城市气象研究所,由“观测”和“睿图”两套系统的数据组成,时间跨度长、密度高,包含气象要素的实况和预报两部分,对提高天气预报准确性具有重要作用。

“观测”集逐时记录当前气象观测站点的地面气压、地面以上2米高度处温度、地面以上10米高度处风速等9个地面气象要素,通过气象仪器实时监测得到。

“睿图”集包含地面和特征气压层共计29个气象要素,由数值预报模式在超级计算机上运算产生,其在每天北京时间11:00启动区域数值模式,预报至第二天23:00,共计37个时次。

不过,由于受到版权限制,在决赛结束的11月3日之前,暂时没有办法下载该数据集。比赛结束后重新开放下载,没有参赛的研究人员也可以下载该数据集进行研究了。根据AI Challenger去年的惯例,即使没有报名参赛,也可以在比赛结束后继续打榜。

为什么天气预报总不准

很遗憾,讨论到预报天气的时候,我们并不能把“人工预报”和“AI预报”放在一起讲。

因为现在我们看到的天气预报,也是由计算机代劳,并不是人工预报的,更没有“夜观星象”什么事。

 曙光“星云”超算

比如北京市气象局用到的睿图-ST短期数值预报子系统,就需要用到“星云”超级计算机才能迅速的把目前通行的数值预报方法中那些复杂的数学公式算出来。

如果没有这些计算机的话,算一次天气也不难,大概……也就耗费两年左右吧,还不一定算得准。

1922年,英国数学家Richardson就在没有计算机的时代,尝试了人类历史上第一次数值预报,通过一个方程进行计算,算了两年才算出结果。很遗憾,花了两年的的功夫,他也没算准。

当人类科技树上出现计算机这一项之后,预报天气就变得简单多了,只要get到充足的数学、物理知识,计算的部分可以由计算机代劳。

1.把大气的演变规律近似表示为一组数学方程式;

2.从有限观测中得到的当前大气初始状态;

3.根据该状态,在已知或设定的强迫条件(包括边界条件)下,用超算求这一组方程的解,得到对未来的天气或气候状况的预报。

However,大家经常吐槽“天气预报骗我”,就是因为目前的这种方法对于天气背后的科学并不是完全了解,所以没法实现100%的准确。

看来,天气预报跟机器学习一样,都是有“黑箱”性的呢。

天气预报,AI界的处女地

不过,既然我们开头说了AI Challenger比赛有20多支队伍在限定条件下预测的都比现有方法准,那用AI来预测天气还是靠谱的。

历史上也有人这么做过。

在上世纪七八十年代,就有人试过用AI来预测天气。不过,当时用的是专家系统。至于现在通过神经网络进行图像识别的方法预测天气,只有少部分学者有所尝试。

因此,本届AI Challenger也是把天气预报放在了实验赛道上。

跨界AI与气象,人才难求

相比图像识别、语音转换这些成熟应用,AI来做天气预报还是有难点的。

陈敏认为,用AI实现天气预报难点有三:

一是成熟的AI技术各不相同,目前无法应用到实际的天气预报上。

二是正在研究中的模型还处在“玩具级”,无法实际应用。

 陈敏,北京气象 城市气象研究所副所长

核心的因素则在于人才:目前对天气预报从业者的培训都是基于数学、物理等相关知识,尚未开始系统专业的AI培训;而在气象从业人员中。和AI相关的研究范围仅限于线性回归,对于图像识别、语音识别、神经网络方面则没有大量人才。

创新工场人工智能工程院院长王咏刚博士则从计算机科学研究的角度,向量子位讲述了目前开展AI气象预测研究的困难:

一方面,计算机科学界研究AI来完成一项特定任务,需要包括数据、工具、评测标准、应用场景在内的全流程资源,需要气象界的“ImageNet”。而AI在气象预测方向完全是空白,没有多年的数据集、baseline、论文和理论基础,必须从0开始,从数据开始,迈出第一步。

“如果以后研发机构都用标准化流程、算法、数据来研究,那可能就有很大突破 。如果看到那一天,(将AI预测天气应用到实际中)三五年就可以实现了。”

 王咏刚

另一方面,天气预报数据维度、因子远多于图像、语音、文本领域,需要AI工程师和天气预报专家一起尝试,天气预报专家熟悉数学理论 ,AI工程师熟悉计算机算法,实现AI预测天气,离不开AI+气象领域的跨界人才。

气象界的陈敏和AI界的王咏刚都提到了人才。量子位看了看目前各大科技公司AI工程师的薪资,不知道数学好、懂物理、还懂算法的AI气象科学家要在何时才能出现。

AI Challenger 全球AI挑战赛

“AI Challenger 全球AI挑战赛”是面向全球人工智能人才的开源数据集和编程竞赛平台,由创新工场、搜狗、美团点评、美图联合举办,致力于满足AI人才成长对高质量丰富数据集的需求,推动AI在科研与商业领域结合来解决真实世界的问题。

今年的AI Challenger设置了观点型问题阅读理解、细粒度用户评论情感分析、英中文本机器翻译、短视频实施分类、无人驾驶视觉感知五条主赛道,另外还有天气预报、农作物病害检测、眼底水肿病变区域自动分割、商品实例分割迁移练习、零样本学习五条实验赛道。

目前,天气预报赛道决赛已于10月28日开始,将于11月3日结束,冠军将获得50000人民币奖金。

传送门及数据集下载地址

最后,附上天气数据集传送门:

AI Challenger天气赛道
https://challenger.ai/competition/wf2018

炼丹愉快~

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



登录查看更多
1

相关内容

陈敏自2012年2月起任华中科技大学计算机科学与技术学院正教授。他是嵌入式和普适计算(EPIC)实验室主任,华中科技大学数据工程研究所所长。他是开国元勋主席IEEE计算机学会(CS)的大数据专业技术团体(STC)。他是首尔国立大学计算机科学与工程学院的助理教授。他曾在不列颠哥伦比亚大学(UBC)电子和计算机工程系担任博士后研究员三年。在加入UBC之前,他在SNU做了一年半的博士后。他有300篇出版物,包括200篇SCI论文,100篇IEEE Trans/Journal论文,34篇ESI被高度引用的论文和12ESI热点文章. 他出版了12本书,包括认知计算与深度学习(2018))中国机械工业出版社云/物联网和认知计算大数据分析(2017)和威利在一起。他的谷歌学者引文达到 28,500h指数为82,i10指数为250。他的顶级论文被引用 3,200时代。他在2018年、2019年和2020年被选为高被引研究员。他在2017年获得了IEEE通信协会弗雷德W.埃勒西克奖,并在2019年获得了IEEE Jack Neubauer纪念奖。主要研究领域:认知计算、5G网络、可穿戴计算、大数据分析、机器人学、机器学习、深度学习、情感检测、移动边缘计算等。
最新《多任务学习》综述,39页pdf
专知会员服务
264+阅读 · 2020年7月10日
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
最新《自动微分手册》77页pdf
专知会员服务
100+阅读 · 2020年6月6日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
2019中国硬科技发展白皮书 193页
专知会员服务
82+阅读 · 2019年12月13日
【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》
专知会员服务
10+阅读 · 2019年12月6日
Kaggle 新赛:Google AI Open Images 目标检测
AI研习社
18+阅读 · 2018年7月4日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
66+阅读 · 2018年4月19日
Arxiv
7+阅读 · 2020年3月1日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
9+阅读 · 2019年4月19日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
136+阅读 · 2018年10月8日
Arxiv
5+阅读 · 2018年10月4日
Arxiv
11+阅读 · 2018年7月8日
VIP会员
相关VIP内容
最新《多任务学习》综述,39页pdf
专知会员服务
264+阅读 · 2020年7月10日
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
56+阅读 · 2020年6月24日
最新《自动微分手册》77页pdf
专知会员服务
100+阅读 · 2020年6月6日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
2019中国硬科技发展白皮书 193页
专知会员服务
82+阅读 · 2019年12月13日
【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》
专知会员服务
10+阅读 · 2019年12月6日
相关论文
Arxiv
7+阅读 · 2020年3月1日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
9+阅读 · 2019年4月19日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
26+阅读 · 2019年3月5日
Arxiv
136+阅读 · 2018年10月8日
Arxiv
5+阅读 · 2018年10月4日
Arxiv
11+阅读 · 2018年7月8日
Top
微信扫码咨询专知VIP会员