机器之心报道
参与:思、路、一鸣
近年来,尽管PowerBI等数据分析产品已经降低了企业进行数据分析的门槛,但从事数据分析仍需要相当的经验和技能。近日,MIT和布朗大学联合团队开发了一款交互式数据科学分析系统。通过集成AutoML等先进技术,系统可以帮助非专业人士在触控屏上进行直接的数据可视化和动态分析,甚至可以在数据科学家和非专业人士之间的实现多人协作。
在《钢铁侠》系列电影中,托尼·史塔克用全息投影显示三维数据,用手进行拖拽调整,然后解决超级英雄遇到的问题。现在,MIT 和布朗大学的研究者合作开发了一个交互式数据分析系统,该系统可以在触摸屏上运行,所有人(不仅仅限于托尼那样的天才亿万富翁)都可以使用数据分析解决现实世界问题。
研究人员用数十年开发出了这款名为「北极星」(Northstar)的交互式数据科学系统。系统在云上运行,但是它的用户界面支持多种触摸屏设备,包括智能手机和大型交互式白板。用户将数据集输入系统,然后在用户友好的交互界面上进行操作、合并、特征提取。他们可以使用手指或者电子笔,在分析中发现趋势和规律。
Northstar 网址:http://northstar.mit.edu/
Vizdom demo:vimeo.com/139165014
普惠式数据分析系统
由于北极星系统的可视化拖拽特性,据北极星项目负责人 Tim Kraska 的介绍,这一系统可以使不了解数据科学的咖啡馆店长预测未来几周的销售额,从而决定咖啡的进货量。
北极星系统还可以对多种数据类型进行处理和预测。例如,对于医生来说,北极星系统可以帮助他们预测病人得某种疾病的可能性,企业则可能更关注销售额数据,而北极星也可以实现销售额趋势的预测。
此外,北极星系统可以在触摸屏上交互运行,这使得多人协作成为可能。在雇佣了数据科学家的企业中,专家和非专家的沟通成本较高。但是如果有北极星系统支持,各个部门的人可以一起开会并参与数据分析工作,形成完整的协作。
拖拽协作,图表即有
那么,北极星系统的工作方式是什么样子呢?
首先,初始化的北极星系统是一个黑白界面。用户可以将数据集上传到系统中。在左侧则会出现一个「datasets」方框。任何数据标签都会自动出现在下方的「attributes」方框内。这里同时会出现一个「operators」方框,包括多种算法和新型 AutoML 工具。所有的数据都会在云上进行分析存储。
之后,用户可以从数据集或属性方框中拖拽出需要可视化的数据部分,并展示在触摸屏上,白板的范围可任意扩展。
用于数据分析的面板是无边界的,只要滑动就能获得新的空白面板。
更巧妙的是,拖拽出来的单个图表可以和其他图表进行联合分析,如图:
通过拖拽数据图表即可分析,也可以将多个图表拖拽到一起,实现联合分析和可视化。
这些看起来好像都是简单的「Excel」级操作,用来做数据分析是不够的?在北极星系统中,其实还隐藏可视化分析的一个重要组件——可视化数据科学家(VDS)。
该组件可快速生成机器学习模型,用于对数据集的预测工作。使用 VDS,用户可以使模型根据任务进行定制化,从而对数据进行预测性分析,这些任务包括数据预测、图像分类或者分析复杂的图结构。
医疗数据分析。
上图示例展示了,医疗研究者想要基于数据集的所有特征预测哪些病人可能患有血液疾病。他们从算法列表中拖拽出「AutoML」。它首先生成一个具备「target」tab 的空白文本框,研究人员将「blood」特征拖拽到「target」下面。VDS 系统可以自动找到性能最好的机器学习 pipeline,呈现为准确率经常更新的 tab。用户可以在任何时候停止该过程,改进搜索结果,并检测每个模型的误差率、结构、计算等。
AI 加持,北极星大显身手
正如上面动图所示,VDS 通过简单的拖拽就完成机器学习建模。最近,关于 VDS 的研究将发表在 ACM SIGMOD 上,它详细地描述了这一灵魂性的模块。
VDS 主要基于一种非常流行的人工智能技术,即自动机器学习(AutoML)算法。通过 AutoML,即使是数据科学小白也能快速构建机器学习模型,并基于它们自己的数据集完成训练与预测。
在 VDS 采用的 AutoML 中,研究者展示了一种交互式的自动机器学习工具。这令整个 VDS 不仅关注交互式,同时还能集成系统设计与算法设计方法。研究者表示该 AutoML 系统主要利用了 Query Optimization 的核心思想,同时还设计了一种新型选择与剪枝策略,从而结合了基于成本的多臂老虎机与贝叶斯优化方法。
这篇 AutoML 论文主要来自 VDS 的研究者,一作尚泽远是 MIT CSAIL 实验室的博士研究生,他本科毕业于清华大学。希望了解更多模型细节的读者可查阅原论文。
论文地址:https://dl.acm.org/citation.cfm?id=3319863
整个北极星系统都是 MIT 和布朗大学的研究者花了数年完成的。在过去的 4 年中,除了上面介绍的 AutoML 论文,研究者还发表了一系列相关论文,从而具体描述该系统的每一个模块。包括交互式界面、多平台操作系统、加快推断速度和建模用户行为等等。
虽然北极星系统看上去很容易使用,但这种大系统有很多复杂的组件,很多都不仅仅只是机器学习算法。但不管怎么说,如果想要北极星能自己学习数据相关的「知识」,AutoML 还是处于核心地位。
更快更优的核心:AutoML
VDS 创造者认为,VDS 是目前最快的交互式 AutoML 工具,部分原因在于其具备定制化的「估计引擎」(estimation engine)。该引擎位于界面和云存储之间,它自动创建数据集的多个代表性样本(这些样本可被渐进式地处理),从而在几秒钟内生成高质量的结果。
尚泽远表示,他用了两年时间和其他合著者一道设计可以模拟数据科学家思维的 VDS,这意味着 VDS 能够基于多种编码规则,针对特定任务立刻识别需要运行的模型和处理步骤。VDS 首先从大量可能的机器学习 pipeline 中做出选择,然后在样本集上运行模拟,从而记住结果并改进 pipeline 选择。在提供快速逼近的结果后,VDS 系统在后端改进结果。
如下所示为从输入数据到输出预测的一个物理 Pipeline,其中每一个物理 Pipeline 都是通过贝叶斯优化从逻辑 Pipeline 生成的。
Pipeline 示例:其中左边红色框为固定的超参数,它们将通过该有向无环图组成物理 Pipeline;右边绿色框为超参的分布,它们将通过该有向无环图组成逻辑 Pipeline。
研究者在 300 个真实数据集上评估了该工具。与其他当前最优 AutoML 系统相比,VDS 近似结果具备同样的准确率,但是它仅需数秒即可完成,速度远超其他工具。
研究者目前正在试图添加一个功能,提醒用户存在潜在数据偏差或误差。例如,为了保护病人隐私,研究者有时会将病人数据集中的样本年龄标注为 0(如果年龄未知的话)和 200(如果年龄超过 95 岁)。但是新手可能无法识别此类误差,而这有可能导致其数据分析完全无效。
Kraska 表示:「如果你是新用户,你可能获得一些你认为很棒的结果。但是我们会提醒用户,事实上数据集中的异常值可能会导致问题。」
最后,尚泽远等研究者的导师,MIT 的副教授 Tim Kraska 还单独写了一篇论文,从而概述整个北极星系统的设计理念、构成和面临的挑战等。
整体概述论文:Northstar: An Interactive Data Science System
论文地址:http://www.vldb.org/pvldb/vol11/p2150-kraska.pdf
参考链接:
http://news.mit.edu/2019/drag-drop-data-analytics-0627
http://northstar.mit.edu/
本文为机器之心报道,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com