2022年5月19日星期四晚,中国图象图形学学会可视化与可视分析专业委员会组织的第十七期可视化与可视分析国际学术报告成功举行。此次报告特邀德国斯图加特大学Daniel Weiskopf教授担任讲者。Weiskopf教授是德国斯图加特大学可视化研究中心(VISUS)的教授和联席主任,也是可视化和交互系统研究所(VIS)的执行主任。他是由DFG资助的合作研究中心SFB/Transregio 161“可视化计算的定量方法”(www.sfbtrr161.de)的发言人,该中心涵盖了可视化的基础研究,包括多维可视化。他的研究兴趣包括可视化、可视化分析、眼动跟踪、人机交互、计算机图形学、增强与虚拟现实、以及狭义与广义相对论。
Weiskopf教授带来了题为《Visual Analysis of Multidimensional Data》(多维数据可视分析)的精彩报告。首先,Weiskopf教授简要概述了多维可视化领域案例和一些理论模型。在此基础上,Weiskopf教授介绍了其围绕多维可视化所做的一些研究工作,包括平行坐标索引点、隐式投影降维子空间可视化、空间填充曲线、连续散点图及对照实验研究。
Weiskopf教授首先简要介绍了几个多维可视化在统计图表、信息可视化(图1)、可解释性AI、眼动追踪等中的应用案例,证明了多维数据几乎无处不在。因此,他也将多维可视化视为一个相当普遍的、触及了许多不同领域的研究问题;该主题不仅限于可视化社区,许多其他学科,特别是统计学,都对其有许多贡献和影响。他也提到尽管这个领域已经成熟,但仍然有很多正在进行的研究,并取得了巨大的新进展。
(a)统计和信息可视化应用
(b)眼动追踪多维可视化应用
图 1 多维可视化应用案例
Weiskopf教授采用一个简单的数学模型(基本上可以归纳为一个函数或一个映射f)(图2)来描述概念层面的可视化问题。在这个模型(U→V)中,空间U被认为是定义域(domain),或者也可以把它看成包含自变量的空间;空间V可以被视为函数的共域(co-domain),包含的是因变量。基于上面的数学模型,Weiskopf教授总结了不同的可视化策略,并简单地将它们归类为:①忽略整个模型的一部分来简化问题;②增加可视化通道(如增加三维可视化空间,色调或亮度等视觉元素)或变量的数量来显示数据;③降低空间维度;④不同低维度可视化实例的复用(图3,SPLOM案例,通过空间并置多个单个的图,测量来自不同计算系统的工作负载数据);⑤交互探索;⑥在可视化之前通过如数据预处理的方式提取相关信息;以上六点并不相互排斥,相反,通常都会被结合使用。
图 2 多维可视化数学概念模型
图 3 散点图矩阵案例-不同计算系统的工作负载数据
接下来,Weiskopf教授介绍了他的一些相关的研究。首先,Weiskopf教授提到了他和合作者所做的一个关于平行坐标索引点的工作,他先是从简单的二维数据开始,介绍了将笛卡尔坐标系中的数据点映射到相应的平行坐标系索引点的方法,同时也证实了能用平行坐标来表示数据中的线性相关关系,之后他进一步在更高维度的数据中推广上述笛卡尔坐标系与平行坐标索引点之间的关系(图4(a))。进一步,利用索引点和局部主成分分析,得出了针对二维或三维变量的线性关系的索引点可视化(图4(b))。
(a)平行坐标表示数据中的线性关系
(b)针对两个变量线性关系的索引点可视化
图 4 平行坐标表示散点图中的线性关系
借鉴此项平行坐标索引点工作中关于邻域方向信息的发现,Weiskopf教授又介绍了其团队的一个称作隐式投影降维子空间可视化的工作。在该工作中,通过将方向信息(通过隐函数公式和偏导数的方式实现)融合到数据降维过程中,研究者们不仅可以获取位置信息,同时也能发现原始数据邻域在多变量空间中的方向信息(图5)。
图 5 隐式投影降维子空间可视化
之后,Weiskopf教授介绍了与“域(domain)”,即数据的空间域(前述空间U)相关的工作。他首先以“如何降低域的维数”这个问题引发观众的兴趣和思考,进而引出“空间填充曲线”(可以把N维空间数据转换到1维连续空间上)的概念。那么,在实际工作中,应该选择怎样的空间填充曲线呢?Weiskopf教授介绍了他们团队中一个称作数据驱动的空间填充曲线的工作;不管是在二维数据还是三维数据中,相比于已有的空间填充曲线,该方法都具有更高的一致性,更好的数据信息和特征呈现(图6)。
图 6 三维数据中的空间填充曲线对比
接下来,Weiskopf教授介绍了连续散点图的工作(图7),类似于上文提到的数学模型,连续散点图也是将空间U(domain)的数据映射到空间V(co-domain)中。连续散点图的核心是质量守恒定律,整个工作流程包括创建连续数据模型、点采样、图表构造、密度构造及最终的可视化呈现。相比于一般散点图,连续散点图可实现更好的关联更新和信息强调等。
图 7 连续散点图
最后,Weiskopf教授介绍了用户研究评价。评价是我们在可视化研究中需要考虑的一个关键点,在多维数据可视化中同样也很重要。为说明评价的重要性,Weiskopf教授介绍了其团队所做的一项多维可视化的工作,在该工作中,他们进行了对照实验来比较评估散点图或是散点图的集合与平行坐标的效果(图8),评估指标包括:寻找多维空间中最近的点,工作任务表现(反应时间、准确性),额外的眼动追踪、可考虑的维数等。他在另外一项工作中也提到眼动追踪在传统的任务绩效指标之上,还能为评价及之后的交互等提供额外的信息(图9)。
图 8 对照实验研究
图 9 眼动追踪用于可视化推荐
在提问环节,Weiskopf教授和听众进行了热烈的交流。在谈及除了局部的PCA(主成分分析)和相关分析等之外,在多维可视化的局部分析中是否还有其他有价值的研究方向时, Weiskopf教授认为很难想到更多关于局部分析的东西了,可以用更高阶的方法(这不仅仅是针对线性数据,其他的局部匹配也可能起作用),但他同时也认为这不会有一个实质性的改善。另外有观众提问到:拓扑在多维可视化的情况下是否有帮助?对于这个问题,Weiskopf教授认为这可能更多地取决于数据的结构:在图像处理等方面,拓扑学方法在某些问题中给出了很好的结果;对于散点图,先进行特征提取再进行分析和可视化,拓扑也能有比较好的帮助;对于多维数据,进行降维,比如维数减少到5或6维,在这种复杂情况下,拓扑可能也会有帮助。最后,观众提出高维数据是稀疏的,进行邻域可视分析是否有意义?Weiskopf教授认为这是个很好的观察,在实际中必须注意如何对高维数据进行具有健壮性的可视化,他的策略是先将高维数据降低维度,这个维度不一定是2维,但目的是使进行可视化的数据空间不再稀疏,再合理采取下一步可视分析。
本次活动由北京大学健康医疗大数据国家研究院可视化实验室支持,可视化与可视分析专委会委员周亮助理教授主持。下一期报告将于2022年6月2日晚上19:00-20:30举办,报告题目为Volume Visualization forCryo-Electron Tomography,讲者是沙特阿卜杜拉国王科技大学的Ivan Viola教授。
来源:CSIG可视化与可视分析专委会