2022年4月14日上午,中国图象图形学学会可视化与可视分析专业委员会组织的第十四期可视化与可视分析国际学术报告成功举行。此次报告特邀美国俄亥俄州立大学沈汉威教授担任讲者。沈教授是IEEE Visualization Academy成员,IEEE TVCG的副总编辑,美国国家科学基金会的CAREER奖项,及美国能源部早期职业首席研究员称号的获得者。他曾担任IEEE TVCG副主编、以及多项顶级会议的论文主席,曾在顶级期刊和会议:IEEE TVCG以及IEEE Visualization conference发表超过50篇学术论文。
沈教授带来了题为《Machine Learning for Scientific Visualization》(面向科学可视化的机器学习)的精彩报告。首先,沈教授介绍了传统科学可视化处理的基本模式以及它面临的诸多挑战。接下来,沈教授介绍了目前面向科学可视化的机器学习主要的研究内容和研究方向,并介绍了近期他们在面向科学可视化的机器学习方向的两项研究。
首先,沈教授指出,传统科学可视化通常采用后处理模式,如图1所示。科学可视化通常面临大规模的数据,在超级计算机和磁盘、磁盘和用户端会产生I/O开销。正因为如此,通常进行科学模拟的程序都是批处理进行,导致难以进行交互探索。另外,后处理模式下,数据特征难以定义和追踪,用户也需要对大规模的参数空间进行分析和探索。
图 1 传统科学可视化模式
在此背景下,沈教授指出,机器学习技术的迅速发展为科学可视化提供了新的研究思路和研究方向。面向科学可视化的机器学习能够支持很多方面的工作,例如图像、特征等的嵌入和潜在表示,数据特征分类,传统科学模拟的代理,特征及数据重建或超分辨,数据压缩和转换,渲染,可视化设计与布局等。接着,沈教授介绍了他们近期在面向科学可视化的机器学习方面的两项研究工作。
沈教授介绍的第一项研究工作是基于几何卷积的粒子数据局部潜在表示。特征提取是科学可视化的重要工作,科学特征能够帮助分析和发现科学现象,提高可视分析效率,另外在三维数据中能够有效避免遮挡。传统特征提取需要定义特征描述,而且人工检测较为繁琐并且鲁棒性较差。对粒子数据而言,粒子之间没有明确的连通性,而重新采样粒子数据可能会引入错误并增加计算成本。沈教授提出了一种基于3D点云的几何卷积神经网络,学习粒子数据的局部潜在表示,网络结构如图2所示。
沈教授进一步指出,在神经网络学习结果的基础上,可以通过均值偏移以匹配跨时间的潜在分布以进行特征跟踪。具体的方法是,根据粒子数据的局部潜在表示,对潜在空间的交互式层次聚类,利用t-SNE对聚类结果进行潜在空间分布提取,得到所有潜在的特征向量,同时用物理空间视图帮助划分聚类决策,如图3所示。
最后,沈教授展示了这项研究在粘性指法数据集上的特征提取质量,如图4所示,不同类的粒子数据被划分开来,并进行了着色,聚类的结果和拓扑分析结果进行了对比。沈教授指出,这种特征提取方法的避免了粒子数据的重建,同时不需要手动选择阈值和感兴趣的相关属性来对相关特征进行探索。
图 4 利用机器学习进行特征提取方法的效果对比
沈教授介绍的第二项研究工作是关于时序流场的超分辨率重建。沈教授指出,目前的流场可视化系统常采用并行计算的方式加速粒子追踪,对计算资源的需求较高,且需要存储整个流场数据。通过对于流线进行超精度提升的方式,极大的降低了流线的计算量,以此能够实现流线实时的可视化生成和交互。
由于I/O和存储限制,关键时间步之间的流场数据不会被存储下来,为了恢复丢失信息,沈教授提出两阶段模型去解决这个问题,如图5所示,第一个阶段预测模型来估计输入数据之间的低分辨率的中间帧数据,完成时间超分辨率任务;第二个阶段解决空间超分辨率问题来生成低分辨率的流场序列所对应的高分辨率的数据输出,并在这些连续时间帧上保持时间一致性。
图 5 流场超分辨网络模型结构
在时间超分辨阶段,如图6所示,使用U-Net作为神经网络模型,将随时间变化的流场离散化,将它们视为随时间变化的稳定静态流场序列,通过这种离散化,可以假设下一个时间步可以从上一个时间步变形得到。而中间帧率的数据则可以通过Vi和Vi+k生成。
图 6 流场时间超分辨阶段模型
在空间超分辨率阶段,将来自相邻时间步数据的上下文信息进行对齐,而不是直接对对应时间的低分辨率数据进行上采样。主要通过可变形卷积网络实现相邻数据帧与当前帧的对齐。可变形卷积网络将学习一个相对于规则卷积操作位置的偏移量,以此来从某一位置获取值去进行卷积计算,模型结构如图7所示。
图 7 流场空间超分辨阶段模型
最后,沈教授比较了由LERP+BI、BiLSTM+CNN和他们的方法生成的流场序列的轨迹线可视化结果,如图8所示。沈教授指出,在科学数据分析和可视化中,机器学习能够发挥关键作用,同时能够改变进行压缩数据、特征提取、数据分类、数据模拟等问题的方法。但是沈教授也指出,在降低训练和推测成本方面,仍需要大量的研究工作。
在提问环节,沈教授和听众进行了热烈的交流。在谈及探索潜在空间中由粒子组成的结构的时间变化是否可行的问题时,沈教授认为这的确是目前值得并且需要尝试去研究的内容,可以尝试建立四维空间上的粒子结构特征的变化。在解答在特征出现之前,使用机器学习预测粒子时间序列特征是否可行的问题时,沈教授认为是一项很有意义的未来研究工作,因为特征的预测也是很多科学领域中非常重要的内容,另外,相应的模型也是可视的以达到模型的分析目标。在解答关于时序流场的超分辨率重建,如果先在空间上采样,然后在时间上采样,是否可行的问题时,沈教授认为,如果先在空间上进行采样,则会损失更多的可用信息,因此他们的工作没有采用这一方式,但沈教授也指出,也有其他的相关工作尝试了这样的模式,并不意味着这不是一种好的方案。
本次活动由中国科学院计算机网络信息中心支持,可视化与可视分析专委会委员、2022 中国可视化与可视分析大会展览主席单桂华研究员主持。下一期报告将于2022年4月21日上午9:00-10:30举办,报告题目为Visualization in Data Conversation,讲者是美国东北大学的Melanie Tory教授。