【博士论文】结构化数据自动可视化关键技术研究

可视化将复杂数据映射为直观的图表形式，借助人类的视觉感知能力高效地捕捉其中的规律，已成为大数据分析的重要方法。然而，现有结构化数据的可视化系统仍有以下三个问题：（1）可视分析高门槛: 现有系统高度依赖用户主动理解数据集和可视化，对用户要求高；（2）用户意图难表达: 现有系统难以支持普通用户准确表达可视化意图，易答非所问；（3）分析结果不精准: 现有系统容易忽视数据错误对可视化结果的影响，易误导用户。针对上述问题，本文主要的成果如下：1. 自然语言驱动的问答式可视化˸͔ 针对现有交互式可视化系统高度依赖用户专业技能的问题，本文提出了领域知识指导的全自动可视化框架 AutoVis。该框架结合领域知识，自动地为用户生成并选择一组能有效传达数据规律的高质量可视化。本文提出使用偏序关系来建模和组织可视化领域知识，并基于偏序图有效地选择 top-𝑘 可视化。本文证明了考虑多样性的 top-𝑘 可视化选择是一个 NP 难问题，并提出了高效的启发式算法。实验表明，AutoVis 在真实数据集的可视化任务的有效性和高效性均优于现有方法，且无需用户干预可视化过程，达到“以简驭繁”的效果。 2.自然语言驱动的问答式可视化˸͔ 针对现有可视化系统难以有效支持普通用户准确地表达可视化意图的不足，本文提出了自然语言驱动的问答式可视化模型 ncNet，可以基于用户的自然语言查询自动且准确地生成满足其意图的可视化结果。为了促进该领域的发展，本文提出了一个面向问答式可视化的基准数据集构建框架，可以通过人机协作的方式实现低代价构建大规模高质量的基准数据集。基于此，本文构建了首个面向问答式可视化领域的公开的大规模基准数据集 nvBench。 3.数据质量感知的渐进式可视化˸͔ 为缓解数据错误对可视化结果准确性的负面影响，本文提出了数据质量感知的渐进式可视化框架 VisClean，通过交互式数据清洗，优先清洗严重影响可视化质量的数据子集，逐步提升可视化质量，从而达到“洞见症结”的效果。其优势是能在可视分析周期中动态提升可视化质量，而无需预先清洗整个数据集。此外，本文提出复合问题以提供更丰富的信息与用户交互，证明选择最优复合问题是 NP 难的，并提出启发式算法以高效地选择复合问题。实验表明，VisClean 通过较少的用户交互能显著提高可视化质量，优于现有方法。本文基于上述成果研制了智能数据可视化系统 DeepEye，提供了全自动可视化、问答式可视化、渐进式可视化、可视化检索等功能。DeepEye 已提供超 240 万次的可视化服务，并在华为盘古 for BI 和浙江电网电力大数据分析平台得到应用。