论文:Attribute-based Explanation of Non-Linear Embeddings of High-Dimensional Data
作者:Jan-Tobias Sohns, Michaela Schmitt, Fabian Jirasek, Hans Hasse, and Heike Leitte
发表: IEEE VIS 2021
高维数据的嵌入广泛用于探索数据、验证分析结果和交流信息。它们的解释,特别是关于输入属性的解释,通常是困难的。对于非线性投影,需要基于属性的颜色编码等替代策略。在本文中提出了非线性嵌入测量器(NoLiES),它将一种新的投影数据增强策略(范围集)与小倍数环境下的交互式分析相结合。
背景
降维是探索性数据分析原则的技术之一,它可以得出令人信服的原始数据图。在许多应用中,此原始数据图是使用线性投影(例如PCA)或非线性技术(例如多维缩放(MDS)或t分布随机邻居嵌入(t-SNE))嵌入高维数据。
线性技术
结果轴仍然有意义
无法在高维空间中发现复杂结构
非线性技术
- 在高维空间中很好地揭示复杂结构
- 不再提供投影空间的直接注释
因此,为这些广泛使用的技术配备帮助用户正确读取投影数据并将原始数据属性与计算特征关联的机制至关重要。
通过高维数据分析库和最新论文中的示例,从作者的观察已发现在高维数据分析中的示例颜色编码字形和基于2D插值的尺度场重建是这项任务的金标
葡萄酒数据集的MDS嵌入增加了每个样本点的酒精水平。
颜色编码图(b)使用原始属性之一为每个投影数据点分配颜色(图b)。该技术易于实现和理解,但会受到遮挡和视觉杂波的影响,使异常点检测变得困难。
尺度场重建技术为给定属性重建2D标量函数,作为空间颜色编码的输入(图2D+2e)。这会产生容易看到的空间模式,但无法解释具有不同属性值的数据点投影到二维空间中相同位置的事实
本文结合了这两个方向的优势。作者的目标是设计一种易于使用和理解的技术和系统,适用于所有类型的嵌入技术,可以直接集成到现有的分析管道中,并使用户能够快速正确地理解属性值分布 在嵌入的数据中。
本文的目标不是解释投影,只有最终结果,即数据点在平面中的嵌入。
贡献
- 作者回顾了用于多元投影的最先进的直接增强技术,并强调了这些技术的优势和解释挑战。
- 详细介绍了一种新颖的可视化技术(范围集)来增强嵌入。
- 详细介绍了范围集与代数拓扑的联系,并提供了有关如何使用该理论进一步改进嵌入增强的第一步。
- 提出了一个交互式分析系统,并详细说明了解释线性和非线性嵌入的分析工作流程,以及使用 ML 数据库和现实世界应用程序示例的几个案例研究。
相关工作
多维投影的扩充
非线性降维技术广泛用于数据勘探。大部分工作围绕着寻找更好的投影、控制和传达错误以及自动检测和可视化特征。获得较少支持的一个关键方面是对预测数据的解释。直接技术通过基于属性的颜色和文本标签来增强嵌入,以提供附加信。spatially-structured enrichment (使用Voronoi图或树形图等技术划分空间,然后丰富这些区域。然而,这些应用程序中的大多数都以非重叠分区为目标,我们特别希望将其集成以正确反映数据的性质)
这些空间技术直接避免了过度拼接和成组相干区域,但需要特殊的策略来处理投影模糊
DataContextMap : 通过定位高属性值区域的附加数据点丰富嵌入,并通过基于重建标量场的附加属性等高线增强可视化
DimReader : 使用非线性网格线增强嵌入,Proline 显示非线性轴
t-viSNE系统 : 提供了一种分析工具,用于探索t-SNE投影,该工具用于通过交互式探索增强彩色编码图示符。
改进散点图
散点图可视化和处理其挑战(如过度绘制和杂波)的方法已经独立进行了研究
将密度图与contours相结合的散点图,用于解决大量点的过度绘制问题,同时对异常值不可知。
本文希望进一步改进的挑战是局部密度不均匀
高维数据的拓扑方法
Delaunay三角剖分是一个简单的复合体,它的过滤使我们能够从代数拓扑的深入研究理论中汲取经验
WORKFLOW
NoLiES 支持降维方案的可视化解释(NoLiES主要建立在增强多维投影、改进散点图和高维数据拓扑分析的概念之上)
Step 1 – Jupyter Notebook
用户指定数据加载和清理例程。 此外,它们可以提供自定义参数值和选择,例如考虑的数据属性、滑块范围、过滤器阈值或颜色图。 在多维投影部分,用户可以选择他们喜欢的降维方法,并将其与适当的控制机制相结合,如数据缩放和相关性检查。
Step 2 – NoLiES
一旦用户对数据预处理感到满意,他们就会在浏览器中切换到交互式 GUI 视图。在此视图中,只有笔记本中的图表元素可见,并且现在以交互方式链接。GUI 在散点图中显示嵌入的数据,并提供包含数据属性和属性值分布的概览
Explore dimensions : 在二维空间中的位置和原始数据属性之间提供了一个视觉链接,它解释了投影数据中的属性值分布
Cluster-based analysis:提供绘图之间共享的小倍数和交互式选择
Outlier analysis :outlier highlighting
Step 3 – User in the loop
用户可以用获得的知识来扩充笔记本,以便在下一次运行中使用它并保留它以备将来分析。
模型
对比方法
Glyph-based colorcoding :易于实现并提供对值位置的直观感觉,并且在数据点数量有限的情况下效果很好,但存在遮挡和过度绘制的问题。 然而,评估组/颜色重叠的数量和快速检测异常值很困难
scalar field : 两种流行的方法是嵌套填充等值线和基于三角剖分的渲染。 虽然这两种技术都能很好地了解属性值分布,但它们在表示受投影模糊影响的区域方面存在困难
在这里,基于场的方法必须使用局部平均值(等值线)或创建许多小色块(三角剖分)。
set-based visualizations:
- 几何/代数方法 : 对单纯复形(图形或三角剖分)进行运算,并通过过滤或其他几何运算(如膨胀)从此构造推导出边界
- 统计方法 : 依赖于绘制等值线的密度估计。带有有趣的概率概念,即点可能位于图的某个区域
这两个方法都依赖控制异常值过滤的参数
对于本文中提出的范围集,我们选择了基于几何集的方法,因为它利用了空间增强的优势,可以处理投影模糊性,并且可以直观地通过具有良好默认值启发式的单个距离参数进行控制。
轮廓计算
范围集使用几何轮廓来直观地将具有相似值的数据点分组。
选择一个属性箱
过滤相应范围内的数据点
计算过滤点的 Delaunay 三角剖分1
删除具有不需要属性的三角形
计算三角剖分的边界,找出当前范围内所有不属于轮廓的点进行高亮
Delaunay triangulation是相当于 Voronoi 图中细胞神经的三角剖分。两个顶点 u 和 v 连接当且仅当它们的距离小于或等于选定的距离阈值 ε。
非凸面或最小面积外壳具有紧密地包围了异常值的点,并允许过滤异常值。本文使用α-hulls2来解决异常值问题。Alpha复合体是点集Delaunay三角剖分的子复合体。Delaunay三角剖分的每条边或三角形可能与一个特征半径相关联,即包含边或三角形的最小空圆的半径。对于每个实数α,给定点集的α-复形是由半径不超过-1/α的边和三角形集形成的单纯形复形。
找到一个好的 ε 值是算法的一个重要方面
本文使用MST3为过滤器阈值 ε 提供默认值
三角形过滤器准则的讨论
控制三角剖分质量时广泛使用的三个局部标准是边长、三角形面积和内角。
通过 Delaunay 三角剖分已确保优化内角
系统 + case studies
NoLiES 在 python 中使用面板库实现交互支持。NoLiES 的 GUI 由三个主要组件组成:
- 一个属性视图,列出了原始数据中包含的所有属性、它们的范围以及用于分箱的选定子范围。
- 嵌入将投影数据呈现为带有可选标签的点云。 用户可以交互地更改下拉菜单中显示的范围集。 图表的标题自动包括笔记本中定义的应用投影方法。
- 小倍数视图提供了对所有选定属性分布的快速概览,并显示了分箱属性的直方图。 可以使用复选框在属性视图中以交互方式打开和关闭视图。
属性滑块是交互式的,移动滑块时,轮廓和直方图会交互式更新。
OECD Better Life
数据集:经合组织美好生活 40个国家的25个属性(+OECD平均值)。
目标是了解哪些因素促进社会福祉
可以观察到,生活满意度与2D嵌入中的视觉簇密切相关,红色和绿色类(非常高和非常低的幸福感)包含了大多数数据点。非常不愉快的国家(蓝点)分布在整个地块上。它们不在范围集等高线中分组,而是形成直方图中反映的所有异常值(零线下方的条形图)。
Forest Covertype
forest covertype 数据集涵盖581k个数据点和54个地形属性,如海拔、坡度和阴影。目标是仅使用这些属性预测森林类型(7类)。
值得注意的是,t-SNE图的结构分析具有挑战性,可能容易导致误读。覆盖范围集有助于消除常见的误解。集群大小在t-SNE中毫无意义。使用基于属性的覆盖范围集,用户可以重建数据点之间的基本距离。
覆盖范围集有助于消除常见的误解
Matrix Completion in Thermodynamics
数据驱动的矩阵补全方法(MCM)在预测流体性质方面表现出色,但它们并不直观,因此难以从物理角度理解。
这个case的任务是解释物理角度,使用字形着色和聚类无法传达潜在MCM特征和领域知识之间的任何关系。
我们还观察到一些化学类别非常独特,例如酒精(右,浅绿色)、醛(右上,浅紫色)和腈(下,深棕色),
而其他化学类别的轮廓强烈重叠(主要位于中心)。还要注意的是,水和氧化氘(重水)表现为特殊的溶质(右下角,浅橄榄绿),这与它们特殊的宏观性质非常吻合。
NoLiES为潜在MCM特征提供了令人兴奋的物理见解,这将作为MCM目标增强的基础,例如。
用于选择合适的物理描述符以支持数据驱动方法,或基于溶质的现成信息预测额外溶质的MCM特征
总结
本文设定的目标如下:设计一种技术和系统
- 易于使用和理解,
- 适用于所有类型的嵌入技术,
- 可以直接集成到现有分析管道中
- 使用户能够快速、正确地理解嵌入数据中的属性值分布
限制
可伸缩性 : 随着数据点数量的增加,交互速度减慢
可读性 : 阅读范围集在许多课程中变得很有挑战性
个人总结
思路:简单有用
工作:case的内容丰富(有大数据集,小数据集)
写作:讨论问题很清楚,思路解释,结合实例介绍分析和已有工作的差别
限制 : 论文的技术缺乏准确性,如果有个基准可以量化评测高维轴的降维效果,会更好
1. M. De Berg, M. Van Kreveld, M. Overmars, and O. Schwarzkopf. Com- putational geometry. In Computational geometry, pp. 1–17. Springer, 1997. ↩
2. H. Edelsbrunner, D. Kirkpatrick, and R. Seidel. On the shape of a set of points in the plane. IEEE Trans. Inf. Theory, 29:551–558, 1981. ↩
3. L. Wilkinson, A. Anand, and R. Grossman. Graph-theoretic scagnostics. In IEEE Symposium on Information Visualization, 2005. INFOVIS 2005., pp. 157–164. IEEE, 2005. ↩
✉️ zjuvis@cad.zju.edu.cn