论文: A Partition-Based Framework for Building and Validating Regression Models
会议:VAST 2013
作者:Thomas Muhlbacher, Harald Piringer (VRVis Research Center)
回归问题是统计分析领域的永恒话题之一。统计学习领域有相当多的研究成果用于对回归模型进行拓展和改进,然而当前纯自动算法仍然存在以下问题尚待解决:
- 特征子集选择:如何选择具有特征的维度,以及维度个数与模型可解释性、模型复杂度之间的权衡;
- 将 Domain Knowledge 融入特征子集选择过程中:用户通常在维度选择上有一些先验知识,这些知识怎样输入到模型训练中;
- 特征尺度变换:如何选择合适的变换尺度
本文通过构建一个可视分析框架,很好地弥补了上述问题。本文贡献如下:
- 基于特征辅助模型预测程度的排序方法
- 用于展示单一维度/维度对上数据局部结构的可视化视图
- 验证和比较模型的工作流框架
- 长时间的用户测试
有不少论文从可视分析角度探讨了特征选择和模型构建问题,较新的论文包括 Explainer[1]、Dimensional Projection Tree/Matrix[2]、HyperMoVal[3] 等。
下图是系统界面概览,其中左侧部分用于单一维度的探索,中间部分用于探索维度对之间的数据特性,右侧展示了特征排序和选择等功能。
本文提出了一种两阶段的框架,其中第一个阶段为特征选择,第二个阶段为模型验证和比较,训练出来的好的模型结果可以又作为特征选择所使用的模型。
整篇文章分成三个主要部分:
- 基于划分的可视化设计:
为了生成最终的可视化视图,首先目标维度(对)要做一次 partition 操作,将维度划分为区间(矩形区域),之后再将每个区间区域 layout 到矩形的可视区域上。 Partition 和 Layout 的策略分别有:
- Domain-uniform partitioning:按维度均匀划分数据区域;
- Frequency-uniform partitioning:按数据密度划分数据区域,保证每个区域的数据密度相等。这种划分方法使用类似 K-d Tree 的策略对数据空间做出划分,但划分标准与 K-d Tree 不同;
- Domain-preserving Layout:布局每个数据区域时,每个矩形的边长也按照维度均匀计算;
- Frequency-preserving Layout:布局时,每个矩形的面积大小代表该数据区域内的数据密度高低。
下面两张图展示了不同的数据划分方法和布局方法在对维度(对)上数据的可视化效果展示,其中图片左上角代表数据的原始 scatterplot 。可以看出,当划分和布局策略都为 domain-uniform 时,最终的可视化结果实际上就是原始 scatter-plot 的马赛克效果。每个矩形块上还使用了类似盒须图的方式(1D)或颜色(2D)来表达该 partition 内的数据统计量。
- 维度排名策略
本文使用的系统使用了 feature selection 中的 wrapper 方法,通过构建另一个 Regression Tree 来计算每个维度上的 goodness-of-fit (此处使用 R^2 作为度量标准),并以此对维度进行排序。下图是系统中用于展示排序关系的视图。
- 模型验证与比较:本阶段用于展示模型预测结果和一些相关指标,包括:
下图自左至右分别展示了模型的预测偏移、模型之间的结果比较和预测不确定性的结果:
[1] M. Gleicher, “Explainers: Expert Explorations with Crafted Projections,” IEEE Transactions on Visualization and Computer Graphics, vol. 19, no. 12, pp. 2042–2051, 2013.
[2] X. Yuan, D. Ren, Z. Wang, and C. Guo, “Dimension Projection Matrix/Tree: Interactive Subspace Visual Exploration and Analysis of High Dimensional Data,” IEEE Transactions on Visualization and Computer Graphics, vol. 19, no. 12, pp. 2625–2633, 2013.
[3] H. Piringer, W. Berger, and J. Krasser, “HyperMoVal: Interactive Visual Validation of Regression Models for Real-Time Simulation,” Computer Graphics Forum, vol. 29, no. 3, pp. 983–992, Aug. 2010.
✉️ zjuvis@cad.zju.edu.cn