论文:MV²Net: Multi-Variate Multi-View Brain Network Comparison over Uncertain Data
作者:Lei Shi, Junnan Hu, Zhihao Tan, Jun Tao, Jiayan Ding, Yan Jin, Yanjun Wu, and Paul M. Thompson
发表:IEEE Transactions on Visualization and Computer Graphics, 2021
本文提出了用于人脑神经网络对比的可视分析系统MV²Net。系统支持用户对神经纤维的多种属性进行比较并综合多视图中的比较结果,从而发现网络间的显著差异。系统还引入了数据清洗机制。
引言
脑神经网络比较分析
分析对象
将脑部的多模式磁共振成像抽象为图结构,图的节点对应大脑皮层区域,边则对应区域间的神经纤维
目的
比较两组脑神经网络间的差异,例如,患病网络和健康网络中差异显著的部分可能是疾病预防和治疗的关键
现有可视分析方法的不足
- 用边的权重表示神经纤维数量,缺乏对扩散特征和几何特征的描述
- 只在单个视图中支持并列或叠加等简单的比较方法
- 不支持数据筛选,无法排除脏数据对分析结果的影响
本文贡献
分析框架
- 除数量外,还支持神经纤维扩散特征和几何特征的比较
- 引入数据清洗机制
- 引入概率统计等方法,协助用户发现网络间的差异
可视设计
- 多视图协调联动,支持多组数据和多种属性同时比较分析及比较结果的综合和细粒度探索
系统实现及评估
- 实验表明,本文系统能协助用户发现已有可视分析方法尚未发现的差异特征
相关工作
用于比较的可视化方法
用于多对象比较的可视化方法主要包括三类:并置(juxtaposition)、叠加(superposition)和显式编码(explicit encodings)
需求设计
本文作者通过与三位领域专家合作探讨,确定脑神经网络比较可视分析系统的需求
- 排除脏数据的干扰
- 支持从多个视角对神经纤维的多种属性进行分析比较
- 支持以统计方法等协助发现差异特征
- 支持迭代比较多组数据并综合比较结果
数据处理流程
- 多属性脑神经网络构建。
将输入的脑部磁共振成像用统一的模板抽象为图结构,并计算神经纤维的强度、扩散特征和几何特征
- 数据质量分析
前提:神经纤维的各属性值近似满足正态分布
方法:系统通过 Grubb’s test 排除明显异常值后,根据每个属性的整体分布情况评估剩余属性值的质量(Quality for Comparison, QoC)并将结果表示为heatmap,用户可在系统中进一步交互地清洗数据
Grubb’s test: 用于检验单变量数据集内的离群值。本文将该算法独立地应用于神经纤维的各个属性
- 差异特征发现
单变量差异特征发现:使用 Student’s t-test 对两组数据的各属性逐一进行假设检验,当某属性的p-value不高于显著性水平时,认为该属性存在显著差异
Student’s t-test: 常用于检验一组来自正态分布总体独立样本的期望值是否为某一实数,或两组来自不同正态分布总体的独立样本的期望值之差是否为某一实数。
多变量差异特征发现:特征选择算法 group lasso(GL)
group lasso#Group_lasso): lasso(套索算法)是一种可以同时进行特征选择和正则化的回归分析方法,旨在增强统计模型的预测准确性和可解释性。本文采用的GL算法是lasso的扩展
可视分析系统
系统概览如下
a: group selection, 用于选择分组方式和比较对象
例如,图中将所有脑神经网络按健康/患eMCI/患lMCI/患AD分为四组(左下),并选择健康/患AD这两组数据作为比较对象(Sunburst图)
b: feature heatmap, 用于数据清洗
每个heatmap表示一种属性值的数据质量
x轴为神经纤维的编号,所有神经纤维按有效属性值的数量递减排序。y轴为该神经纤维所有通过 Grubb’s test 的属性值的质量(QoC)估算结果,两组待比较数据的质量以不同颜色编码,分别位于x轴上下两侧,质量越高的属性值对应的方格颜色越深,位置越接近x轴。点击方格时将在视图右上展示该方格中属性值的分布情况和两组数据的整体分布情况,用户可据此判断该方格中属性值的数据质量,并通过调整heatmap中的蓝色边框筛选有效属性值足够多(保证偶然性较小)的神经纤维和质量较高的属性值
c: network comparison, 用于比较脑神经网络的多种属性
每列的两张子视图对应一种属性值的比较结果,系统提供两种比较模式
- 显式编码(explicit-coding)模式
如图所示,每列的两张视图分别表示对应属性值的单变量差异特征和多变量差异特征
颜色的种类代表两组数据的大小关系(如,紫色代表第一组数据的对应属性值较大),颜色的深度编码差异的大小,颜色越深差异越大
显式编码模式中子视图下方滑块用于调整 Student’s t-test 和 group lasso(GL) 算法的参数,进而调整视图中神经纤维的数量
- 并置(side-by-side)模式
每列的两张视图分别表示两组数据对应属性值的大小,并置模式中子视图下方滑块用于调整属性值的展示阈值,视图中只显示属性值高于阈值的关键神经纤维
d: high-order composite, 用于综合多种属性的比较结果
d视图中的神经纤维为显式编码模式下c视图中若干用户选择的子视图的交集,表示这些神经纤维的多种属性均具有显著差异,可能是疾病预防和治疗的关键
神经纤维上的每个圆对应一种属性的比较结果,与c视图中类似,圆的颜色代表两组数据的大小关系,圆的大小则编码差异的大小
e: fiber tract detail, 用于进一步探索关键神经纤维的细节
用户在d视图中选择感兴趣的关键神经纤维后,e视图中以体绘制形式展示该神经纤维逐体素的比较结果等细节
评估
案例分析
- 通过对比数据清洗前后的可视化结果,证明了数据清洗的必要性和有效性
- 通过对比不同差异特征发现算法的结果,证明了本文算法的优越性
- 通过综合多种属性的比较结果,发现了已有可视分析方法没有发现的差异特征,并且符合医学知识
用户反馈
优点:功能全面(comprehensive),可以方便地综合多种属性,多条神经纤维和多组数据的比较结果以发现新的差异特征
缺点:自动化程度不高,系统不会自动推荐关键的神经纤维,需要用户手动查找;采用的概率统计等方法可能存在误差;支持的输入种类有限等
启发
本文面向具体问题,设计了一个用于脑神经网络比较的可视分析系统,综合了科学可视化、信息可视化和可视分析等多方面的技术,并且引入了数据清洗机制
该系统的设计思路和实现细节还可推广至其他多变量网络结构的比较
✉️ zjuvis@cad.zju.edu.cn