论文:CiteRivers: Visual Analytics of Citation Patterns

作者:Florian Heimerl, Qi Han, Steffen Koch Member, IEEE, Thomas Ertl Member, IEEE**
发表:Citation information: DOI 10.1109/TVCG.2015.2467621, IEEE Transactions on Visualization and Computer Graphics

简介

对科学文献的组织、分析、探索是高效知识管理的重要任务,CiteRivers 结合已有的分析系统,扩展新的分析技术,设计了全新的对文献的内容、属性以及引用模式的可视化分析系统。
img

图 1-系统预览(a)文献面板(b)文献聚类等级滑条(c)引用属性面板(d)作者面板(e)引用面板(f)引用聚类等级滑条(g)文献趋势图

系统功能剖析

(a)文献面板

文献面板:通过 steamgraph 的方法来展示文献。根据文献的属性或者相似度,文献被划分到某个聚类(流)中;每个聚类(流)又由不同时间的块组成;每个块中的论文抽取出相应的关键词云。

  • 不同颜色编码不同的聚类(流)
  • 块的高度编码相应文献的数量
  • 字体大小编码词的关键程度
  • 悬停:高亮相应的聚类(流)(增加饱和度)和块(变换背景色)
  • (b)文献聚类等级滑条:控制聚类(流)数量

(c)引用属性面板

引用属性面板:展现了高亮流中每个块中文献的引用的统计属性,包括:引用年龄和引用熵。

  • 引用年龄,统计的是所有被引用文献的平均年龄,一定程度上暗示领域主题的变化趋势。被引用文献的年龄指的是:该被引用文献从发表到此次引用的时间。
  • 引用熵,反映的是引用的广度及其变化,通过公式计算获得。一般而言,引用聚类越多(参见:(e)引用面板),分布越不均匀,熵越大。

(d)作者面板

作者面板:在高亮流的每个块中,统计出最高产的 10 位作者,并展现其中的变化。

  • 共 12 种颜色,同一块中,不同的颜色编码不同的作者
  • 圆圈大小编码作者产量,每个块中按产量降序排序
  • 悬停:展示作者姓名
  • 识别同一作者:(1)相邻块:直接连线;(2)非相邻块:在圆圈左/右增加凸起,提示同一作者还在左/右侧出现,悬停时连线显示
  • 选中:(1)(a)文献面板的每个块中,显示选中作者的文献数量(2)(g)文献趋势图中更新选中作者的文献

(e)引用面板

引用面板:通过 flowgraph 的方法来展示引用信息。通过被引用文献的发表期刊\杂志和 DBLP 的社区结构,将高亮流中所有文献的引用划分到某个聚类中。

  • 背景色同高亮流
  • 每个条目显示:期刊\杂志,发表时间,引用数量。聚类内按引用数量降序排序
  • 双击:打开期刊\杂志在 DBLP 中的相应页面
  • (f)引用聚类等级滑条:控制聚类数量
  • 选中:(1)(a)文献面板的每个块中,显示引用了“选中期刊\杂志”的文献数量(2)(g)文献趋势图中更新引用了“选中期刊\杂志”的文献

(g)文献趋势图

文献趋势图:通过散点图,展现文献的成就性和新颖性。

  • 成就性,被引用次数,反应文献价值和认可度
  • 新颖性,通过公式计算得出,参考超前-滞后指数
  • 圆形刷选:点击空白处可显示作者、文章标题
  • 选中:(1)显示作者、文章标题(2)显示之前/之后的相关文章及其相关程度(归一化)和所属文献的聚类(背景色提示)

img

图 2-文献趋势图

用例分析

作者通过 VIS 1998~2011 收录的所有文献作为数据集,展开了一系列的分析。其中,文献的聚类数量为 3,引用的聚类数量为 5。
img

图 3-VIS 1998~2011 文献分析

从图 3 中,作者做出了如下的解释:

  1. 文献面板将文献聚为 3 类,其中底部(红色)为 SciVis,中间(绿色)为 InfoVis,顶部(紫色)为 VAST
  2. VAST 始于 2006 年,所以紫色的聚类从 2006 年开始才有数据
  3. 图 3-a 中,蓝色的 CitationAge 曲线,在 2006 年出现的一个峰,紧接着在 2007/2008 年不断下降,而 2009 年后趋于平缓

针对情况,作者提出的解释是,当 VAST 创立之初,作为一个新的方向,文献趋向于在过去的文献中寻找相似的引用,所以引用年龄偏大;在第二、第三年,文献趋向于参考不多的仅有的 VAST 文献,所以引用年龄呈现下降趋势;随着时间推移,VAST 文献的年龄也在变大,所以 2009 年后,引用年龄常态化,趋于平缓。

  1. 引用大量集中在可视化领域和数据挖掘领域

对此,作者表示出极大的兴趣,所以分别查看了,多年中对数据挖掘的引用情况(图 4),以及对 VAST 自身的引用情况(图 5)。可以看出,总体的引用都在呈上升趋势;另外,图 5 中没有 2005 年以前的数据,同样是因为 VAST 始于 2006 年。
img

图 4-VIS 1998~2011 对数据挖掘的引用情况

img

图 5-VIS 1998~2011 对 VAST 的引用情况

总结

不足

  • 文档编辑的小错误、图表的质量瑕疵(时间缺失)
  • 未体现作者合作关系
  • 未体现作者单位信息
  • 未体现引用网络
  • 为解释文档相似度
  • 文档面板中不支持缩放
  • ……

未来工作

  • 作者合作关系与引用网络
  • 兼容自底向上的分析方法

文章中所使用的聚类方法为谱聚类,仅支持自顶向下的分析方法

  • 兼容专利文档

更多内容与细节,请参阅作者文章原文。总体上,这还是一篇很有意思、有创新思维的好文章。



Questions & Discussion: ✉️ zjuvis@cad.zju.edu.cn