了解文本数据中的主题演化是非常有用的,它可以帮助人们快速知道海量文本中的关键主题,了解相关领域的最新信息以及这些信息的变化情况,也可以帮助人们分析这些变化的原因。因此,文本挖掘领域以及可视化领域的研究人员都在主题演化方面做了很多工作,但是这些工作基本上都是围绕着单个主题的演化,很少有研究多个主题之间的合并与一个主题分裂成多个主题的情况。因此这篇发表在InfoVis 2011的文章“TextFlow: Towards Better Understanding of Evolving Topics in Text”就提出了这样一种能够分析多个主题演化关系的文本分析工具。
TextFlow系统的输入是一些带有时间标签的文本集,比如说从2001年到2011年在VisWeek上发表的所有文章,或者某段时间的全部新闻,这些文本集经过TextFlow内部的文本处理和挖掘之后,以可视化的方式呈现出这些文本的主题在这段时间的演化,包括某个主题的产生、结束,不同主题的合并,以及一个主题分裂成不同的主题等等这些情况。
首先看一下TextFlow的主要可视化界面:
TextFlow用了一种流图的展现方法,每个流代表了一个主题,流的宽度表示在这个时间点上与该主题相关的文本的数量,数量越多,宽度越宽;关键事件包括一个主题的产生、终结、分裂以及合并,分别用以下四种符号表示;同时,textflow也能将主题内关键词的联系展示出来,每个流中的线表示某个关键字。用户可以根据这三个方面分析和推断主题的变化,以及变化的原因。
下图是将TextFlow应用到一个实际数据集的结果。该数据集是从2001年到2010年,分别发表在Vis和infovis上的933篇学术文章,系统处理了这些文章的概要、题目以及一些作者名字和关键词,一共9020个单词,从中得出来15个主题。这些主题主要可以分为两部分,上面的ABCD是和Vis相关,下面的EFG是和InfoVis相关的。从图中可以看出,和Vis相关的主题在近十年来有逐渐减少的趋势,并且,在06年之前,这些Vis的主题之间还会有一些Merge和split的pattern,但是从06年之后,这些主题就基本上是独立发展了。而InfoVis的发展情况和Vis恰恰相反,InfoVis的总体情况是不断发展的,文章的数量越来越多。从图中可以看出,InfoVis这些主题之间的Merge和Split非常多,这表明了InfoVis领域经历着非常大的变化,不同主题之间的相互影响非常多。如果我们看得仔细一点,可以看到主题F:Exploratino/Analystics这个流,从这流分离出去的比和合并进来的支流数量要大得多,这表明F这个主题对于其他主题来说是个比较活跃的因子。
接下来,我们可以更深入地探索一下F这个主题流,也就是第一张图片中的“Exploration/Analytics”流。从这个图中,我们能找到一些有趣的pattern,比如说,在2006年这里,有个很特别的关键事件,这是一个主题产生事件,点击这个符号,系统给出和这个关键事件相关的一些paper,发现这些paper绝大部分都是和analytics相关的,这并不是个巧合,因为06年正是Vast会议第一次举行,在那时候,Analytics还没有形成一个独立的主题,而是和Exploration结合到一起了。从这也可以看出,和Analytics相关的研究给老的InfoVis带了很大的变化。
有兴趣的读者可以看一下这篇论文的演示视频:
✉️ zjuvis@cad.zju.edu.cn