Visual Exploration of Big Spatio-Temporal Urban Data:A Study of New York City Taxi Trips

作者:Nivan Ferreira, Jorge Poco, Huy T. Vo, Juliana Freire, and Cl ´ audio T. Silva

来源:VAST2013

本文主要对纽约市的出租车数据进行可视化,支持用户可视查询。系统主界面如下:

1

与本文相关的工作有:分析出租车数据、对运动的可视化以及可视数据选择和查询。分析出租车数据的相关主要包括:

  1. 推荐系统,向司机推荐最优的方案找到乘车的顾客;

  2. 研究 human mobility,研究上车和下车位置的分布以及与城市环境之间的关系;

  3. 在 GPS 数据流中检测异常;

  4. 分析人们平时乘车的主要目的。

对运动的可视化主要包括:

  1. 对轨迹数据的可视化;
  2. 对 OD 数据(origin-destination data,只包含开始和结束位置,以及与路径相关的其他属性,不包含完整的行驶轨迹)。

可视数据选择和查询的相关工作包括:

  1. 动态查询,指通过图形插件进行查询;
  2. 直接在可视化结果上操作进行查询;
  3. 利用松弛查询(query relaxation)交互地产生选择。

本文使用的原始数据有 120G,是纽约市 2009、2011、2012 年的出租车数据,主要对数据维度有主要的数据维度:pickup location、dropoff location、pickup time、dropoff time、traveled distance、fare amount、tip amount。

领域专家对该方面数据可视化提出的需求有:

  1. 能够了解城市动态
  2. 研究数据的不同方面在时间和空间上如何变化(How does the taxi fleet activity vary during weekdays?)
  3. 给定时间探究特定的事件(How was the taxi activity in Midtown affected during a presidential visit)
  4. 不同 neighborhoods 之间模式的差异(What is the frequency of taxis in Midtown and Harlem?)

本文提出的可视化系统为 TaxiVis,整体的可视化思路是:基于 k-d tree 建立一个特定的索引,以支持交互地时空查询,一旦有查询结果,立即反馈在地图上绘制,用户再根据这个结果 refine query。由于查询结果可能很大,因此采用自适应的细节层次和密度热力图对查询结果进行可视化。

整体的系统结构如下图所示:

2

本文提出的可视查询模型为:SELECT * FROM trips WHERE 。Constrains 是指对每一条出租车 trip 进行时间、属性、空间上的限制。时间限制通过系统提供的 time widget 进行选择,空间限制通过用户在地图上直接圈选,空间限制通过用户在属性直方图上圈选完成。

下图显示了 3 个可视查询:

  1. 用橘色圈起来的限定 trip 开始位置的查询
  2. 用红色圈起来的限定 trip 结束位置的查询
  3. 用蓝色圈起来的限定起始位置的查询和用蓝色箭头指向的同时限定起始位置和结束位置的查询的析取。

3

对查询结果的可视化提出了下图中的几种方法:

4

该图中左上角将所有的查询结果呈现出来,由于查询结果很大,有一定的视觉干扰。右上角的可视化结果是根据当前地图的 zoom level 自适应地产生一定层次的细节。左下角是用 heat map 将结果呈现出来,右下角结合 heat map 和 grid map 呈现结果。

本系统采用一种高效的数据存储模式。对数据的整体结构进行空间划分,k-d tree,所有的点都存储在叶子节点。

在 future work 中,作者提出希望后面更够改进 time widget,更灵活地选择时间;此外,还希望将这个可视化制作成完全基于网页的。

最后,可能要吐槽的是:提供用户在地图上圈选的颜色方案有时会引起判断干扰。并且感觉 case study 只是对某些现象的简单说明或者验证,达不到分析的目的。



Questions & Discussion: ✉️ zjuvis@cad.zju.edu.cn