AVATAR ——“ 平民化 ” 的 多功能交通大数据平台 丁烨 倪明选教授 大数据研究小组 香港科技大学 霍英东研究院
交通大数据简介 AVATAR ——“ 平民化 ” 的多功能交通大数据平台 万辆机动车 北京交通现状: 2000 万个移动网络用户 每分钟 报告一次 GPS 位置 每天产生 360 亿条记录 数据规模
交通大数据简介 AVATAR ——“ 平民化 ” 的多功能交通大数据平台 3 商铺选址 公共安全地产开发道路建设 智慧旅游 交通大数据挖掘的多重价值
交通大数据简介 AVATAR ——“ 平民化 ” 的多功能交通大数据平台 4 端到端的 “ 一站式 ” 服务: 一端是原始数据,另一端即是有价值的结果。利用现有成熟大数据技术,为用户屏蔽数据本 身复杂性,降低大数据的使用 “ 门槛 ” 。 海量数据支持 “ 交互式 ” 分析: 以高效简洁的可视化分析方式,允许用户按需控制处理过程(调解参数、选择算法、比较 结果)。扩大观众群体,让平民从 “ 数据制造者 ” 走向 “ 数据使用者、价值创造者 ” 。 从单目标计算到交互式计算,从 “ 效率 ” 到 “ 价值 ” : 用户既是数据挖掘的受益者,又是参与者,充分发掘大数据对广大用户的价值。 交通大数据 “ 平民化 ”
AVATAR——“ 平民化 ” 的多功能交通大数据平台 5 平台简介
AVATAR——“ 平民化 ” 的多功能交通大数据平台 6 平台简介 Analysis of Vast Amount of Trajectories and Roads
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 7 平台架构 存储模块存储模块 计算模块计算模块 应用模块应用模块 应用程序接口 A 应用程序接口 B 应用程序接口 C 可视化模块可视化模块 最终用户最终用户
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 8 存储模块 根据时空属性进行数据分区与存 储 基于 MapReduce 进行并行查询, 效率数倍于现有系统 所需存储空间仅为原始数据的 10% 支持并行数据加载 已用于存储上海出租车 GPS 数据 以及华为公司海量手机使用数据 ( MBB ) R0 R8 R1 R3 R6 R9 R4 R7 R2 R5 [CIKM’12] CloST: A Hadoop-Based Storage System for Big Spatio-Temporal Data Analytics [ICDCS’14] Exploring the Use of Diverse Replicas for Big Location Tracking Data … 分布式文件系统或云存储系统
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 9 平台架构 存储模块存储模块 计算模块计算模块 应用模块应用模块 应用程序接口 A 应用程序接口 B 应用程序接口 C 可视化模块可视化模块 最终用户最终用户
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 10 AVATAR——“ 平民化 ” 的多功能交通大数据平台 计算模块框架 一键安装,无需繁琐的配置 全程可视化 所有模块可监控 专用配置,确保高稳定性 争做中国的 Hortonworks 已在某项目成功部署并实施 Hadoop YARN HDFS Spark Core S3 SparkR Tez 资源 虚拟化 存储 处理 引擎 应用程 序接口 GraphX Hive Spark 模式 Hive 模式
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 11 AVATAR——“ 平民化 ” 的多功能交通大数据平台 计算模块算法:地图分割 基于地形、功能地点,将地图合理地划分为多个小区域 以小区域为单位做挖掘,将极大降低算法的盲目性 [ICDM’15] Dissecting Regional Weather-Traffic Sensitivity throughout a City
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 12 AVATAR——“ 平民化 ” 的多功能交通大数据平台 计算模块算法:通过非监督学习发现交通模式 用深度置信网络( DBN )发掘频繁出现的人口流动现象,称为交通模式 一卡通数据 出租车数据 公交车数据 地铁数据 深度置信网络模型 交通模式 * 正在进行的研究工作
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 13 AVATAR——“ 平民化 ” 的多功能交通大数据平台 计算模块算法:通过文本挖掘发现集会等事件 对每个交通模式,根据其发生时间地点, 提取微博、道路事故、匝道、天气、空气质量等数据作为文本数据 用 LDA 模型发掘文本内容中的话题( Topic ) 将话题( Topic )作为这个交通模式对应的事件内容 交通模式 微博 道路事故记录 天气状况 匝道状况 LDA 模型 事件列表 1. 集市 2. 演唱会 3. 堵车 … 模式 - 事件匹配 * 正在进行的研究工作
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 14 AVATAR——“ 平民化 ” 的多功能交通大数据平台 平台架构 存储模块存储模块 计算模块计算模块 应用模块应用模块 应用程序接口 A 应用程序接口 B 应用程序接口 C 可视化模块可视化模块 最终用户最终用户
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 15 AVATAR——“ 平民化 ” 的多功能交通大数据平台 应用模块:示例一、从车辆轨迹数据中发掘城市热点区域 [KDD’10] Towards Mobility-Based Clustering 根据车速变化发现热点区域 (传统方法仅使用车辆密度)
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 16 AVATAR——“ 平民化 ” 的多功能交通大数据平台 应用模块:示例二、查找不同时段内的热点路径( TPMFP ) 出发点 2007 年 9 月 之前的热点路径 2007 年 9 月 之后的热点路径 2007 年 9 月 10 – 30 日 2007 女子足球世界杯 上海虹口足球场 目的地 [SIGMOD’13] Finding Time Period-Based Most Frequent Path in Big Trajectory Data 新闻报道 运动场附近 为女子足球世界杯 而进行的道路建设 于 2007 年 9 月初完工
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 17 AVATAR——“ 平民化 ” 的多功能交通大数据平台 应用模块:示例三、 TPMFP 应用于城市规划 [SIGMOD’13] Finding Time Period-Based Most Frequent Path in Big Trajectory Data 城市规划中可能出现的漏洞 为什么速度更快、距离 更近反而不受欢迎? 大量车主选择绕路的慢车道 距离更近的高速公路 问题解决了吗?
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 18 AVATAR——“ 平民化 ” 的多功能交通大数据平台 应用模块:示例三、 TPMFP 应用于城市规划 [SIGMOD’13] Finding Time Period-Based Most Frequent Path in Big Trajectory Data 城市规划中可能出现的漏洞 改建取得预期效果! 高速公路入口经过扩建后, 变成热点路径
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 19 AVATAR——“ 平民化 ” 的多功能交通大数据平台 应用模块:示例四、如何为电动车增加加电站 [ICDE’15] Growing the Charging Station Network for Electrical Vehicles with Trajectory Data Analytics 汽油车 电动车 加油(电)时间 分钟 小时 行程约 600 公里约 200 公里 数量(深圳) 250 万 2000 , 含 780 辆出租车 加油站加电站 数量(深圳) 平均寻找时间 2 分钟 4 分钟 平均等待时间 1 分钟 小时 优化后平均寻找时间: 110 秒 优化后平均等待时间: 11 秒
AVATAR——“ 平民化 ” 的多功能交通大数据平台 20 应用模块:示例五、剖析天气对交通的影响 AVATAR ——“ 平民化 ” 的多功能交通大数据平台 暴风雨交通堵塞 为什么? 不合格的城市基础建设、不合理的城市规划等原因 地下水系统无法正常工作 高速公路入口严重拥堵 如何发现不同区域交通对于天气的敏感程度? Low High 旅游景点 坏天气 + 人群拥堵 = 交通瘫痪 证明我们的方法正确 普通住宅小区 并无观测到明显原因 提醒城市规划局进行进一步研究 [ICDM’15] Dissecting Regional Weather-Traffic Sensitivity throughout a City
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 21 AVATAR——“ 平民化 ” 的多功能交通大数据平台 平台架构 存储模块存储模块 计算模块计算模块 应用模块应用模块 应用程序接口 A 应用程序接口 B 应用程序接口 C 可视化模块可视化模块 最终用户最终用户
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 22 AVATAR——“ 平民化 ” 的多功能交通大数据平台 可视化模块:示例一、基于众包的主动学习地图匹配系统 * 正在进行的研究工作
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 23 AVATAR——“ 平民化 ” 的多功能交通大数据平台 可视化模块:示例二、双向移动行为可视化分析 [BigData’15] Visual Analysis of Bi-directional Movement Behavior
AVATAR ——“ 平民化 ” 的多功能交通大数据平台 24 总结 研究进度 目前正在进行中的研究工作: 基于众包的主动学习地图匹配系统 分析并消除大规模数据库字段冗余存储 时空轨迹数据压缩算法 通过交通数据侦测并分析集会人群背景情况 通过交通数据分析交通对房地产价格变化的影响
谢谢 “ 平民化 ” 的多功能交通大数据平台 丁烨 香港科技大学 AVATAR ——“ 平民化 ” 的多功能交通大数据平台
问题需求 26 多源数据集 vs. 传统挖掘技术 AVATAR ——“ 平民化 ” 的多功能交通大数据平台 多源数据 潜力巨大 传统技术 存在不足 1 表层信息丰富 2 数据关联性强 3 深层挖掘价值 不同数据源内容不同,角度各异,能更全 面描述客观事物 数据源之间紧密关联,为发掘事物变化规 律、原因、影响等深层次信息提供依据 深层次挖掘将催生出更强大的数据分析系 统,为政企和个人提供更全面、优质的数 据服务 1 方法单一 2 整合低效 3 难以推广 传统技术结构单一,无法处理多源数据 面对多目标问题,机械地堆砌传统方法很难 提高效率 挖掘结果更多服务于领域专家,难以应用于 平民化服务 4 可视化不足 可视化技术机械地呈现结果,无法为进一步 分析提供指导
问题需求 27 多源交通数据集:机遇与挑战 AVATAR ——“ 平民化 ” 的多功能交通大数据平台 挑战 融合多源数据,克服异构 提取有效特征,节省运算 量 设计多层次挖掘算法,充 分发掘表层、深层信息 运用可视化技术,设计交 互式计算界面 机遇 全景呈现城市交通系统 为城市规划、商业计划 提供巨大的观测价值 建立智能交通网络 提供平民化交通服务 市民享受大数据服务的 同时,能够参与到数据 挖掘中去