大数据竞赛数据及实验平台介绍 上海理想信息产业(集团)有限公司 2016.10
目 录 竞赛数据 实验平台 一、背景 二、方案 1、街道服务定位和现状 2、云平台(报价方案) 3、民生应用推广(复制推广) 4、楼宇方面 目 录 竞赛数据 实验平台 一、背景 二、方案 1、街道服务定位和现状 2、云平台(报价方案) 3、民生应用推广(复制推广) 4、楼宇方面 三、价值分析 1、政府角度 2、百姓角度 3、企业角度 四、实施步骤
竞赛数据 电信网络记录人们在使用互联网和移动互联网时的通信数据 本次大赛开放三个月的移动网与宽带网历史数据,数据量超过400Tb 序号 数据类型 简称 数据含义 1 移动网协议数据 C网DPI数据 电信3G手机上网时产生的协议信息 2 LTE数据 电信4G手机上网时产生的协议信息 3 宽带网协议数据 G网DPI数据 电信宽带上网时产生的协议信息 4 移动实时信令数据 OIDD数据 电信手机实时所处基站信息
移动网Http协议数据-3G 记录2G/3G 电信手机用户上网产生的超文本传输协议(Http)的详细信息。 核心字段 字段名称 数据说明 mdn 用户手机号码 加密 destinationip 目标IP地址 http协议中的目标IPv4 或IPv6 地址 destinationport 目标端口号 http协议中的的目标端口号 starttime 业务流开始时间 上网会话的开始时间 endtime 上网会话的结束时间 download_bytes 下行流量 下行的业务字节数 upload_bytes 上行流量 上行的业务字节数 destinationurl 目标URL http协议中的URL bsid 基站编号 上网时所处基站的编号 useragent 浏览器信息 浏览器类型、版本、手机终端类型等 referer 引用URL 前一次请求的URL Mozilla/5.0 (Linux; Android 4.4.2; HUAWEI MT7-CL00 Build/HuaweiMT7-CL00) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 http://www.baofeng.com/
移动网Http协议数据-4G 记录4G 电信手机用户上网产生的超文本传输协议(Http)的详细信息。 核心字段 字段名称 数据说明 mdn 用户手机号码 加密 server_ip 目标IP地址 http协议中的目标IPv4 或IPv6 地址 server_port 目标端口号 http协议中的的目标端口号 start_time 业务流开始时间 上网会话的开始时间 end_time 上网会话的结束时间 down_bytes 下行流量 下行的业务字节数 up_bytes 上行流量 上行的业务字节数 url 目标URL http协议中的URL bsid 基站编号 上网时所处基站的编号 user_agent 浏览器信息 浏览器类型、版本、手机终端类型等 referer 引用URL 前一次请求的URL cookie Cookie信息 网站Cookie信息,加密
宽带网Http协议数据 记录电信家庭和企业用户上网产生的超文本传输协议(Http)的详细信息,包含电信及非电信手机通过宽带无线网络(wifi)上网产生的Http数据。 核心字段 字段名称 数据说明 srcip 源IP地址 客户端IP ad 宽带编号 宽带设备号,加密 ts 请求时间 http协议中的请求URL的时间戳 url 目标URL http协议中的URL ref 引用URL 前一次请求的URL,加密 ua 浏览器信息 浏览器类型、版本、手机终端类型等,,加密 dstip 目标IP地址 http协议中的目标IP地址 cookie Cookie信息 http协议中的Cookie信息,加密
移动实时位置信令数据数据 记录2G/3G手机用户的实时基站位置信息,当用户开机、关机、通话、短信,及每30分钟周期,手机向基站触发位置记录。 核心字段 字段名称 数据说明 prod_inst_num 用户手机号码 加密 start_time 开始时间 信令产生时间 base_station 基站编号 可与移动网数据中的基站编号关联 sector 扇区号 一个基站一般分为三个扇区,各覆盖120° power_flag 开关机标志 手机开机和关机时的状态记录 longitude latitude 基站经度 基站的GPS经度 基站纬度 基站的GPS纬度
目 录 竞赛数据 实验平台 一、背景 二、方案 1、街道服务定位和现状 2、云平台(报价方案) 3、民生应用推广(复制推广) 4、楼宇方面 目 录 竞赛数据 实验平台 一、背景 二、方案 1、街道服务定位和现状 2、云平台(报价方案) 3、民生应用推广(复制推广) 4、楼宇方面 三、价值分析 1、政府角度 2、百姓角度 3、企业角度 四、实施步骤
大数据实验平台概述 本次大赛提供沙箱实验平台,参赛队员通过平台访问竞赛数据,利用集群计算能力和开发工具实现数据分析建模。平台以多租户模式保障每个团队之间数据隔离、计算资源共享。
大数据实验平台技术架构 实验平台基于Hadoop开源技术架构,提供HDFS文件存储系统,Hive数据仓库、MapReduce和Spark计算框架,及配套的命令行开发环境和可视化开发工具。
开发工具——基于Web的表查询工具 功能简介: 提供交互式的数据查询及查询结果下载 可以查询Hive数据库及表结构 查看历史查询并下载结果 创建表并上传数据
开发工具——分布式作业调度 功能简介: 可视化的作业工作流程编辑 支持的控件:支持的控件:kettle程序、shell脚本、hive脚本、spark、mr程序、python脚本、jar程序
开发工具——分布式作业调度 功能简介: 自助式作业发布、作业运行、暂停、作业kill 运行日志查看,作业状态监控
谢 谢 !