大数据竞赛数据及实验平台介绍 上海理想信息产业(集团)有限公司 2016.10.

Slides:



Advertisements
Similar presentations
第 3 章 测绘项目和测绘市场管理制度 3.1 测绘项目管理制度 测绘项目技术管理主要从技术立法、技术基础设施 建立、技术业务及质量保障、技术创新及新技术、先进 设备使用、推广等几方面加以规范和管理。对此,测绘 法律法规对建立测绘基准和测绘系统、制定测绘技术规 范和标准、坐标系统选择、测绘质量监督管理等内容作.
Advertisements

廿一世紀的輪廓 朝陽科技大學 嚴國慶.
當我已老 謹以此文獻給像我一樣流浪在外的子女們.
资源平台应用培训 武汉市交通学校信息化建设指导委员会.
2015年12月14日-2015年12月20日 缩略版.
指導老師:羅夏美 組別:第四組 組員: 車輛二甲 蔡中銘 車輛三甲 莊鵬彥 國企二甲 陳于甄 國企二甲 詹雯晴 資傳二乙 林怡芳
爱上我们的图书馆 —新生入馆引导 河海大学图书馆.
北京咱爸咱妈养老投资管理有限公司大庆分公司
104年度國立宜蘭大學新進主管研討 主計業務宣導說明
跟著媽祖遶境去-白沙屯媽祖文化 國立聯合大學&育達商業科技大學助理教授/古鎮清
102年實施之高中職及五專多元入學(含免試入學)之招生機制
读者与图书馆 2009年春季版 总第 15 期 山 东 交 通 学 院 图 书 馆 2009年3月.
舌尖上的昭通.
企业实地核查办法解析 机械产品审查部 李燕霞
2014年上半年全市 女职工工作总结 2014年8月 扬州市总工会女职工委员会.
标题 主讲: 时间:.
长江大学电视台大会交流发言.
E-Mapreduce培训系列 基本介绍.
2012级暑期放假安全教育 及宿舍搬迁工作布置会 北京化工大学理学院 辅导员:曹鼎 2013年6月6日.
第一单元 走进化学世界 课题 1 化学使世界变得更加绚丽多彩.
汇报大纲 一、报送系统总体介绍 二、自查及检查评分报送流程 三、自查及检查方法及关键点 四、建议及注意事项.
第一章 考点精讲 第1课时 湖南师大附中 高二地理备课组.
工程测量技术专业教学资源库项目 建设方案汇报 汇报人:陈建民 项目主持单位:北京工业职业技术学院 昆明冶金高等专科学校 重庆工程职业技术学院
人教版义务教育课程标准实验教科书 《地 理》 (七年级上册) 简 介
“网络问政”给九江新闻网 带来新的发展机遇 -- 九江新闻网 高立东 --.
? 新中国这时进入 社会主义社会了吗? 开国大典.
主办单位:西城区归国华侨联合会 西城区金融服务办公室
共产党员致力 新疆油田信息化建设 数据公司信息业务党支部 2013年6月.
服务热线 : 腾格里沙漠•沙坡头行程 服务热线 :
第一篇 生命科学 第2课时 细胞.
俄语字母的发音体系 阅读规则.
2015年云南财经大学图书馆 新生入馆教育考核试题 答题指南
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
社会工作概论 个案工作 课程培训 深圳电大 赖小乐.
广东地区海关 区域通关一体化改革 对外宣讲会
一 二 三 四 五 六 七 项目建设总体情况 建设工作机制与举措 项目建设进展 建设经费投入与使用 贡献与示范 典型案例
何娜 求职经验交流 何娜
毛泽东思想和中国特色社会主义理论体系概论
前言.
苏州大汇信息科技有限公司 招聘简介.
Python金融数据分析教程 解放你的python编程能力 第4关 如何获取金融数据 Python金融数据分析教程 1.
三項百大躍新局,特色創新揚國際 光電與通訊系.
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
ARM裸机第一部分-ARM那些你得知道的事
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
《Spark编程基础》 《 Spark编程基础》课程介绍 (PPT版本号:2018年2月)
移动知网 同方知网(北京)技术有限公司.
Web Crack 专题 – AJAX – 2016/11/18 – Payne 本次培训仅供教学内部用途 实验请遵守相关法律法规
软件工程基础 云计算概论 刘 驰.
欢迎各位 Nice to Meet U.
大数据与物流 沈庆琼 物流教研室.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
淑明女子大學 在哪裡?. 淑明女子大學 在哪裡? 學校週遭 第一次 剛到淑大時?
國民大學 國民大學.
電子系學生核心能力(四技航電組) 本系畢業生應具備的核心能力如下: 1.具有整合與組織電子理論和專業知識來分析、表達問 題之能力。
臺灣學術網路(TANet) IPv6 推動進度統計
目次检索 打印 下载 文字摘录 更换背景 多窗口阅读.
空调手机监控用户注册及使用 用户注册 使用说明.
大数据 西默路由器功能指导配置 上海西默通信技术有限公司
長者自務學習計劃運作模式 高秀群女士 黃燕卿女士 顧佩君女士 21/12/2005.
金中移动抄表系统培训手册 广西金中软件有限公司 2015年8月7日.
极钛星华—Gcord Pro1C标准版 产品类型:其他 建议零售价格:2000元 上市时间:2017年7月
電腦基礎與網際網路 資訊安全 資訊隱私權.
太阳和月球 第三章 第三节.
【VA虚拟应用管理平台】专题培训 接入防火墙 陕西益和信息技术开发有限责任公司 2011年2月.
自动控制原理.
4. 曾文水庫越域引水環評報告彙整 資料來源: 1. 曾文水庫越域引水下游輸水工程環境影響差異分析暨環境現況差異分析及對策檢討報告(定稿本)
大数据应用人才培养系列教材 数据清洗 刘 鹏 张 燕 总主编 李法平 主编 陈潇潇 副主编.
第三次全国农作物种质资源普查与收集行动 普查与征集技术方案 李立会 中国农业科学院作物科学研究所.
‘人因罪與神隔絕’ 左邊代表每一個人像你和我。 黑暗代表我們的罪。 聖經說: 世人都犯了罪,虧缺了神的榮耀。 (羅3:23)
Presentation transcript:

大数据竞赛数据及实验平台介绍 上海理想信息产业(集团)有限公司 2016.10

目 录 竞赛数据 实验平台 一、背景 二、方案 1、街道服务定位和现状 2、云平台(报价方案) 3、民生应用推广(复制推广) 4、楼宇方面 目 录 竞赛数据 实验平台 一、背景 二、方案 1、街道服务定位和现状 2、云平台(报价方案) 3、民生应用推广(复制推广) 4、楼宇方面 三、价值分析 1、政府角度 2、百姓角度 3、企业角度 四、实施步骤

竞赛数据 电信网络记录人们在使用互联网和移动互联网时的通信数据 本次大赛开放三个月的移动网与宽带网历史数据,数据量超过400Tb 序号 数据类型 简称 数据含义 1 移动网协议数据 C网DPI数据 电信3G手机上网时产生的协议信息 2 LTE数据 电信4G手机上网时产生的协议信息 3 宽带网协议数据 G网DPI数据 电信宽带上网时产生的协议信息 4 移动实时信令数据 OIDD数据 电信手机实时所处基站信息

移动网Http协议数据-3G 记录2G/3G 电信手机用户上网产生的超文本传输协议(Http)的详细信息。 核心字段 字段名称 数据说明 mdn 用户手机号码 加密 destinationip 目标IP地址 http协议中的目标IPv4 或IPv6 地址 destinationport 目标端口号 http协议中的的目标端口号 starttime 业务流开始时间 上网会话的开始时间 endtime 上网会话的结束时间 download_bytes 下行流量 下行的业务字节数 upload_bytes 上行流量 上行的业务字节数 destinationurl 目标URL http协议中的URL bsid 基站编号 上网时所处基站的编号 useragent 浏览器信息 浏览器类型、版本、手机终端类型等 referer 引用URL 前一次请求的URL Mozilla/5.0 (Linux; Android 4.4.2; HUAWEI MT7-CL00 Build/HuaweiMT7-CL00) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 http://www.baofeng.com/

移动网Http协议数据-4G 记录4G 电信手机用户上网产生的超文本传输协议(Http)的详细信息。 核心字段 字段名称 数据说明 mdn 用户手机号码 加密 server_ip 目标IP地址 http协议中的目标IPv4 或IPv6 地址 server_port 目标端口号 http协议中的的目标端口号 start_time 业务流开始时间 上网会话的开始时间 end_time 上网会话的结束时间 down_bytes 下行流量 下行的业务字节数 up_bytes 上行流量 上行的业务字节数 url 目标URL http协议中的URL bsid 基站编号 上网时所处基站的编号 user_agent 浏览器信息 浏览器类型、版本、手机终端类型等 referer 引用URL 前一次请求的URL cookie Cookie信息 网站Cookie信息,加密

宽带网Http协议数据 记录电信家庭和企业用户上网产生的超文本传输协议(Http)的详细信息,包含电信及非电信手机通过宽带无线网络(wifi)上网产生的Http数据。 核心字段 字段名称 数据说明 srcip 源IP地址 客户端IP ad 宽带编号 宽带设备号,加密 ts 请求时间 http协议中的请求URL的时间戳 url 目标URL http协议中的URL ref 引用URL 前一次请求的URL,加密 ua 浏览器信息 浏览器类型、版本、手机终端类型等,,加密 dstip 目标IP地址 http协议中的目标IP地址 cookie Cookie信息 http协议中的Cookie信息,加密

移动实时位置信令数据数据 记录2G/3G手机用户的实时基站位置信息,当用户开机、关机、通话、短信,及每30分钟周期,手机向基站触发位置记录。 核心字段 字段名称 数据说明 prod_inst_num 用户手机号码 加密 start_time 开始时间 信令产生时间 base_station 基站编号 可与移动网数据中的基站编号关联 sector 扇区号 一个基站一般分为三个扇区,各覆盖120° power_flag 开关机标志 手机开机和关机时的状态记录 longitude latitude 基站经度 基站的GPS经度 基站纬度 基站的GPS纬度

目 录 竞赛数据 实验平台 一、背景 二、方案 1、街道服务定位和现状 2、云平台(报价方案) 3、民生应用推广(复制推广) 4、楼宇方面 目 录 竞赛数据 实验平台 一、背景 二、方案 1、街道服务定位和现状 2、云平台(报价方案) 3、民生应用推广(复制推广) 4、楼宇方面 三、价值分析 1、政府角度 2、百姓角度 3、企业角度 四、实施步骤

大数据实验平台概述 本次大赛提供沙箱实验平台,参赛队员通过平台访问竞赛数据,利用集群计算能力和开发工具实现数据分析建模。平台以多租户模式保障每个团队之间数据隔离、计算资源共享。

大数据实验平台技术架构 实验平台基于Hadoop开源技术架构,提供HDFS文件存储系统,Hive数据仓库、MapReduce和Spark计算框架,及配套的命令行开发环境和可视化开发工具。

开发工具——基于Web的表查询工具 功能简介: 提供交互式的数据查询及查询结果下载 可以查询Hive数据库及表结构 查看历史查询并下载结果 创建表并上传数据

开发工具——分布式作业调度 功能简介: 可视化的作业工作流程编辑 支持的控件:支持的控件:kettle程序、shell脚本、hive脚本、spark、mr程序、python脚本、jar程序

开发工具——分布式作业调度 功能简介: 自助式作业发布、作业运行、暂停、作业kill 运行日志查看,作业状态监控

谢 谢 !