云计算业务应用-数据挖掘.

Slides:



Advertisements
Similar presentations
大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
Advertisements

EpiC elastic power-aware data intensive Cloud. LOGO epiC 大规模数据处理的难点 Page  2 如何查询处 理海量数据? 如何存储 海量数 据? 如何降低硬件成 本? 如何取得一劳 永逸的解决方案?
什 麼 是 大 數 據 ?. Q :大數據是什麼? A :大數據( Big Data )又被稱為巨量資料,其概念其實就是過去 10 年廣泛用於企業內部的資料分析、商業智慧( Business Intelligence ) 和統計應用之大成。但大數據現在不只是資料處理工具,更是一種 企業思維和商業模式,因為資料量急速成長、儲存設備成本下降、
课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
中华字库的云输入法 王勇 基础软件国家工程研究中心
互联网金融之金融数据挖掘 邹永杰 江西财经大学金融学院.
Big Data Ecosystem – Hadoop Distribution
大數據的學習路線 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理
淘宝海量数据产品技术架构 张轩丞(朋春) 淘宝网-数据平台与产品部.
数据库原理及应用 《数据库原理及应用》课程组 荆楚理工学院.
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
顏協邦 慧盟資訊 商業智慧導入服務部 資深經理
E-Mapreduce培训系列 基本介绍.
从“阿拉伯之春” 看新媒体的政治传播能力.
数据仓库基础培训 山西项目组
資料庫系統 曾俊雄.
PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.
第五章 網際爭霸戰 ~網站技術與經營模式大進化 靜宜大學資管系 楊子青
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
怎样规划部署您的大数据应用系统 大数据厂商联盟 李 永 VoltDB基础 概念与架构 1.
巨量資料平台: Hadoop的生態系.
《大数据技术原理与应用》 课程介绍 (2016春季学期)
<<Oracle DBA工厂-Oracle从入门到精通>>全套视频教程(一)之 安装部署 讲师:黄利强 QQ:
云梯的多namenode和跨机房之路
大数据革命与大众生活变革 黄欣荣 博士 教授 江西财经大学 马克思主义学院
统计学Statistics 主讲人:商学院 刘后平 教授
为教师开展大数据课程教学提供全方位、一站式服务
在线考试系统 答辩人: 朱允昌、朱碧云、张海燕 汇报时间: 指导老师: 任艳、徐怡 软件应用与开发类
海量 数据分析架构.
转正述职报告 乐恩公司 史航
第6章 数据库技术 顾浩 胡乃静 董建寅等编著.
课程设计.
基于hadoop与hive的大数据分析体系构建
第 2 章 SQL Server 2008 R2資料庫安裝設定與管理
第十五章 常見的資料庫管理系統 目的 Oracle 微軟SQL Server 微軟Access MySQL Oracle 應用伺服器
資料探勘工具 - Splunk介紹 報告者:曾彥志 報告日期:2015/09/18.
国家“十一五”规划教材 数据库原理与应用教程(第3版).
国家“十一五”规划教材 数据库原理与应用教程(第3版).
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
線上分析處理、 資料採礦與 Analysis Services
云计算之分布式计算.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
第 3 章 熟悉 SQL Server 的工作平台.
基于Hadoop的数据仓库Hive.
金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程
数据仓库和数据挖掘 DATA WAREHOUSING AND DATA MINING 经济科学室验室
Data Mining 工具介紹 (Weka+JDBC)
第九讲 Hadoop架构再探讨 (2016春季学期)
高级人工智能 第十三章 知识发现 (二) 史忠植 中国科学院计算技术所 2018/11/24 史忠植 高级人工智能.
第一篇 数据仓库与OLAP 第一章 数据仓库基本概念
第1章 SQL Server 2005 关系数据库简介.
Hadoop平台與應用規劃實作 報告者:劉育維.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
《网上报告厅》使用说明 北京爱迪科森教育科技股份有限公司.
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
SQL Anywhere数据库非常规恢复工具
大數據商業模式與應用領域.
斯坦福大学调研 蒋达晟.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
第一章 数 据 库 概 述 第一节 引言 第二节 数据库基本概念 第三节 数据库系统结构 第四节 数据模型 第五节 数据库管理系统
第1章 SQL Server 2005概述 教学提示:SQL Server 2005是微软的下一代数据管理和分析解决方案,它给企业级应用数据和分析程序带来更好的安全性、稳定性和可靠性,使得它们更易于创建、部署和管理,从而可以在很大程度上帮助企业根据数据做出更快、更好的决策,提高开发团队的生产力和灵活度,以及在减少总体IT预算的同时,能够扩展IT基础架构以更好地满足多种需求。
计算机文化 第7讲:数据库技术 王哲 河南中医药大学信息技术学院.
5/4/2019 4:42 PM © 2009 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered.
上海理工大学 光电信息与计算机工程学院 数据仓库与数据挖掘 张 艳 上海理工大学 光电信息与计算机工程学院.
第10章 網路問卷調查.
K/3CloudV6.1预算管理 陈琦琨 K/3Cloud预算与分析部.
大数据发展的问题与方向 中国信通院云大所.
Presentation transcript:

云计算业务应用-数据挖掘

目录 数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结

目录 数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结 数据挖掘基本概念 数据挖掘典型流程 数据挖掘常用技术 数据挖掘业界工具 数据挖掘可用资源 本章小结 数据挖掘在电信行业中的应用 总结

如果你遇到下面的问题,你会怎么做?

数据挖掘的原动力——怎样借助数据制定合适的决策? Amazon前首席科学家表示“数据是原油,但石油需要加以提炼后才能使用,从事海量数据处理的公司就是炼油厂”。 数据挖掘是应实际需求而出现的技术

什么是数据挖掘? Data mining is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns from huge volume of data. derived from U. Fayyad, et al. ’s definition of KDD at KDD96 数据挖掘是从巨量数据中获取正确的、新颖的、潜在 有用的、最终可理解的模式的非平凡过程。

能否找出以下数据挖掘的“身影”? 数据挖掘?

数据挖掘的前景如何? 2010十大 技术趋势 2011十大 2012十大 云计算 移动应用和媒体平板 社交和协作 视频 下一代分析 社交分析 上下文感知计算 存贮级内存 普适计算 基于结构的基础设施和电脑 高级分析 客户端计算 绿色IT 重塑数据中心 社交化计算 安全-活动监控 闪存 虚拟化的可用性 无限应用 平板电脑与未来产品 行动为主的应用程式与介面 情境与社群使用经验 物联网 App商店与市集 次时代分析技术 大数据 内存计算 超低耗能服务器 云端计算 2010十大 技术趋势 2011十大 2012十大

目录 数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结 数据挖掘基本概念 数据挖掘典型流程 数据挖掘常用技术 数据挖掘业界工具 数据挖掘可用资源 本章小结 数据挖掘在电信行业中的应用 总结

数据挖掘的标准过程:CRISP-DM (CRoss-Industry Standard Process for Data Mining)

可以被挖掘的数据源有哪些? 普通文件 传统数据库 高级数据库 其他类型数据 excel,txt,csv,arff等格式的文件; 关系数据库, 事务型数据库,数据仓库, 高级数据库 文本数据库 Web数据库 多媒体数据库 空间及时空数据 异构数据库 其他类型数据 流数据(data streams),如传感数据; 时序数据(time-series data), 如生产监控数据; 图结构数据(structure data), 如社交网络数据等

数据挖掘的研究体系:以结构化数据为基础,叠加数据形态的特殊处理 (基础) 流式数据 (+实时处理) (+音视频处理) 多媒体数据 文本数据 (+自然语言处理) 网络流量 话单流 传感流 … 数据库 数据文件 … 图片 音频 视频 流媒体 … 文本文件 新闻/博客 微博客/论坛/短信 …

结构化数据挖掘(KDD):整体流程

结构化数据挖掘(KDD) :数据准备 数据采集 数据预处理 数据选择 根据挖掘的目标,对可能涉及的数据进行全方位的收集、整理; 对错误数据、不完整数据、冗余数据、不一致的数据等等进行统一处理; 数据选择 结合数据大小、数据质量、数据挖掘目标、可用资源等等,采用采样、降维、规约等手段选取最终要实施挖掘的数据对象; 数据质量的好坏决定了最终结果的正确与否,数据准备占据整个工作量的70%

结构化数据挖掘(KDD) :数据建模 在理解业务背景、熟知数据状况、明确数据挖掘任务的前提下,利用可用的资源(技术/工具),选择合适的数据挖掘算法,获取满意的结果; ——知识和经验的集中体现

结构化数据挖掘(KDD) :模型评估 知识 置信度 兴趣度 有效性 满足用户兴趣度和置信度的模式——用高级语言表示的表达一定逻辑含义的信息; 知识在某一数据域上为真的量度。 兴趣度 在一定数据上为真的知识被用户关注的程度。 有效性 知识的发现过程必须能够有效地在计算机上实现。

目录 数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结 数据挖掘基本概念 数据挖掘典型流程 数据挖掘常用技术 数据挖掘业界工具 数据挖掘可用资源 本章小结 数据挖掘在电信行业中的应用 总结

数据挖掘是一门面向应用的综合性技术 特定应用 信息检索 推荐引擎 商务智能 数据可视化 支 撑 技 术 并行计算 : 理论基础 机器学习 重在运用 理论基础 并行计算 高性能计算 流计算 机器学习 统计分析 模式识别 粗糙集 OLTP OLAP 数据库 数据仓库

数据处理与建模方法库

数据挖掘十大经典算法 http://www.cs.uvm.edu/~icdm/algorithms/index.shtml

数据挖掘的任务及基本方法 描述 预测 关联规则挖掘 分类分析 聚类分析 预测分析 发现大量数据中项集之间有趣的关联或相关联系。 因素 3 因素 2 因素 4 因素 1 常用 方法 分类分析 发现大量数据中项集之间有趣的关联或相关联系。 将未知数据划分到给定的类别中——通过训练样本建立分类模型,根据模型对未知数据进行分类。 预测 描述 聚类分析 预测分析 将物理或抽象对象集合分组成为由类似的对象组成的多个类的过程。 相比于分类,聚类是无监督的(没有已知的类标号) 预测未来的数据趋势; 相比于“分类分析”来说,“预测分析”是建立连续函数模型 。

数据分类三个步骤

数据挖掘的经典模式及应用

目录 数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结 数据挖掘基本概念 数据挖掘典型流程 数据挖掘常用技术 数据挖掘业界工具 数据挖掘可用资源 本章小结 数据挖掘在电信行业中的应用 总结

数据挖掘相关技术及工具发展 数据管理技术 数据分析技术 报表 OLAP引擎 数据仓库 ETL 模型评估 数据建模 数据预处理 数据挖掘 学术界及部分企业推动 数据库厂商推动

业界主流数据挖掘工具 名称 主要功能 是否开源 编程语言 SPSS 统计分析、机器学习 否 SAS Matlab matlab Weka 以机器学习为主 是 java R 以统计分析为主、图形展示较丰富 Orange 以机器机器学习为主、图形展示较丰富

Weka工具概览

Replication Server PowerStage 业界主流数据挖掘相关的数据管理工具 产品系列 Oracle Microsoft IBM Sybase ETL工具 ODI/OWB (ODI可选) SSIS DataStage Replication Server PowerStage 数据库管理工具 Enterprise Manager SQL Server Visual Warehouse (或Cognos) Warehouse Studio OLAP工具 Essbase SSAS OLAP Server (或cognos) Warehouse Analyzer 数据挖掘工具 ODM (可选) Intelligent Miner 无 报表工具 BIEE SSRS Insight&Quick view InfoMaker,后期会整合BO

目录 数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结 数据挖掘基本概念 数据挖掘典型流程 数据挖掘常用技术 数据挖掘业界工具 数据挖掘可用资源 本章小结 数据挖掘在电信行业中的应用 总结

扩展学习参考书籍 理论介绍 工 具 应 用

目录 数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结 云计算环境下的数据挖掘需求 海量数据分析与挖掘系统简介 海量电信级数据挖掘应用实践 本章小结 总结

什么是大数据? “大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合” —维基百科 三大特征(3 V) Volume:数量大(Twitter1.75亿用户每天创建9500万条微博;Facebook每天在30万台服务器上处理25Tb数据;YouTube每天上传168Tb视频) Velocity:时效性要求高(搜索引擎要求几分钟前的新闻能够被用户查询到) Variety:种类和来源多样化(结构化/半结构化/非结构化;关系数据库/数据仓库/互联网网页等)

大数据的出现、数据结构的改变,对电信行业数据管理及分析带来挑战 传统数据仓库无法有效存储日益增长的业务数据 随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力; 数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等 传统数据仓库无法有效处理新型的业务数据 公司在移劢互联网和物联网上需要有新领域的突破,不同于传统通信业务分析特点,需要对内容等非结构化、大容量信息进行有效分析,传统的架构处理吃力 ;

电信行业大数据分析与处理的需求

大数据分析与处理的行业现状 BI级数据的离线分析产品已经成熟; 海量级数据的离线分析是目前的一个热点; 时间域 SAS SPSS Weka R … Rhadoop Mahout BCPDM … BI级数据的离线分析产品已经成熟; 海量级数据的离线分析是目前的一个热点; 借助内存数据库的实时分析会在未来大放异彩; 离线分析 Storm S4 Streambase … 实时分析 空间域 内存级 (GB以下) BI级 (GB-TB) 海量级 (PB)

目录 数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结 云计算环境下的数据挖掘需求 海量数据分析与挖掘系统简介 海量电信级数据挖掘应用实践 本章小结 总结

海量数据分析与挖掘系统功能架构 应用层 分析层 支撑层 数据可视化 数据分析与挖掘算法 文本数据采集与处理 多媒体数据采集与处理 用户分析 产品优化 业务推荐 信息检索 安全监控 …. 并行数据挖掘平台PDMP 并行数据分析平台PDAP 实时分析平台RTDAP 数据可视化 流程可视化 结果可视化 可视化数据探测 数据分析与挖掘算法 分析层 分类分析 聚类分析 关联规则分析 时间序列分析 语义分析 情感分析 摘要生成 主题发现 统计分析 实时查询 文本数据采集与处理 多媒体数据采集与处理 结构化数据采集与处理 网页解析 中文分词 实体识别 网页爬取 网页净化 网页索引 文本建模 关键词提取 多媒体分割 多媒体采集 多媒体特征提取 多媒体建模 特征提取 数据抽样 数据规约 数据集成 数据清洗 数据转换 支撑层 分布式文件系统HDFS 分布式数据库HBASE 分布式计算/并行计算/流计算 IT基础设施 内存数据库Redis 分布式数据仓库Hive

海量数据分析与挖掘系统逻辑架构 流 块 数据 全局 数据 结果缓存 数据源 NoSQL RDMS 数据采集 流计算 触发的事件 块计算 实时计算结果 全局计算 离线计算结果

海量数据分析与挖掘系统适应的应用场景

目录 数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结 云计算环境下的数据挖掘需求 海量数据分析与挖掘系统简介 海量电信级数据挖掘应用实践 本章小结 总结

结合具体业务需求,开展相关产品的定制化实践 Hadoop生态系统 Hadoop Hbase Hive Pig Mahout Flume ….. 相关定制化产品 并行数据 处理与挖掘 并行文本 处理与挖掘 海量数据 统计分析 海量数据 实时搜索 个性化 推荐引擎 数据抽取 与分发中心 ….. 基于hive和Pig,提供Web页面的海量数据可视化统计分析 基于HDFS和MapReduce,提供非结构化数据的海量文本并行处理与挖掘 基于Hbase和Solr集成,提供千亿级别数据实时查询和全文检索 基于Flume等提供批量数据抽取和转载,同时提供准实时消息、日志的分发 基于Mahout等,提供个性化的业务推荐服务 基于Hbase和MapReduce,提供结构化数据的海量数据并行处理与挖掘

基于分布式数据库的海量数据分析平台

面向Web访问的海量数据统计分析

面向具体业务的个性化推荐引擎

电信业务大数据分析与挖掘典型应用 精细化营销专题 终端特征分析 垃圾短信识别与监控 生活形态分析 生活圈分析 流失预警分析 上网行为分析 接触时机分析 营销效果分析 营销渠道分析 业务关联分析 精细化营销专题

应用案例1:利用统计分析用户上网行为,优化网络及业务质量 用户偏好分析 终端类型分析 终端流量分析 应用类型分析 应用流量分析

应用案例2:利用聚类分析实现用户生活形态分群,指导营销方案设计

应用案例3:利用聚类及关联,进行定向营销

应用案例4:利用时序分析和社交网络,进行垃圾短信识别,提升服务品质 t 短信流 垃圾短信发送者怀疑名单 ________ 模式分类 发送时序行为 “空间行为指纹” “社会网络行为指纹” 社会网络行为分析 社会网络图 原始话单库 在线监测引擎 离线监测引擎

目录 数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结 云计算环境下的数据挖掘需求 海量数据分析与挖掘系统简介 海量电信级数据挖掘应用实践 本章小结 总结

本章小结 云计算环境下数据挖掘需求 海量数据分析与挖掘系统简介 电信行业数据挖掘应用实践 大数据(数据量大、数据异构、处理时效性)对传统数据分析及管理工具提出了挑战,需要重新构建适应大数据的海量数据分析与挖掘系统; 海量数据分析与挖掘系统简介 借助云计算提供的分布式计算模式、分布式数据存贮,构建新的、、异构性的、适合多种业务需求的海量数据分析与挖掘系统; 电信行业数据挖掘应用实践 结合电信的具体业务需求,对海量数据分析与挖掘系统进行定制化实践,并给出部分应用案例以供参考。

目录 数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结

内容回顾 1、什么是数据挖掘? 2、CRISP-DM具体包含哪些步骤? 3、数据挖掘与哪些技术相关?请列举出3-5个 4、数据挖掘的基本任务是什么? 5、数据挖掘常用的方法各有哪些?请列举3-4个 6、数据挖掘的工具有哪些?开源的与非开源的各举一个 7、什么是大数据? 8、大数据的三大特征是什么? 9、云计算环境下,大数据分析与挖掘系统的支撑技术有哪些?请列举2-3个 10、电信业务大数据分析与挖掘的典型应用有哪些?请列举2-3个

讨论:搜集哪些数据?使用哪些方法?