Presentation is loading. Please wait.

Presentation is loading. Please wait.

大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.

Similar presentations


Presentation on theme: "大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编."— Presentation transcript:

1 大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编

2 第六章 数据挖掘应用案例 6.1电力行业采用聚类方法进行主变油温分析 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销
大数据应用人才培养系列教材 第六章 数据挖掘应用案例 6.1电力行业采用聚类方法进行主变油温分析 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题

3 6.1 电力行业采用聚类方法进行主变油温分析 第六章 数据挖掘应用案例 电力系统中的重要设备有很多,如油浸式变压器,其运行是否正常将影响到电网能否安全稳定运行,对其运行的监控尤为重要。 现有的变压器异常状态的识别方法通用性差、故障发现滞后且成本高昂,无法适应大数据时代国家电网的发展。

4 6.1 电力行业采用聚类方法进行主变油温分析 需求背景及采用的大数据分析方法
第六章 数据挖掘应用案例 需求背景及采用的大数据分析方法 在变压器运行的运行周期中,油温状态是影响变压器运行和负载能力的重要因素。所以变压器油温异常的甄别对变压器及线路的安全运行具有很高的实用价值。为了及时发现变压器油温异常,就需要对变压器平时正常运行时油温的状况有清晰的了解并作为比对基准。 采用大数据的方法,通过聚类分析,挖掘出变压器正常运行的油温分布状况,为及时发现油温异常提供了判断依据。

5 6.1 电力行业采用聚类方法进行主变油温分析 需求背景及采用的大数据分析方法
第六章 数据挖掘应用案例 需求背景及采用的大数据分析方法 把正常运行油温分成几个区间段,分析各区间段的油温出现次数分布,并计算出该区间段的油温次数分布中心点。而根据中心点的偏离程度即阈值作为设备异常的预判是有较大参考价值的。 采用聚类K-Means分析方法 在Spark集群上实现

6 6.1 电力行业采用聚类方法进行主变油温分析 第六章 数据挖掘应用案例 Spark集群

7 6.1 电力行业采用聚类方法进行主变油温分析 查看油温数据 第六章 数据挖掘应用案例
spark]# /usr/cstor/hadoop/bin/hdfs dfs -cat /34/in/kmeans_data.txt 17/11/07 23:15:38 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 该数据文件分成多行,每行分别显示温度区间(经过转换)及其出现次数。

8 6.1 电力行业采用聚类方法进行主变油温分析 在Spark集群上执行K-Means程序(处理该数据集)
第六章 数据挖掘应用案例 在Spark集群上执行K-Means程序(处理该数据集) ~]# /usr/cstor/spark/bin/spark-shell  --master  spark://master:7077 scala> import breeze.linalg.{Vector, DenseVector, squaredDistance} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ def parseVector(line: String): Vector[Double] = { DenseVector(line.split(' ').map(_.toDouble)) } /* 定义方法 Vector, 把每行数据转换成向量 */

9 6.1 电力行业采用聚类方法进行主变油温分析 在Spark集群上执行K-Means程序(处理该数据集)
第六章 数据挖掘应用案例 在Spark集群上执行K-Means程序(处理该数据集) def closestPoint(p: Vector[Double], centers: Array[Vector[Double]]): Int = { var bestIndex = 0 var closest = Double.PositiveInfinity for (i <- 0 until centers.length) { val tempDist = squaredDistance(p, centers(i)) if (tempDist < closest) { closest = tempDist bestIndex = i } bestIndex } /* 定义方法 closestPoint,找出距离Vector最近的中心点 */

10 6.1 电力行业采用聚类方法进行主变油温分析 在Spark集群上执行K-Means程序(处理该数据集)
第六章 数据挖掘应用案例 在Spark集群上执行K-Means程序(处理该数据集) val lines = sc.textFile("/34/in/kmeans_data.txt") /* 声明常量实例lines,从数据文件读取各行数据作为RDD的元素 */ val data = lines.map(parseVector _).cache() /* 声明常量实例data,取数并转换成向量并缓冲存储 */ val K = "5".toInt /* 声明常量实例K, Kmeans 设置5个聚类 */ val convergeDist = "0.1".toDouble /* 声明常量实例convergeDist */ val kPoints = data.takeSample(withReplacement = false, K, 42).toArray /* 声明常量实例kPoints,取样K个初始中心点 */ var tempDist = 1.0 /* 声明变量实例 tempDist */

11 6.1 电力行业采用聚类方法进行主变油温分析 在Spark集群上执行K-Means程序(处理该数据集)
第六章 数据挖掘应用案例 在Spark集群上执行K-Means程序(处理该数据集) while(tempDist > convergeDist) { val closest = data.map (point => (closestPoint(point, kPoints), (point, 1))) /* 找离point 最近的中心点 */ val pointStats = closest.reduceByKey{case ((p1, q1), (p2, q2)) => (p1 + p2, q1 + q2)} val newPoints = pointStats.map {pair => (pair._1, pair._2._1 * (1.0 / pair._2._2))}.collectAsMap() /* 声明常量实例newPoints ,并计算新的中心点*/

12 6.1 电力行业采用聚类方法进行主变油温分析 在Spark集群上执行K-Means程序(处理该数据集) tempDist = 0.0
第六章 数据挖掘应用案例 在Spark集群上执行K-Means程序(处理该数据集) tempDist = 0.0 for (i <- 0 until K) { tempDist += squaredDistance(kPoints(i), newPoints(i)) } /* 计算新旧中心点的距离 */ for (newP <- newPoints) { kPoints(newP._1) = newP._2 println("Finished iteration (delta = " + tempDist + ")")

13 6.1 电力行业采用聚类方法进行主变油温分析 在Spark集群上执行K-Means程序(处理该数据集)
第六章 数据挖掘应用案例 在Spark集群上执行K-Means程序(处理该数据集) println("Final centers:") kPoints.foreach(println) /* 打印输出结果 */ Final centers: DenseVector(0.4, ) DenseVector( , ) DenseVector(0.8, ) DenseVector(1.0, ) DenseVector(0.2, )

14 第六章 数据挖掘应用案例 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题
大数据应用人才培养系列教材 第六章 数据挖掘应用案例 6.2 银行信贷评价 6.1电力行业采用聚类方法进行主变油温分析 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题

15 6.2 银行信贷评价 评估机构会利用信用评分模型对客户的信息进行量化分析,从而评定客户的信用等级,可以更好地控制风险,减少不良贷款的发生率。
第六章 数据挖掘应用案例 评估机构会利用信用评分模型对客户的信息进行量化分析,从而评定客户的信用等级,可以更好地控制风险,减少不良贷款的发生率。 Ranshami提出了两种方法进行信用评价,多重判别分析和神经网络,并且发现神经网络分类器的预测结果显著优于统计回归模型。之后,有更多专家将神经网络和回归及基因算法在客户信用评分中进行了对比。

16 6.2 银行信贷评价 第六章 数据挖掘应用案例 神经网络(NN),就是构建一个含有输入层、输出层和隐含层的模型,其中隐含层可以有多层,这组输入和输出单元相互连接,单元之间的每个连接都设置一个权重。输入层中神经元数目根据数据集中的属性数目确定,输出层为一个神经元,经过训练,设定迭代次数和误差及求出每个神经元的权重,确定模型,对输入数据进行预测。 由于“反向传播”的英文叫做Back-Propagation,所以这个算法也常常被学者简称为BP算法。反向传播算法分为两步进行:正向传播:输入的样本从输入层经过隐单元一层一层进行处理,通过所有的隐层之后,传向输出层。反向传播:把误差信号按原来正向传播的通路反向传回,并对每个隐层的各个神经元的权系数进行修改,以使误差信号趋向最小。 BP算法的实质是,求取误差函数最小值问题。

17 6.2 银行信贷评价 第六章 数据挖掘应用案例 神经网络(NN),就是构建一个含有输入层、输出层和隐含层的模型,其中隐含层可以有多层,这组输入和输出单元相互连接,单元之间的每个连接都设置一个权重。输入层中神经元数目根据数据集中的属性数目确定,输出层为一个神经元,经过训练,设定迭代次数和误差及求出每个神经元的权重,确定模型,对输入数据进行预测。 由于“反向传播”的英文叫做Back-Propagation,所以这个算法也常常被学者简称为BP算法。反向传播算法分为两步进行:正向传播:输入的样本从输入层经过隐单元一层一层进行处理,通过所有的隐层之后,传向输出层。反向传播:把误差信号按原来正向传播的通路反向传回,并对每个隐层的各个神经元的权系数进行修改,以使误差信号趋向最小。 BP算法的实质是,求取误差函数最小值问题。

18 6.2 银行信贷评价 第六章 数据挖掘应用案例 BPNN在WEKA中表现为MultiLayerPerceptron,其具体可调节参数有L,M,N。其中L为学习率,M为冲量,N为迭代次数。第一组实验:对数据进行10 - folds Cross – validation(L=0.3,M=0.9,N=500,使用数据集为China Credit Data)。实验结果如下: 实际 预测 Good Bad TP=113 FP=37 FN=43 TN=48 结果分析 Type1 error 25.0% Type2 error 47.3% HiteRate 66.5%

19 6.2 银行信贷评价 (1)HitRate:命中率,即预测准确的数据量的百分比。
第六章 数据挖掘应用案例 (1)HitRate:命中率,即预测准确的数据量的百分比。 (2)Type1 error: 将bad数据预测为good数据的百分比。 (3) Type2 error:将good数据预测为bad数据的百分比

20 6.2 银行信贷评价 第六章 数据挖掘应用案例 第二组实验:对数据进行10-folds Cross – validation(L=0.3,M=0.9,N=500,使用数据集为German Credit Data)。实验结果如下: 实际 预测 Good Bad TP=465 FP=235 FN=142 TN=158 结果分析 Type1 error 33.6% Type2 error 47.3% HiteRate 62.3%

21 第六章 数据挖掘应用案例 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题
大数据应用人才培养系列教材 第六章 数据挖掘应用案例 6.1电力行业采用聚类方法进行主变油温分析 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题

22 6.3 金融指数预测 第六章 数据挖掘应用案例 金融市场的数据大都是时间序列数据,指这些数据是按照时间的排序取得的一系列观测值,如股票或期货价格、货币利率、外汇利率等。这些数据具有复杂的变化规律,而利用数学方法对其进行分析和研究将有助于制定更为精确的定价和预测决策,对于金融投资与风险管理活动具有重要的意义。 金融市场中数据由于各种偶然因素的影响,即使不存在暗箱操作,或没有什么重要新闻、重要政策出台,也会表现一种小幅的随机波动。这些随机波动可以看成是信号的噪声,不具有分析和预测的价值,而且这些随机波动往往严重地影响了进一步的分析和处理。因而在做金融事件序列的建模分析之前,往往对数据进行预处理,消除这些噪音。小波消噪的步骤: 1、小波分解 2、阀值处理 3、小波消噪及重构 支持向量机(support vector machine, SVM)是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习问题的新工具。

23 6.3 金融指数预测 第六章 数据挖掘应用案例 国信证券公司曾经使用基于小波分析和支持向量机的指数预测模型对沪深300指数走势。选择了应用50个交易日为训练集预测5个交易日的方法,绘制了下面的近一年沪深300预测图形。发现预测走势有滞后真实走势的现象,两者相关系数为0.78,预测每日涨跌的准确率为68.5%。如图所示,蓝色线是真实走势,红色线是预测走势。

24 第六章 数据挖掘应用案例 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题
大数据应用人才培养系列教材 第六章 数据挖掘应用案例 6.1电力行业采用聚类方法进行主变油温分析 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题

25 6.4 客户分群的精准营销 数据挖掘的价值包括: 精准的市场营销策略制定 争取更多的客户 减少客户流失率 优化服务 提高企业的运营效率
第六章 数据挖掘应用案例 数据挖掘的价值包括: 争取更多的客户 减少客户流失率 提高企业的运营效率 优化服务 精准的市场营销策略制定

26 6.4 客户分群的精准营销 业务理解 数据理解 数据准备 模型建立 公众客户、商业客户、大客户 客户信息、客户消费及购买使用行为
第六章 数据挖掘应用案例 业务理解 公众客户、商业客户、大客户 数据理解 客户信息、客户消费及购买使用行为 数据准备 选择、清洗、构造、整合、格式化 模型建立 数据探索,因子分析,生成细分模型,模型分析,模型评估,模型发布

27 6.4 客户分群的精准营销 模型输入包括两部分:建模专家样本数据的输入和建模参数的输入,可以定义几组数据作为细分变量。 细分变量来源
第六章 数据挖掘应用案例 模型输入包括两部分:建模专家样本数据的输入和建模参数的输入,可以定义几组数据作为细分变量。 细分变量来源 细分变量描述 通话范围 本地通话 国内长途 国际长途 活动范围 省内漫游 国内漫游 国际漫游 跨网情况 网内通话 运营商A通话 运营商B通话 固话 细分变量来源 细分变量描述 数据业务 上网流量 短信 彩信 客服 营业厅现场办理 网站办理 手机APP办理 电话办理

28 本地、省内长途漫游、省间长途、短信、IP、跨运营商通话
6.4 客户分群的精准营销 第六章 数据挖掘应用案例 特征刻画首先进行客户群特征粗略定性比较分析,然后可以利用透视图等工具对各客户群宽表变量分类进行详细的定量刻画。表中是各组相对强弱势情况比较。 分组号 细分编号 强势特征 弱势特征 组1 低使用率组 1 组2 固话联系紧密组 2 与固定电话通话多 本地、省内长途漫游、省间长途、短信、IP、跨运营商通话 组3 中低使用率组 3 省级长途,IP电话 4 跨运营商通话 组4 跨网通话组 5 跨网通话时长,次数 漫游 6 组6 短信使用组 7 短信,客服电话 组7 本地通话组 8 本地通话时长,次数 组8 上网流量组 9 上网流量大

29 6.4 客户分群的精准营销 得到典型群体用户,采取相应的市场策略 组号 人群特征分析 市场策略 技术敏感组 新业务使用频率高,是铁杆粉丝
第六章 数据挖掘应用案例 得到典型群体用户,采取相应的市场策略 组号 人群特征分析 市场策略 技术敏感组 新业务使用频率高,是铁杆粉丝 推广新业务先让该组人尝试 高端本地商务组 大量本地通话,年龄在35岁以上,可能是商务或者政府机关人员 体现关怀,重点挽留 中端移动商务组 大量长途,漫游通话需求,估计包括业务员,中端商旅人士 推荐漫游话费包 高端移动商务组 大量长途漫游,对资费不敏感 赠送积分,礼品等 学生组 通话少,上网短信多 推荐校园网业务

30 第六章 数据挖掘应用案例 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题
大数据应用人才培养系列教材 第六章 数据挖掘应用案例 6.1电力行业采用聚类方法进行主变油温分析 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题

31 6.5 房屋定价 第六章 数据挖掘应用案例 WEKA的开始界面

32 6.5 房屋定价 第六章 数据挖掘应用案例 选择Explorer后启动

33 6.5 房屋定价 WEKA 建议的加载数据的格式是 Attribute-Relation File Format (ARFF),
第六章 数据挖掘应用案例 WEKA 建议的加载数据的格式是 Attribute-Relation File Format (ARFF), 可以在其中定义所加载数据的类型,然后再提供数据本身。 在这个文件内,我们定义了每列以及每列所含内容。 对于回归模型,只能有 NUMERIC 或 DATE 列。 @RELATION house @ATTRIBUTE houseSize NUMERIC @ATTRIBUTE lotSize NUMERIC @ATTRIBUTE bedrooms NUMERIC @ATTRIBUTE granite NUMERIC @ATTRIBUTE bathroom NUMERIC @ATTRIBUTE sellingPrice NUMERIC @DATA 3529,9191,6,0,0,205000 3247,10061,5,1,1,224900 4032,10150,5,0,1,197900 2397,14156,4,1,0,189900 2200,9600,4,0,1,195000 3536,19994,6,1,1,325000 2983,9365,5,0,1,230000

34 6.5 房屋定价 第六章 数据挖掘应用案例 选择 Open File 按钮并选择在上一节中创建的 ARFF 文件

35 6.5 房屋定价 第六章 数据挖掘应用案例 为了创建模型,单击 Classify 选项卡。第一个步骤是选择想要创建的这个模型,以便 WEKA 知道该如何处理数据以及如何创建一个适当的模型:单击 Choose 按钮,然后扩展 functions 分支。选择 LinearRegression 叶。这会告诉 WEKA 我们想要构建一个回归模型。选择了正确的模型后,WEKA Explorer 应该类似于下图

36 根据样例数据,反推出房屋售价和几个因素之间的计算公式。
6.5 房屋定价 第六章 数据挖掘应用案例 根据样例数据,反推出房屋售价和几个因素之间的计算公式。

37 习题: 1.班级内每位同学提供一份隐去姓名的近三个月手机使用情况,包括话费总额,话费构成,包含时间和时长的通话记录(隐去号码),包含时间和时长的上网记录,汇总后。请参考本书中的相关理论和软件,按照数据试着对用户进行分类,预测用户下个月的手机使用情况。

38 AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台

39 云创公众号推荐 刘鹏看未来 云计算头条 中国大数据 深度学习世界 云创大数据订阅号 云创大数据服务号 高校大数据与人工智能
微信号:lpoutlook 云计算头条 微信号:chinacloudnj 中国大数据 微信号:cstorbigdata 深度学习世界 微信号:dl-world 云创大数据订阅号 微信号:cStor_cn 云创大数据服务号 微信号:cstorfw 高校大数据与人工智能 微信号:data_AI

40 手机APP推荐 我的PM2.5 随时随地准确 查看身边的 PM2.5值 同声译 支持26种语言 互译的实时翻 译软件 我的南京
云创大数据为路 况大数据应用提 供技术支持 科技头条 汇聚前沿资讯 的科技情报站

41 网站推荐 万物云 智能硬件大数据免费托管平台 环境云 环境大数据开放共享平台

42 感谢聆听


Download ppt "大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编."

Similar presentations


Ads by Google