大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.

Slides:



Advertisements
Similar presentations
環境游離輻射 ( 六 ) 輻射與核能發電. 媽!這是我上班的 地方-核電廠。 地方好寬闊喔! 聽說日本原子彈爆炸死好幾 萬人,阿榮啊!你在這裡上 班,安全嗎?
Advertisements

病历书写 中山医院呼吸科 张 新. 定 义 病历是临床医生根据问诊、体格检查、实验 室和其他检查获得的资料经过归纳、分析、整理, 按照规定的格式而写成的;是关于病人发病情况, 病情发展变化,转归和诊疗情况的系统记录。 病历是临床医生根据问诊、体格检查、实验 室和其他检查获得的资料经过归纳、分析、整理,
第十二章 病历书写与要求 病历病历 医务人员在医疗中形成的文字、符号、图表、 影像、切片等资料的总和。 病历书写 通过诊法、诊断、治疗、护理等医疗活动获得有关资 料,进行归纳、分析、整理形成医疗活动记录行为。 病历意义 A 诊疗等的源文件; B 复 / 转 / 会诊,解决医疗纠纷、判定法律责任、医疗保险等的资料和依据;
《小狗包弟 》之 从阅读到写作 学校:和风中学 年级:高一 参赛者:彭龙英. 预习检测一 思考:同学们读完作者与包弟 的故事后,说一说作者所表达的情 感是什么?
虹膜识别健康养老服务智能系统项目.
广州宜家选址分析 0连锁 李若谷 陈玉风 黄小飞 蓝柔盈.
探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆  探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆 
國立嘉義大學 資訊工程研究所 指導教授:柯建全 博士 研究生:林俊志
職校、五專群科簡介.
爱上我们的图书馆 —新生入馆引导 河海大学图书馆.
第120讲:Hadoop的MapReduce和Yarn的配置实战详解
江苏省工程造价管理协会 工作报告 2015年4月21日 扬州.
加一加也可產生創意! Open 獅甲ちゃん~校園特色心發現
请说出牛顿第一定律的内容。.
101年8月份 嘉義市道路交通安全聯席會報 酒駕行為與肇事現況分析 主講人:內政部警政署交通組科長張夢麟 1.
高校邦在线学习平台 学生学习手册 北京高校邦科技有限公司.
志願服務倫理  高雄餐旅學院師資培育中心     馮莉雅 副教授.
第十一章 真理与价值 主讲人:阎华荣.
台灣的名勝古蹟.
2012年中考 历史与社会·思想品德试题评析 温州第九中学 李冰.
第七章 固 定 资 产.
触电预防与急救 杜芳艳.
台灣史總複習.
Relation Detection And Recognition
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
[聚會時,請將傳呼機和手提電話關掉,多謝合作]
103學年度第1階段 志願選填試探後輔導作為 成效檢討與精進建議
活动主题:佛山智造 中国骄傲 随着互联网、云计算、大数据以及移动互联网的快速发展,技术不仅仅是一种工具,正加速重构着品牌的新格局。
國文報告 儒家生死文化討論 不死鳥 組員 972BP001 彭科強 972BP008 王薪榕 972BP025 彭裕宗
四川省卫生监督移动 执法终端介绍 发言人:陈成身 四川省卫生执法监督总队.
獎補助經預計支用報告 105年.
[聚會時,請將傳呼機和手提電話關掉,多謝合作]
行政院國軍退除役官兵輔導委員會 嘉義榮民醫院.
Spark零基础入门——Spark入门基础
實作輔導 日期: 3/11 09:10~16:00 地點:臺北市立大學 臺北市中正區愛國西路一號 (中正紀念堂站7號出口)
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
《Spark编程基础》 《 Spark编程基础》课程介绍 (PPT版本号:2018年2月)
國立政治大學 資訊科學研究所 知識系統實驗室 研究生: 鄭雍瑋 指導教授: 劉吉軒 博士 中華民國九十五年六月三十日
华东理工大学 关于新校园卡功能启用的相关说明 2018年09月07日.
Spark SQL 介绍 付士涛. Spark SQL 介绍 付士涛 大纲 Architecture(架构) 像Hive一样的User Interface(用户操作界面) DataFrame的使用(1.3以前叫做SchemaRDD)
谈模式识别方法在林业管理问题中的应用 报告人:管理工程系 马宁 报告地点:学研B107
公立學校教職員退休資遣撫卹條例重點說明 苗栗縣政府人事處編製 主講人:陳處長坤榮 107年5月2日.
海報評比 班級:系統四甲 學號: 姓名:蔡飛宏 授課老師:唐蔚.
實作輔導 2 日期: 3/24(星期六) 09:10~16:00 地點:臺北市立大學 臺北市中正區愛國西路一號 (中正紀念堂站7號出口)
102學年度下學期 班親會 五年仁班 楊曉逸老師.
第二章 Java基本语法 讲师:复凡.
第二階段「校園徒步區建置」 執行成果報告.
第二章 Java基本语法 讲师:复凡.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编.
新北市立板橋高中新興科技區域推廣中心 顏椀君
大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编.
大数据应用人才培养系列教材 数据清洗 刘 鹏 张 燕 总主编 李法平 主编 陈潇潇 副主编.
高级大数据人才培养丛书之一,大数据挖掘技术与应用
数据挖掘 DATA MINING 刘 鹏 张 燕 总主编 王朝霞 主编 施建强 杨慧娟 陈建彪 副主编
大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编.
大数据应用人才培养系列教材 数据清洗 刘 鹏 张 燕 总主编 李法平 主编 陈潇潇 副主编.
大数据应用人才培养系列教材 R 语言 刘 鹏 张 燕 总主编 程显毅 主编 刘颖 朱倩 副主编.
高级大数据人才培养丛书之一,大数据挖掘技术与应用
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
認識 Excel 與SPSS.
為民服務白皮書 台灣電力公司彰化區營業處  彰化區營業處 為民服務白皮書 誠信 關懷 服務 成長 1.
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
实验课程学习手册.
云控APP说明书 适用于云控平台配置.
云控APP说明书 适用于云控平台配置.
《大数据导论(通识课版)》 第6章 大数据思维 (PPT版本号:2019年秋季学期)
《大数据导论(通识课版)》 教材官网: 第5章 大数据安全 (PPT版本号:2019年秋季学期)
大数据应用人才培养系列教材 数据清洗 刘 鹏 张 燕 总主编 李法平 主编 陈潇潇 副主编.
Presentation transcript:

大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编

第六章 数据挖掘应用案例 6.1电力行业采用聚类方法进行主变油温分析 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 大数据应用人才培养系列教材 第六章 数据挖掘应用案例 6.1电力行业采用聚类方法进行主变油温分析 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题

6.1 电力行业采用聚类方法进行主变油温分析 第六章 数据挖掘应用案例 电力系统中的重要设备有很多,如油浸式变压器,其运行是否正常将影响到电网能否安全稳定运行,对其运行的监控尤为重要。 现有的变压器异常状态的识别方法通用性差、故障发现滞后且成本高昂,无法适应大数据时代国家电网的发展。

6.1 电力行业采用聚类方法进行主变油温分析 需求背景及采用的大数据分析方法 第六章 数据挖掘应用案例 需求背景及采用的大数据分析方法 在变压器运行的运行周期中,油温状态是影响变压器运行和负载能力的重要因素。所以变压器油温异常的甄别对变压器及线路的安全运行具有很高的实用价值。为了及时发现变压器油温异常,就需要对变压器平时正常运行时油温的状况有清晰的了解并作为比对基准。 采用大数据的方法,通过聚类分析,挖掘出变压器正常运行的油温分布状况,为及时发现油温异常提供了判断依据。

6.1 电力行业采用聚类方法进行主变油温分析 需求背景及采用的大数据分析方法 第六章 数据挖掘应用案例 需求背景及采用的大数据分析方法 把正常运行油温分成几个区间段,分析各区间段的油温出现次数分布,并计算出该区间段的油温次数分布中心点。而根据中心点的偏离程度即阈值作为设备异常的预判是有较大参考价值的。 采用聚类K-Means分析方法 在Spark集群上实现

6.1 电力行业采用聚类方法进行主变油温分析 第六章 数据挖掘应用案例 Spark集群

6.1 电力行业采用聚类方法进行主变油温分析 查看油温数据 第六章 数据挖掘应用案例 [root@slave1 spark]# /usr/cstor/hadoop/bin/hdfs dfs -cat /34/in/kmeans_data.txt   17/11/07 23:15:38 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 0.2 1000 0.2 900 0.2 1050 0.4 1500 0.4 1450 0.4 1530 0.6 2500 0.6 2430 0.6 2520 0.8 2000 0.8 1960 0.8 2030 1.0 1200 1.0 1160 1.0 1230 该数据文件分成多行,每行分别显示温度区间(经过转换)及其出现次数。

6.1 电力行业采用聚类方法进行主变油温分析 在Spark集群上执行K-Means程序(处理该数据集) 第六章 数据挖掘应用案例 在Spark集群上执行K-Means程序(处理该数据集) [root@slave1 ~]# /usr/cstor/spark/bin/spark-shell  --master  spark://master:7077 scala> import breeze.linalg.{Vector, DenseVector, squaredDistance} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ def parseVector(line: String): Vector[Double] = { DenseVector(line.split(' ').map(_.toDouble)) } /* 定义方法 Vector, 把每行数据转换成向量 */

6.1 电力行业采用聚类方法进行主变油温分析 在Spark集群上执行K-Means程序(处理该数据集) 第六章 数据挖掘应用案例 在Spark集群上执行K-Means程序(处理该数据集) def closestPoint(p: Vector[Double], centers: Array[Vector[Double]]): Int = { var bestIndex = 0 var closest = Double.PositiveInfinity for (i <- 0 until centers.length) { val tempDist = squaredDistance(p, centers(i)) if (tempDist < closest) { closest = tempDist bestIndex = i } bestIndex } /* 定义方法 closestPoint,找出距离Vector最近的中心点 */

6.1 电力行业采用聚类方法进行主变油温分析 在Spark集群上执行K-Means程序(处理该数据集) 第六章 数据挖掘应用案例 在Spark集群上执行K-Means程序(处理该数据集) val lines = sc.textFile("/34/in/kmeans_data.txt") /* 声明常量实例lines,从数据文件读取各行数据作为RDD的元素 */ val data = lines.map(parseVector _).cache() /* 声明常量实例data,取数并转换成向量并缓冲存储 */ val K = "5".toInt /* 声明常量实例K, Kmeans 设置5个聚类 */ val convergeDist = "0.1".toDouble /* 声明常量实例convergeDist */ val kPoints = data.takeSample(withReplacement = false, K, 42).toArray /* 声明常量实例kPoints,取样K个初始中心点 */ var tempDist = 1.0 /* 声明变量实例 tempDist */

6.1 电力行业采用聚类方法进行主变油温分析 在Spark集群上执行K-Means程序(处理该数据集) 第六章 数据挖掘应用案例 在Spark集群上执行K-Means程序(处理该数据集) while(tempDist > convergeDist) { val closest = data.map (point => (closestPoint(point, kPoints), (point, 1))) /* 找离point 最近的中心点 */ val pointStats = closest.reduceByKey{case ((p1, q1), (p2, q2)) => (p1 + p2, q1 + q2)} val newPoints = pointStats.map {pair => (pair._1, pair._2._1 * (1.0 / pair._2._2))}.collectAsMap() /* 声明常量实例newPoints ,并计算新的中心点*/

6.1 电力行业采用聚类方法进行主变油温分析 在Spark集群上执行K-Means程序(处理该数据集) tempDist = 0.0 第六章 数据挖掘应用案例 在Spark集群上执行K-Means程序(处理该数据集) tempDist = 0.0 for (i <- 0 until K) { tempDist += squaredDistance(kPoints(i), newPoints(i)) } /* 计算新旧中心点的距离 */ for (newP <- newPoints) { kPoints(newP._1) = newP._2   println("Finished iteration (delta = " + tempDist + ")")

6.1 电力行业采用聚类方法进行主变油温分析 在Spark集群上执行K-Means程序(处理该数据集) 第六章 数据挖掘应用案例 在Spark集群上执行K-Means程序(处理该数据集) println("Final centers:") kPoints.foreach(println) /* 打印输出结果 */ Final centers: DenseVector(0.4, 1493.3333333333333) DenseVector(0.5999999999999999, 2483.333333333333) DenseVector(0.8, 1996.6666666666665) DenseVector(1.0, 1196.6666666666665) DenseVector(0.2, 983.3333333333333)

第六章 数据挖掘应用案例 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题 大数据应用人才培养系列教材 第六章 数据挖掘应用案例 6.2 银行信贷评价 6.1电力行业采用聚类方法进行主变油温分析 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题

6.2 银行信贷评价 评估机构会利用信用评分模型对客户的信息进行量化分析,从而评定客户的信用等级,可以更好地控制风险,减少不良贷款的发生率。 第六章 数据挖掘应用案例 评估机构会利用信用评分模型对客户的信息进行量化分析,从而评定客户的信用等级,可以更好地控制风险,减少不良贷款的发生率。 Ranshami提出了两种方法进行信用评价,多重判别分析和神经网络,并且发现神经网络分类器的预测结果显著优于统计回归模型。之后,有更多专家将神经网络和回归及基因算法在客户信用评分中进行了对比。

6.2 银行信贷评价 第六章 数据挖掘应用案例 神经网络(NN),就是构建一个含有输入层、输出层和隐含层的模型,其中隐含层可以有多层,这组输入和输出单元相互连接,单元之间的每个连接都设置一个权重。输入层中神经元数目根据数据集中的属性数目确定,输出层为一个神经元,经过训练,设定迭代次数和误差及求出每个神经元的权重,确定模型,对输入数据进行预测。 由于“反向传播”的英文叫做Back-Propagation,所以这个算法也常常被学者简称为BP算法。反向传播算法分为两步进行:正向传播:输入的样本从输入层经过隐单元一层一层进行处理,通过所有的隐层之后,传向输出层。反向传播:把误差信号按原来正向传播的通路反向传回,并对每个隐层的各个神经元的权系数进行修改,以使误差信号趋向最小。 BP算法的实质是,求取误差函数最小值问题。

6.2 银行信贷评价 第六章 数据挖掘应用案例 神经网络(NN),就是构建一个含有输入层、输出层和隐含层的模型,其中隐含层可以有多层,这组输入和输出单元相互连接,单元之间的每个连接都设置一个权重。输入层中神经元数目根据数据集中的属性数目确定,输出层为一个神经元,经过训练,设定迭代次数和误差及求出每个神经元的权重,确定模型,对输入数据进行预测。 由于“反向传播”的英文叫做Back-Propagation,所以这个算法也常常被学者简称为BP算法。反向传播算法分为两步进行:正向传播:输入的样本从输入层经过隐单元一层一层进行处理,通过所有的隐层之后,传向输出层。反向传播:把误差信号按原来正向传播的通路反向传回,并对每个隐层的各个神经元的权系数进行修改,以使误差信号趋向最小。 BP算法的实质是,求取误差函数最小值问题。

6.2 银行信贷评价 第六章 数据挖掘应用案例 BPNN在WEKA中表现为MultiLayerPerceptron,其具体可调节参数有L,M,N。其中L为学习率,M为冲量,N为迭代次数。第一组实验:对数据进行10 - folds Cross – validation(L=0.3,M=0.9,N=500,使用数据集为China Credit Data)。实验结果如下: 实际 预测 Good Bad TP=113 FP=37 FN=43 TN=48 结果分析 Type1 error 25.0% Type2 error 47.3% HiteRate 66.5%

6.2 银行信贷评价 (1)HitRate:命中率,即预测准确的数据量的百分比。 第六章 数据挖掘应用案例 (1)HitRate:命中率,即预测准确的数据量的百分比。 (2)Type1 error: 将bad数据预测为good数据的百分比。 (3) Type2 error:将good数据预测为bad数据的百分比

6.2 银行信贷评价 第六章 数据挖掘应用案例 第二组实验:对数据进行10-folds Cross – validation(L=0.3,M=0.9,N=500,使用数据集为German Credit Data)。实验结果如下: 实际 预测 Good Bad TP=465 FP=235 FN=142 TN=158 结果分析 Type1 error 33.6% Type2 error 47.3% HiteRate 62.3%

第六章 数据挖掘应用案例 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题 大数据应用人才培养系列教材 第六章 数据挖掘应用案例 6.1电力行业采用聚类方法进行主变油温分析 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题

6.3 金融指数预测 第六章 数据挖掘应用案例 金融市场的数据大都是时间序列数据,指这些数据是按照时间的排序取得的一系列观测值,如股票或期货价格、货币利率、外汇利率等。这些数据具有复杂的变化规律,而利用数学方法对其进行分析和研究将有助于制定更为精确的定价和预测决策,对于金融投资与风险管理活动具有重要的意义。 金融市场中数据由于各种偶然因素的影响,即使不存在暗箱操作,或没有什么重要新闻、重要政策出台,也会表现一种小幅的随机波动。这些随机波动可以看成是信号的噪声,不具有分析和预测的价值,而且这些随机波动往往严重地影响了进一步的分析和处理。因而在做金融事件序列的建模分析之前,往往对数据进行预处理,消除这些噪音。小波消噪的步骤: 1、小波分解 2、阀值处理 3、小波消噪及重构 支持向量机(support vector machine, SVM)是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习问题的新工具。

6.3 金融指数预测 第六章 数据挖掘应用案例 国信证券公司曾经使用基于小波分析和支持向量机的指数预测模型对沪深300指数走势。选择了应用50个交易日为训练集预测5个交易日的方法,绘制了下面的近一年沪深300预测图形。发现预测走势有滞后真实走势的现象,两者相关系数为0.78,预测每日涨跌的准确率为68.5%。如图所示,蓝色线是真实走势,红色线是预测走势。

第六章 数据挖掘应用案例 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题 大数据应用人才培养系列教材 第六章 数据挖掘应用案例 6.1电力行业采用聚类方法进行主变油温分析 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题

6.4 客户分群的精准营销 数据挖掘的价值包括: 精准的市场营销策略制定 争取更多的客户 减少客户流失率 优化服务 提高企业的运营效率 第六章 数据挖掘应用案例 数据挖掘的价值包括: 争取更多的客户 减少客户流失率 提高企业的运营效率 优化服务 精准的市场营销策略制定

6.4 客户分群的精准营销 业务理解 数据理解 数据准备 模型建立 公众客户、商业客户、大客户 客户信息、客户消费及购买使用行为 第六章 数据挖掘应用案例 业务理解 公众客户、商业客户、大客户 数据理解 客户信息、客户消费及购买使用行为 数据准备 选择、清洗、构造、整合、格式化 模型建立 数据探索,因子分析,生成细分模型,模型分析,模型评估,模型发布

6.4 客户分群的精准营销 模型输入包括两部分:建模专家样本数据的输入和建模参数的输入,可以定义几组数据作为细分变量。 细分变量来源 第六章 数据挖掘应用案例 模型输入包括两部分:建模专家样本数据的输入和建模参数的输入,可以定义几组数据作为细分变量。 细分变量来源 细分变量描述 通话范围 本地通话 国内长途 国际长途 活动范围 省内漫游 国内漫游 国际漫游 跨网情况 网内通话 运营商A通话 运营商B通话 固话 细分变量来源 细分变量描述 数据业务 上网流量 短信 彩信 客服 营业厅现场办理 网站办理 手机APP办理 电话办理

本地、省内长途漫游、省间长途、短信、IP、跨运营商通话 6.4 客户分群的精准营销 第六章 数据挖掘应用案例 特征刻画首先进行客户群特征粗略定性比较分析,然后可以利用透视图等工具对各客户群宽表变量分类进行详细的定量刻画。表中是各组相对强弱势情况比较。 分组号 细分编号 强势特征 弱势特征 组1 低使用率组 1 无 组2 固话联系紧密组 2 与固定电话通话多 本地、省内长途漫游、省间长途、短信、IP、跨运营商通话 组3 中低使用率组 3 省级长途,IP电话 4 跨运营商通话 组4 跨网通话组 5 跨网通话时长,次数 漫游 6 组6 短信使用组 7 短信,客服电话 组7 本地通话组 8 本地通话时长,次数 组8 上网流量组 9 上网流量大

6.4 客户分群的精准营销 得到典型群体用户,采取相应的市场策略 组号 人群特征分析 市场策略 技术敏感组 新业务使用频率高,是铁杆粉丝 第六章 数据挖掘应用案例 得到典型群体用户,采取相应的市场策略 组号 人群特征分析 市场策略 技术敏感组 新业务使用频率高,是铁杆粉丝 推广新业务先让该组人尝试 高端本地商务组 大量本地通话,年龄在35岁以上,可能是商务或者政府机关人员 体现关怀,重点挽留 中端移动商务组 大量长途,漫游通话需求,估计包括业务员,中端商旅人士 推荐漫游话费包 高端移动商务组 大量长途漫游,对资费不敏感 赠送积分,礼品等 学生组 通话少,上网短信多 推荐校园网业务

第六章 数据挖掘应用案例 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题 大数据应用人才培养系列教材 第六章 数据挖掘应用案例 6.1电力行业采用聚类方法进行主变油温分析 6.2 银行信贷评价 6.3 指数预测 6.4 客户分群的精准智能营销 6.5 使用WEKA进行房屋定价 习题

6.5 房屋定价 第六章 数据挖掘应用案例 WEKA的开始界面

6.5 房屋定价 第六章 数据挖掘应用案例 选择Explorer后启动

6.5 房屋定价 WEKA 建议的加载数据的格式是 Attribute-Relation File Format (ARFF), 第六章 数据挖掘应用案例 WEKA 建议的加载数据的格式是 Attribute-Relation File Format (ARFF), 可以在其中定义所加载数据的类型,然后再提供数据本身。 在这个文件内,我们定义了每列以及每列所含内容。 对于回归模型,只能有 NUMERIC 或 DATE 列。 @RELATION house   @ATTRIBUTE houseSize NUMERIC @ATTRIBUTE lotSize NUMERIC @ATTRIBUTE bedrooms NUMERIC @ATTRIBUTE granite NUMERIC @ATTRIBUTE bathroom NUMERIC @ATTRIBUTE sellingPrice NUMERIC @DATA 3529,9191,6,0,0,205000 3247,10061,5,1,1,224900 4032,10150,5,0,1,197900 2397,14156,4,1,0,189900 2200,9600,4,0,1,195000 3536,19994,6,1,1,325000 2983,9365,5,0,1,230000

6.5 房屋定价 第六章 数据挖掘应用案例 选择 Open File 按钮并选择在上一节中创建的 ARFF 文件

6.5 房屋定价 第六章 数据挖掘应用案例 为了创建模型,单击 Classify 选项卡。第一个步骤是选择想要创建的这个模型,以便 WEKA 知道该如何处理数据以及如何创建一个适当的模型:单击 Choose 按钮,然后扩展 functions 分支。选择 LinearRegression 叶。这会告诉 WEKA 我们想要构建一个回归模型。选择了正确的模型后,WEKA Explorer 应该类似于下图

根据样例数据,反推出房屋售价和几个因素之间的计算公式。 6.5 房屋定价 第六章 数据挖掘应用案例 根据样例数据,反推出房屋售价和几个因素之间的计算公式。

习题: 1.班级内每位同学提供一份隐去姓名的近三个月手机使用情况,包括话费总额,话费构成,包含时间和时长的通话记录(隐去号码),包含时间和时长的上网记录,汇总后。请参考本书中的相关理论和软件,按照数据试着对用户进行分类,预测用户下个月的手机使用情况。

AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台

云创公众号推荐 刘鹏看未来 云计算头条 中国大数据 深度学习世界 云创大数据订阅号 云创大数据服务号 高校大数据与人工智能 微信号:lpoutlook 云计算头条 微信号:chinacloudnj 中国大数据 微信号:cstorbigdata 深度学习世界 微信号:dl-world 云创大数据订阅号 微信号:cStor_cn 云创大数据服务号 微信号:cstorfw 高校大数据与人工智能 微信号:data_AI

手机APP推荐 我的PM2.5 随时随地准确 查看身边的 PM2.5值 同声译 支持26种语言 互译的实时翻 译软件 我的南京 云创大数据为路 况大数据应用提 供技术支持 科技头条 汇聚前沿资讯 的科技情报站

网站推荐 万物云 智能硬件大数据免费托管平台 环境云 环境大数据开放共享平台

感谢聆听