Download presentation
Presentation is loading. Please wait.
1
互联网金融之金融数据挖掘 邹永杰 江西财经大学金融学院
2
大数据介绍 大数据介绍 数据挖掘技术
3
麦肯锡 公司 美国的大数据战略 2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”,旨在提高和改进从海量和复杂数据中获取知识的能力,加速美国在科学和工程领域发明的步伐,增强国家安全。 这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署,由美国国家科学基金会、能源部等6个联邦部门共同投资。 *
4
何谓大数据? 大数据或称巨量数据、海量数据,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理,并整理成为人类所能解读的信息
5
数据大爆炸 ZB EB PB TB 地球上至今总共的数据量: GB 1TB = 1,024 GB 1PB = 1,024 TB
在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据; 在2011 年,这个数字达到了1.8ZB。 而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)! 1TB = 1,024 GB 1PB = 1,024 TB 1EB = 1,024 PB 1ZB = 1,024 EB 1YB = 1,024 ZB 想驾驭这庞大的数据,我们必须了解大数据的特征。 *
6
大数据时代的背景 “大数据”的诞生: 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。 facebook 社交网络 … 淘宝、ebuy 电子商务 微博、Apps 移动互联 21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。 *
8
一天之间,互联网上要发生多少事 2940亿封电子邮件发出,如果是纸质信件,需要花两年时间处理;
200万篇博客在网上发布,相当于《时代》杂志刊发770年的总量; 2.5亿张照片上传至社交网站Facebook,如果都打印出来,摞在一起能有80个埃菲尔铁塔那么高; 86.4万小时视频被上传至视频网站Youtube,相当于不间断播放视频98年; 1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台电脑从公元元年就开始播放这些音乐会,到现在还没完没了地接着放; 谷歌翻译每天处理的文字数量,每天翻译次数达十亿次,相当于一百万册图书,超过了全世界的专业翻译人员一年能够翻译的文字规模; 百度每天的关键词搜索量50亿,谷歌33.3亿; 淘宝天猫双11那一天营业额达191亿人民币。中国小商品城全年成交额才580.03亿元人民币; 累积起来,一天之内产生的信息总量,可以装满1.68亿张DVD光盘。
9
比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值
数据越多越值钱,这个可能也是一个误区。很多公司其实都有很多数据,什么某度,某讯,他们都有很多数据,相比较而言淘宝的商业数据就更有价值 大数据不仅仅是“大” 多大? 至少PB 级 比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值 *
10
大数据的4V特征 体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长
第一V是Variety,海量数据有不同格式,第一种是结构化,我们常见的数据,还有半结据化网页数据,还有非结构化视频音频数据。 能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用. 第二点就是Volume,量比较大,我们有一些用户化每秒就要进入很多数据,很多客户内部都有几批数据,还有下面淘宝都是几PB数据,所以PB化将是比较常态的情况。 非结构化数据的超大规模和增长,占总数据量的80~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍 第三个是Velocity,因为数据化会存在时效性,需要快速处理,并得到结果出来。比如说,一些电商数据,今天的信息不处理没有结果化,将会影响到今天捕获很多商业决策。 1s 是临界点. 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的. 实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一. 重庆抢劫案:周克华 第四个是Value:大量的不相关信息,不经过处理则价值较低,属于价值密度底的数据 海量数据分析非常复杂,使得过去靠单纯易于关于数据库BI已经不是太适合了。所以,可能需要新的创新。 非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 体量Volume 大数据的4V特征 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 多样性Variety 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等) 价值密度Value 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 速度Velocity *
11
大数据比云计算更为落地 商业模式驱动 应用需求驱动 云计算本身也是大数据的一种业务模式
12
云计算与大数据 蓝蓝的天上白云飘 白云下面数据跑
近几年,云计算的概念受到了学术界、商界,甚至政府的热捧,除了亚马逊、微软、IBM、ORACLE、谷歌这些行业巨头之外,很多大公司也纷纷在云计算这个领域上取得了成绩,一时间云计算无处不在。此前,IT沙龙班组也就云计算这个主题进行过两次深入介绍,在这里就不再赘述了。 随着云计算的概念深入人心,另外一个名词也渐渐走入人们的视野:大数据!进入IT时代以来,我们积累了海量的数据,这些数据不断急速增加,给我们的时代带来两个方面的巨变:一方面,在过去没有数据积累的时代无法实现的应用现在终于可以实现;另一方面,从数据匮乏时代到数据泛滥时代的转变,给数据的应用带来新的挑战与困扰,简单的通过搜索引擎获取数据的方式已经不能满足我们千变万化、层出不穷的应用需求,如何从海量数据中高效的获取数据,有效的深加工并最终得到感兴趣的数据变的异常困难。 我认为,云计算与大数据是一对相辅相成的概念,而他们的关系则是静与动的关系:云计算强调的是计算和存储,这是动的概念;而数据是计算的对象,是静的概念。 如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!
13
分布式 “云计算”(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。 ——百度百科 A Availability CAP 理论 一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个 ——Eric Brewer C Consistency P Partition Tolerance 分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。 Brewer在加大伯克利分校获得了计算机科学学士学位,随后在麻省理工学院获得计算机科学硕士和博士学位。32岁时,他拿到了伯克利的终身教授职位。2007年,Brewer教授指出:CAP永远不可能同时满足,提高其中任意两者的同时,必然要牺牲第三者,后来由麻省理工学院的两位科学家证明。这个定理告诉大家,不要再浪费时间去研究如何兼顾了,因为这根本就是不可能的,只能根据具体应用,来决定如何在三者之间进行取舍。CAP理论为很多巨型的数据中心,尤其是现在很多的SNS网站提供了有力的理论指导,比如说Google的BigTable系统就是一个牺牲了A的典型例子。就在提出CAP理论的同一年,Brewer当选美国国家工程院院士,并于次年当选ACM Fellow。
14
传统行业最终都会转变为大数据行业,无论是金融服务业、医药还是制造业。
大数据的应用 —— 未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。 数据的再利用: 由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。 大数据价值链的3大构成:数据本身、技能与思维 其中三者兼具的又谷歌公司,谷歌在刚开始收集数据的时候就已经有多次使用数据的想法。比方说,它的街景采集车手机全球定位系统数据不光是为了创建谷歌地图,也是为了制成全自动汽车以及谷歌眼镜等与实景交汇的产品。 传统行业最终都会转变为大数据行业,无论是金融服务业、医药还是制造业。 《大数据时代》 *
15
通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景
第一个是互联网企业,比如我们有用户做网络广告监测,每天有几百G技术,网络点击数据,他就会去分析这些点击日志来分析,哪些用户在哪些阶段点击广告,从而帮助商户们来判断他投广告是否有价值。 第二是智能电网,比如说,他们一个省有300个用电用户,每隔几分钟会将他们大宗数据发送到后端集群当中,之后集群就会对这些数亿条数据进行分析,来分析一下大概的用电模式,根据用电模式来生产电力,这样能够节省电力资源的浪费。 第三个方面是车联网,车载终端,是每隔几分钟都会上传一些数据到后端数据集群里面,最后会分析这些数据,来判断一下大致路况是什么情况,之后将有价值的路况信息给Push客户端里面,能够帮助客户节省在路上时间。 第四是医疗行业,每个人看病都有病例,如果我们把全国,几千万病例都汇总起来之后进行一些数据分析,数据处理,会找出大致的一些模式,通过这种模式非常容易的帮助医生看病。 第五个是安全领域,在美国比较火,中情局,他们有很多视频数据关于煽动的,还有本拉登一些照片,之后就分析一些哪些煽动助萨达姆,卡札菲,本拉登,除此之外还有一些通过海量分析文本数据从而形成一定程度的AI。 大数据的应用不仅仅是精准营销 通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景 军事 医疗卫生 食品安全 金融服务 消费行业 交通环保 电子商务 气象 *
16
大数据应用案例之娱乐行业 《纸牌屋》Netflix(网飞)并不是任何一个电视台,而是电视台和电影院的平台,是北美最大的付费订阅视频网站。基于其3000万北美用户观看视频时留下的行为数据,预测出凯文·史派西、大卫·芬奇和“BBC出品”三种元素结合在一起的电视剧产品将会大火特火 。此外,Netflix还通过“大数据”观测到另一流行趋势:越来越多的人不再像30年前那样,在固定晚上的固定时刻守在电视机前,等着收看电视剧的最新剧集,而是“攒”起来,直到整季剧情全部播放完毕之后,才选一个自己方便的时间段和地点,在方便的设备(多数是网络设备,如电脑、iPad)上一次性观看。 凯文史派西,大卫芬奇 3000万观众,400万评论,300万搜索
17
大数据应用案例之京东慧眼 通过市场分析知道哪些地区卖哪些产品; 通过用户分析能够确定哪些商品卖给哪些人;
通过商品属性分析确定怎么描述一个商品,人们才爱买; 通过用户消费趋势分析能够了解用户的消费需求。
18
大数据应用案例之淘宝网掘金大数据金融 1.淘宝信用贷款: 淘宝网在聚划算平台推出了一个奇怪的团购“商品”——淘
宝信用贷款。开团不到10 分钟,500 位淘宝卖家就让这一团 购“爆团”。 它是阿里金融旗下专门针对淘宝卖家进行金融支持的贷款产品。淘宝平台通过以卖家在淘宝网上的网络行为数据做一个综合的授信评分,卖家纯凭信用拿贷款,无需抵押物,无需担保人。由于其非常吻合中小卖家的资金需求,且重视信用无担保、抵押的门槛,更加上其申请流程非常便捷,仅需要线上申请,几分钟内就能获贷,被不少卖家戏称为“史上最轻松的贷款”。
19
2.阿里小贷:得益于大数据,它依托阿里巴巴(B2B)、淘宝、支付宝等平台数据,不仅可有效识别和分散风险,提供更有针对性、多样化的服务,而且批量化、流水化的作业使得交易成本大幅下降。
每天,海量的交易和数据在阿里的平台上跑着,阿里通过对商户最近100 天的数据分析,就能知道哪些商户可能存在资金问题,此时的阿里贷款平台就有可能同潜在的贷款对象进行沟通。 通常来说,数据比文字更真实,更能反映一个公司的正常运营情况。通过海量的分析得出企业的经营情况,这就是大数据的应用。在本案例中,正像淘宝信用贷款所体现的那样,这种新型微贷技术不依赖抵押、担保,而是看重企业的信用,同时通过数据的运算来评核企业的信用,这不仅降低了申请贷款的门槛,也极大简化了申请贷款的流程,使其有了完全在互联网上作业的可能性。
20
大数据应用案例之医疗 我国抑郁症发病率为3-5%; 目前全国已有超过2600万抑郁症患者; 地方医院对抑郁症的识别率不到20%;
在过去50年,平均每年28.7万自杀,200万自杀未遂,在自杀人群中63.5%患上抑郁症,只有9%在自杀前到精神科和心理咨询机构就诊。 国内社交媒体数据挖掘公司与哈工大 确定200名患者,其中正确率83%
21
大数据应用案例之红牛 由于广告词,红牛给你一双翅膀。被消费本杰明卡瑞瑟斯告上法庭 红牛同意赔钱,赔偿方式
24小时内访问量达到460人次,系统瘫痪, 赔款金额由10到15美元下降3美元,损失1300万。
22
大数据的市场空间及对社会的贡献
24
机遇与挑战 马云对未来的预测,是建立在对用户行文分析的基础上。“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。” 腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心; *
25
大数据时代没有隐私 爱德华·斯诺登
26
虽然大数据是一个重大问题,真正的问题是让大数据更有意义
自然语言处理是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 机器学习(Machine Learning)研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 虽然大数据是一个重大问题,真正的问题是让大数据更有意义 管理大数据“难”理解大数据“更难” *
27
数据挖掘的概念
28
什么是数据挖掘? 数据挖掘 (从数据中发现知识) 数据挖掘的替换词 一些与“数据挖掘”易混淆的概念
从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 。 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词) 数据挖掘的替换词 数据库中的知识挖掘(KDD)、知识提炼、 数据/模式分析、数据考古、数据捕捞、信息收获等等。 一些与“数据挖掘”易混淆的概念 查询处理. 专家系统或是小型的数学计算/统计程序
29
数据挖掘的应用 数据分析和决策支持 其他的应用 市场分析和管理 风险分析和管理 欺骗检测和异常模式的监测 (孤立点)
目标市场, 客户关系管理 ,市场占有量分析, 交叉销售, 市场分割 风险分析和管理 风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析 欺骗检测和异常模式的监测 (孤立点) 其他的应用 文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘 流数据挖掘 DNA 和生物数据分析
30
数据挖掘应用——市场分析和管理(1) 数据从那里来? 目标市场 交叉市场分析
信用卡交易, 会员卡, 商家的优惠卷, 消费者投诉电话, 公众生活方式研究 目标市场 构建一系列的“客户群模型”,这些顾客具有相同特征: 兴趣爱好, 收入水平, 消费习惯,等等 确定顾客的购买模式 交叉市场分析 货物销售之间的相互联系和相关性,以及基于这种联系上的预测
31
数据挖掘应用——市场分析和管理(2) 顾客分析 哪类顾客购买那种商品 (聚类分析或分类预测) 客户需求分析 确定适合不同顾客的最佳商品
预测何种因素能够吸引新顾客 提供概要信息 多维度的综合报告 统计概要信息 (数据的集中趋势和变化)
32
数据挖掘应用——公司分析和风险管理 财务计划 资源计划 竞争 现金流转分析和预测 交叉区域分析和时间序列分析(财务资金比率,趋势分析等等)
总结和比较资源和花费 竞争 对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程 将定价策略应用于竞争更激烈的市场中
33
数据挖掘应用——欺诈行为检测和异常模式的发现(4)
方法: 对欺骗行为进行聚类和建模,并进行孤立点分析 应用: 卫生保健、零售业、信用卡服务、电信等 汽车保险: 相撞事件的分析 洗钱: 发现可疑的货币交易行为 医疗保险 职业病人, 医生以及相关数据分析 不必要的或相关的测试 电信: 电话呼叫欺骗行为 电话呼叫模型: 呼叫目的地,持续时间,日或周呼叫次数. 分析该模型发现与期待标准的偏差 零售产业 分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的 反恐怖主义
34
数据挖掘模式结构与数据库
35
数据挖掘: 数据库中的知识挖掘(KDD) Knowledge 数据挖掘——知识挖掘的核心 模式评估 数据挖掘 任务相关数据 选择 数据仓库
数据清理 数据集成 数据库
36
知识挖掘的步骤 了解应用领域,了解相关的知识和应用的目标 创建目标数据集: 选择数据
数据清理和预处理: (这个可能要占全过程60%的工作量) 数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表示。 选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等. 选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示 可视化,转换,消除冗余模式等等 运用发现的知识
37
在线分析处理(OLAP),多维分析(MDA)
数据挖掘的金字塔结构 支持商业决策的潜能不断增长 最终用户 决策支持 数据表示 商业分析家 王灿 可视化技术 数据挖掘 数据分析家 信息发现 数据探索 统计分析,查询和报告 数据仓库/数据市场 在线分析处理(OLAP),多维分析(MDA) DBA 数据源 论文, 文件, 信息提供商, 数据库系统, 联机事务处理系统(OLTP)
38
体系结构:典型数据挖掘系统 图形用户界面 模式评估 数据挖掘引擎 知识库 数据库或数据仓库服务器 数据清洗 数据集成 过滤 数据库 数据仓库
39
数据库:在何种数据上进行数据挖掘 关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空间数据库 时间数据库和时间序列数据库 流数据
多媒体数据库 面向对象数据库和对象-关系数据库 文本数据库和万维网(WWW)
40
数据挖掘方法
41
数据挖掘的主要方法 (1) 概念/类描述: 特性化和区分 关联分析
归纳,总结和对比数据的特性。比如:对每个月来网站购物超过5000元的顾客的描述:40-50岁,有正常职业,信用程度良好。 关联分析 发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。 广泛的用于购物篮或事务数据分析。
42
数据挖掘的主要方法 (2) 聚类分析 将类似的数据归类到一起,形成一个新的类别进行分析。 最大化类内的相似性和最小化类间的相似性 分类和预测
通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。 比如:按气候将国家分类,按汽油消耗定额将汽车分类 导出模型的表示: 判定树、分类规则、神经网络 可以用来预报某些未知的或丢失的数字值 聚类分析 将类似的数据归类到一起,形成一个新的类别进行分析。 最大化类内的相似性和最小化类间的相似性
43
数据挖掘的主要方法(3) 孤立点分析 趋势和演变分析 其他定向模式或统计分析 趋势和偏差: 回归分析 序列模式匹配:周期性分析
孤立点:一些与数据的一般行为或模型不一致的孤立数据 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。 趋势和演变分析 描述行为随时间变化的对象的发展规律或趋势 趋势和偏差: 回归分析 序列模式匹配:周期性分析 基于类似性的分析 其他定向模式或统计分析
44
分类 VS. 预测 分类: 预测: 典型应用 预测分类标号(或离散值) 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据
建立连续函数值模型,比如预测空缺值 典型应用 信誉证实 目标市场 医疗诊断 性能预测
45
数据分类——一个两步过程 第一步,建立一个模型,描述预定数据类集和概念集 第二步,使用模型,对将来的或未知的对象进行分类
假定每个元组属于一个预定义的类,由一个类标号属性确定 基本概念 训练数据集:由为建立模型而被分析的数据元组形成 训练样本:训练数据集中的单个样本(元组) 学习模型可以用分类规则、判定树或数学公式的形式提供 第二步,使用模型,对将来的或未知的对象进行分类 首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学习模型类预测比较 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 测试集要独立于训练样本集,否则会出现“过分适应数据”的情况
46
准备分类和预测的数据 通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性 数据清理 相关性分析 数据变换
消除或减少噪声,处理空缺值,从而减少学习时的混乱 相关性分析 数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确 数据变换 可以将数据概化到较高层概念,或将数据进行规范化
47
比较分类方法 使用下列标准比较分类和预测方法 预测的准确率:模型正确预测新数据的类编号的能力 速度:产生和使用模型的计算花销
健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力 可伸缩性:对大量数据,有效的构建模型的能力 可解释性:学习模型提供的理解和洞察的层次
48
用判定树归纳分类 什么是判定树? 判定树的生成由两个阶段组成 判定树的使用:对未知样本进行分类 类似于流程图的树结构
每个内部节点表示在一个属性上的测试 每个分枝代表一个测试输出 每个树叶节点代表类或类分布 判定树的生成由两个阶段组成 判定树构建 开始时,所有的训练样本都在根节点 递归的通过选定的属性,来划分样本 (必须是离散值) 树剪枝 许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝 判定树的使用:对未知样本进行分类 通过将样本的属性值与判定树相比较
49
概念“buys_computer”的判定树
age? <=30 overcast 30..40 >40 student? yes credit rating? no yes excellent fair no yes no yes
50
判定归纳树算法 判定归纳树算法(一个贪心算法) 递归划分步骤停止的条件 自顶向下的分治方式构造判定树 树以代表训练样本的单个根节点开始
使用分类属性(如果是量化属性,则需先进行离散化) 递归的通过选择相应的测试属性,来划分样本,一旦一个属性出现在一个节点上,就不在该节点的任何后代上出现 测试属性是根据某种启发信息或者是统计信息来进行选择 递归划分步骤停止的条件 给定节点的所有样本属于同一类 没有剩余属性可以用来进一步划分样本——使用多数表决 没有剩余的样本
51
由判定树提取分类规则 可以提取判定树表示的知识,并以IF-THEN形式的分类规则表示 对从根到树叶的每条路径创建一个规则
示例: IF age = “<=30” AND student = “no” THEN buys_computer = “no” IF age = “<=30” AND student = “yes” THEN buys_computer = “yes” IF age = “31…40” THEN buys_computer = “yes” IF age = “>40” AND credit_rating = “excellent” THEN buys_computer = “yes” IF age = “>40” AND credit_rating = “fair” THEN buys_computer = “no”
52
其他分类方法 k-最临近分类 基于案例的推理 遗传算法 粗糙集方法 模糊集方法
给定一个未知样本,k-最临近分类法搜索模式空间,找出最接近未知样本的k个训练样本;然后使用k个最临近者中最公共的类来预测当前样本的类标号 基于案例的推理 样本或案例使用复杂的符号表示,对于新案例,先检测是否存在同样的训练案例;如果找不到,则搜索类似的训练案例 医学中,疾病诊断 金融中信用评级,客户分类 遗传算法 结合生物进化思想的算法 粗糙集方法 模糊集方法 允许在分类规则中定义“模糊的”临界值或边界
53
什么是预测? 预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。 预测和分类的异同 相同点 不同点 两者都需要构建模型
都用模型来估计未知值 预测当中主要的估计方法是回归分析 线性回归和多元回归 非线性回归 不同点 分类法主要是用来预测类标号(分类属性值) 预测法主要是用来估计连续值(量化属性值)
54
线性回归、多元回归和非线性回归 线性回归:Y = + X 多元回归:Y = + 1X1 + 2 X2
其中和是回归系数,可以根据给定的数据点,通过最小二乘法来求得 多元回归:Y = + 1X1 + 2 X2 线性回归的扩展,设计多个预测变量,可以用最小二乘法求得上式中的,1 和2 非线性回归:Y = + 1X1 + 2 X22+ 3 X33 对不呈线性依赖的数据建模 使用多项式回归建模方法,然后进行变量变换,将非线性模型转换为线性模型,然后用最小二乘法求解
55
评估分类法的准确性 导出分类法后,再使用训练数据评估分类法,可能错误的导致乐观的估计 保持方法 k-折交叉确认
给定数据随机划分为两个集合:训练集(2/3)和测试集(1/3) 训练集导出分类法,测试集对其准确性进行评估 随机子选样:保持方法的一个变形,将保持方法重复k次,然后取准确率的平均值 k-折交叉确认 初始数据被划分为k个不相交的,大小大致相同的子集S1,S2…Sk 进行k次训练和测试,第i次时,以Si做测试集,其他做训练集 准确率为k次迭代正确分类数除以初始数据集样本总数
56
回归 y Y1 Y1’ y = x + 1 X1 x
57
什么是聚类分析? 聚类(簇):数据对象的集合 聚类分析 聚类是一种无指导的学习:没有预定义的类编号 聚类分析的数据挖掘功能
在同一个聚类(簇)中的对象彼此相似 不同簇中的对象则相异 聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 聚类是一种无指导的学习:没有预定义的类编号 聚类分析的数据挖掘功能 作为一个独立的工具来获得数据分布的情况 作为其他算法(如:特征和分类)的预处理步骤
58
聚类分析的典型应用 模式识别 空间数据分析 经济学(尤其是市场研究) 万维网
在地理信息系统(GIS)系统中,对相似区域进行聚类,产生主题地图 检测空间聚类,并给出它们在空间数据挖掘中的解释 图像处理 经济学(尤其是市场研究) 万维网 对WEB上的文档进行分类 对WEB日志的数据进行聚类,以发现相同的用户访问模式
59
聚类分析应用实例 市场营销:帮市场分析人员从客户基本库中发现不同的客户群,从而可以对不同的客户群采用不同的营销策略
土地使用:在地球监测数据库中,发现相同的土地使用区域 保险业:发现汽车保险中索赔率较高的客户群 城市规划:根据房子的类型、价值和地理位置对其进行分组 地震研究:将观测到的震中点沿板块断裂带进行聚类,得出地震高危区
60
什么是好的聚类分析? 一个好的聚类分析方法会产生高质量的聚类
高类内相似度 低类间相似度 作为统计学的一个分支,聚类分析的研究主要是基于距离的聚类;一个高质量的聚类分析结果,将取决于所使用的聚类方法 聚类方法所使用的相似性度量和方法的实施 方法发现隐藏模式的能力
61
聚类分析中的数据类型 许多基于内存的聚类算法采用以下两种数据结构 数据矩阵:用p个变量来表示n个对象
也叫二模矩阵,行与列代表不同实体 相异度矩阵:存储n个对象两两之间的近似性 也叫单模矩阵,行和列代表相同的实体
62
相异度计算 许多聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。
相异度d(i,j)的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括: 区间标度变量 二元变量 标称型、序数型和比例标度型变量 混合类型的变量
63
聚类
64
一些金融数据挖掘应用例子 银行数据挖掘(汇丰银行采用SAS 管理风险) 贷款审批 信用评级 客户细分 保理业务
证券数据挖掘(IBM 用大数据预测股价走势) 市场数据预测 投资组合 程序化交易 保险领域 欺诈监测 智能定损
65
作业 聚类分析 关联分析 数据规范化 数据挖掘
Similar presentations