挖掘原语,语言和体系结构 数据挖掘原语 数据挖掘语言 数据挖掘系统体系结构 总结.

Slides:



Advertisements
Similar presentations
報告者:曹仁傑 2016/8/291.  簡介  研究方法  遊戲設計  實驗結果與分析  結論 2016/8/292.
Advertisements

企業入口網站(EIP)/ 應用系統(ERP, SCM, CRM)
第6章 数据库管理软件Access 年秋.
資料採礦與商業智慧 第十六章 線上分析處理.
顧客交易紀錄分析實務 概述 26.2 資料分析的過程 26.3 顧客交易紀錄分析說明 26.4 實作一、顧客活動剖析實務演練
数据库原理及应用 《数据库原理及应用》课程组 荆楚理工学院.
第5章 关系数据库标准语言SQL 主讲:张丽芳.
数据分析及研究方法 ——以如何从事宏观经济课题研究为例
第九章 企業資源規劃與顧客關係管理系統.
第2讲 Transact-SQL语言.
第六章 資料倉儲與採礦技術 6.1 資料倉儲與採礦定義 6.2 資料採礦之步驟與技術分類 6.3 資料採礦在顧客關係管理之應用
第8章 SELECT敘述的基本查詢 8-1 SELECT查詢指令 8-2 SELECT子句 8-3 FROM子句 8-4 WHERE子句
第4章 关系数据库标准语言SQL 4.1 SQL语言概述 4.2 SQL数据查询功能 4.3 SQL数据操作功能 4.4 SQL数据定义功能.
云计算业务应用-数据挖掘.
資料庫 (Database) SQL Server 2008實作
数据库概述 简而言之,数据库(DataBase)就是一个存储数据的仓库。为了方便数据的存储和管理,它将数据按照特定的规律存储在磁盘上。通过数据库管理系统,可以有效的组织和管理存储在数据库中的数据。如今,已经存在了Oracle、SQL Server、MySQL等诸多优秀的数据库。在这一章中将讲解的内容包括。
文科计算机小公共课规划教材 Access 程序设计.
CH3 關聯規則 授課老師:簡禎富 講座教授 簡禎富、許嘉裕©2014 著作權所有.
資料倉儲與資料前置處理 報告者:謝仁瑋.
信用卡資料庫管理 與顧客服務 玉山銀行 陳炳良 2002年09月
資料庫設計 Database Design.
地理信息系统导论 第一讲 GIS概述.
國內發展PACS之回顧與展望 黃興進 彭振興 連俊瑋 國立中正大學資訊管理學系 國立中正大學醫療資訊管理研究中心
数据仓库与数据挖掘 复习.
資訊管理 第九章 資料採礦.
關聯式資料庫.
第六章 學習SQL語言.
9 SELECT敘述的進階查詢 9-1 SQL的多資料表查詢 9-2 合併查詢 9-3 集合運算查詢 9-4 子查詢
資料庫系統 Database Systems
線上分析處理、 資料採礦與 Analysis Services
金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程
運籌管理 Chapter 12 資訊科技與運籌管理電子化 祝天雄 博士 99年12月 日.
資料庫安全 (Database Security)
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
給地球一個美麗環境 P-Manage (mFP Charging ) 2011
第4章(2) 空间数据库 —关系数据库 北京建筑工程学院 王文宇.
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
第5章 資料倉儲的資料建置.
数据挖掘: 概念和技术 — Chapter 6 — ©张晓辉 复旦大学 (国际)数据库研究中心
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
数据仓库 一、基本概念 随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:提供决策支持。
Data Pre-Processing … What about your data?.
第十七章 資料庫SQL 17-1 SELECT 17-2 INSERT 17-3 UPDATE 17-4 DELETE.
第十三章 網路行銷重要議題 網際網路行銷 Web 2.0.
永續運輸資訊系統 -交通事故資料分析研究 周家慶 高級分析師 交通部運輸研究所.
資料庫管理 Homework #4 楊立偉教授 台灣大學工管系 2016.
基于类关联规则的分类 Classification Based on Class-Association Rules
可能受益的商业活动 客户保留 目标营销 欺诈检测 购物篮分析 客户细分 客户忠诚度 信用打分 信用风险评估 营销组合管理和评估 盈利能力分析
SAP Certified FI Consultant
成品检查报告 Inspection Report
資料庫系統 李翊豪 2017/12/21 Reference
3.2 Mysql 命令行 1 查看数据库 SHOW DATABASES; 2 创建一个数据库test1 CREATE DATABASE test1; 3 选择你所创建的数据库 USE test1; (按回车键出现Database changed 时说明操作成功!) 4 查看现在的数据库中存在什么表.
3. SQL语言的应用 3.1 SQL历史和优点 3.2 数据查询 3.3 数据操纵.
查询与视图 蔡海洋.
SQL查询语句 蔡海洋.
第十章 線上行銷研究.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
光輪2000升級 升級SQL Server Analysis Services 2005
A Data Mining Algorithm for Generalized Web Prefetching
第十二章 顧客關係管理.
8 SELECT敘述的基本查詢 8-1 SELECT查詢指令 8-2 SELECT子句 8-3 FROM子句 8-4 WHERE子句
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.
企業導入客戶關係管理(CRM) 建置需求與期望
数据分析工具 第10节.
模块六 数据库管理软件——Access 2010.
資料庫應用與實作 一到六章重點、習題.
第4章 数据查询.
Web安全基础教程
Presentation transcript:

挖掘原语,语言和体系结构 数据挖掘原语 数据挖掘语言 数据挖掘系统体系结构 总结

挖掘相关的数据 挖掘的知识类型 背景知识 模式的兴趣度量 结果的表示与可视化 数据挖掘原语划分 挖掘相关的数据 挖掘的知识类型 背景知识 模式的兴趣度量 结果的表示与可视化 aaa

任务相关数据 数据库(或数据仓库)名称 数据库表(或数据仓库的立方体) 数据选择条件 有关的属性(或维) 数据分组的标准 例如:AllElectronics_db 数据库表(或数据仓库的立方体) 例如:表item,customer,purchase,items_sold 数据选择条件 例如:选取本年度加拿大地区购买商品的数据 选取条件可能在概念上层次高于DB/DW的数据 如:”type=home entertainment”,DB/DW中数据{tv,cd player,vcr} 有关的属性(或维) 例如:item表的name,price属性;customer表的income,age属性。 系统应具备自动选取相关属性的机制,比如通过评估各属性与特定操作的相关程度。 数据分组的标准 例如:根据日期进行分组

挖掘的知识类型 描述(characterization) 区别分析(discrimination) 关联(association) 分类/预测(classification/prediction) 聚类(clustering)

例: 用户如果想发掘AllElectronics数据库中用户的购买习惯,可能会选择下面关联规则: P(X:customer,W)^Q(X,Y)=>buys(X,Z) X是customer表的主键,P,Q是谓词变量(在相关数据中定义),W,Y,Z是目标变量。可能的挖掘结果是: age(X,”30…39”) ^ income (X,”40k…49k”) => buys(X,”VCR”) [2.2%,60%] accupation(X,”student”)^age(X,”20…29”)=>buys(X,”computer”) [1.4%,70%]

背景知识:概念层次 概念层次 用户对数据间关系的预测 模式层次(schema hierarchy) 例:Street<city<province_or_state<country 集合-分组层次(set-grouping hierarchy) 例: {young,middle_aged,senior}<all(age) {20-39} = young, {40-59} = middle_aged 基于操作层次(operation-derived hierarchy) 包括信息解码,复杂数据对象的信息提取,数据聚类,数据分布分析算法等 例: email address: login-name < department < university < country 基于规则层次(rule-based hierarchy) 例: low_profit_margin (X) <= price(X, P1) and cost (X, P2) and (P1 - P2) < $50 用户对数据间关系的预测 可以用于评价挖掘模式的兴趣度量

模式兴趣度量 简洁性(simplicity) 确定性(certainty) 有用性(utility) 新颖程度(novelty) 如:(关联) 规则长度, (决策) 决策树规模大小 确定性(certainty) 如:confidence, P(A|B) = n(A and B)/ n (B), classification reliability or accuracy ( also known as rule reliability , rule strength, rule quality, certainty factor, discriminating weight )等. 有用性(utility) 如:support (association),s(A=>B)=n(A nd B)/n(all), noise threshold (description) 新颖程度(novelty) 如:not previously known, surprising (used to remove redundant rules, e.g., Canada vs. Vancouver rule implication support ratio

结果模式的可视化 挖掘系统应能够用多种形式来显示发掘出来的模式 挖掘系统应能够支持挖掘结果的多种操作 如:规则,表,报表,图表,图,决策数和立方体 挖掘系统应能够支持挖掘结果的多种操作 如:drill-down , roll-up , slicing , dicing ,rotation…

挖掘原语,语言和体系结构 数据挖掘原语 数据挖掘语言 数据挖掘系统体系结构 总结

DMQL——一个数据挖掘语言 动机 设计 为了能提供交互式数据挖掘能力 通过提供一个类似SQL的语言 希望能像SQL语言一样成为挖掘标准语言 希望成为系统开发和演化(evolution)的基础 希望促进信息交换,技术转移,商业化并获得广泛承认 设计 DMQL 在前面介绍的挖掘原语基础之上进行设计

任务相关数据的语法表示 use database <database_name>, or use data warehouse <data_warehouse_name> from <relation(s)/cube(s)> where [<condition>] in relevance to <att_or_dim_list> order by <order_list> group by <grouping_list> having <condition>

任务相关数据语法表示(续) 例:如果挖掘AllElectronics的加拿大顾客经常购买的商品之间的关联,针对顾客不同收入和年龄,并且数据用购买日期进行分组。挖掘相关数据可以写成: use database AllElectronics_db in relevance to I.name , I.price , C.income , C.age from customer C , item I , purchase P , item_sold S where I.item_ID=S.item_ID and S.trans_ID=P.trans_ID and P.cust_ID=C.cust_ID group by P.date

挖掘知识类型的语法 <Mine_Knowledge_Specificaton>::=<Mine_Char> | <Mine_Discri> | <Mine_Assoc> | <Mine_Class> | <Mine_Pred> <Mine_Char>::= Mine characterization [as <pattern_name>] analyze <meansure(s)> 例:mine characteristics as customerPurchasing analyze count% <Mine_Discri>::=Mine comparison [as <pattern_name>] for <target_class> where <target_condition> { versus <contrast_class_i> where <contrast_condition_i>} analyze <measure(s)> 例:mine comparison as purchaseGroups for bigSpenders where avg(I.price) ≥$100 analyze count versus budgetSpenders where avg(I.price),$100

挖掘知识类型的语法(续) <Mine_assoc>::=mine association [as<pattern_name>] [matching <metapattern>] 例:mine associations as buyingHabits matching P(X:customer,W)^Q(X,Y)=>buys(X,Z) <Mine_class>::=mine classification [as <pattern_name>] analyze <classifying_attribute_or_dimention> 例: mine classification as classifyingCustomerCreditRating analyze credit_info <Mine_predi>::=Mine prediction [as <pattern_name>] analyze <prediction_attribute_or_dimention> {set { attribute_or_dimention_i>=<value_i>}} 例:mine prediction as predictItemPrice analyze price set category = “TV” and brand=“SONY”

概念层次语法 语法: Use hierarchy <hierarchy> for <attribute_or_dimention > 不同概念层次采用不同定义方式 模式概念层次 define hierarchy time_hierarchy on date as [date,month quarter,year] 集合-分组概念层次 define hierarchy age_hierarchy for age on customer as level1: {young, middle_aged, senior} < level0: all level2: {20, ..., 39} < level1: young level2: {40, ..., 59} < level1: middle_aged level2: {60, ..., 89} < level1: senior

概念层次语法(续) 基于操作概念模式(operation-derived hierarchies) define hierarchy age_hierarchy for age on customer as {age_category(1), ..., age_category(5)} := cluster(default, age, 5) < all(age) 基于规则概念模式(rule-based hierarchies) define hierarchy profit_margin_hierarchy on item as level_1: low_profit_margin < level_0: all if (price - cost)< $50 level_1: medium-profit_margin < level_0: all if ((price - cost) > $50) and ((price - cost) <= $250)) level_1: high_profit_margin < level_0: all if (price - cost) > $250

兴趣度量语法 语法: with <interest_measure_name>  threshold = threshold_value 例: with support threshold = 0.05 with confidence threshold = 0.7 

挖掘知识表示语法 display as <result_form> 用户指定显示方法 为在不同概念层次上观察结果: Multilevel_Manipulation  ::=   roll up on <attribute_or_dimension> | drill down on <attribute_or_dimension> | add <attribute_or_dimension> | drop <attribute_or_dimension>

一个完整的DMQL语句 use database AllElectronics_db use hierarchy location_hierarchy for B.address mine characteristics as customerPurchasing analyze count% in relevance to C.age , I.type , I.place_made from customer C, item I , purchases P , items_sold S , works_at W , branch B where I.item_ID = S.item_ID and S.trans_ID = P.trans_ID and P.cust_ID = C.cust_ID and P.method_paid = ``AmEx'' and P.empl_ID = W.empl_ID and W.branch_ID = B.branch_ID and B.address = ``Canada" and I.price >= 100 with noise threshold = 0.05 display as table

其它数据挖掘语言 关联规则语言 OLEDB for DM (Microsoft’2000) MSQL (Imielinski & Virmani’99) MineRule (Meo Psaila and Ceri’96) Query flocks 基于Datalog 语法 (Tsur et al’98) OLEDB for DM (Microsoft’2000) 和 OLE DB, OLE DB for OLAP一起致力于DB,DW,DM的标准化 到2000年3月止,已经完成了predictive modeling( classification & Prediction ), clustering,还未包含 characterization, discrimination , association modeling 等。 CRISP-DM (CRoss-Industry Standard Process for Data Mining) 是一个国际性项目,包含数据库公司,数据仓库公司,用户公司(user companies) 目的在于提供有效数据挖掘的平台和过程结构(process structure) 强调运用数据挖掘技术来解决商业问题

挖掘原语,语言和体系结构 数据挖掘原语 数据挖掘语言 数据挖掘系统体系结构 总结

数据挖掘系统体系结构 数据挖掘系统与 DB/DW 系统的耦合程度 零耦合—用文件作为数据源和存放结果数据,不推荐 松散耦合 用DB/DW作数据源,查询结果写入文件或DB/DW;但不使用DB/DW的提供的数据结构和查询优化方法。 半紧耦合—提升挖掘系统性能 部分挖掘原语在DB/DW中实现,如sorting, indexing, aggregation , histogram analysis, multiway join, precomputation of some statistic functions such as count ,sum,max,min,standard deviation. 紧耦合—一个统一的信息处理环境 DM 被集成到DB/DW系统,作为信息系统的一个组成部分;并利用DB/DW的数据结构,索引模式查询处理过程对挖掘查询进行优化。

挖掘原语,语言和体系结构 数据挖掘原语 数据挖掘语言 数据挖掘系统体系结构 总结

总结 数据挖掘查询原语 数据挖掘查询语言 数据挖掘系统体系结构 任务相关数据 挖掘知识类型 背景知识 兴趣度量 知识表示和可视化 DMQL, MS/OLEDB for DM等. 数据挖掘系统体系结构 零耦合,松散耦合,半紧密耦合,紧密耦合

谢谢!报告人:李炎 联系方式:michaelli@eastday.com