第十二章、預測模式標記語言PMML(Predict Model Markup Language)

Slides:



Advertisements
Similar presentations
陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
Advertisements

庄文忠 副教授 世新大学行政管理学系 2012/7/6 SPSS 之应用 ( 庄文忠副教授 ) 1 SPSS 的环境与基本操作.
教育技术装备统计系统 使用培训 教育部基础教育司 教育部教育管理信息中心.
數位典藏聯合目錄計畫 執行經驗談 主講人:范紀文.
以XML可延伸式標注語言建立文章標誌系統研究- 以蘇軾詩為範圍
美味料理 5223汪芮臣.
数据库原理及应用(ORACLE)实用教程
An Introduction to Database System
MRP到ERPII之演進 1970年代 1980年代 1990年代 2000年代 企業應用軟體 MRP MRPII ERP EERP
第一章 会计信息系统 第一节 计算机会计概述.
系統分析與設計 第九章 資料設計.
第五章 資訊科技基礎建設與新興科技.
数据分析及研究方法 ——以如何从事宏观经济课题研究为例
10-1 資料庫管理系統簡介 10-2 關聯式資料模式和查詢語言 10-3 Access 簡介 10-4 XML 簡介
Some Knowledge of Machine Learning(1)
第六章 資料倉儲與採礦技術 6.1 資料倉儲與採礦定義 6.2 資料採礦之步驟與技術分類 6.3 資料採礦在顧客關係管理之應用
METAEDGE Corporation Taiwan
通訊科技教育改進計畫 「網路應用與服務組」 行動電子商務課程 XML之簡介.
資料探勘(Data Mining)及其應用之介紹
手持裝置應用系統之設計 與未來發展 黃有評 大同大學 資訊工程系.
資料庫設計 Database Design.
数据库技术及应用 华中科技大学管理学院 课程网址:
数据仓库与数据挖掘 复习.
計算機概論 蘇木春 中央大學資工系.
資訊管理 第九章 資料採礦.
線上分析處理、 資料採礦與 Analysis Services
植生工程植材選用決策支援系統 指導:錢滄海 授課:林俐玲 學生:楊孟叡.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
第二章 資訊管理的應用系統.
从UNIX到Windows的 电信软件移植实践
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
統計套裝軟體 輔大統計資訊系 黃孝雲.
運籌管理 Chapter 12 資訊科技與運籌管理電子化 祝天雄 博士 99年12月 日.
彰化縣政府補助辦理網頁設計資料庫應用班 資料庫簡介 建國技術學院資管系 饒瑞佶.
第 9 章 基本的資料探勘、線上分析處理、資訊呈現.
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
第十二章、EPCglobal Network
JAVA程序设计 第5章 深入理解JAVA语言----补充.
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
Data Pre-Processing … What about your data?.
XML Scheam 也是用來驗證XML文件的驗證語法.
SPSS-概述與資料處理 輔大統計資訊系 黃孝雲.
CH03 資訊管理的智慧觀點:技術篇.
XML基礎課程 5 數位芝麻網路公司 XML講師:蔡斐婷.
永續運輸資訊系統 -交通事故資料分析研究 周家慶 高級分析師 交通部運輸研究所.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
網路安全技術 OSI七層 學生:A 郭瀝婷 指導教授:梁明章.
可能受益的商业活动 客户保留 目标营销 欺诈检测 购物篮分析 客户细分 客户忠诚度 信用打分 信用风险评估 营销组合管理和评估 盈利能力分析
2/24/2019 5:40 AM © 2009 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered.
Study for Specification of EPG EPG规范研究
此簡報可能會牽涉到聽眾的討論活動,也就是所謂的執行項目。因此在進行簡報時﹐可充份利用 PowerPoint 來記錄這些執行項目:


张孝祥IT课堂 -深入体验Java Web开发内幕
计算机文化 第7讲:数据库技术 王哲 河南中医药大学信息技术学院.
計算機程式 授課教師:廖婉君教授 第六單元 Arrays
SOA模型设计 杨子 2009/09/30.
從 ER 到 Logical Schema ──兼談Schema Integration
第十章 線上行銷研究.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
第十二章 顧客關係管理.
管理心理学 职业经理人心理素养提升 讲师:孙阳.
IEEM 5352 Enterprise Integration
SAP 架構及前端軟體安裝 Logical View of the SAP System SAP Frontend 7.1安裝 SAP登入
2014Fall 資訊模式 資料庫和資料模型 國立中央大學 資訊管理系 范錚強 updated 中央大學。范錚強.
陳昭珍 國立臺灣師範大學圖書資訊學研究所副教授
Gaussian Process Ruohua Shi Meeting
西南科技大学网络教育系列课程 动态网页设计(JSP) 补充 JSP操作XML文件.
Presentation transcript:

第十二章、預測模式標記語言PMML(Predict Model Markup Language) 資料探勘 資料探勘的技術 PMML的元件 PMML DTD

何謂PMML 是一種以XML為標準的標記語言 用來表達資料探勘(Data Mining)的結果 由於是以XML為標準,所以具有所有XML所具備的優點 簡單性及跨平台開放性 具延伸性及自我描述性 分離資料儲存及呈現方式

何謂PMML(續) 是由國際資料探勘協會(Nation Center for Data Mining)所推行的標準 相關網址:www.dmg.org 目前已有許多相關的資料探勘標準 DMG PMML OMG CWM DM SQL/MM Part 6 for Data Mining JSR-073 Java Data Mining API Microsoft OLE DB for Data Mining

Data Mining Group PMML Version 1.1相關團體: Angoss, IBM, Magnify, Microsoft, NCR, Oracle, SPSS, University of Illinois at Chicago Focused group to expedite process PMML Version 1.2 包含Xchange,和其它部份 Open to any qualified vendor selling data mining products Augmented by experts reviewers 屬於xml.org組織所負責的一部份

PMML的特點 PMML可以描述資料探勘及統計模式的標記語言 PMML 1.0可以描述大部份的模式(Model),不是只有預測模式 像是群組分類、關聯規則等等… PMML可以用來表達MetaData的資料及參數 應用軟體可以使用資料探勘的模式 可以表達資料探勘模式

PMML的特點(續) Open standard for Data Mining Models Not is concerned with the process of creating a model Provides independence from application, platform, and operating system Simplifies use of data mining models by other applications (consumers of data mining models)

資料探勘 資料探勘的工作(Data Mining)是近年來資料庫應用領域中,相當熱門的議題。Data Mining是一個浮現中的新領域。在範圍和定義上、推理和期望上有一些不同。挖掘的資訊和知識從巨大的資料庫而來,它被許多研究者在資料庫系統和機器學習當作關鍵研究議題,而且也被企業體當作主要利基的重要所在。有許多不同領域的專家,對Data Mining展現出極大興趣,例如在資訊服務業中,浮現一些應用,如在Internet之資料倉儲和線上服務,並且增加企業的許多生機。

資料探勘(續) 所謂Data Mining就是從資料中發掘資訊或知識。目前已被許多研究人員視為結合資料庫系統與機器學習技術的重要領域,許多產業界人士也認為此領域是一項增加各企業潛能的重要指標。此領域蓬勃發展的原因:現代的企業體經常蒐集了大量資料,包括市場、客戶、供應商、競爭對手以及未來趨勢等重要資訊,但是資訊超載與無結構化,使得企業決策單位無法有效利用現存的資訊,甚至使決策行為產生混亂與誤用。如果能透過資料發掘技術,從巨量的資料庫中,發掘出不同的資訊與知識出來,作為決策支援之用,必能產生企業的競爭優勢。

資料探勘的功能 ‧分類(classification) ‧推估(estimation) ‧預測(prediction) ‧關聯分組(affinity grouping) ‧同質分組(clustering)

資料探勘的技術 關聯規則分析(Association Rule) 自動群集偵測(Automatic Cluster Detection) 決策樹(Decision Tree) 類神經網路(artificial neural network) 遺傳基因演算法(Genetic Algorithm) 即時線上分析(Online Analytical Processing)

PMML的元件(v1.1) Schemas Infrastructure Models Data dictionary (data schema, including outliers, missing values) Mining schema Infrastructure Univariate statistics Normalization and transformation (very basic) Models

PMML的模式(v1.1) Polynomial regression General regression Trees Center based clusters Density based clusters Associations Neural nets more to be added in v1.2

範例: PMML (v1.1) <TreeModel modelName="golfing"> <MiningSchema> <MiningField name="temperature"/> <MiningField name="humidity"/> ... </MiningSchema> <Node score="play"> <Predicate field="outlook" operator="equal" value="sunny"/> <Node score="play"> <CompoundPredicate booleanOperator="and" > <Predicate field="temperature operator="lessThan" value="90F" /> <Predicate field="temperature" operator="greaterThan" value="50F" />

PMML DTD_v1_1 <?xml version='1.0' encoding='ISO-8859-1' ?> <!ENTITY % A-PMML-MODEL '(TreeModel | NeuralNetwork | ClusteringModel | RegressionModel | GeneralRegressionModel | AssociationModel )' > <!ELEMENT PMML ( Header, DataDictionary, (%A-PMML-MODEL;)+, Extension* ) > <!ATTLIST PMML version CDATA #REQUIRED> <!ELEMENT Extension ANY > <!ATTLIST Extension extender CDATA # IMPLIED name CDATA # IMPLIED value CDATA # IMPLIED >

PMML DTD_v1_1(續) <!ENTITY % NUMBER "CDATA" > <!ENTITY % INT-NUMBER "CDATA"> <!-- content must be an integer, no fractions or exponent --> <!ENTITY % REAL-NUMBER "CDATA"> <!-- content can be any number covers C/C++ types 'float','long','double' scientific notation, eg 1.23e4, is allowed --> <!ENTITY % PROB-NUMBER "CDATA"> <!-- a REAL-NUMBER between 0.0 and 1.0 usually describing a probability --> <!ENTITY % PERCENTAGE-NUMBER "CDATA"> <!-- a REAL-NUMBER between 0.0 and 100.0 -->

PMML DTD_v1_1(續) <!ENTITY % FIELD-NAME "CDATA"> <!ELEMENT Array (#PCDATA) > <!ATTLIST Array n %INT-NUMBER; #IMPLIED type ( int| real| string ) #IMPLIED> <!ENTITY % NUM-ARRAY "Array"> <!-- an array of numbers --> <!ENTITY % INT-ARRAY "Array"> <!-- an array of integers --> <!ENTITY % REAL-ARRAY "Array"> <!-- an array of reals --> <!ENTITY % STRING-ARRAY "Array"> <!-- an array of strings -->