分類樹(Classification Tree)探討Baseball Data

Slides:



Advertisements
Similar presentations
渡黑水溝 郁永河. 2 戎克船:是明末清初時期往返兩岸的主要交通工具 ∗ 1. 關於台灣的開發歷史,我們到底了解多少呢?不妨試著說出 就我們所知有關台灣開發史的故事、小說、電影、音樂與大 家分享。 ∗ 2. 什麼是黑水溝?黑水溝為什麼會成為大陸移民渡海來臺時最 大的威脅? ∗ 3. 有聽過「六死三留一回頭」、「有唐山公,無唐山嬤」這兩.
Advertisements

手工加工全框眼镜技术 前调整确定加工基准制作模板割边 磨边磨安全角 (抛光) 装配 后调整检测.
融资融券业务的保证金与保证金比例 光大证券 · 信用业务管理总部 2015 年 12 月 ★融资融券业务投资者教育活动材料★
道家養生保健長壽藥膳 藥膳應用原則: 天人相應,道法自然 藥膳有兩個職能: 一是保健增壽,一是治療疾病。 ◎ 黃蕙棻.
昆明机场. 目录  机场历史 机场历史  建设状况 建设状况  运行状况 运行状况  航线 航线.
《公路纵断面设计》 —— 纵断面设计的要求 道桥系 二○○七年五月. 纵断面设计的一般要求 1 .纵坡设计必须满足《公路工程技术标准》中的各项规定。 2 .为保证汽车能以一定的车速安全舒顺地行驶,纵坡应具有 — 定 的平顺性,起伏不宜过大及过于频繁。尽量避免采用极限纵坡 值.缓和坡段应自然地配合地形设置,在连续采用极限长度的.
第十四章 人口(二) 高中地理(一). 第一節 人口成長 第二節 人口組成 第三節 人口問題 第十四章 人口(二)
中國歷史 社會主義文化大革命 我們的報告是關於中國著名的革命 —— 文化大革命。你可會立即想到它何時發 生、怎麼會發生等等。我們將會介紹文 化大革命,希望你細心欣賞。
党课讲座 入党的条件与程序.
中國大陸教育 督導制度探究 凌林煌教授/博士 講授 國立中山大學共同科歷史學程
项目四、腻子的施工  一、准备工作  二、安全与卫生  三、板件表面的处理  四、准备腻子  五、刮腻子  六、腻子的干燥  七、腻子的打磨  结束.
第四章 教育制度.
冷 热 疗 法.
温故知新 犬 戎 公元前 770年 周平王 公元前771年 东周 洛邑 西周 镐京.
個人理財規劃 第八章 投資規劃.
让我们走进秋天.
保育员工作职责.
开天门 梅州市中医医院 郑雪辉.
第一章 教育与教育学 讲授提纲 教育与教育学 思考题目 主讲: 白彦茹(教授) 阅读文献 教学目的与要求 教学重点与难点 退出.
我国政府受人民的监督 权力的行使:需要监督.
政府採購法規概要 報告人:杜國正 行政院公共工程委員會企劃處.
鹽酥蝦 蝦子先處理好 蝦頭剪至眼睛處,鬚及蝦頭的小腳也都剪乾淨 2 再用廚房用剪刀開背去腸泥
第四节 K线图研判技巧.
证券交易模拟 第2讲 交易规则与盘面术语.
何谓学龄期 学龄期是指6~7岁入小学起至12~14岁进入青春期为止的一个年龄段。期小儿体格生长仍稳步增长,除生殖系统外其他器官的发育到本期末已接近成人水平。 这个时期发病率较前为低,但要注意预防近视眼和龋齿,矫治慢性病灶,端正坐、立、行姿势,安排有规律的生活、学习和锻炼,保证充足的营养和休息,注意情绪和行为变化,避免思想过度紧张。
经济成长和差距平等化 东京学艺大学 铃木亘.
之 魔 析 妖 鬼 解 怪 大 沈家仪小组出品.
第四讲 组织结构与人员配置 复旦大学管理学院 芮明杰教授
錯 視.
第三章 儿童少年、女子及 中老年的体育卫生 第一节 儿童少年的体育卫生
保良局方王錦全小學 學校健康促進經驗分享    盧淑宜校長.
拉萨属高原温带半干旱季风气候,平均海拔3658米,年日照3000多小时,素有“日光城”、“太阳城”的美誉。年最高气温29℃,最低气温零下16
旅游资源赏析.
学生学业水平诊断与提升策略探究 平阳中学 周秀丽.
道路交通事故處理.
資料倉儲與資料前置處理 報告者:謝仁瑋.
足球運動情報蒐集與分析 趙榮瑞 教授.
揭秘 庄家 股市中的 为什么你的股票一买就跌,一卖就涨? 为什么出了利好,股价反而下跌? 为什么有的股票一直涨停?
講師:賴玉珊 心理師 證照:諮商心理師(諮心字第001495號) 學歷:國立台南大學諮商與輔導研究所 畢 現任:長榮大學諮商中心專任心理師
二、汽化和液化.
职业教育课程改革创新教材 财经法规与会计职业道德.
复习: 一、细胞膜的成分 1、脂质 2、蛋白质 3、糖类 二、生物膜的功能: 1、界膜 2、控制物质的进出 3、进行细胞间信息交流.
第九章 长期资产及摊销 2017/3/21.
高中地理(一) 第十六章 產業(二)林、漁、礦業.
班級:2年2班 座號:33 姓名:羅子惠 指導老師:黃源弘 資料來源:
第七章 人 口 第一節 種族的分布與現況 第二節 人口結構與成長 第三節 人口問題 總目錄.
基隆市立八斗高中 102 學年度第二學期 402 班『親師座談』
第1节人体内物质的运输 人体的组织细胞每时每刻都需要营养物质和氧,并不断产生二氧化碳、尿素等废物。这些物质在人体内运输主要依靠 系统。人体的血液循环系统由 、 和 组成。 血液循环 血管 心脏 血液.
爱吃的 好吃的 大 同.
第三章 文学作为活动.
新疆自治区“十二五”科技发展 规划编制工作
宗教故事 Back >> 【被逐出樂園】米開朗基羅1508~12年.壁畫
空間向量 朱泰吉 蔡宇翔 張力夫 莊孟霏.
2.4 民主监督—— 守望公共家园.
第3节 以水为主要传热介质 的烹调方法.
乳猪断奶后拉稀,掉膘与教槽料.
立體圖形、圖形變換、空間 第十一組 廖芳苓 葉玟孝 林佩君.
第一章 汽车的解体与清洗 第一节 汽车解体工艺 一、零件的拆卸原则 1、拆卸前应熟悉被拆总成的结构
視野死角與內輪差 埔心國小交通安全團隊.
啟示錄 人 子 七 教 會 寶 座 七 印 七 號 龍 與 獸 七 碗 巴 比 倫 千 禧 年 前 後 新 耶 路 撒 冷 第9章(第5號)
網路遊戲版 幸福農場168號.
第十讲 刘少奇与中国革命和建设.
浙江大学医学院公共技术平台 实验仪器预约管理系统系列培训 医学院公共技术平台 丁巧灵
Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現,(1)請依此數據完成下頁表格之統計值並說明之;(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次 各場次ERA
17 無母數統計檢定  學習目的.
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
參考資料來源:教育部全球資訊網 簡報製作:林秀玲.
Regression Of Baseball Data
景文科技大學學生校外實習訪視暨差旅費核銷說明
Presentation transcript:

分類樹(Classification Tree)探討Baseball Data 2004 靜 宜 大 學 Data Mining 分類樹(Classification Tree)探討Baseball Data 應用數學系 姓 名:陳明豐 指導老師:于昌永

分類樹的介紹 分類樹是經常被使用的資料探勘工具,廣為應用在資訊科學、醫學、工商業上,主要原因有: 模式容易解釋。 可同時處理連續及類別變數。 較不受離群值(outlier)影響。 目的是利用分類樹找出和薪資相關的重要變數,並建立預測模式。

方法及過程 首先探討如何將薪資分類以應用分類樹。 以不同薪資分類應用R中的rpart程式。所採用之分割指數為Gini指數Σpi(1-pi)。 解釋不同分類樹模式的結果。 選取之最佳模式預測有缺失值之59名球員薪資。 總結。

如何將薪資分類以應用分類樹 薪資經log函數轉換和排序之曲線圖,顯然不是線性的

找出薪資分界將薪資分類 Min 1st Quartile Median Mean 3rd Quartile Max 67.5 193.0 430.0 542.2 750.0 2460.0 1.如果以平均值或中位數將薪資分成2類,看起來並不適當。 圖1 2.如果以第一分位數和第三分位數將薪資分成3類,看起來也不能很明顯的區分開來。如:圖2 因此,接下來以 SALARY 的 轉折點 來做為分類的標準.

Mean :red line Median:blue line 【圖1】以平均值或中位數將薪資分成2類 BACK

【圖2】以第一分位數和第三分位數將薪資分成3類 750 193 【圖2】以第一分位數和第三分位數將薪資分成3類 BACK

以轉折點分為兩類(高薪/低薪) 高薪(1) 750 低薪(0)

兩類的分類樹模式 低薪: 192 高薪: 71 重要解釋變數: 生涯打點、 1986上場次數。 >=317.5 <317.5 如果現在有一個數據C.RBI=400 AB=430 ER=3 ASS=410 則我們可以說他薪水應該是屬於高薪的部分(1)。 生涯打點 低薪: 44 高薪: 63 低薪: 148 高薪: 8 <424 >=424 低薪 1986年 上場次數 低薪: 30 高薪: 9 低薪: 14 高薪: 54 低薪 高薪

將薪水分成三類 高薪(2) 中薪(1) 1050 750 低薪(0) 237

2代表高薪、1代表中薪、0代表低薪。 26/7/2 表示: 26個0 7 個1 2 個2

三類的分類樹模式 此分類樹遠較上一模式複雜。 前兩重要變數是相同的,但 生涯打點的分割值不同。 防守變數在內,但不明顯。 低薪:192 中薪:45 高薪:26 <325.5 生涯打點 低薪:152 中薪:8 高薪:2 低薪:40 中薪:37 高薪:24 >=424 低薪 1986上場次數 低薪:26 中薪:7 高薪:2 低薪:14 中薪:30 高薪:22 此分類樹遠較上一模式複雜。 前兩重要變數是相同的,但 生涯打點的分割值不同。 防守變數在內,但不明顯。 >=93.5 低薪 1986得分 低薪:2 中薪:0 高薪:8 低薪:12 中薪:30 高薪:14 >=93 高薪 1986接殺 低薪:7 中薪:29 高薪:12 低薪:5 中薪:1 高薪:2 >=60 低薪 1986保送 低薪:1 中薪:9 高薪:10 低薪:6 中薪:20 高薪:2 <501 中薪 1986上場次數 低薪:1 中薪:8 高薪:4 低薪:0 中薪:1 高薪:6 中薪 高薪

缺失 排序後的薪資,分佈在低薪之下太過密集,而且平順,沒有明顯轉折點,如果相要細分下去,再來分段,只能在高薪部分去分,所以無法解釋密集部分的球員。 那麼該如何將薪資分類以應用分類樹比較好呢 ? ?

迴歸工具的分段方式 利用迴歸找出一個高相關係數的model如下: Logsalary與此model 相關係數達 0.8448994 Logsalary=3.206+0.01015*HIT1+0.3623*YEAR+0.006119* W+0.0002905*PO-0.01551*year2 Logsalary與此model 相關係數達 0.8448994 tree2=rpart(reg.fit~SALARY) plot(tree2);text(tree2,use.n=TRUE,cex=0.65) ★我們利用迴歸的分類樹幫我們分出區段 ~157.5~716.7~分成三類 ~157.5~312.5~716.7~分成四類

Log(SALARY) Fit模型後的log(SALARY) 由此圖可以看出二者有高度相關

三類的分類樹模式 低薪 52 中薪132 高薪 79 重要解釋變數: 生涯得分、 生涯安打、 1986安打。 低薪 9 中薪130 <81 生涯得分 低薪 9 中薪130 高薪 79 低薪43 中薪 2 高薪 0 <669 生涯安打 低薪 接下來看看四類的分類樹模型。 低薪 0 中薪40 高薪72 低薪 9 中薪90 高薪 7 <83.5 1986安打 中薪 低薪 0 中薪22 高薪 5 低薪 0 中薪18 高薪67 中薪 高薪

四類的分類樹模式 重要解釋變數: 生涯上場次數、 生涯得分、 生涯安打、 1986上場次數。 此分類樹將薪資分成四類 低薪52 中下54 中上78 高薪79 <1322 生涯上場次數 低薪 51 中下37 中上 2 高薪 0 低薪 1 中下17 中上76 高薪79 <81 <669 生涯得分 生涯安打 此分類樹將薪資分成四類 0~157.5、157.5~312.5、312.5~716.7、716.7以上 接下來我們試者以此分類樹來預測一些未知的資料。 低薪 0 中下 8 中上32 高薪72 低薪43 中下 2 中上 0 高薪 0 低薪 8 中下35 中上 2 高薪 0 低薪 1 中下 9 中上44 高薪 7 <412.5 低薪 中下 中上 1986上場次數 低薪 0 中下 7 中上21 高薪12 低薪 0 中下 1 中上11 高薪60 中上 高薪

→預測59筆未知SALARY資料 預測薪資在0~157.5(低薪): 共17筆

預測薪資在157.5~312.5(中下): 共10筆

預測薪資在312.5~716.7(中上): 共26筆

預測薪資在716.7~以上(高薪): 共6筆

總結 分類樹的跟一般統計方法不大相同,變數不需任何假設、或任何分配,很容易解釋變數,而且在現今多領域都相當實用。找到一個最佳 Model 後,此Model可以幫助我們判斷一筆新資料的歸屬,做出預測。 例如:一間醫院可以經由一筆資料做出最佳 Model ,以後到此醫院的病患,可以透過此 Model 判斷就醫的先後順序,及時搶救。 ~The End~