第一次上統計Tutorial 就上手 不是只有上一次嗎
統計學內容 敘述統計學 機率分配 推論統計學 研究如何簡化與表示現成之統計資料 圖表方式 數值方式 研究如何利用母體中所抽取之樣本,去估計、檢定或預測母體中之未知特性之科學方法 抽樣 母體(Population) Parameter 樣本(Sample) Statistic 推論 Jia-Ying Chen
陳林滿天下 Jia-Ying Chen
全國姓名分析 全國前十大常見名字, 男性依序是志明、家豪、俊傑、建宏、俊宏、志偉、志豪、文雄、金龍、正雄 淑芬、淑惠、美玲、雅婷、美惠、麗華、淑娟、淑貞、怡君、淑華 Jia-Ying Chen
星座統計 健保局統計室提供的2006年台灣地區死亡總人數共十三萬五千多人資料,以西洋十二星座日期進行分析,發現一些有趣的統計。 統計發現,平均死亡年齡最 年長的前三個星座分別是魔 羯座、水瓶座、天秤座(七 十四點四六歲) 大致上有一個趨勢,就是春 、夏生的人比秋、冬生的人 ,更要好好珍惜生命 Jia-Ying Chen
星座統計 那一個星座2006年非自然死亡(意外、自殺、他殺)人數最多?前三名依序是雙子座、牡羊座、射手座,各約佔非自然死亡人數百分之十比例;水瓶座、魔羯座、雙魚座的非自然死亡比例較低,約百分之九或以下。 死亡年齡小於三十歲的族群中(短壽),以巨蟹座百分之五點零六最多,其次為獅子座、雙子座。 Jia-Ying Chen
統計應用-顧客關係管理 先試想一個問題:如果你到超市買啤酒,你會順便買甚麼?美國最大零售業者威名百貨(Wal-Mart)曾經做過一個調查,他們想要了解啤酒與哪一種商品一起售出的機率最高,也就是買啤酒的人會順便購買甚麼?希望透過這樣的分析促進店內動線設計,便利客戶以提升客戶關係,並同時提升金額 你的直覺是甚麼? 答案是紙尿布 如果威名百貨(Wal-Mart)不曾想過要提昇顧客滿意度,如何成就其美國最大零售商的地位?而我們也無法得知原來啤酒和紙尿布之間關係可以如此「密切」! 如果威名百貨(Wal-Mart)沒有收集這些顧客的基本資料和交易記錄,如何透過這類分析提昇顧客滿意度? 當威名百貨分析了相關的顧客資料和交易記錄後,便可改善賣場內的商品擺放,讓顧客可以更容易地取得所需商品,進一步提昇顧客滿意程度:在規劃商品促銷活動時,更可以據此考量,針對不同商品提供適當的優惠或是配套銷售:提供給顧客之後續服務更可就相關項目進行設計。而這些環節環環相扣,形成顧客對企業忠誠度的核心,而顧客關係便在此處發揮極大效益。 當威名百貨(Wal-Mart)得到啤酒與紙尿布的關聯結果後,便深入研究造成此種現象之原因,發現啤酒和紙尿布在週四晚間的銷量為一週之極大日,而購買者通常是家中有小孩的成年男子。年輕爸爸們會在週四這個小週末的晚間到量販店一次購買一週用的紙尿布(男人們身強體壯可以扛一堆紙尿布回家),順便買個啤酒回家放鬆一週來的壓力,過個悠閒的小週末。也因此,造就了啤酒和紙尿布間的「親密關係」! Jia-Ying Chen
資料種類 資料的型態有三種 屬質(Qualitative) 和屬量 (Quantitative) 資料 名目資料(Nominal data) 資料的值是不同的類別 順序資料(Ordinal data) 看起來像名目資料,但是它們的數值是有順序的 區間資料(Interval data) 是真實的數字,諸如身高、體重、所得和距離之類 屬質(Qualitative) 和屬量 (Quantitative) 資料 橫斷面資料(Cross-Sectional)/時間序列資料(Time-Series Data) Jia-Ying Chen
各種資料 & 資訊… 資料 區間資料 順序資料 名目資料 Categorical? N Y Ordered? Y Categorical Data N 名目資料 Jia-Ying Chen 2.9
Excel—長條圖與圓型圖 長條圖和圓型圖(Bar chart and pie chart) 先選取你要跑出資料(整理過資料) 插入選取直條圖(Bar) or 圓形圖(Pie) ,圖型便會自動跑出 如要修改圖表標題,先點選圖表點選Excel 上方圖表工具之版面配置可以點選圖表標題、坐標軸標題、資料標籤等進行修改 若只有原始資料,可以使用Excel 函數的countif計算出各種分類下的次數 在任何一格鍵入=countif([Input range], [Criteria]) Input range 為所要輸入的範圍,例 B1:B286 Criteria 為計算的準則,例鍵入1即可算出資料為1的次數 Jia-Ying Chen
Excel—直方圖 直方圖(Histogram) 要先決定好分幾組,並輸入每組的上界於Excel Sturges’s rule: 1+3.3*log(n) 依照講義表2.6選取或方便性選取 點選Excel 上方資料資料分析直方圖將輸入範圍與組界範圍選取好 標記表示資料是否有選取到標題,如有選到必須打勾 記得勾選圖表輸出 直方圖出現後進行下列步驟修改 將組界為其它且頻率為0那一列內容刪除 點選圖表上直條圖並按滑鼠右鍵選取資料數列格式將列別間距改為無間距 每組是大於下界,小於等於上界(第一組除外) Jia-Ying Chen
Excel 累積機率圖 累積機率圖(Ogive) 圖型出現後進行下列步驟修改 將組界為其它且頻率為0那一列內容刪除 將出現之直方圖刪除(點選任一矩形,並按滑鼠右鍵刪除) 改變刻度大小(如果直軸最大值不為1):點選直軸並按滑鼠右鍵點選坐標軸格式將坐標軸選項中的最大值改為1 點選橫軸並按滑鼠右鍵點選坐標軸格式將座標軸位置中刻度與刻度之間相距(W)改成刻度上(K) Jia-Ying Chen
Excel 莖葉圖 莖葉圖(Stem-and-Leaf display) 折線圖(Line chart) 增益集Data Analysis Plus Stem-and-leaf- Display Input range要輸入資料範圍 Increment表示 difference between stems 資料如有選取標題則要勾選Labels 折線圖(Line chart) 時間序列資料 選取資料插入折線圖 散佈圖(Scatter diagram) 探討兩變數之間的關係 選取資料插入散佈圖 Jia-Ying Chen
Excel 雙變數長條圖 使用Excel 畫出雙變數長條圖 選取cross-classification table全部資料插入選取直條圖(Bar) 如跑出圖形之橫軸與直軸資料剛好相反點選圖型按滑鼠右鍵點選選取資料點選切換列欄 Jia-Ying Chen
敘述統計 中央位置量數 變異性量數 變異係數(CV)是相對離勢量數( ; ) 平均數、 中位數、 眾數(自我練習題2-1) μ、 Outlier 正偏/右偏(skewed to the right);負偏/左偏(skewed to the left) 變異性量數 全距、 變異數、 標準差、 變異係數(自我練習題2-2) 變異係數(CV)是相對離勢量數( ; ) 比較幾組資料單位不同的差異情形。 比較幾組資料單位相同,但平均數相差懸殊之差異情形。 Jia-Ying Chen
思考!! 如何測量離散程度?? 每各數字跟平均值差的和? 每各數字跟平均值的差的平方的和? 都會是0 每各數字跟平均值的差的平方的和? 資料越多會越大 所以每各數字跟平均值的差的平方的和再取平均來測量離散程度比較合理 原來是這樣~~ Jia-Ying Chen
敘述統計 經驗法則(自我練習題2-3) 相對位置量數 如果直方圖是鐘型(bell shaped) 大約所有觀測值的68%落在平均數左右1個標準差之內 大約所有觀測值的95落在平均數左右2個標準差之內 大約所有觀測值的99.7%落在平均數左右3個標準差之內 相對位置量數 百分位數、 四分位數(Q1 、Q2 、Q3 、Q4) 四分位距=Q3-Q1 ,衡量中間50%的觀測值離散的情形 盒型圖(Box plot)-描繪5個統計量的方法(自我練習題2-4) 最小值、 最大值、 第一、第二、 第三四分位數 鬍鬚(1.5*IQR)可用來判斷離群值(Outlier) Jia-Ying Chen
敘述統計 線性關係量數(自我練習題2-5) 共變異數,相關係數 母體共變異數/樣本共變異數 母體相關係數/樣本相關係數 Jia-Ying Chen
Excel 敘述統計 資料 資料分析 敘述統計 將資料輸入,勾選敘述統計 按確定後會產生下面圖表 (Example 2.4) Jia-Ying Chen
Excel 函數 或使用 公式 插入函數(fx) 選取類別(統計) 也可直接輸入 “=函數名稱(資料範圍)” AVERAGE (平均數) MEDIAN (中位數) MODE (眾數) 超過一個以上眾數,Excel只會跑出數值最小的那個眾數 全部數字各出現一次,Excel會顯示N/A VAR (樣本變異數) STDEV (樣本標準差) 也可直接輸入 “=函數名稱(資料範圍)” Ex: 鍵入=average(資料範圍),即可跑出資料平均值 Jia-Ying Chen
Practice 1 一門統計課期中考的時間限定是1小時。但是,就像大多數的統計測試一樣,這次的考試很簡單。為了評估試題有多簡單,教授以9位學生為樣本,在他們繳交試卷的時候記錄了他們考試所花的時間(近似至最接近的分鐘)。記錄的時間是 33 29 45 60 42 19 52 38 36 使用Excel 算出平均數、中位數、與眾數 Solution: 39.33; 38; N/A Jia-Ying Chen
Excel 盒型圖 盒型圖 (Box plot) Example 2.4 增益集 Data Analysis Plus Box plot Jia-Ying Chen
Practice 2 養寵物要花費多少錢?一個狗與貓主人的隨機樣本被要求計算他們花費在寵物身上的金額(不包括寵物的食物) 為每一組資料畫一個盒形圖,並且說明你的發現。 Jia-Ying Chen
Solution 2 養狗的費用會比養貓還多; 兩者的費用都呈現正偏 Dogs Cats Jia-Ying Chen
Excel 函數 COVAR (母體共變異數) CORREL (樣本相關係數) 注意:傳出的值為母體的covariance,預設除以n,若要求樣本要再乘n/(n-1) CORREL (樣本相關係數) 相關係數則不需要調整 另外,求Covariance & Correlation也可使用:資料資料分析選取相關係數 or共變數 Jia-Ying Chen
Practice 3 在一門課所得到的成績是否與個人花在研讀該科目的時間相關?為了分析這個神秘的可能性,一名學生從上學期選修會計課的學生中隨機抽取10 個學生為樣本。他要求每一位學生報告他的成績,以及他在研讀會計學的總時數。這些資料如下所列 成績 77 63 79 86 51 78 83 90 65 47 研讀時間 40 42 37 47 25 44 41 48 35 28 計算共變異數與相關係數 Solution: 98.5222; 0.8812 Jia-Ying Chen