第三章 敘述統計量 陳順宇 教授 成功大學統計系.

Slides:



Advertisements
Similar presentations
©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
Advertisements

林惠玲 陳正倉著 雙葉書廊發行 2009 第 4 章 分析資料 - 以統計測量數呈現 1 統計學 方法與應用 四版上冊 第 4 章 分析資料 - 以統計測量數呈現.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
單元九:單因子變異數分析.
Ch12 資料分析.
基礎統計:資料之蒐集整理與分析 2.1 資料之型態 2.2 資料蒐集 2.3 伯拉圖分析 2.4 直方圖 2.5 製程集中趨勢之衡量
樞紐分析與資料庫 蕭世斌 Nov 20, 2010.
Describing Data: Numerical Measures
期望值 變異數 共變異數與相關係數 變異數與共變異數之性質 柴比雪夫不等氏 動差與動差生成函數
單元四:資料的描述(二) ㄧ、集中趨勢統計量數 二、分散程度統計量數.
統計學(Statistics) 其 目的 應用.
量化研究與統計分析 Data Graphing 國立臺灣體育運動大學 高明峰
參考書籍:林惠玲與陳正倉(2002),應用統計學(第二版)。台北:雙葉書廊有限公司。
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
第三章 敘述統計(II)——統計量數 3.1 集中趨勢量數 3.2 差異量數 3.3 平均數與標準差的應用 3.4 偏態量數、峰態量數與動差
應用統計學 授課大綱 – 暑期班 By: Dr. Tsung-Nan Tsai.
石牌金頭腦 概數篇(可複選)加油哦!.
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
17 類別資料的分析  學習目的.
第十三章 簡單線性迴歸 陳順宇 教授 成功大學統計系.
Chapter 3 第三章 Numerical Descriptive Measures 數值量測及資料描述
認識倍數(一) 設計者:建功國小 盧建宏.
第四章 數列與級數 4-1 等差數列與級數 4-2 等比數列與級數 4-3 無窮等比級數 下一頁 總目錄.
統計量 (一) 大綱:算術平均數 中位數 眾數 顧震宇 台灣數位學習科技股份有限公司.
統計數量分析幾個重要的觀念 陳順宇 教授.
迴圈.
5.1 自然對數函數:微分 5.2 自然對數函數:積分 5.3 反函數 5.4 指數函數:微分與積分 5.5 一般底數的指數函數和應用 5.6 反三角函數:微分 5.7 反三角函數:積分 5.8 雙曲函數.
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
量化研究與統計分析 Data Graphing
第3章 資料的整理與表現- 統計表與統計圖.
第零章 統計學概論 0.1 統計學的定義 0.2 敘述統計學與推論統計學 0.3 測量尺度 0.4 資料、資訊與因果關係 ©2009 陳欣得
課程九 迴歸與相關2.
國中統計課程 Excel 函數應用 臺中市立后里國民中學 賴勝豐.
六年級數學科 體積與容量 的關係和單位 白田天主教小學下午校 趙國鴻.
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
第一章 敘述統計學 1.1 原始資料 1.2 統計表 1.3 統計圖 1.4 統計量值 一些經驗法則 44 ©2009 陳欣得
第二章 機率概論 2.1 相對次數與機率 樣本空間、事件與隨機變數 抽樣與樣本空間 22
統計學 指導老師: 郭燿禎 Date: 2/14/12.
第十章 順序資料之假設檢定 10.1 順序資料檢定概論 10.2 符號檢定 10.3 符號秩檢定(成對樣本檢定)
第3章 變異量數與分佈形狀.
搭配頁數 P.35 比例式 1.比的前項、後項與比值:    .
第一章 直角坐標系 1-3 函數圖形.
第十章補充 允收抽樣.
複 拍 子 國小音樂科學習加油站 Content.edu.tw/primary/music/tp_ck
3-2 資料的分析 主題1 算術平均數、中位數與眾數 主題2 百分位數與四分位數 主題3 盒狀圖、全距與四分位距 重點整理 自我評量.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
小學四年級數學科 8.最大公因數.
大綱:加減法的化簡 乘除法的化簡 去括號法則 蘇奕君 台灣數位學習科技股份有限公司
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
第三章 敘述統計量.
實用數學 長度單位的認識與換算.
Review of Statistics.
Ogive plot example 說明者:吳東陽 2003/10/10.
Chapter 4 Variability 離散趨勢測量 2019/4/26.
Keller: Stats for Mgmt & Econ, 7th Ed 數值的敘述方法
第二章 統計學概論.
五年級數學科 體積與容量 的關係和單位 白田天主教小學下午校 趙國鴻.
Parameter Estimation and Statistical Inference
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
二項分配-Binomial 伯努利試驗(Bernoulli Trial) 每一次試驗皆僅有兩種可能結果,不是成功(S),就是失敗(F)。
第四章 統計資料的整理:統計量數.
※歡迎挑戰,兩人(隊)中先完成連線即算過關!
1-1 二元一次式運算.
資料表示方法 資料儲存單位.
因數與倍數.
Test for R Data Processing & Graphics
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
描述統計 Descriptive Statistics
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
Presentation transcript:

第三章 敘述統計量 陳順宇 教授 成功大學統計系

統計量 學習如何將資料轉變成一個(或幾個) 統計量, 如樣本平均數, 標準差s等, 但由於這種數是由樣本算出,因此也 稱為”樣本統計量”(Sample Statistic)或 簡稱統計量

3.1 3種不同型式的統計量 1.集中趨勢的統計量 2.位置的統計量 3.離勢的統計量

3.2 集中趨勢統計量 集中趨勢的統計量主要是決定資料的 “中心點”, 或是最能“代表”此組數據的數。

常用的統計量有 平均數(Mean), 中位數(Median), 眾數(Mode), 去頭尾平均數(Trimmed Mean),及 加權平均數(Weighted Mean)

樣本平均數

母體平均數

例3.1、 由某校抽樣11位同學,每人 罰球投籃10次,投中次數分別為 3 2 3 7 4 3 6 4 3 3 6 求樣本平均數=?

平均投中4次

平均投中比例

例3.2 、(例1.9 續) 抽樣50位台南市成年市民,求 (1) 50位市民樣本平均身高 (2) 男生的平均身高 (3) 女生的平均身高。

50位市民的平均身高

25位男生平均身高

25位女生平均身高

例3.3、(例2.2續) 全班50位學生統計學期中考試成績 如表2.2, 求全班成績的母體平均數

母體平均數

2.中位數 所謂中位數是資料從小排到大, 經排序後“最中間的數”, 也就是當資料有奇數個時, 中位數是排序最中間的數, 而當資料有偶數個時, 中位數為排序最中間的兩個數的平均。

大約有一半的數據小於或等於中位數 大約有一半的數據大於或等於中位數 中位數以Me表示

例3.4、(例3.1續) 求11位同學投中次數的中位數

中位數為3 2 3 3 3 3 3 4 4 6 6 7

例3.5、(例3.3續) 求全班50位學生統計學期中考試成績的中位數?

中位數=62 50位學生的成績排序如表2.2, 中間位置為25.5, 因此以排序25的62分與排序26的62分的平均 (62+62)/2=62 當做中位數

中位數

3.眾數(Mode) 眾數就是資料中出現頻率最多的數

例3.6、(例3.1續) 求11位同學投中次數的眾數

眾數=3 11位同學投中次數頻率 最多的是投中 “3” 次,共出現 5 次, 因此 "3"就是此組資料的眾數

例3.7、(例3.3續) 求50位學生統計學期中考成績的眾數

眾數=60 在50位學生成績中,60分的有4位, 出現的次數最多, 所以60分即為此組資料的眾數

4.去頭尾平均數 去頭與去尾的筆數相等 且去掉的筆數為[ ],其中n為樣本數。 例如n=32, =0.2(即80%),則 去頭及去尾的筆數各為3筆,因 [32  0.2/2]=[3.2]=3

例3.8、(例3.1續) 求11位同學投中次數的 80%去頭尾平均數

去頭與去尾的筆數分別為

5.加權平均數

國文78分、英文83分、 數學65分、理化70分 地科75分、歷史76分、 地理74分、公民94分 則以上課時數加權的學年平均成績為: (5  78+5  83+5  65+3  70+3  75 +2  76+2  74+2  94)/27 = 2053/27 = 76.0370

3.3 位置統計量 位置的量測 百分位數(Percentile) 四分位數(Quartile)

p百分位數

例3.11、(例2.1續) (1)求全班成績的85百分位數是多少? (2)求全班成績的60百分位數是多少?

85百分位數

60百分位數

. 四分位數 Q1= 25百分位數 Q2= 50百分位數=中位數 Q3= 75百分位數

例3.12、(例3.11續) 求Q1 , Q2 , Q3

3.4 離勢統計量 全距、 四分位距、 平均絕對偏差、 變異數、 標準差、 變異係數

全距 R

例3.13、(例3.1續) 求11位學生投中次數的全距 R= 7- 2 =5

例3.14、(例3.3續) 求50位學生統計學期中考成績的全距 R=97-32 = 65

2. 四分位距 IQR = Q3-Q1

例3.15、(例3.1續) 求11位學生投中次數的四分位距 IQR = Q3 -Q1= 4 - 3 =1

例3.16、(例3.12續) 求50位學生統計學期中考成績的 四分位距 IQR= Q3-Q1= 74-54 = 20

平均絕對偏差

例3.17、(例3.1續 ) 求11位同學投中次數的絕對偏差

變異 變異(Variation)是每一筆資料與 中心點差距(稱為偏差)的平方和, 即變異為偏差平方和

可證明

樣本變異數

母體變異數

例3.18、(例3.1續) 求11位同學投中球數的變異及變異數

x的變異

例3.19、(例3.3續) 求全班50位學生統計學期中考成績的 母體變異數

樣本標準差

母體標準差

甲乙兩人打靶 您會收那一位為徒

例3.20、(例3.18續) 求11位同學投中次數的標準差

例3.21、(例3.2續) 求50位台南市成年市民身高的 樣本變異數 與樣本標準差

樣本變異數 與樣本標準差

例3.22、(例3.19續) 求全班50位學生統計學期中考成績的 母體標準差

母體標準差

變異係數

身高與體重變異係數

例3.23、某人想投資 甲、乙兩投資策略

對稱的直方圖

右偏的直方圖

左偏的直方圖

3.6 經驗法則與謝比雪夫不等式 一組資料,算出樣本平均數及 樣本標準差s後, 3.6 經驗法則與謝比雪夫不等式 一組資料,算出樣本平均數及 樣本標準差s後, 我們可能進一步問資料落在與平均數相差兩個標準差以內的比例會是多少? 像這類問題,經驗法則與謝比雪夫不等式(Chebyshev's Inequality)提供部份答案

"鐘形"的資料,經驗法則

謝比雪夫提供一個較"粗糙"的答案,但它對任何形態的資料分配都適用

例3.25、(例3.10續) 試以謝比雪夫不等式及經驗法則 求資料落在與平均數相差 1個標準差以內、 2個標準差以內、 3個標準差以內, 所佔比例並與實際結果做比較

3.7相關係數 1. 經理想了解產品價格與銷售量 是否有相關? 2. 教育學者想了解 IQ成績與教學成績 是有相關? 1. 經理想了解產品價格與銷售量 是否有相關? 2. 教育學者想了解 IQ成績與教學成績 是有相關? 3.醫生想了解人出生時的體重與壽命 4. 房地產公司想了解房價與物價

關係程度有多高? 要了解是否有相關, 最直接的方法便是畫散佈圖, 但有時除了要知道是否有相關外, 也想要知道關係程度有多高? 此即本節所要介紹的相關係數

樣本相關係數(簡稱相關係數 )

相關係數

例3.26、 研究某產品定價(x)(單位:元)與銷售量(y)(單位:箱)的關係, 在12個地區做實驗,

產品廣告費(x)與銷售量(y) 資料

標準化法

五行合計法

廣告費(x)與銷售量 (y)相關係數

例3.27、10位學生的 數學(x)、統計(y)成績

數學、統計偏差與偏差乘積

平方和

數學與統計相關係數

資料標準化

數學與統計相關係數

(1) 由定義可以看出相關係數是純量, 它的大小與單位無關 (或說相關係數是單位不變量)。

(2)由看出, 如果大部份 ,同向(同正或同負), 則r是正的。 反之,如果大部份反向(一正一負), 則 r是負的。

(3) r > 0 表 x 值增加時, y值有增加的傾向; r < 0 表 x值增加時, y 值有減少的傾向。

r =1

r = -1

r = 0.9

r = 0.5

r = -0.9

r = -0.5

r = 0

r = 0 U形曲線相關

正的曲線相關

負的曲線相關

相關係數 因果關係 變數間有〝相關〞不一定有〝因果關係〞

例3.28、離婚率與出國人數

(1) 試畫出離婚率對出國人數的散佈圖; (2) 求離婚率與出國人數的相關係數; (3) 試問離婚率與出國人數是否有因果關係?

離婚率對出國人數的散佈圖

相關係數 r=0.9225

如離婚率是因,出國人數是果 即離婚率高低會影響出國人數, 這表示什麼? 它的意義可能是台灣地區 這幾年來離婚人數增加, 這些離婚的人(或其親朋好友) 為了散心到國外,造成出國人數的增加。

如出國人數是因,離婚率是果 可能解釋是國人出國後, 看見外國人很開放,也就見異思遷, 回國後就和老伴離婚了

事實上並非如此 過去幾年,台灣地區由於經濟的成長, 國民所得的增加、社會的開放, 造成女性同胞經濟獨立,不需要靠長期飯票,也有多餘的錢到國外旅遊,

所以這幾年來離婚率不斷地增加, 出國人數也不斷地增加,都是受第三者(經濟成長(GNP)等因素)的影響所造成, 離婚率與出國人數的相關是一種 間接相關

離婚率與GNP

出國人數與GNP

例3.29、身高與髮長

身高對髮長的散佈圖

相關係數r=-0.81

髮長(y)對身高(x)的散佈圖

頭髮長度有愈短的現象 此散佈圖仍呈現身高愈高的人, 頭髮長度有愈短的現象, 事實上頭髮長度與身高並沒有關係, 它們都是受第三個變數性別的影響, 男生頭髮較短但身高較高, 女生頭髮較長,身高較矮。

20位女生平均身高160.7公分, 平均髮長25.2公分; 30位男生平均身高172.4公分, 平均髮長7.5公分

30位男生髮長對身高的散佈圖

20位女生髮長對身高的散佈圖

髮長與身高的關係是間接的 男生的髮長對身高散佈圖,看起來很亂,表示髮長與身高無關(=-0.23), 同樣的女生的髮長與身高的 相關係數也很低(=0.11)。 所以控制性別後,髮長與身高 就沒有相關了,

兩組相關(或稱成對)的資料,相加後其平均數及標準差 (1)兩組資料相加的平均 = 兩組資料個別平均再相加,對否? (2)兩組資料相加的標準差是否等於兩組資料個別標準差的相加呢?對否?

1.統計量是由觀察資料組成 如平均數、標準差,會隨觀察(或抽樣) 資料不同而得到不同的答案, 所以統計量是“隨機變數”,

2.統計量與參數的差異 前者是可算的,後者是“未知的”定數,統計量可用來“估計”參數, 但估計會有誤差, 如何使誤差愈小愈好 是學習統計必須了解的。

3. “平均數”代表資料中心點 但有敏感性(或稱不穩健性), 會受某些大數據的影響

4.了解標準差的意義, 何種情況下標準差愈大愈好 (如評分、區別等問題), 何種情況下標準差愈小愈好 (如品質問題)

5.右偏(或稱正偏)分配時 平均數大於中位數。

6.做統計推論最主要的 兩個統計量是 樣本平均數與樣本變異數

7.資料分佈呈鐘形時, 經驗法則提供較精確的機率比例, 不知資料分佈形態時, 謝比雪夫提供較粗糙的機率不等式

8.量測兩個變數線性相關程度的指標為 相關係數, 但兩變數有相關一定有因果關係