統計數量分析幾個重要的觀念 陳順宇 教授
1.常態分佈重要性 中央極限定理
IQ成績直方圖
IQ成績常態分佈圖
中央極限定理
2. p值的意義與應用 決策的錯誤機率,型I誤差
座標與面積之關係
3.抽樣樣本數之決定 (a)民意調查 (b)滿意度調查 (c)實驗設計 (d)統計檢定
(b)滿意度問卷調查 如果是5分制的施政滿意度調查, 則問卷資料最大標準差是 當有一半人填最滿意(5分), 另一半人填最不滿意(1分)時,
故最大標準差是
例如e = 0.1,則
在有限母體的情形下抽樣, 所需樣本數n的公式為
4.資料分類與統計分析方法的關係
台南市抽樣50位市民資料
分析方法 (a)離散對離散:卡方檢定(列聯表)。 (b)離散對連續:F檢定 (ANOVA)。 (c)連續對連續:迴歸分析。 (d)連續對離散:區別分析、羅吉斯迴歸。 (e)離散、連續對連續:ANCOVA、 啞變數。
5.因果關係檢定與適合度檢定的差異
因果關係檢定
檢定參數=0, F檢定、t檢定 P值小,顯著
適合度檢定 資料適合某種分配(如常態分配) 提出模式是否合適 卡方檢定,P值大,不顯著
6.相關與因果關係的差異 兩變數間有相關並不一定有因果關係。 例如:某人收集過去20年台灣地區 每年冰淇淋銷售量與每年犯罪人數, 結果發現兩者間的相關係數是0.5
偏相關(Partial Correlation) 收入與血壓的關係 r(x,y)=0.667
離婚率與出國人數
r(x,y)=0.9225
相關係數=0, 不表示兩個變數間是沒有相關的
7.迴歸分析與 變異數分析(ANOVA)的差異 迴歸分析或變異數分析都是探討因果關係 果都是連續型
迴歸分析的因是計量的 變異數分析的因是分類的 分類的自變數也可以定義啞變數變成 連續型資料 然後以一般迴歸式對參數做估計
某化學工廠想知道溫度(x)對 某化學品產量(y)的影響 溫度有4個水準, 分別為150oC, 200oC, 250oC, 300oC, 在每一種溫度下各做三次實驗, 共得到12筆數據(y值), 其數據如下表
溫度對產量有影響
既然發現產量y受溫度x的影響, 接著我們想知道兩者之間的關係式如何,設其關係是一次式, 即做產量y對溫度x的簡單性迴歸
y = 60.2633 + 0.1165x
做線性迴歸的適合度檢定 適合度檢定(Goodness of fit) 或稱缺適度檢定 (Lack of fit)
使用線性迴歸是合適的
啞變數迴歸
8.共變異數分析(ANCOVA)與 變異數分析的差異
教學法 假設收集了150位,在三種教學法下的 數學成績(x)(學習前)與統計學成績(y) (學習後)如下:
三種教學法的啞變數迴歸
三種教學法的啞變數迴歸 ANOVA
三種教學法的ANOVA
三種教學法的啞變數迴歸 ANCOVA
三種教學法的ANCOVA
9.共變異數分析與干擾模式的差異
共變異數分析 討論統計成績是受教學法的影響, 但要將學生數學成績先排除掉 或稱控制數學成績(x), 即以數學成績(x)為控制變數
干擾模式 (Moderating Variable) 。 反之,如果我們想了解 統計成績是否受數學成績的影響, 但我們可能擔心不同的教學法對統計成績影響可能不同(即控制變數變為教學法), 則此研究的”因” 主角是數學成績, 而配角是教學法, 我們稱教學法為干擾變數 (Moderating Variable) 。
干擾變數
伴隨變數 如果我們主要是關心因素A各類別 的依變數y平均數是否相等(即檢定)? 而擔心連續型變數x也會對產生作用, (Covariate Variable), 此模式也稱為ANCOVA
自變數為分類, 但控制變數(或稱伴隨變數)為連續 常採受測者某種“特性當伴隨變數 市場研究方面,如以“銷售商店”為對象, 則常採用商店的員工人數、 前一期的銷售額、廣告費等為伴隨變數
共變異數分析是變異數分析的變型, 模式中增加了連續型資料的伴隨變數, 加入伴隨變數其目的在於 降低模式中誤差項的變異, 使我們對影響要因的分析更精確。
三種教學法的干擾模式
交互作用不顯著
10.中介變數(Mediator Variables)與 干擾變數(Moderating Variables)的差異 中介變數為計量的變數 干擾變數為分類的變數
中介變數Z (SEM)
干擾變數A
干擾變數A