綜合性指標之應用 中國醫藥大學 醫務管理研究所 馬作鏹 博士
統計是什麼? 我們的一生中,常要根據不完整的資訊做決定…….. 大部分的人,對於某種程度的不確定並不以為意。 統計學的特點在於,可以把不確定的程度量化,用精確的方式來表達。 使得統計學家可以做出明確的敘述,並完全掌握不確定的程度。
統計思考(Statistical thinking) 依據直覺所作出的決策有時會存有偏見或判斷錯誤。 統計思考即根據資料導出結論的能力。 統計思考係基於以下三觀點: 所有的工作皆發生於相互關聯的系統過程中。 所有的過程均存有變異(變異的數量易於被低估) 了解與減少變異是成功的關鍵
統計之分類 數據分析 包括數據的搜集、呈現及綜合。 機率 機遇規則。 統計推論 針對特定數據做出統計結論的科學。
數據的描述 數據是統計的原料 用來解釋事實的數字 要如何有效呈現數據? 如何從沒整理過的數字,看出基本型態? 如何綜合出數據的基本形狀?
資料的搜集 次級資料 原始資料 他人蒐集、整理分析的統計資料 可減少經費或縮短搜集資料的時間 次級資料無法滿足需求 直接依使用目的去調查、觀察或實驗所得的資料 普查:針對所有母體進行資料蒐集 抽樣:隨機自母體中抽選出一部份具代表性的個體當作樣本來調查
資料的衡量尺度 名目(nominal):衡量類別資料 順序(ordinal):有重要、強弱、好壞程度等級順序的資料。 例如:性別 0-男、1-女 順序(ordinal):有重要、強弱、好壞程度等級順序的資料。 例如:教育程度 1-小學、2-國中、3-高中、4-大學 數值間的差異沒有意義。 等距(interval) :無真正原點的量的資料 例如:智商、溫度 比率(Ratio):有固定原點的量的資料 例如:體重、年齡、身高…
摘要統計 任何一組量度都有兩個重要性質: 中心(代表值) 以該數值為中心的散布
摘要統計—敘述統計 1.中央趨勢—眾數、中位數、平均值、四分 位差。 2.離散程度—最小值、最大值、標準差、四 分位差。
眾數 數據中個數最多數值。 3 5 7 7 38 上述數據之眾數為 7 。
中位數 數據的中間點 先將數據從小排到大,中位數就是最中間的數值。 3 5 7 7 38 3 5 7 7 38 如果數據為偶數個,就沒有最中間的數據,得把最靠中間的兩個數據平均。 例如:3 5 7 7 把5和7平均得到6 中間
平均數 例如:有五位同學,他們每星期看幾個小時的電視,得到數據如下: 觀察值順序 1 2 3 4 5 數據值 5 7 3 38 7 觀察值順序 1 2 3 4 5 數據值 5 7 3 38 7 計算方式:數據全部加總,在除以個數
平均數 另可表示 以上述92位學生之體重為例:
統計量之比較 統計量 優點 缺點 平均數 中位數 眾數 1.資料的平衡點。考慮到所有的觀察值,所以敏感度高。 2.觀察值與平均數之差的平方和最小。 1.資料若有極端值存在則不具代表性。 2.資料如有偏態,則較不具代表性。 中位數 1.計算簡單,容易瞭解。不受極端值的影響。 2.適用偏態資料。 1.對觀察值的敏感度低。 2.當資料不向中間值集中時,中位數即失去代表性。 眾數 1.適用質的資料。 2.不受極端值的影響。 3.適用偏態資料。 1.可能不只一個或不存在。 2.敏感度低。 (摘自:‘應用統計學’,徐世輝 編著)
統計量之比較 統計量 名目資料 順序資料 等距資料 比率資料 平均數 不適用 適用 中位數 眾數 (摘自:‘應用統計學’,徐世輝 編著)
想一想……. 有一條街道住著13戶人家,此13戶人家皆住於此街道的同一邊,且各家間的距離都不一樣,今此13戶人家想要設置一個資源回收處,若要使每戶人家到資源回收處的地點最方便,請問回收處應設至於何處?(請說明理由)。
離度的量度 我們除了解一組數據的中心點以外,也想知道數據與中心點散布的有多遠。 如果學生都恰好重145磅,就一點散布都沒有,散布為0。 如果學生中有許多是很瘦或是很胖,就會看到比較散開的數據。 145磅
內四分位距 先把數據等分成四組,再度量隔得最遠的兩組的間隔。 作法: 首先將數據由小排到大 以中位數為界,把數據分成高低兩組(如果中位數落在數據點上,中位數就同時屬於高組與低組。) 找出低組的中位數,就是第一四分位數(Q1) 高組的中位數就是第三四分位數(Q3) 內四分位距(IQR)就是這兩個四分位數的距離(也就是差)。
內四分位距 IQR=Q3-Q1
盒鬚圖 表現IQR的另外一種方式 盒子的兩端是四分位數,中位數畫在盒子裏。 如果與盒子的某端距離超過1.5IQR,就視為離群值。
盒鬚圖 再將「鬍子」拉長到除了離群值之外最遠的兩個點。 盒鬚圖最適合用來秀出不同數據組之間的差異
標準差 以平均數為標準來度量離度。 可以想成數據離平均數 的平均距離。 只不過我們使用距離的平方 也就是把點xi到點 的距離平方表示成
標準差 為了專業上的原因,在分母中,我們用n-1代替n,並定義樣本變異數s2為 變異數大,則數據較分散。 因為變異數之單位為平方單位
與S 平均數與標準差很適合於綜合描述大致對稱、沒有離群值的數據集性質。
Z分數 以標準差為單位,描述某一點與平均數的距離,對每一個i而言: 若某觀察值的Z分數為2,表示觀察值高於平均數兩個標準差。 可以將數據畫在兩個軸上,一是x軸,另一個是以z分數為單位的軸
經驗規則 對大致對稱的丘狀數據集來說,有大約68%的數據,會在平均數1個標準差範圍內,大約有95%的數據,會在平均數左右兩個標準差範圍內。
應 用
瞭解變異 所有行為或過程均存在變異,有些可以控制,有些則不行。 兩種經常發生的變異為 隨機變異—不可控制。 非隨機變異—可辨識發生原因。 很少有組織會在不同時間產生相同結果,隨機的變異是在這些過程當中既有的,例如:術後傷口感染率,會受不可控制的因素影響,如疾病或併發症程度等,皆可以預期會有改變。 然而,當感染率超出變異的可接受範圍,表示有隨機變異,則應能指出原因,而這些原因都需要透過矯正行動加以定義。
隨機變異
非隨機變異 變異來自於某些事件,造成平均的轉移或非預期的事件。 圖:離散程度及平均數均改變。
統計控制圖 首先建立一個可接受的標準,持續評估對照於此標準的實際成果,衡量變異若是發生隨機或非隨機的結果,可透過管理行為來加以修正。 統計控制圖是一種用來規劃成果的圖形工具,有關建立品質標準或過去落在變異的可接受範圍外之資料。 大部份的控制圖假設衡量變異的母體符合常態機率分配,建立品質控制圖的電腦程式包含標準化數據的常態機率分配統計檢定。
常態機率分配 68%的變異會發生在離平均值一個標準差之內。 95%的變異會發生在離平均值兩個標準差之內。 一個品質控制流程監測值的常態分配圖型,期望值為分佈的平均值(X ),標準差為平均數的變異量(S) 68%的變異會發生在離平均值一個標準差之內。 95%的變異會發生在離平均值兩個標準差之內。 99.8%的變異會發生在離平均值三個標準差之內。
統計控制圖 中央線(Center line, CL) 控制上限(Upper control limit , UCL) 統計控制圖的發展透過隨時監測樣本變異,並比較樣本平均值與所有觀察值平均繪出分佈,數值比較參考: 中央線(Center line, CL) 控制上限(Upper control limit , UCL) 控制下限(Lower control limit , LCL)
統計控制圖 當數值高於或低於平均數兩個標準差,則此數值來自於隨機變異的機會小於5%。 當數值高於或低於平均數三個標準差,則此數值來自於隨機變異的機會小於1%。
解讀管制圖 當某點落於管制界限外,則稱為管制外的狀況。 當其中一項資料落於管制之外,表示變異可能不再是隨機。 當管制界限為三個標準差,且過程穩定,則樣本平均數落於管制外的機率小於1%,所以可結論出此為非隨機事件,並找出變異的可能原因。
wainting times (minutes) 實例:病患等候時間 某醫院之管理者,蒐集了四位接受健康照護的病患,每天平均等候時間,共蒐集五天,資料如下: wainting times (minutes) day pat.A pat.B pat.C pat.D Mean Range 1 25 18 23 24 22.5 7 2 32 30 26 22 27.50 10 3 14 21 20 25 20.00 11 4 20 26 16 19 20.25 10 5 18 23 25 20 21.50 7 TOTAL 111.75 45
實例:病患等候時間(續) = ∑ of daility means/number of days 利用每天之平均時間繪製管制圖。(x-bar chart) 計算CL、UCL、LCL。 = ∑ of daility means/number of days = 111.75/5 = 22.35 = ∑ of daily range value/number of days = 45/5=9 n = number of patients in daily sample=4 d2 = a constant value used in estimating the standard deviation=2.1
三個標準差 兩個標準差
模型公式化、量化和資料要求 3.2 1 2 3 4 5 ABC地方健康系統的經理人,決定要監控門診中心的病人滿意度。 每個星期有5個病人在出院前被隨機選出,作滿意度問卷,答案填答在電腦掃描答案紙上,填答時需在一直線上做一標記,1分代表非常不滿意,5分代表非常滿意。電腦掃描可以讀出連續變項的紀錄,最小刻度到0.1,分別將每題題目所有病人的分數加總後平均即為該題分數。 3.2 1 2 3 4 5
此行政資訊系統每作一次病人滿意度調查要持續實行13週,用統計品質管制圖記錄調查結果,如下: Week No. Pat.1 Pat.2 Pat.3 Pat.4 Pat.5 1 3.1 3.6 4.3 4.1 2.6 2 3.6 3.8 4.2 4.0 3.5 3 4.3 4.8 3.9 4.6 4.7 4 3.6 3.5 3.7 3.8 3.4 5 3.2 3.3 3.5 3.7 3.8 6 3.0 3.2 3.3 3.4 3.6 7 3.1 3.8 3.7 3.7 3.6 8 3.6 3.6 3.2 3.0 3.2 9 4.3 4.2 3.7 3.5 3.3 10 2.6 3.8 3.5 3.2 3.4 11 3.2 3.3 3.5 3.4 3.6 12 1.9 2.3 3.1 2.2 2.4 13 3.2 3.8 3.7 3.3 4.0
例題 下圖是使用Quick Quant軟體做出病人滿意度資料的統計管制圖,用三個標準差,來建立上限與下限的限制。 由圖中可看出第3週時,滿意度超過上限,而第12週時低於下限,這指出應調查使滿意度偏低的潛在原因。 此軟體可做出兩種圖,一種是R chart(全距range ),一種是S chart(標準差standard deviation), S chart較好,因為它包含樣本裡每個值的測量,且可反應出極端值。
下圖9-2、圖9-3分別是這個案例的R chart和S chart,在第一週,這5個病人滿意度值的範圍是1.7,標準差是0.7。
此軟體還可讓經理人自己決定標準值,假設經理人決定要訂4. 0以上為病人滿意度指標,在圖9 此軟體還可讓經理人自己決定標準值,假設經理人決定要訂4.0以上為病人滿意度指標,在圖9.4中,可看到第6、8、10、12週低於下限,且除了第3週外,其他週都低於訂定的標準4.0。
感謝聆聽………