生物統計 1 課程簡介 (Introduction) 陳光琦助理教授 (Kuang-Chi Chen) chichen6@mail.tcu.edu.tw, Office: H603-2 http://www.chichen6.tcu.edu.tw/
Textbooks Textbook : Principles of Biostatistics, 2nd ed., Pagano & Gauvreau, Duxbury, 2000. Reference : Fundamentals of Biostatistics, 6th ed., B. Rosner, Duxbury, 2005. 生物醫學統計概論,3rd ed., 戴政、江淑瓊,台北翰蘆圖書,2004.。 生物統計原理:林為森、陳怡君、陳青浩、陳俞成、謝秀幸、魏美珠,歐亞:台北,台灣,2002。
Schedule-1 W1. 09/19 Introduction to Biostatistics W2. 09/26 Descriptive Statistics: Data Presentation and Numerical Summary Measures + SPSS1 W3. 10/03 Basic Probability W4. 10/10 國慶日放假 W5. 10/17 Discrete Probability Distribution W6. 10/24 Quiz 1 & Continuous Probability Distribution W7. 10/31 Statistical Estimation and Inference (I): Sampling Distribution of the Mean + SPSS2 W8. 11/07 Statistical Estimation and Inference (II): Confidence Intervals W9. 11/14 -- Midterm --
Schedule-2 W10.11/21 Hypothesis Testing (I): Hypothesis Building and One-sample Test W11.11/28 Hypothesis Testing (II): Comparison of Two-sample W12.12/05 Analysis of Variance + SPSS3 W13.12/12 Quiz 2 & Inference of Proportions W14.12/19 Contingency Tables W15.12/26 Multiple 2 by 2 Tables W16.01/02 Correlation + SPSS4 W17.01/19 Simple Linear Regression (more ... Multiple Regression) W18.01/16 -- Final --
Evaluation Assignment: Homework + Attendance 20%, Lab work (Bonus); Exam: Quiz#1 10%, Quiz#2 10%, Midterm 30% , Final 30% .
1. 前 言 統計啊統計 … What is Statistics? - 利用分析的技巧從資料(data) 與事實(facts) 中萃取訊息(extract information),對於被觀察研究的複雜狀態,提供了簡明的摘要及訊息的傳遞。 - 統計是以數據敘說故事,因為數字(numbers) 通常比文字(words) 更為精確(more precise),更能簡潔的傳遞訊息。統計分析的結果特別適合於科技成果的交流。
前 言 (cont’d) 統計啊統計 … What is Statistics? - 人們可以利用文字來說謊,同樣的亦可以用數字來說謊。 - 英國首相Benjamin Disraeli 曾說「有三種類型的謊言:謊言、漫天大謊及統計」。 (There are three kinds of lies: lies, damned lies, and statistics) - 然而,Frederick Mosteller 教授說的更好,「用統計說謊很容易,但沒有統計則更容易說謊」。 (It is easy to lie with statistics, but it is easier to lie without them)
2. 研究範圍 與 應用領域 統計啊統計 … Applications of Statistics? - 統計是數字資料的蒐集(collection)、組織(organization)、分析(analysis) 及 解釋(interpretation)。 - 統計的應用領域涵蓋工業、商業、經濟、政治、民生、影視、娛樂、天氣、心理、農業、科學研究等。當焦點是生物及衛生科學時,特稱為生物統計(biostatistics, biometry, biometrics)。
3. 意 義 統計啊統計 … What is the Meaning of Statistics? - 文字起源:bio 是由希臘文的 bios 變化而來,它的涵義為「生命」或「生物體」;metry 或 metrics 是由 metrikos 而來,它的意思是「測度」,所以生物統計學的直觀意義為:量測生物體上特徵的學問。 - Biostatistics 則是由 bio 與 statistics 合併而來,statistics 就是統計學。 - 廣義而言,biostatistics、 biometry 和 biometrics 指的都是將統計學或數學的方法應用於生物、醫學或農學上,意義是相同的,近年來,應用在流行病學及臨床試驗方面的統計學蓬勃發展,e.g., 生物遺傳、生物資訊。
4. 目 的 統計啊統計 … What is the Purpose of Statistics? - 針對生物醫學各種實際問題,應用適切的統計分析方法,以獲得正確的科學結論,提供關於被觀察對象在某些特定狀態之數字資訊,並用合理的方式來解釋說明。
5. 特 性 (i) 統計是對資料的變異性(variability) 與 不確定性(uncertainty) 的研究。 (ii) 統計分析的成功與否,奠基於資料的正確與否,而資料的正確與否,取決於資料收集過程的客觀性,是否能充分反應資料來源的母群體(population)特性。 - 若資料正確,則對統計分析的主題提供了充分的訊息(sufficient information); - 若資料正確度不足,或因樣本數過少導致樣本代表性不足,或因取樣偏差致使所取樣本無法正確反應母群體的分布,都會增加統計分析的困難度,降低分析結果的解釋力與可信度,故統計分析及推論的價值完全取決於資料的真實性。
... 因此 … - 因此 … 本課程一開始我們先就數據資料(numerical data) 的收集(collection)、摘要(summarize)、探討(explore) 與解釋(explain) 資料的方法做介紹,然後區別母群體(populations) 與樣本(samples) 之間的差別,並探討因抽樣(sampling) 而衍生的變異(inherent variability) 及不確定性的量化(quantification of uncertainty),進而進展到統計推論(inference)。
6. 名詞解釋 (i) 群體、母群體(Population) 有興趣的研究主題所含括的全部資料。 (ii) 樣本(Sample) 由抽樣(sampling) 或 取樣而得到的資料,是群體資料的 部分資料。 Q: 為何需要抽樣? 一方面節省經費,另一方面有時普查(census) 是不可能。 e.g. 飛利浦省電燈泡的壽命、91年度全台灣糖尿病患的研究 因此,藉著抽樣調查的方式取代普查,對抽樣的資料作統計分析,進而對母群體做推論。
(iii) 變數(Variable) 代表觀察或測量的特性,以符號 X 表示。 e.g.,當感興趣主題的是「資工系學生們的身高 」,則 變數意味著是一個可變的數,因不同的觀察對象而有不同的數值。當數值為連續不斷的,為連續變數(continuous variable)。當數值如整數般可數的,為離散變數(discrete variable)。 (iv) 數值(Variates) 對每一個觀察個體,需同時用 X 來描述,故另以小寫的 xi來表示這 n 個可變的數值,簡稱數值,並記為 xi,其中 i = 1, 2, …, n 。
(v) 觀測單位(Observation Unit):觀察或測量的對象。 (vi) 觀測值(Observation):觀察或測量的結果。 也就是 X:代表可變的數(variable),簡稱變數 對每一個觀察個體,因同時用X 來描述,故另以小寫的xi 來表示這 n 個可變的數值(variates),記為 xi,i = 1, 2, …, n 例:收集來的資料為資工系10個學生的身高 171, 172, 168, 177, 180, 173, 171, 165, 167, 170,令 X = 資工系學生的身高,則 x1 = 171, x2 = 172, x3 = 168, …, x10 = 170,n = 10
收集來的數據具有相當程度的變異性(variability),但通常不是很有訊息除非以某些方法組合(combine) 它們,除了用數字的(numerical) 方式歸納資料,通常我們還會用列表(tabular) 及 圖形的(graphical) 方式表達,使其活潑、令人印象深刻、更具可讀性,這就是描述型統計(descriptive statistics),是統計的最基本方法,也是摘要資料的第一步。但在決定何種方法最合適之前,我們必須先知道資料的型態。
7. 資料型態 (i) 類別資料(Nominal Data) 類別資料的數值代表不同的組別(categories, classes, groups),其數字的大小、次序並不具意義。類別資料是無次序的(unordered)。 e.g., 性別可以「0」代表女性,「1」代表男性。 血型:「1」- A型,「2」- B型,「3」- O型,「4」- AB型。 出生地:「1」- 北,「2」- 中,「3」- 南,「4」- 東,「5」- 其他。 類別資料中,各個組別佔全體的比例(proportion) 具有意義的。
(ii) 序位資料(Ordinal Data) 當分類組別間的次序(order) 具有意義時,則為序位資料。但其數字本身的量的大小(magnitude)、組別間的差值並不具意義。 e.g., 傷害若依受傷程度分類:「1」代表輕傷,「2」代表 中等傷害,「3」代表嚴重傷害,「4」代表致命傷害。 癌症依嚴重程度分為:第零期,第一期,第二期, 第三期,第四期。 1, 2, 3, 4 僅代表受傷的程度,2 比 1 嚴重,3 比 2 嚴重,但 2 與 1 的相差 1,和 3 與 2 的相差 1 並不具意義,也不等同。
(ii)* 等級化資料(Ranked Data) 把原始資料(raw data) 依數值量的大小(magnitude) 排列成序(sequence, order),然後依排列的順序另外給予一整數代號。 e.g., 資工系10位學生的身高,可以依原始身高的大小順序 給予 1~10 的等級代號。
(iii) 離散型資料(Discrete Data) 其排序(order) 及量(magnitude) 的大小都是有意義的,其數字本身為真正可測量的值(measurable quantities) 而非代號()。數值為非负的整數(nonnegative integers),可數的(countable),彼此間的差(difference)、距離(distance) 是有意義的。 e.g., 某校的化工系有25位老師,企管系15位老師,資工系 20位老師,社會系18位老師,醫學系0位老師。 該校沒有醫學系,所以醫學系0位老師; 化工系師資比資工系多5位,而資工系又比企管系多5位。
(iv) 連續型資料(Continuous Data) 數值為可測量的值(measurable quantities),且不限定為整數。 連續型資料可以依研究的需要轉換(transform) 為離散型、等級化、序位或類別資料以簡化分析,但會遺失細節訊息及精密度。
8. 量測尺度 (Measurement Scale) (i) 類別尺度(Nominal Scale) 數字代表不同的類別,但數字本身的大小、順序不具意義。 (ii) 序位尺度(Ordinal Scale) 數字代表不同類別及順序等級,但不可測量彼此間的差異。 (iii) 等距尺度(Interval Scale) 數字具有大小的順序,也可用來測量彼此間的距離(distance),但等距尺度沒有真正的「零」。等距尺度不能求比值(ratio)。
e.g., 今天清晨溫度 25oC,下午溫度 30oC,昨天清晨溫度 24oC,下午溫度 29oC,今天的溫差 5oC 與昨天的溫差 5oC 是相同意義的。但 0oC 並不代表完全沒有溫度,溫度 20oC 也不是 10oC 的兩倍。 (iv) 等比尺度(Ratio Scale) 具有真正的「零」之資料。 e.g., 高度 0 cm就是沒有高度,高度 160 cm為高度 80 cm的兩倍。
Note : 符號與常用公式 1. 符號 (1) a, b, c, … 常數(constants) (2) n, N , … 觀察個體的數目,一組資料的總數(total number) (3) x, y, z, X, Y, Z, … 變數(variables) (4) Σ 累加,取和,加總(summation, add up, sum) (5) Π 聯乘積(product) (6) e, loge 自然基底(natural base)及 自然對數(natural log) 定義 = 2.71828
(7) 對數函數(logrithm function)與指數函數(exponential function) (anti-log) log y = x y = ex e.g., y = e x log y = log (ex) log y = x e log y = e x
2. 常用公式 (1) (2) (3) (4) (5) (6)
(7) (8) 作業一 (下次上課前交) 1. 說明下列觀察值是連續型、離散型、序位或類別資料? (1) 這個學期資工系各班學生的人數? (2) 這二個星期同學每日起床時的體重? (3) 去年台灣的十大死因順序? 2.