Download presentation
Presentation is loading. Please wait.
Published by仲 支 Modified 8年之前
1
Introduction to Statistics Jian-hua Yeh ( 葉建華 )
2
Outline What is Statistics? Types of Statistics 2
3
Introduction 2007/9/16, 王建民對上紅襪的 Beckett 。師範大學的多 數學生會不會因為王建民輸球而刻意不看那場球賽的 轉播呢 ? 第二屆星光大道的節目比第一屆難看嗎 ? 3
4
What is Statistics? Definition of Statistics – 從資料 (data) 中獲得資訊 (information) 的方法 – 以數學與機率為基礎有系統有組織的解決問題之學 門 ( 客觀學 ) Passive objective: 探討原因以分析問題 Active objective: 提出方案以解決問題 4
5
Problem Solving Flow 5
6
The Role of Statistics The life cycle of statistical survey 6
7
Types of Statistics Descriptive Statistics – 以便捷且易於獲取資訊的方式組織、彙整、並描述 資料 – 畫圖、製表、算比例、算平均數 -> 瞭解資料特性 7
8
Types of Statistics (2) Inferential Statistics – 根據樣本資料 ( 統計量 ) 推論母體特性 ( 估計、檢定 ) –E.g. 以師範大學圖資所學生不看輸球球賽轉播的比 例推論所有師大學生的態度. –Applied Statistics: 變異數分析 / 實驗設計 / 迴歸分析 / 統計模擬 / 卡方檢定 / 時間序列 / 品質管理 / 多變量分 析... 8
9
Descriptive Statistics Descriptive statistics involves the arrangement, summary, and presentation of data, to enable meaningful interpretation, and to support decision making. Descriptive statistics methods make use of –graphical techniques (and table format) ( 圖表 ) –numerical descriptive measures ( 數值 ) The methods presented apply to both –the population –the sample 9
10
Descriptive Statistics – Stem & Leaf 10 00000000000111112222223333345555556666666778888999999 1000001111233333334455555667889999 20000111112344666778999 3001335589 4124445589 533566 63458 7022224556789 8334457889999 900112222233344555999 10001344446699 11124557889
11
Descriptive Statistics – Histogram 11
12
Descriptive Statistics – Line 12
13
Descriptive Statistics – Pie 13
14
Descriptive Statistics – Scatterplot 14
15
Types of Data and Information A variable ( 變數 ) –A characteristic of population or sample that is of interest for us. ( 我們感興趣的母體或樣本的特性 ) – 舉例 - 手機品牌、考試成績、選課花費時間 – 常用大寫英文字母 X, Y, Z 表示變數名稱 Values of a variable –The possible observations of a variable. ( 變數可能的觀測值 ) – 舉例 - 手機價格的 values 是個實數,範圍從 0 到數十萬元 15
16
Types of Data and Information (2) Data - the observed values of a variable. ( 變數的實際值 ) – 舉例 - 手機價格為 5000 元, 12000 元 Types of data –Interval data ( 區間資料 ) are real numbers 有時也叫 quantitative data, numerical data –Nominal data ( 名目資料 ) are categorical ( 類別的 ) observations –Ordinal data ( 順序資料 ) are ordered categorical observations –Ratio data ( 比率資料 ) 16
17
Types of Data - Example 17 Interval data Age - income 5575000 4268000.. Age - income 5575000 4268000.. Nominal Person Marital status 1married 2single 3single.. Person Marital status 1married 2single 3single.. Computer Brand 1IBM 2Dell 3IBM.. Computer Brand 1IBM 2Dell 3IBM.. Weight gain +10 +5. Weight gain +10 +5.
18
Types of Data – Example (2) Ordinal Data –How do you evaluate this classroom? –Ans: Poor, fair, good, very good, and excellent 18
19
Calculations for Types of Data Interval data Age - income 5575000 4268000.. Age - income 5575000 4268000.. Nominal data With nominal data, all we can do is, calculate the proportion of data that falls into each category. ( 只能計算次數, 比例 ) With nominal data, all we can do is, calculate the proportion of data that falls into each category. ( 只能計算次數, 比例 ) IBM Dell Compaq OtherTotal 25 11 8 6 5 0 50% 22% 16% 12% IBM Dell Compaq OtherTotal 25 11 8 6 5 0 50% 22% 16% 12% Weight gain +10 +5. Weight gain +10 +5. 可以加減乘除, 算平均數等 19
20
Calculations for Types of Data Ordinal Data –Ordinal Data 最重要一點是值的順序 (order), 所以可 以用 「和次序有關的計算」 – 舉例 - 中位數 20
21
Basic Statistics Core components –Population( 母體 ): 特定研究中,我們有興趣的全體 事項的集合 –Sampling( 抽樣 ): 當母體資料不易取得時方得抽樣 –Sample( 樣本 ): 由母體抽樣取得之具代表性項目 –Parameter( 參數 ): 母體的某ㄧ個特徵值 –Statistic( 統計量 ): 隨機樣本的某ㄧ個特定函數 21
22
Basic Statistics (2) 以師範大學圖資所學生不看輸球球賽轉播的比 例推論所有師大學生的態度 –Population? –Parameter? –Sample? –Statistic? 22
23
Basic Statistics (3) 以師範大學圖資所學生不看輸球球賽轉播的比 例推論所有師大學生的態度 –Population = 師範大學所有學生 –Parameter = 師大所有學生中不看輸球球賽轉播的 比例 –Sample = 師大圖資所某年級學生 –Statistic = 師大圖資所某年級學生不看輸球球賽轉 播的比例 23
24
Parameter 以數學式表示時,參數是母體資料的函數,此 函數的值能反映出母體的特徵 只要普查後,就可得知參數的值,故參數是一 個固定常數 實務上,我們很少花大筆經費去普查,故經常 不知道參數的值 24
25
Statistic 以數學式表示時,統計量是樣本資料的函數, 此函數的值能反映出樣本的特徵 當抽樣調查完成後,統計量的值就可知道了; 但其值會隨樣本而異,故統計量是一個變數 (variable) 我們經常用統計量估計未知的參數 25
26
Try Now 一電腦晶片製造商宣稱其產品中,少於 5% 是瑕疵品。 現今從一大量生產批次中取出 600 片晶片,發現其中有 3.5% 是瑕疵品 –Population? –Sample? –Parameter? –Statistic? –What is the role of “5%”? –What is the role of “3.5%”? –What is the result of statistical inference? 26
27
The Answer 一電腦晶片製造商宣稱其產品中,少於 5% 是瑕疵品。 現今從一大量生產批次中取出 600 片晶片,發現其中有 3.5% 是瑕疵品 –Population = 大量生產批次所有的晶片 –Sample = 取出的 600 晶片 –Parameter = 大量生產批次的晶片中瑕疵品的比例 –Statistic = 取出的 600 晶片中瑕疵品的比例 –What is the role of “5%”? parameter –What is the role of “3.5%”? statistic –What is the result of statistical inference? 因為 3.5% 小於 5% ,所以相信製造商的宣稱 27
28
Basic Statistics - Sampling Sampling is a mean to project statistic to parameter Example – 性別 – 目前使用的手機品牌 – 這支手機的價格 – 考慮多久時間決定買下 – 對 Nokia 手機的喜好程度 分非常不喜歡, 不喜歡, 普通, 喜歡, 非常喜歡 28
29
Think It Over… 「 手機品牌 」 的資料可以畫什麼圖 ? 「所購買手機的價格」的資料可以畫什麼圖 ? 「對 Nokia 手機的喜好程度」的資料可以畫什麼圖 ? 同時考慮「這支手機的價格」和「考慮多久時間決定買下 」兩個變數的關係, 應該如何畫圖 ? 同時考慮 「性別」和「手機品牌」兩個變數的關係, 應該如 何畫圖 ? 29
30
The Point 不同的資料適合畫的圖不一樣 30
31
The Answer 「 手機品牌 」 的資料可以畫什麼圖 ? –Pie chart 、 histogram 「所購買手機的價格」的資料可以畫什麼圖 ? –Stem&leaf 「對 Nokia 手機的喜好程度」的資料可以畫什麼圖 ? –Pie chart 、 histogram 同時考慮「這支手機的價格」和「考慮多久時間決定買下 」兩個變數的關係, 應該如何畫圖 ? –Scatterplot 同時考慮 「性別」和「手機品牌」兩個變數的關係, 應該如 何畫圖 ? –Histogram 31
Similar presentations