Presentation is loading. Please wait.

Presentation is loading. Please wait.

初等教育統計 統計基本概念 104年上學期 授課教師 陳鏗任.

Similar presentations


Presentation on theme: "初等教育統計 統計基本概念 104年上學期 授課教師 陳鏗任."— Presentation transcript:

1 初等教育統計 統計基本概念 104年上學期 授課教師 陳鏗任

2 大綱 母群體(Population) and 樣本(Sample) 參數(Parameter) and 統計值(Statistic)
描述統計(Descriptive statistics) and 推論統計(Inferential statistics) 簡單隨機取樣(Simple Random Sampling) (SRS) 變數(Variables) 隨機分配(Random assignment) 量測尺度(Scales of measurement) 一些符號(Notations)與統計數學計算 頻率與次數 統計圖示(圓餅圖、長條圖、直方圖、莖葉圖) 3/13/2017

3 母體(Population) & 樣本(Sample)
研究者想要研究的完整群組: 所有的人、事、物。 研究者實際觀察到的部分群組: 部分的人、事、物。

4 母體(Population) & 樣本(Sample)
樣本(Sample): 母體(population)的(部分取樣)subpopulation 節省時間與金錢。 好的樣本必須要能代表想研究的母體。 保留原本母體的 所有特性。 當利用樣本進行統計分析後,必須要能產生與使用母體進行統計分析後相近(similar)/不偏差(unbiased)的結果。 所以、最好的選取樣本的方法為 隨機取樣(sampled by chance )!!

5 簡單隨機取樣 Simple Random Sampling (SRS)
所有在母體裡面的人、事、物都有相同的機會(equal chance )被選為樣本中的 一部分。每一次的選擇(selection)都不會互相影響。每一次的選擇都是獨立事件(Independent event)。 Population Sample Simple Random Sampling

6 參數(Parameter) & 統計值(Statistic)
但是、樣本(samples)通常提供母體(population)有限的資訊,而且並不完全。 所以、從樣本取得的統計值(statistic)往往不完全相等於其母體的參數值(parameter)。 統計值與參數值之間的差異(error or discrepancy ),我們稱之為取樣誤差(sampling error)

7 參數(Parameter) & 統計值(Statistic)
母體(Population) 樣本(Sample) 參數( Parameter ) EX. 所有新竹高中生的考試成績,所有CEO薪水,全交大人的每日上網時間 統計值(Statistic) EX. 只有光復高中學生的考試成績,部分CEO薪水,交大宅男每日上網時間

8 參數(Parameter) & 統計值(Statistic)
敘述性統計(Descriptive Statistics) 用來描述和總結資料。像是統計值(statistics: 平均數(mean)和變異數(variance))可以用來敘述樣本資料或者是母體資料。敘述性統計提供了 一個簡化的描述來總結資料的趨勢與特性。 推論性統計(Inferential Statistics)包含了比較進階的程序可以讓我們將樣本所得到的統計值推論到母體的參數。也就是說、我們可以利用一部分的母體取樣(a small subset of population)的樣本所得到的統計值來推論 整個母體(entire population)的參數。

9 母體(參數)與樣本(統計值) EX: 交通大學學生騎機車的調查 新竹市市民到過新竹市動物園的比例 台灣民眾平均的上網時數

10 母群體(參數)與樣本(統計值)? EX:行政院勞工委員會職業訓練局全國就業e網調查「社會新鮮人目前的求職狀況為何?」,調查時間是8月1日至8月31日止,有效資料人數為1 078人。 結果為: 新鮮人目前求職狀況前3名是「不知道自己要做什麼」(30.98%)、「沒有面試機會」(16.70%)及「面試都沒有成功」(13.17%)。 3/13/2017 課程二

11 描述性統計(Descriptive statistics) and 推論性統計(Inferential statistics)
描述性統計(敘述性統計): 使用計算、測量、描述的方式將一群資料加以整理、摘要、和濃縮,使容易了解其中的含意與訊息。描述性統計提供了 一個簡化的描述來總結資料的趨勢與特性。 交大教育所104年碩一學生組成 推論性統計:無法收集所有人(母群體)的資料,僅以抽樣得來的資料來分析並得到估計值,同時指出估計正確的可能性或錯誤的機率。研究者主要的興趣在了解母群體的特質。推論性統計包含了比較進階的程序可以讓我們將樣本所得到的統計值推論到母群體的參數。 使用LINE的人的年齡 3/13/2017 課程二

12 變數的測量 量測尺度(量尺)

13 母數(Population) and 樣本(Sample)
參數(Parameter) and 統計值(Statistic) 簡單隨機取樣(Simple Random Sampling) (SRS) 變數(Variables) 隨機分配(Random assignment) 量測尺度(Scales of measurement) 一些符號(Notations)

14 變數與常數 變數:當事物的屬性(property)或特徵,可以不同的數值或狀態出現者,稱之為變數。

15 變數與常數 變數:X、Y、E 常數:2.5與3.2

16 四種量尺 名義量尺:nominal scale 次序量尺:ordinal scale 等距量尺:interval scale
比率量尺:ratio scale

17 名義尺度 名義尺度(nominal scale) 名義變項(nominal variable) 特性
針對被觀察者的某一現象或特質,評估所屬類型種類,並賦予一個特定的數值。 名義變項(nominal variable) 由名義尺度所測量得到的變數,稱為名義變項。 性別(男、女)、籍貫(台北市、新竹市等等)、種族(本省、外省、原住民)、婚姻狀態(未婚、已婚、離婚、喪偶等)、就讀學校等等。 特性 以分立的類別為單位,又稱為類別尺度(categorical scale),是一種具有分類功能的測量工具。 第二節

18 順序尺度 順序尺度(ordinal scale) 順序變項(ordinal variable) 特性
指對於被觀察者的某一現象的測量內容,除了具有分類意義外,各名義類別間存在特定的大小順序關係 順序變項(ordinal variable) 以順序尺度測量得到的變項稱為順序變項 如大學教授層級(教授、副教授、助理教授、講師)、教育程度(研究所以上、大學、高中職、國中、國小及以下)、社經地位(高、中、低)等,皆屬以順序尺度所測得之順序變項 特性 數值分配需考慮順序關係,研究者僅可選擇升冪或降冪來排列不同的順序類別,不能任意指定數值給尺度中的不同類別 順序尺度所測得的數值雖具有順序的意義,但是由於沒有特定的單位,除了大小順序之外,數值並無數學邏輯運算的功能與意義 第二節

19 等距尺度 等距尺度(間距尺度)(interval scale) 等距變項(interval variable) 特性
係針對被觀察者的某一現象或特質,依某特定的標準化單位,測定程度上的特性 等距尺度測量得到的數值,除了具有分類、順序意義外,數值大小反應了兩個被觀察者的差距或相對距離 等距變項(interval variable) 以等距尺度測量得到的變項,稱為等距變項 如以溫度計量出的「溫度」、以考試決定的「學業成績」、以智力測驗測得的「智商」 特性 其數值兼具分類、次序和差距的意義 其單位只有相對的零點,而無絕對的零點 數值與數值的比值(ratio),僅具有數學的意義,而缺乏實徵的意義,研究者應避免直接取用兩個等距變項的數值相乘除比較 第二節

20 比率尺度 比率尺度(ratio scale) 比率變項(ratio variable) 特性
測量尺度使用了某個標準化的單位,同時又具有一個絕對零點,稱為比率層次的測量,具有真正零點的等距尺度。 比率變項(ratio variable) 以等距尺度測量得到的變項,稱為等距變項 如身高(公分)、體重(公斤)、工作所得(元)、年齡(歲)、住院日數、受教育年數 特性 具有絕對零點 數值與數值之間除了具有距離以反映相對位置,同時數值與數值之間的比率具有特定的意義 數值的倍率可以進行解釋與運用 例如年齡變項,80歲比40歲老一倍,即如同40歲比20歲老一倍 第二節

21 四種量尺 名義量尺 次序量尺 等距量尺 比率量尺 辨別、歸類 性別:男女 大小、次序 階級:上、中、下 相等單位
溫度:20、21、22、23、24、25等 比率量尺 相等單位絕對零點 身高:164、165、166、167、168、169等

22 試試看 ??量尺 ??量尺 ??量尺 ??量尺 $元 托福/GRE score 巴西, 義大利, 德國, and 奧地利.
Girl and boy ??量尺 極好, 好, 中等, 不好, 極差. 成績A, B, C, D, and F… ??量尺 溫度 (in Fahrenheit or Celsius), ??量尺 $元 托福/GRE score A nominal scale consists of a set of categories that have different names. Measurements on a nominal scale label and categorize observations, but do not make any quantitative distinctions between observations. An ordinal scale consists of a set of categories that are organized in an ordered sequence. Measurements on an ordinal scale rank observations in terms of size or magnitude. An interval scale consists of ordered categories that are all intervals of exactly the same size. With an interval scale, equal differences between numbers on the scale reflect equal differences in magnitude. However, ratios of magnitudes are not meaningful. a ratio scale is an interval scale with the additional feature of an absolute zero point. With a ratio scale, ratios of numbers do reflect ratios of magnitude. 3/13/2017 課程二

23 測量的尺度(方法) 第二節

24 量測資料的階級性 量測資料尺度的階級性 越高層次的量測尺度,其精密度越高,其計量的轉換力越好。 3/13/2017 Lecture 3
nominal ordinal interval ratio 頻率分佈(frequency distribution) yes 分佈表(frequency table) 卡方檢定(chi-square test) 眾數(mode) 中位數(median) no 平均數(mean)/標準差(standard deviation) 廣義線性方程式(GLM) (迴歸 regression, 變異數分析 ANOVA…) 比例 (ratio)/ 分數 (fraction) 對數 (logarithm) Ordinal refers to quantities that have a natural ordering. The ranking of favorite sports, the order of people's place in a line, the order of runners finishing a race or more often the choice on a rating scale from 1 to 5. With ordinal data you cannot state with certainty whether the intervals between each value are equal. For example, we often using rating scales (Likert questions). On a 10 point scale, the difference between a 9 and a 10 is not necessarily the same difference as the difference between a 6 and a 7. This is also an easy one to remember, ordinal sounds like order.   Photo By: epimetheus Interval data is like ordinal except we can say the intervals between each value are equally split. The most common example is temperature in degrees Fahrenheit. The difference between 29 and 30 degrees is the same magnitude as the difference between 78 and 79 (although I know I prefer the latter). With attitudinal scales and the Likert questions you usually see on a survey, these are rarely interval, although many points on the scale likely are of equal intervals.   Photo By: psd Ratio data is interval data with a natural zero point. For example, time is ratio since 0 time is meaningful. Degrees Kelvin has a 0 point (absolute 0) and the steps in both these scales have the same degree of magnitude.   Photo By: dvs Who Cares? Where did this all come from you ask and why do we care?  Well, the short answer is, we should care most about identifying nominal data--which is categorical data. If it isn't nominal, then it's quantitative. So why all the fuss?  In the 1940's when behavioral science was in its infancy, there was much concern about trying to make the practice as legitimate as possible. Psychology and other Social and Behavioral Sciences are considered soft sciences as opposed to the hard sciences of Chemistry and Physics. It was thought that by applying some of the same thinking from the hard sciences, it would improve the legitimacy of these soft sciences--as well as the veracity of the claims made.  One approach was to map types of scaling to more natural laws (something akin to the physical laws of gravity and motion). This classification system was proposed in 1946 by SS Stevens. In the article Stevens went so far as to say that you should only take averages on at least interval and ratio data. Nominal and Ordinal data should only be counted and described in frequency tables--no means and standard deviations.  One of the more famous articles showing the fallacy of such rigid thinking was by an eminent statistician named Lord who in his article: "On the statistical Treatment of Football Numbers" showed how the means of nominal data can be meaningful too! In practice, rating scales are ubiquitous in behavioral sciences and rarely have they been shown to have interval, much less ratio scales (what is the 0 point of customer satisfaction ?) So means, standard deviations, t-tests, regressions and ANOVA are run daily and the results are published without much concern for these categories (to the chagrin of a few purists). What this classification system does remind us of is to not make interval and ratio claims about ordinal data. So if the average customer satisfaction on Product A is 4.0 and the Average on B is 2.0, we need to be careful in thinking the difference in satisfaction is twice. We can say there is a difference, but we're less sure if it's two times. In summary, it's generally OK to take means and apply statistical tests to ordinal data, just be careful about making interval claims such as "twice as satisfied." 3/13/2017 Lecture 3

25 變數revisited 名義、次序、等距、比率變數 連續變數與間斷變數 量化變數與質性變數 建構:看不到的變數

26 建構:看不到的變數 假設性的變數 無法實際觀察 操作性的定義 例如:IQ、疏離感、滿意度

27 資料種類(了解你的資料) 測量Measurement:根據測量工具,用數字描述個人特質的過程
四種測量量尺(measurement scale) 名義量尺(nominal scale):雖是數字卻沒有大小之分。如,1是男性,2是女性。 順序量尺(ordinal scale) :有大小順序之分。如學業成績第一名,第二名等。一般問卷使用李克氏量尺,如非常不同意﹑不同意﹑沒意見﹑同意﹑非常同意以1, 2, 3, 4, 5來代表這五點。 等距量尺(interval scale) :不僅有大小順序之分,也有等距的意義。如攝氏10度與11度之差等於攝氏15度與16度之差。 比率量尺(ratio scale) :除了有等距的特性外,還具有自然的零點。如量身高的公分,量體重的公斤。 SSS: the director of psycho-acoustic laboratory, Harvard U. Nominal basically refers to categorically discrete data such as name of your school, type of car you drive or name of a book. This one is easy to remember because nominal sounds like name (they have the same Latin root).  In nominal measurement the numerical values just "name" the attribute uniquely. No ordering of the cases is implied. For example, jersey numbers in basketball are measures at the nominal level. A player with number 30 is not more of anything than a player with number 15, and is certainly not twice whatever number 15 is. In ordinal measurement the attributes can be rank-ordered. Here, distances between attributes do not have any meaning. For example, on a survey you might code Educational Attainment as 0=less than H.S.; 1=some H.S.; 2=H.S. degree; 3=some college; 4=college degree; 5=post college. In this measure, higher numbers mean more education. But is distance from 0 to 1 same as 3 to 4? Of course not. The interval between values is not interpretable in an ordinal measure. In interval measurement the distance between attributes does have meaning. For example, when we measure temperature (in Fahrenheit), the distance from is same as distance from The interval between values is interpretable. Because of this, it makes sense to compute an average of an interval variable, where it doesn't make sense to do so for ordinal scales. But note that in interval measurement ratios don't make any sense - 80 degrees is not twice as hot as 40 degrees (although the attribute value is twice as large). Finally, in ratio measurement there is always an absolute zero that is meaningful. This means that you can construct a meaningful fraction (or ratio) with a ratio variable. Weight is a ratio variable. In applied social research most "count" variables are ratio, for example, the number of clients in past six months. Why? Because you can have zero clients and because it is meaningful to say that "...we had twice as many clients in the past six months as we did in the previous six months." It's important to recognize that there is a hierarchy implied in the level of measurement idea. At lower levels of measurement, assumptions tend to be less restrictive and data analyses tend to be less sensitive. At each level up the hierarchy, the current level includes all of the qualities of the one below it and adds something new. In general, it is desirable to have a higher level of measurement (e.g., interval or ratio) rather than a lower one (nominal or ordinal). 3/13/2017 課程二

28 3.觀察與量測 EX. 工作所得 50k 10k 20k 30k 40k -3 3 -2 -1 1 2 低所得 高所得 中低所得 中高所得
50k 10k 20k 30k 40k -3 3 -2 -1 1 2 低所得 高所得 中低所得 中高所得 外籍勞工 本國勞工

29 測量連續變數 誤差:measurement error 真正上限:upper real limit
真正下限:lower real limit

30 測量連續變數

31

32 統計與研究設計的關係

33 統計學與研究流程的關係 形成研究問題; 選擇實驗設計; 找尋資料間關係; 詮釋資料間關係; 將由樣本取得的關係延伸到母體的關係。 課程二
3/13/2017

34 1.形成研究問題 1.1 科學性的研究起因於研究者對各種現象所產生 的疑問;而這個疑問的解答可以藉由在有條件控制 的環境中被有系統地觀察所獲得。 EX. 如果我們對研究所學生的期中初統考試作正向且客製化 的評語,那她們的期末考試成績會不會越來越好?? 課程二 3/13/2017

35 1.形成研究問題 1.2 確定變數 (variables) 變數: 研究問題所關切的人、事、地、物…
變數必須可以發生不同的數值: 像是人的身高體重;上網的時 間;數學成績… 課程二 3/13/2017

36 1.形成研究問題 變數的定義:可以變化不同數值的人、事、地、物… EX: Variable Values of Variable
你的初統成績 A, B, C, D, F… 是否有正向且客製的評語? “有” 和 “沒有”. GRE 成績 課程二 3/13/2017

37 1.形成研究問題 資料的型態 質性資料 (Qualitative data)/類別資料 (Categorical data)
依照性質或程度的不同區分記述所得。 量化資料(quantitative data) 間斷資料(Discrete variable): 變數的數值只有來自一些間斷的 數值 連續資料(Continuous variable):變數的數值可以是某一個區間 (some interval)之內所有可能發生的數值。 Variable Values of Variable 你的初統成績 A, B, C, D, F… 是否有正向且客製的評語? “有” 和 “沒有”. GRE 成績 家庭人口數 1,2,3,4,5… 課程二 3/13/2017

38 1.形成研究問題 變數的功用: 自變數(Independent variables, IV)
研究者所控制的變數 應變數(Dependent variables, DV) 所被量測或觀察到的變數 EX: 學生的期末初統成績– DV or IV 有沒有接受到正向且客製化的評語 – DV or IV 課程二 3/13/2017

39 實驗法與變數 自變數:研究者操弄控制的變數 教學法 依變數:隨著自變數改變的變數 學生的數學成績 干擾變數:未受控制卻影響依變數的變數
學生的IQ

40 1.形成研究問題 1.3 假設(Hypotheses) 假設就是一個被事先提出可以解釋兩變數間關係的可能答 案。
假設必須簡潔的表達初研究者所期盼的兩變數間關係。 EX: 期中考卷上客製且正向的評語(將)會提高學生期末初統 成績。 課程二 3/13/2017

41 1.形成研究問題 1.4 關係(Relationship): 兩變數間有系統的變化。
因果性的關係(Causal relationship): 其中一個變數的變 化會有系統地導致另一變數的變化。 預測性的關係(Predictive relationship):其中一個變數的 變化將被預測導致另一變數的變化,但卻無絕對的證據來 說明其因果關係。 課程二 3/13/2017

42 1.形成研究問題 1.4 關係(Relationship): EX: 如果上述假設正確,學生的初統考試成績高低將 會與正向與客製評語有正向的關係。 Comment Exam scores 課程二 3/13/2017

43 統計學與其研究流程 形成研究問題; 選擇實驗設計; 找尋資料間關係; 詮釋資料間關係; 將由樣本取得的關係延伸到母體的關係。 課程二
3/13/2017

44 2. 選擇實驗設計 實驗設計(Research Design):研究者設定用以 觀察行為和收集資料的詳細計畫與一連串步驟,
相關性設計(Correlational design): 可以使研究者發現 兩變數間預測性關係的計畫與一連串步驟。但無法提供 足夠資料以確立因果性關係。 實驗性設計(Experimental design):可以使研究者確立 兩變數間因果性關係的計畫與一連串步驟。必須將所有 額外因素排除後,有系統的操控(systematically manipulating)其中一個變數 ,以觀察另一變數的變化。 課程二 3/13/2017

45 2. 選擇實驗設計 2.1 實驗性設計(Experimental design):
發展假設以確立兩變數之間的關係: 確立何為自變數 (因) ,何為應變數(果)。 實驗設計必須將所有會影響到應變數(果)的其他因子 全部控制住 (held constant)。 當所有其他因素都被控制住之後,研究者有系統的操 控或是變化自變數(因)。 如果應變數(果)產生相對應的變化,那研究者就可以 總結兩者間因果的關係。 課程二 3/13/2017

46 那我們要如何控制研究的環境讓其他可以影響結果的因素被控制住呢??
2. 選擇實驗設計 那我們要如何控制研究的環境讓其他可以影響結果的因素被控制住呢?? 2.1實驗性設計(Experimental design): Form of test Comment Exam scores Test-retest age 課程二 3/13/2017

47 2. 選擇實驗設計 隨機分配(Random Assignment)
奠基於完全隨機的程序—丟銅板—受測者隨機被 分配到實驗組(treatment group) 和對照組 (control group)。 在統計上控制所有可能影響結果的因素 (statistically equivalent);也就是說在實驗的一 開始,對照組與實驗組有幾乎一樣的成員組成: 一開始,這些成員有相近的應變數(果)與其他會 影響應變數(果)的因素。 Importance in isolating cause and effect More important than random sampling Impossible with organic variables such as gender Then what? 課程二 3/13/2017

48 2. 選擇實驗設計 EX: 隨機變數產生器 (Random Number Generator):
Random.aspx 課程二 3/13/2017

49 2. 選擇實驗設計 隨機分配 Time(t) T Comment C random assigned Participants
i= 1,…,N C If the two groups showed a sizable difference in exam scores at the end of the study, we would be confident that the difference was produced by the one thing that was intentionally varied between the two groups: the type of feedback that they received on their returned exams. Time(t) 課程二 3/13/2017

50 2. 選擇實驗設計 2.2 相關性設計(Correlational design):可以使研究者發現兩 變數間預測性關係的計畫與一連串步驟。但無法提供足夠資 料以確立因果性關係沒有隨機分配!! 因果性實驗與相關性實驗最大的差別在於隨機分配:在因 果性實驗中,樣本被隨機的分配到實驗組與對照組;但在 相關性研究裡則無。 隨機分配(Random assignment)就是給予研究者權力可 以控制其他(不相干或不感興趣的)因素與決定兩變數間因 果關係 。 課程二 3/13/2017

51 實驗法的案例

52 干擾變數的影響

53 相關法與變數 預測變數:predictors 效標變數:criteria 不能確認因果關係

54 相關法的案例

55 Take Home Message 樣本是母體的部分子群 (Sample is the subpopulation of Population.) 統計學是一門利用樣本統計值來推論母體參數的 科學! 假設就是建立自變數與應變數之間關係的假說。 (A hypothesis is proposed relationship between IV and DV.) 研究者利用相關性設計來了解預測性關係;用實 驗設計來了解因果關係。(Researcher uses Correlational design to have predictive relationships, and uses Experimental design to discover causal relationship between variables.) 課程二 3/13/2017

56

57

58

59

60

61

62

63

64 3Q3Q


Download ppt "初等教育統計 統計基本概念 104年上學期 授課教師 陳鏗任."

Similar presentations


Ads by Google