Chapter 3 Association: Contingency, Correlation, and Regression

Slides:



Advertisements
Similar presentations
©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
Advertisements

不定積分 不定積分的概念 不定積分的定義 16 不定積分的概念 16.1 不定積分的概念 以下是一些常用的積分公式。
大綱 1. 三角函數的導函數. 2. 反三角函數的導函數. 3. 對數函數的導函數. 4. 指數函數的導函數.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
單元九:單因子變異數分析.
Basic concepts of structural equation modeling
双变量关联性分析.
How to Use SPSS in Biomedical Data analysis
圓的一般式 內容說明: 由圓的標準式展出圓的一般式.
期望值 變異數 共變異數與相關係數 變異數與共變異數之性質 柴比雪夫不等氏 動差與動差生成函數
圓的一般式 內容說明: 由圓的標準式展出圓的一般式.
類別資料分析(Categorical Data Analysis)
第十一章 多变量的可视化分析 第一节 引言 第二节 折线图分析法 第三节 条形图分析法 第四节 散点图分析法 第五节 雷达图分析法
如何使用 Excel 與SPSS繪製 統計圖型
饮食治疗篇.
多元迴歸 Multiple Regression
第四章 數列與級數 4-1 等差數列與級數 4-2 等比數列與級數 4-3 無窮等比級數 下一頁 總目錄.
STATISTICA統計軟體的應用 第二講:廻歸與ANOVA
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
Population proportion and sample proportion
第四章 單變量描述性分析 第一節 描述性統計原理 第二節 報告(Reports)
Differential Equations (DE)
SAS  統計程序實作 CONTENTS By DR. Yang , Yi-Chiang /11/11.
Regression for binary outcomes
REGRESSION FOR ORDINAL OUTCOMES 「順序尺度依變項」的迴歸模型
2-1 直線方程式及其圖形 直線的斜率 1 直線的方程式 2 兩直線關係 直線方程式及其圖形 page.1/22.
Chapter 2 第二章 Presenting Data in Tables and Charts 統計圖及表的應用
Stochastic Relationships and Scatter Diagrams
Sampling Theory and Some Important Sampling Distributions
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
課程九 迴歸與相關2.
邏輯迴歸 Logistic Regression
统计软件应用 7 主讲人 陶育纯 SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案.
二元隨機變數(Bivariate Random Variables)
單一分配 Uniform distribution
統計方法的概念與應用 一、認識統計(statistics)、測驗(test)、 測量(measurement)與評價(evaluation)
相關與迴歸 Correlation and Regression
第十一章 相關研究法.
The Nature and Scope of Econometrics
第一章 直角坐標系 1-1 數系的發展.
多元迴歸分析.
Chapter 2 Basic Concepts in Graph Theory
第一次上統計Tutorial 就上手 不是只有上一次嗎.
第一章 直角坐標系 1-3 函數圖形.
生物統計 1 課程簡介 (Introduction)
Mechanics Exercise Class Ⅰ
第捌章 敘述研究法 一、調查研究法(survey method) 二、相關研究法(co relational studies)
Definition of Trace Function
Chapter 1 多變量統計方法介紹. Chapter 1 多變量統計方法介紹 變數資料之類型 以衡量尺度分類 以變數的角色分類 名目尺度(nominal scale ) 序列尺度(ordinal scale) 區間尺度(interval scale) 比率尺度(ratio scale) 以變數的角色分類.
Simple Regression (簡單迴歸分析)
微積分網路教學課程 應用統計學系 周 章.
第二章 经典线性回归模型: 双变量线性回归模型
統計學簡介 許明宗.
第十四章名義資料的數字 描述:關連測量 © Copyright 版權所有:學富文化事業有限公司。本光碟內容僅提供教師於教學上使用,非經本公司許可,禁止複製 (給學生)。感謝老師的配合。
例題 1. 多項式的排列 1-2 多項式及其加減法 將多項式 按下列方式排列: (1) 降冪排列:______________________ (2) 升冪排列:______________________ 排列 降冪:次數由高至低 升冪;次數由低至高.
何正斌 博士 國立屏東科技大學工業管理研究所 教授
Linear Regression Analysis 5E Montgomery, Peck & Vining
统计工具的使用方法 主讲人 陶育纯 统计工具的使用方法 主讲人 陶育纯
Multiple Regression: Estimation and Hypothesis Testing
第一章 直角坐標系 1-3 函數及其圖形.
補充 數值方法 數值方法.
4-1 變數與函數 第4章 一次函數及其圖形.
Chapter 1 多變量統計方法介紹. Chapter 1 多變量統計方法介紹 變數資料之類型 以衡量尺度分類 以變數的角色分類 名目尺度(nominal scale ) 序列尺度(ordinal scale) 區間尺度(interval scale) 比率尺度(ratio scale) 以變數的角色分類.
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
Gaussian Process Ruohua Shi Meeting
第十七講 重積分 應用統計資訊學系 網路教學課程 第十七講.
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
Presentation transcript:

Chapter 3 Association: Contingency, Correlation, and Regression Section 3.1 How Can We Explore the Association between Two Categorical Variables?

Learning Objectives Identify variable type: Response or Explanatory Define Association Contingency tables Calculate proportions and conditional proportions

二變數的關連 (association between two variables) Two variables measured on the same individuals are associated if some values of one variable tend to occur more often with some values of the second variable than with other values of that variable.

二變數的關連 (association between two variables) 統計上的關連談的是一般性的趨勢而非鐵律: 抽煙的人比較短命,但仍可找到一天抽一包煙的90歲老人。

二變數的關連 (association between two variables) 檢視兩變數之間的關連必先回答的問題: 資料的個體(分析單位)為何? 哪些變數?如何測量? 這些變數是數量(quantitative)還是類別(categorical)變數?

二變數的關連 (association between two variables) 兩變數的類別: 一個類別與一個數量變數 性別與血壓的關連 兩個類別變數 性別與抽煙的關連 兩個皆為定量變數(quantitative) 體重與血壓的關係

Contingency Table 社會統計(上)

Contingency Table 複習 兩個變數皆為類別變數

解釋變數為類別變數,反應變數為數量變數

二變數的關連 (association between two variables) 檢視兩個變數之間的關係還必須加問以下問題? 僅想瞭解兩者之間的單純關連?還是以一個變數來解釋另一個變數? Response variable結果變數或反應變數 Dependent variable 依便項 Explanatory variable解釋變數 Independent variable 自變項

Learning Objective 1: Response and Explanatory variables Response variable (Dependent Variable) the outcome variable on which comparisons are made Explanatory variable (Independent variable) defines the groups to be compared with respect to values on the response variable Example: Response/Explanatory Blood alcohol level/# of beers consumed Grade on test/Amount of study time Yield of corn per bushel/Amount of rainfall

Learning Objective 3: Contingency Table A contingency table: Displays two categorical variables The rows list the categories of one variable The columns list the categories of the other variable Entries in the table are frequencies

Learning Objective 3: Contingency Table What is the response variable? What is the explanatory variable?

Learning Objective 4: Calculate proportions and conditional proportions

What proportion of organic foods contain pesticides? Learning Objective 4: Calculate proportions and conditional proportions What proportion of organic foods contain pesticides? What proportion of conventionally grown foods contain pesticides? What proportion of all sampled items contain pesticide residuals?

Learning Objective 4: Calculate proportions and conditional proportions Use side by side bar charts to show conditional proportions Allows for easy comparison of the explanatory variable with respect to the response variable

Learning Objective 4: Calculate proportions and conditional proportions If there was no association between organic and conventional foods, then the proportions for the response variable categories would be the same for each food type

Chapter 3 Association: Contingency, Correlation, and Regression Section 3.2 How Can We Explore the Association between Two Quantitative Variables?

二變數的關連 (association between two variables) 政治學者問:阿扁在2000年的各村里得票率是否與2004年的得票率有關? 政治顧問問:可否用2000年的得票率來預測各村里在2004年時會如何投票?

Learning Objectives: Constructing scatterplots Interpreting a scatterplot Correlation Calculating correlation

Learning Objective 1: Internet Usage and Gross National Product (GDP) Data Set

Learning Objective 1: Scatterplot Graphical display of relationship between two quantitative variables: Horizontal Axis: Explanatory variable, x Vertical Axis: Response variable, y

Learning Objective 2: Example: Did the Butterfly Ballot Cost Al Gore the 2000 Presidential Election?

Stochastic Relationships and Scatter Diagrams 觀念 Scatter Plot可以顯示兩連續變數x, y之間的關聯 形式與 強度: 依 變項y 自變項x

兩變數之間的關連 解讀scatter plot,首先注意overall pattern 注意是否有極端值? Form Direction Strength 注意是否有極端值?

Form形式: X與Y之間的關係為線性還是非線性? (b) (a)

Strength強度:X與Y之間的關聯強度為何? (b) (c)

negatively associated 負向關連 Direction方向:X與Y之間的關係是正向還是反向? X (d)

positively associated 正向關連 Direction方向:X與Y之間的關係是正向還是反向? X (d)

我們用簡單圖形可以來瞭解兩變數x與y之間的關係。另一種分析兩變數關係的統計技術為相關分析(correlation analysis)。 Covariance, 共變量 觀念 我們用簡單圖形可以來瞭解兩變數x與y之間的關係。另一種分析兩變數關係的統計技術為相關分析(correlation analysis)。 兩個隨機變數之間的共變關係為何?圖形的表達方式不同,經常會扭曲資料,肉眼的判斷並不準確。

當X, Y兩隨機變數不互為獨立時,表示兩者間有關連。其關連的形式有很多種,最常見的關連為線性的共變關係。 Covariance, 共變量 觀念 當X, Y兩隨機變數不互為獨立時,表示兩者間有關連。其關連的形式有很多種,最常見的關連為線性的共變關係。 兩個隨機變數X,Y間的線性關係可用兩個統計量來測量(1) 共變數(covariance) (2) 相關係數 (correlation coefficient)。兩者都能衡量兩變數之間是否有線性關係存在。

假設兩變數Y與X之間具有某種關聯,X的平均值為x-bar、Y的平均值為y-bar Covariance, 共變量 觀念 假設兩變數Y與X之間具有某種關聯,X的平均值為x-bar、Y的平均值為y-bar 樣本變異數

測量兩變數之間是否有關連的一個有效指標為共變數(covariance) 觀念 測量兩變數之間是否有關連的一個有效指標為共變數(covariance)

例題 求x與y的covariance?

⊕ I II (14-10)(8-5) =(4)(3) (6-10)(3-5)=(-4)(-2) ⊕ III IV

⊕ I II  (13-10)(5-8) =(-3)(3) (5-10)(8-5)=(-5)(3) ⊕  III IV

The Population Correlation Coefficient, ρ 母體相關係數 用共變量來衡量兩變數的關係有一個缺點,即sxy的值會受到x與y衡量單位的影響。

The Population Correlation Coefficient, ρ 母體相關係數

Sample Correlation Coefficient, r 樣本相關係數 因此,我們將covariance分別除上x與y的標準差sx、sy,得到標準化後的指標稱之為相關係數:

Sample Correlation Coefficient, r 樣本相關係數 樣本相關係數: 兩變數標準化分數的乘積

例題 求x與y的correlation?

相關係數的特性 相關係數不區分解釋變項與被解釋變項。 兩變數必須皆為數量變數才能計算相關係數。 相關係數容易受到極端值的影響。 相關係數不受「單位」影響。

相關係數不受單位尺度變換的影響

相關係數的特性 相關係數衡量兩變數之間是否有線性關係,相關係數愈大,代表兩變數之間的線性關係愈強。相關係數為零,代表兩變數沒有線性關係。 相關係數的值介於正負1之間,正1代表兩者呈完全正相關,負1代表兩者呈現完全負相關。 如果x與y為獨立,則相關係數r = 0。 如果r = 0,x與y不一定為獨立,因為他們可能具有非線性關係。

r = 0.8 Y X (a)

Y r = .95 X (b)

Y r = 0 X (c)

Y r = 0 X (a)

Y r = -.90 X (d)

Y r = -0.5 X (c)

相關係數的強弱 r =  1 為完全相關 r = 0 為無相關

相關係數的特性 證明:若x為y之線性函數y=a+bx,則x與y的相關係數為±1。

z 相關係數與因果關係 相關僅代表兩變數間有線性關係,不必然隱含因果關係,下列情況皆有可能 Two variables are said to be spuriously correlated when their correlations is nonzero and there is no reason to believe that the variables are related to one another.

控制變項 The relationship between two variables often cannot be fully understood without knowledge of other variables.

相關係數與因果關係 商品的價格愈高,需求愈低? 美國職業運動的票價每年都在增長,但需求不減反增。 相關分析僅考慮兩個變數x, y 之間的關係,而忽略其他可能影響y的因素。 人口增加、收入增加、職業運動受歡迎的程度增加等

例題 某校MBA畢業生的在學成績(x)與工作起薪(y)的資訊如下: 求r

例題

The graph of an equation Y = -3 X + 7 (0,7) (7/3, 0)

The graph of an equation

The graph of an equation

The graph of two equations

The graph of an equation

The slop of a line

Point-slop equation of a line 已知斜率為m且通過(x1, y1)則直線可寫成

斜率相同的直線為平行線

Stochastic Relationships and Scatter Diagrams 觀念 Scatter Plot可以顯示兩連續變數x, y之間的關聯,Correlation告訴我們兩者之間的方向與關聯。迴歸摘要一個解釋變項與一個反應變項之間的關係。 結果變項y 解釋變項x

Stochastic Relationships and Scatter Diagrams 觀念 直線上任兩點P1P2,從P1移至P2,x軸座標移動 △x = x2 - x1 y軸座標移動 △y = y2 - y1 依 變項y 自變項x

Stochastic Relationships and Scatter Diagrams 觀念 直線上任兩點P1P2,此線的斜率定義為: 依 變項y 自變項x

Stochastic Relationships and Scatter Diagrams 觀念 在直線上任意點(P1 或P2)的斜率皆相同,變遷速率為常數 依 變項y 自變項x

微分(derivative)簡介 曲線上的斜率為何? 曲線圖形上的各點是否有相同的斜率? (-1, 1) (1, 1)

Stochastic Relationships and Scatter Diagrams 如果x與y的關聯分佈圖呈現一近似直線的關係,則我們假設兩者具有以下的線性關係: Slop斜率 X變動ㄧ單位所造成Y相對應的變動 Intercept截距 當X=0時,Y所相對應的值

Stochastic Relationships and Scatter Diagrams 截距0

Page 136

Deterministic Relationship and Stochastic Relationships 我們的任務在於估計能夠正確描述X與Y關係的截距0與斜率1。 迴歸分析的目的有四: 將x與y的關係以一種量化的方式來表達Quantify a theory。 檢驗有關於X與Y之間關係的理論Test a theory。 測量X與Y之間的關係強度Measuring the strength of relationships。 在已知X值得條件下對Y作預測Forecasting or prediction。

Prediction using the regression model 迴歸線可以用來估計在某一特定x值之下,Y的預測值: 我們可以用迴歸線來估計在xi下的”新”觀察值y-hat

Extrapolation過度延伸預測 使用迴歸線時,不應以以超過解釋變數範疇的數值來從事「預測」。 如以上面的迴歸線來預測20歲成年人的身高:

Deterministic Relationship and Stochastic Relationships 在Y=f(X)的函數關係中,若每一個x值僅對應於單一的y值,則X, Y之間的關係為完全決定的函數關係,稱為確定模型(deterministic) Deterministic Relationships 電腦每台$960元,X為電腦台數,Y為總收益

Deterministic Relationship and Stochastic Relationships 所有的資料點都剛好落在線上

Deterministic Relationship and Stochastic Relationships Stochastic Relationships: 若X=xi時,Y值不確定,而是依循某一機率分配,則X, Y之的函數關係稱為 機率模型(stochastic)。 令X為每家庭的年收入,Y為每個家庭每年在育樂上的支出。對於某個特定的值X = xi而言,我們無法準確地預測出對應於Y的單一值,因為除了收入外,還有很多其他因素會影響育樂支出。但是知道一個家庭的年收入有助於我們預測育樂支出,第i個家庭的育樂支出可以用下列機率模型表達: