R教學 迴歸分析R指令與範例 羅琪老師.

Slides:



Advertisements
Similar presentations
如何學好數學? 黃駿耀老師
Advertisements

辅助核算 3.5.
10 郑和远航.
三个偶像的故事和功绩 ——第12课 明清时期的反侵略斗争 董飞燕.
捣蛋鬼历险记 初一四班 孙嘉佑小组.
中國歷史 明代之患禍及民變.
10 郑和远航 郑和 郑和,1371年生于云南昆阳州(今昆明晋宁县)一个信奉伊斯兰教的回族家庭,原名马和,小字三宝,十一岁时在明太祖朱元璋发动的统一云南的战争中被俘进宫,后当朱元璋四子燕王朱棣的近侍。1403年朱棣登基,史称明成祖。次年正月初一,朱棣念他有勇有谋,屡立奇功,便赐姓“郑”,改称郑和,并提拔为内宫太监,于永乐三年(1405年7月11日)率领庞大船队首次出使西洋。自1405年到1433年,漫长的28年间,郑和船队历经亚非三十余国,涉十万余里,与各国建立了政治,经济,文化的联系,完成了七下西洋的伟
明清 抗击外国侵略的英勇斗争 雅克萨反击战(俄) 戚继光抗倭(日) 郑成功收复台湾(荷兰) 荷兰 俄 罗 斯 日 本 台湾 沙 俄 入 侵
戚继光抗倭.
刑事訴訟法 授課人:林俊益副教授 時間:95.9.~96.6..
妩媚人生 云 计 算 与 大规模数据并行处理技术 黄 宜 华 南 京 大 学 计算机科学与技术系 软件新技术国家重点实验室 妩媚人生 妩媚人生
第16 课 中外的交往与冲突 授课人:鲍婷.
历史上的中日关系.
云南外事外语职业学院 入党积极分子培训 赵田甜.
第四章 清代臺灣的社會文化變遷 第一節 移墾社會的形成
認識食品中毒 一、什麼是食品中毒? 二人或二人以上攝取相同的食品而發生相似的症狀,並且自可疑的食餘檢體及患者糞便、嘔吐物、血液等人體檢體,或者其它有關環境檢體(如空氣、水、土壤等)中分離出相同類型(如血清型、噬菌 體型)的致病原因,則稱為一件“食品中毒”。 但如因攝食肉毒桿菌毒素或急性化學性中毒而引起死亡,即使只有一人,也視為一件“食品中毒”。
題目:四大古文明 班級:六年八 班 組員:賴宣光.游家齊.陳羿文 吳佳芬.許淑婷.許芳瑜..
食 物 中 毒.
琦君 《髻》 S 康倩瑜.
眼乾乾唔使慌.
滑膜皱襞综合征.
“公平”是最热的关键词 1、胡锦涛首次进行“总动员”,提出“在促进发展的同时,把维护社会公平放到更加突出的位置” 。
贵州省公务员面试 备考指导 中公教育 面试讲师 刘运龙.
外 套 各式領型與變化 武 玫 莉 製 作.
第4节 人体对食物的消化吸收.
陈冤之魅,心鬼之泪 ——雾里探花 《东方快车谋杀案》 By第二小组.
高考作文等级评分标准/发展等级10分 深刻 丰富 有文采 有创意 ①透过现象 深入本质 ②揭示问题 产生的原因 ③观点具有 启发作用
文明礼仪在我心 文明礼仪在我心.
第10课 社会生活的变迁.
故事会 盘古开天劈地 在很久很久以前,天地可不象我们现在看到的这样————天高高的在上面,地在我们的脚下,中间隔着几千几万米远。那个时候的天地就象是一个包在大黑壳里的鸡蛋,混混沌沌的,什么也看不清。人们走路都得弯着腰,耕田打猎都很不方便,因为一不小心抬个头,就会碰到天,惹它生气,接着就会招来狂风暴雨。因此所有的植物也都长不高,所以结的粮食和果实都很少,根本就不够大家吃。还经常会发生饿死人的事情。
面向三农,拓宽信息渠道 辐射千村,服务百万农民
三招 让孩子爱上阅读 主讲人:芝莺妈妈 2012年10月19日.
FUZHUANGZHITUYANGBANZHIZUO
如何挑選吳郭魚 嗨~ 餐旅二乙 4a2m0105 白妤潔 4a2m0122 何姿瑩.
学校春季呼吸道传染病预防知识 连云港市疾病预防控制中心
服裝整理概論.
印染纺织类艺术.
创业计划书的编写.
创业计划书撰写.
第九章 进行充分调研 选择自主创业.
香溢饺子馆创业计划书.
第三章 中国的民族民俗 第一节 概论 第二节 汉族 第三节 满族 蒙古族 维吾尔族 回族 朝鲜族 第四节 壮族 土家族 苗族 黎族
第 4 章 投资银行: 基于资本市场的主业架构.
创业数字图书馆.
中国管理科学发展探索 成思危 2006年8月18日于上海复旦大学.
“四文”交融,虚实并举,打造具有鲜明职教特色的校园文化 ——江苏省扬州商务高等职业学校校园文化建设汇报
103年度高職優質化輔助方案計畫申辦及輔導訪視說明會
“十二五”科技发展思路 与科技计划管理 科技部发展计划司 刘敏 2012年9月.
社区妇幼保健工作 江东区妇幼保健院 胡波瑛.
人生不要太圓滿 ◎ 張忠謀.
导致羊水过少的五大因素.
胎教.
怎样进行一次宣讲 何惠玲.
第三课 中国共产党的历程.
[聚會時,請將傳呼機和手提電話關掉,多謝合作]
规范母婴保健服务 努力降低孕产妇死亡率 市卫生局基妇科 朱静.
中国地质科学院矿产资源研究所 财务报账培训
白天的月亮 想與日爭輝 人生不要太圓滿 文字取自於:張忠謀 攝於陽明山 阿道的攝影工作坊.
第十章(上) 实现中华民族的伟大复兴.
营养要均衡.
ㄩ.
高中新课程历史必修(Ⅰ) 教材比较研究 四川师范大学历史文化学院教授 陈 辉 教育部2009普通高中历史课改远程研修资料.
十年职业生涯规划 —— 年 姓名:刘娟 学号:.
主考官眼中的面试 ——面试主考官教你备战2016年国考面试 主讲老师:李海鹏.
国内知名高校 医学院(部、中心) 院系及附属医院设置情况 调研报告
財務報表分析 授課教師:陳依婷.
第六章 可供出售金融资产 一、可供出售金融资产的概念和特征 二、可供出售金融资产的核算.
主讲人:刘文波 (四会国税 政策法规股) 2014年4月
智慧宁波 智慧财税 . 宁波市地方税务局.
第六模块礼仪文书写作 第一节求职信、应聘信 QIUZHIXINYINGPINXIN.
Presentation transcript:

R教學 迴歸分析R指令與範例 羅琪老師

迴歸分析簡介 迴歸分析(Regression Analysis)是一種統計學上分析資料的方法,目的在於了解兩個或多個變數之間的關係,並建立數學模式,以便根據觀察特定變數來預測研究者感興趣的變數。 迴歸分析適用於很多領域,包含:社會科學、物理和生物科學、商業、工程和人文學科等。

迴歸分析簡介 Y-反應變數(response variable) 因變數(dependent variable) 就是想預測的變數 x1,x2,..,xk -解釋變數(explanatory variables) 自變數(independent variables) 預測變數(predictor variables) 就是用來預測反應變數之數值的變數 迴歸分析將一個反應變數與一組解釋變數的關聯建模。

迴歸分析簡介 例: 行銷經理要預測的是銷售額 Y-產品銷售額 x1-產品價格 x2-其他競爭產品的價格 x3-廣告花費 http://www.pepsico.com/Annual-Reports/annual12/index.html

迴歸分析簡介 例: 某經濟學家有興趣知道汽油價格的改變對汽油需求的影響 Y-汽油需求 x-汽油價格 http://www.kristv.com/story/34194510/texas-nationwide-retail-gasoline-prices-up-to-start-2017

迴歸分析簡介 例: 工程師有興趣研究化學過程的生產量與反應時間、溫度及催化劑的種類的關係 Y-生產量 x1-反應時間 x2-溫度 https://www.thoughtco.com/definition-of-percent-yield-605899

迴歸分析簡介 例: 有興趣消費者的特徵與信用卡使用金額的關係 Y-信用卡費用 x1-性別 x2-收入 x3-家庭人口數 x4-教育程度 https://kknews.cc/finance/mq8xy6.html

迴歸函數 Y是一個隨機變數 x1,x2,..,xk 是固定的已知變數 Y的平均數與x1,x2,..,xk 的真正關係如下: 𝝁 𝒀 ( 𝒙 𝟏 , 𝒙 𝟐 ,…, 𝒙 𝒌 )=E(Y|x1,x2,..,xk ) 在統計上, 𝝁 𝒀 ( 𝒙 𝟏 , 𝒙 𝟐 ,…, 𝒙 𝒌 )稱為條件期望值 在迴歸上, 𝝁 𝒀 ( 𝒙 𝟏 , 𝒙 𝟐 ,…, 𝒙 𝒌 )稱為迴歸函數

迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 線性迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 𝒆 𝜷 𝟏 𝒙 指數迴歸函數 2019/5/10 迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 線性迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 𝒆 𝜷 𝟏 𝒙 指數迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙+ 𝜷 𝟐 𝒙 𝟐 二次迴歸函數

線性迴歸函數 若假設Y~N( 𝝁 𝒀 𝒙 , σ2) y 𝝁 𝒀 𝒙 𝒙 𝒙 𝟏 𝒙 𝟐 𝒙 𝟑

迴歸函數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝟏 + 𝜷 𝟐 𝒙 𝟐 線性迴歸函數2個自變數 空間中 的平面 2019/5/10 迴歸函數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝟏 + 𝜷 𝟐 𝒙 𝟐 線性迴歸函數2個自變數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 =50+10 𝒙 𝟏 +7 𝒙 𝟐 空間中 的平面

2019/5/10 迴歸函數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝟏 + 𝜷 𝟐 𝒙 𝟐 + 𝜷 𝟑 𝒙 𝟏 𝟐 + 𝜷 𝟒 𝒙 𝟐 𝟐 + 𝜷 𝟓 𝒙 𝟏 𝒙 𝟐 二次迴歸函數2個自變數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 =800+10 𝒙 𝟏 +7 𝒙 𝟐 +8.5 𝒙 𝟏 𝟐 −5 𝒙 𝟐 𝟐 +4 𝒙 𝟏 𝒙 𝟐 空間中 的曲面

簡單線性迴歸 簡單線性迴歸:僅牽涉到單一自變數與單一因變數,而且兩變數間的關係近似一條直線。這種類型稱為簡單線性迴歸 (simple linear regression)。 複迴歸分析:牽涉兩個或以上自變數的迴歸分析稱為複迴歸分析 (multiple regression analysis) 。

簡單線性迴歸的模式 模式 Y 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊 , 𝒊=𝟏,𝟐,⋯,𝒏 Y 𝒊 -因變數(dependent variable),為一隨機變數 𝒙 𝒊 -自變數(independent variable) 𝜷 𝟎 -截距(intercept) 𝜷 𝟏 -斜率(slope) 𝜺 𝒊 -誤差(error),為一隨機變數 𝜷 𝟎 及 𝜷 𝟏 為迴歸模式中的未知參數(parameter)

簡單線性迴歸的假設 假設 𝜺 1 , 𝜺 𝟐 ,⋯, 𝜺 𝒏 是一個隨機樣本來自N(0, 𝝈𝟐) 𝝈𝟐也是未知參數 模式+假設 𝒀 𝒊 ~ 𝑵(𝝁 𝒀 𝒙 𝒊 , 𝝈𝟐), 𝒊=𝟏,𝟐,⋯,𝒏

誤差 𝜺 𝒊 = 𝒚 𝒊 − 𝝁 𝒀 𝒙 𝒊 = Y 𝒊 − 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 𝒚 𝒊 白色空心點是資料點 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 白色空心點是資料點 實際資料點不一定會落在線上 資料點到迴歸函數的垂直距離稱為誤差(error) ( 𝒙 𝟏 , 𝒚 𝟏 ) ( 𝒙 𝟏 , 𝝁 𝒀 𝒙 𝟏 ) 𝒙 𝒊

散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 完全正線性相關 高度正線性相關 低度正線性相關 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 完全正線性相關 高度正線性相關 低度正線性相關 無關 http://www.cqeacademy.com/cqe-body-of-knowledge/continuous-improvement/quality-control-tools/the-scatter-plot-linear-regression/

散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 低度負線性相關 高度負線性相關 完全負線性相關 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 低度負線性相關 高度負線性相關 完全負線性相關 http://www.cqeacademy.com/cqe-body-of-knowledge/continuous-improvement/quality-control-tools/the-scatter-plot-linear-regression/

散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 非線性相關 非線性相關 非線性相關 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 非線性相關 非線性相關 非線性相關 http://open.lib.umn.edu/intropsyc/chapter/2-2-psychologists-use-descriptive-correlational-and-experimental-research-designs-to-understand-behavior/

散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 變異數遞增 有3集團(cluster) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 變異數遞增 變異數不是常數 (non-constant variance) 有3集團(cluster) Aggregated data 聚合的資料 http://support.minitab.com/en-us/minitab-express/1/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/linear-nonlinear-and-monotonic-relationships/ http://support.minitab.com/en-us/minitab-express/1/help-and-how-to/graphs/scatterplot/interpret-the-results/key-results/

散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 有影響力的觀察值 極端值(outlier) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 有影響力的觀察值 Influential observation 極端值(outlier)

估計的迴歸線 迴歸函數 𝝁 𝒀 𝒙 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 迴歸模式 Y 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊 迴歸函數 𝝁 𝒀 𝒙 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 迴歸模式 Y 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊 𝜷 𝟎 及 𝜷 𝟏 為未知參數(parameter) 所以要估計 𝜷 𝟎 及 𝜷 𝟏 得到 𝜷 𝟎 及 𝜷 𝟏 的估計值後,就得到估計的迴歸線 我們採用最小平方法來的到估計值 所以估計的迴歸線也稱為最小平方線

估計的迴歸線 𝒚 𝒊 = 𝝁 𝒀 𝒙 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 𝒃 𝟎 = 𝜷 𝟎 是截距 𝜷 𝟎 的估計值 𝒚 𝒊 = 𝝁 𝒀 𝒙 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 𝒃 𝟎 = 𝜷 𝟎 是截距 𝜷 𝟎 的估計值 𝒃 𝟏 = 𝜷 𝟏 是斜率 𝜷 𝟏 的估計值 𝒚 𝒊 是 𝒚 𝒊 的估計值或預測值 殘差(residual)是實際值 𝒚 𝒊 與預測值 𝒚 𝒊 的差異 𝒆 𝒊 = 𝒚 𝒊 − 𝒚 𝒊

殘差 𝒆 𝒊 = 𝒚 𝒊 − 𝒚 𝒊 殘差(residual)是實際值 𝒚 𝒊 與預測值 𝒚 𝒊 的差異 就是資料點到估計的迴歸線的垂直距離

最小平方法 找一條估計的迴歸線 𝒚 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 ,也就是找 𝒃 𝟎 及 𝒃 𝟏 ,使得殘差(誤差)平方和SSE最小 殘差(誤差)平方和(Error Sum of Squares) SSE= 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐

最小平方法 good line SSE小 bad line SSE大

最小平方法 可以證明 斜率 𝜷 𝟏 的估計值 𝒃 𝟏 = 𝜷 𝟏 = 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 )( 𝒚 𝒊 − 𝒚 ) 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 = 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝒚 𝒊 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 = 𝒊=𝟏 𝒏 𝒙 𝒊 𝒚 𝒊 −𝒏 𝒙𝒚 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 截距 𝜷 𝟎 的估計值 𝒃 𝟎 = 𝜷 𝟎 = 𝒚 − 𝒃 𝟏 𝒙

誤差項的母體變異數的估計 可以證明誤差項的母體變異數𝝈𝟐的不偏估計量(不高估也不低估)為殘差(誤差)平方和SSE的平均,稱為均方MSE(Mean of the Squared Errors) SSE= 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 𝝈 𝟐 =MSE= 𝑺𝑺𝑬 𝒏−𝟐 = 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 𝒏−𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 𝒏−𝟐

Linear Regression Analysis 5E Montgomery, Peck & Vining Example 2.1 – The Rocket Propellant Data 切割力 推進燃料的年齡(週) n=20

輸入資料 > rocket<-read.csv(file="c:/RData/rocket.csv", header=T) > rocket observation strength age 1 1 2158.70 15.50 2 2 1678.15 23.75 3 3 2316.00 8.00 4 4 2061.30 17.00 5 5 2207.50 5.50 6 6 1708.30 19.00 7 7 1784.70 24.00 8 8 2575.00 2.50 9 9 2357.90 7.50 10 10 2256.70 11.00 11 11 2165.20 13.00 12 12 2399.55 3.75 13 13 1779.80 25.00 14 14 2336.75 9.75 15 15 1765.30 22.00 16 16 2053.50 18.00 17 17 2414.40 6.00 18 18 2200.50 12.50 19 19 2654.20 2.00 20 20 1753.70 21.50

輸入資料 > names(rocket) # rocket 資料集中的變數名稱 [1] "observation" "strength" "age" > dim(rocket) # rocket 資料集的維度 [1] 20 3

建立data frame > y<-c(2158.70, 1678.15, 2316.00, 2061.00, 2207.50, 1708.30, 1784.70, 2575.00, 2357.90, 2256.70, 2165.20, 2399.55, 1779.80, 2336.75, 1765.30, 2053.50, 2414.40, 2200.50, 2654.20, 1753.70) > x<-c(15.50, 23.75, 8.00, 17.00, 5.50, 19.00, 24.00, 2.50, 7.50, 11.00, 13.00, 3.75, 25.00, 9.75, 22.00, 18.00, 6.00, 12.50, 2.00, 21.50) > rocket1<-data.frame(y,x)

Linear Regression Analysis 5E Montgomery, Peck & Vining 散佈圖顯示切割力與推進燃料的年齡 有強的線性關係

散佈圖 > plot(rocket$age, rocket$strength) # make a scatter plot

散佈圖 > attach(rocket) > par(mfrow=c(2,2)) > plot(age, strength) # points are circles > plot(age, strength, pch=16) # points are solid circles > plot(age, strength, pch=16, cex=2) # cex control size > plot(age, strength, pch=16, cex=2, col=2) # col control colour

散佈圖

散佈圖 > par(mfrow=c(1,1)) plot(age, strength, pch=16, cex=1, col=2, xlab="age of propellant", ylab="shear strength", main="Scatter plot", cex.main=2) # add title

散佈圖

散佈圖加估計的迴歸線 > rocket.lm<-lm(strength~age, data=rocket) # fit a simple linear regression model > plot(strength ~ age, data=rocket, pch=16, main="Scatter plot") > abline(reg=rocket.lm) # plot the regression line on scatter plot

散佈圖加估計的迴歸線

Example 2.1- Rocket Propellant Data Linear Regression Analysis 5E Montgomery, Peck & Vining Example 2.1- Rocket Propellant Data

Example 2.1- Rocket Propellant Data Linear Regression Analysis 5E Montgomery, Peck & Vining Example 2.1- Rocket Propellant Data 推進燃料的年齡每增加一週, 平均切割力減少37.15 剛製造完時, 推進燃料的平均切割力為2627.82 The least squares regression line is 最小平方迴歸線

Linear Regression Analysis 5E Montgomery, Peck & Vining 殘差 =

簡單線性迴歸模式 > rocket.lm<-lm(strength~age, data=rocket) > rocket.lm Call: lm(formula = strength ~ age, data = rocket) Coefficients: (Intercept) age 2627.82 -37.15 𝑏 1 = 𝛽 1 =-37.15 𝑏 0 = 𝛽 0 =2627.82

定理 若𝜺 1 , 𝜺 𝟐 ,⋯, 𝜺 𝒏 是一個隨機樣本來自N(0, 𝝈𝟐) 則可以證明 𝒃 𝟏 ~N( 𝜷 𝟏 , 𝝈𝟐 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 )= N( 𝜷 𝟏 , 𝝈𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 ) 𝒃 𝟎 ~N 𝜷 𝟎 ,𝝈𝟐 𝟏 𝒏 + 𝒙 𝟐 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 =N 𝜷 𝟎 ,𝝈𝟐 𝟏 𝒏 + 𝒙 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐

斜率的假設檢定 為檢定是否存在顯著的迴歸關係,我們必須進行 𝜷 𝟏 是否為 0 的假設檢定 步驟 1. 建立適當的虛無和對立假設 H0 : 𝜷 𝟏 = 0 H0 : 𝜷 𝟏 ≤ 0 H0 : 𝜷 𝟏 ≥ 0 H1 : 𝜷 𝟏 ≠ 0 H1 : 𝜷 𝟏 > 0 H1 : 𝜷 𝟏 < 0 雙尾 右尾 左尾 H0 : 𝜷 𝟏 = 0 ⇔ H0 :迴歸線的斜率為0 ⇔ H0 :x與y之間沒有線性關係

斜率的假設檢定 步驟 2. 確認檢定統計量及其分配 𝑻= 𝒃 𝟏 − 𝜷 1 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝑻= 𝒃 𝟏 − 𝜷 1 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 因為當H0 : 𝜷 𝟏 = 0為真, 𝒃 𝟏 ~N( 𝜷 𝟏 , 𝝈𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 ) 所以𝑻= 𝒃 𝟏 − 𝜷 1 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 ~t(n-2) 自由度為n-2的t分配 步驟 3. 選定顯著水準α

斜率的假設檢定 步驟 4. 寫出決策法則(臨界值法) 利用比較觀察的檢定統計量 Tobs值 與臨界值,以進行檢定。 雙尾:若Tobs>tα/2(n-2)或Tobs<-tα/2(n-2),拒絕 H0 右尾:若Tobs>tα(n-2),則拒絕 H0 左尾:若Tobs<-tα(n-2),則拒絕 H0

斜率的假設檢定 步驟 4. 寫出決策法則(p值法) 決策法則是: 若 p 值 < α,則拒絕H0 p 值公式 雙尾:p 值=2P(T ≥ |Tobs| |當H0為真) 右尾:p 值=P(T ≥ Tobs |當H0為真) 左尾:p 值=P(T ≤ Tobs |當H0為真)

> summary(rocket.lm) # estimated coefficients, tests Call: lm(formula = strength ~ age, data = rocket) Residuals: Min 1Q Median 3Q Max -215.98 -50.68 28.74 66.61 106.76 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2627.822 44.184 59.48 < 2e-16 *** age -37.154 2.889 -12.86 1.64e-10 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 96.11 on 18 degrees of freedom Multiple R-squared: 0.9018, Adjusted R-squared: 0.8964 F-statistic: 165.4 on 1 and 18 DF, p-value: 1.643e-10 𝜎 =96.11

Linear Regression Analysis 5E Montgomery, Peck & Vining

斜率的假設檢定-F檢定 除了可以用t檢定檢定斜率外 另一種檢定斜率的方式是用F檢定 H0 : 𝜷 𝟏 = 0 H1 : 𝜷 𝟏 ≠ 0 雙尾 因為由數理統計可得 若T~t(n-2),則F= 𝑻 𝟐 ~𝑭 𝟏, 𝒏−𝟐

迴歸的ANOVA表 迴歸變異數分析表 變異 來源 平方和 自由度 均方 F值 SSR= 𝒃 𝟏 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 1 MSR= SSR 1 F= 𝑴𝑺𝑹 𝑴𝑺𝑬 誤差 SSE= 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 n-2 𝝈 𝟐 =MSE= SSE 𝒏−2 總和 SST= 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 n-1 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 = 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 = 𝒊=𝟏 𝒏 𝒚 𝒊 𝟐 −𝒏 𝒚 𝟐

迴歸的ANOVA表 總平方和 SST =Total sum of squares = 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 = 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 =total sample variability 總樣本變異 Bad line

迴歸的ANOVA表 誤差平方和 SSE =Error sum of squares = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 =unexplained sample variability 未解釋變異 good line

迴歸的ANOVA 總變異=解釋變異+未解釋變異 SST=SSR+SSE 迴歸平方和 SSR =Regression sum of squares = 𝒃 𝟏 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 =可以被迴歸線解釋的變異

迴歸的ANOVA表 迴歸變異數分析表 變異 來源 平方和 自由度 均方 F值 SSR= 𝒃 𝟏 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 1 MSR= SSR 1 F= 𝑴𝑺𝑹 𝑴𝑺𝑬 誤差 SSE= 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 n-2 𝝈 𝟐 =MSE= SSE 𝒏−2 總和 SST= 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 n-1 決策法則:若Fobs= 𝑴𝑺𝑹 𝑴𝑺𝑬 >Fα(1, n-2),則拒絕 H0 若 p 值 < α,則拒絕H0,p 值=P(F ≥ Fobs|當H0為真)

迴歸ANOVA > rocket.lm<-lm(strength~age, data=rocket) Analysis of Variance Table Response: strength Df Sum Sq Mean Sq F value Pr(>F) age 1 1527483 1527483 165.38 1.643e-10 *** Residuals 18 166255 9236 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Linear Regression Analysis 5E Montgomery, Peck & Vining

斜率的信賴區間 𝜷 𝟏 的100(1-α)%的信賴區間為 𝒃 𝟏 ± 𝒕 𝜶 𝟐 (𝒏−2) 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝒃 𝟏 ± 𝒕 𝜶 𝟐 (𝒏−2) 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝝈 𝟐 =MSE= 𝑺𝑺𝑬 𝒏−𝟐 斜率 𝜷 𝟏 的 點估計量 𝒃 𝟏 的標準誤

截距的信賴區間 𝜷 0 的100(1-α)%的信賴區間為 𝒃 0 ± 𝒕 𝜶 𝟐 (𝒏−2) 𝝈 2 𝟏 𝒏 + 𝒙 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝝈 𝟐 =MSE= 𝑺𝑺𝑬 𝒏−𝟐 截距 𝜷 0 的 點估計量 𝒃 0 的標準誤

迴歸係數的信賴區間 > n<-length(strength) > beta1<-coef(rocket.lm)[2] > beta0<-coef(rocket.lm)[1] > SE.beta1<-2.889 > SE.beta0<-44.184 > qt(.975, n-2) [1] 2.100922 > c(beta1-qt(.975, n-2)*SE.beta1, beta1+qt(.975, n-2)*SE.beta1) age age -43.22315 -31.08403 > c(beta0-qt(.975, n-2)*SE.beta0, beta0+qt(.975, n-2)*SE.beta0) (Intercept) (Intercept) 2534.995 2720.649

Linear Regression Analysis 5E Montgomery, Peck & Vining Also see page 30, text

迴歸分析與相關分析 在迴歸分析,Y-反應變數或因變數 x-解釋變數或自變數 Y是隨機變數,x不是隨機變數 簡單線性迴歸將一個反應變數與一個解釋變數的關聯建模 在相關分析,X與Y-沒有自變數或因變數的區別 Y是隨機變數,X也是隨機變數 相關係數測量X與Y之間線性關係的強度

相關分析裡統計推論所需假設 X與Y服從一個雙變量的常態分配,有5個參數 𝝁 𝑿 、 𝝁 𝒀 、 𝝈 𝑿 𝟐 、 𝝈 𝒀 𝟐 、𝝆, X與Y的機率密度函數如下: 𝒇 𝒙,𝒚 = 𝟏 𝟐𝝅 𝝈 𝑿 𝝈 𝒀 𝟏− 𝝆 𝟐 ×exp − 1 2 𝟏− 𝝆 𝟐 𝑥− 𝜇 𝑋 𝜎 𝑋 2 + 𝑦− 𝜇 𝑌 𝜎 𝑌 2 −2 𝑥− 𝜇 𝑋 𝜎 𝑋 𝑦− 𝜇 𝑌 𝜎 𝑌 https://math.stackexchange.com/questions/1422374/bivariate-normal-distribution-of-points

母體相關係數 𝝆-X與Y的母體相關係數(correlation coefficient) 𝐶𝑂𝑉(𝑋,𝑌)是X與Y的母體共變數(covriance) 𝐶𝑂𝑉(𝑋,𝑌)=E[(X- 𝜇 𝑋 )(Y- 𝜇 Y )] = 𝐸 𝑋𝑌 −𝐸 𝑋 𝐸(𝑌) 𝜎 𝑋 2 = Var(X)=E[(X- 𝜇 𝑋 )2] =E[X2] – E(X) 2 𝜎 Y 2 = Var(Y)=E[(Y- 𝜇 Y )2] =E[Y2] – E(Y) 2

Pearson樣本相關係數 我們用樣本相關係數去估計母體相關係數 r-X與Y的樣本相關係數 公式1 由原始資料計算 𝒓= 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝒙 )( 𝑦 𝑖 − 𝑦 ) 𝒏−𝟏 𝑖=1 𝑛 ( 𝒙 𝒊 − 𝒙 ) 𝟐 𝒏−𝟏 𝑖=1 𝑛 ( 𝒚 𝒊 − 𝒚 ) 𝟐 𝒏−𝟏 = 𝒊=𝟏 𝒏 𝒙 𝒊 𝒚 𝒊 −𝒏 𝒙 𝒚 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝒊=𝟏 𝒏 𝒚 𝒊 𝟐 −𝒏 𝒚 𝟐 公式2 由迴歸線斜率計算 𝒓= 𝒃 𝟏 𝒔 𝒙 𝒔 𝒚 公式3 由判定係數計算 𝒓=( 𝒃 𝟏 的正負號) 𝑹 𝟐 公式3只適用於簡單線性迴歸

相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 https://psychlopedia.wikispaces.com/Correlation+Coefficient

相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r=-1⇒完全負線性相關 r=1⇒完全正線性相關 https://mathbitsnotebook.com/Algebra1/StatisticsReg/ST2CorrelationCoefficients.html

相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r=0⇒沒有線性相關 https://mathbitsnotebook.com/Algebra1/StatisticsReg/ST2CorrelationCoefficients.html

相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r是正的, r接近0 ⇒弱正線性相關 r接近1⇒強正線性相關 https://mathbitsnotebook.com/Algebra1/StatisticsReg/ST2CorrelationCoefficients.html

相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r是負的, r接近0 ⇒弱負線性相關 r接近-1⇒強負線性相關 https://mathbitsnotebook.com/Algebra1/StatisticsReg/ST2CorrelationCoefficients.html

相關係數的特性 相關係數r與估計的迴歸線的斜率 𝒃 𝟏 正負號相同 相關係數r和X與Y的測量單位無關 只看相關係數r但不看散佈圖有可能被誤導 https://saylordotorg.github.io/text_introductory-statistics/s14-02-the-linear-correlation-coeffic.html

相關係數的特性 相關係數r與估計的迴歸線的斜率 𝒃 𝟏 正負號相同 相關係數r和X與Y的測量單位無關 只看相關係數r但不看散佈圖有可能被誤導 六年級 閱讀能力 五年級 四年級 三年級 每週看電視時數 http://www.jerrydallal.com/lhsp/corr.htm

相關係數的特性 相關係數r與估計的迴歸線的斜率 𝒃 𝟏 正負號相同 相關係數r和X與Y的測量單位無關 只看相關係數r但不看散佈圖有可能被誤導 焦慮 成就需求 http://slideplayer.com/slide/9974311/

相關係數的假設檢定 假設X與Y服從一個雙變量的常態分配 為檢定是否存在顯著的線性關係,我們必須進行𝝆是否為 0 的假設檢定 步驟 1. 建立適當的虛無和對立假設 H0 : 𝝆 = 0 H1 : 𝝆 ≠ 0 雙尾 步驟 2. 確認檢定統計量及其分配 𝑻= 𝒓 𝒔 𝒓 ~t(n-2) 自由度為n-2的t分配當H0 :𝝆=0為真

相關係數的假設檢定 步驟 2. 確認檢定統計量及其分配 𝑻= 𝒓 𝒔 𝒓 , 𝒔 𝒓 = 𝟏− 𝒓 𝟐 𝒏−𝟐 r的標準誤 步驟 3. 選定顯著水準α 步驟 4. 寫出決策法則(臨界值法) 雙尾:若Tobs>tα/2(n-2)或Tobs<-tα/2(n-2),拒絕 H0 決策法則(p值法) 若 p 值 < α,則拒絕H0 雙尾:p 值=2P(T ≥ |Tobs| |當H0為真)

Linear Regression Analysis 5E Montgomery, Peck & Vining Example 3-1. The Delivery Time Data

相關分析 > delivery<-read.csv(file="c:/RData/Delivery.csv", header=T) > head(delivery) Observation Time Cases 1 1 16.68 7 2 2 11.50 3 3 3 12.03 3 4 4 14.88 4 5 5 13.75 6 6 6 18.11 7

相關分析 > attach(delivery) > r<-cor(Time, Cases) # compute the correlation coefficeint > r [1] 0.9646146

Linear Regression Analysis 5E Montgomery, Peck & Vining x-運送箱數 y-運送時間 n=25

相關分析 > n<-length(Time) > t<-r/sqrt((1-r^2)/(n-2)) # test for rao=0 > t [1] 17.54555 > qt(.975, n-2) [1] 2.068658 > pvalue<-2*(1-pt(abs(t),n-2)) > pvalue [1] 8.21565e-15

Linear Regression Analysis 5E Montgomery, Peck & Vining 拒絕H0, 運送時間與運送箱數有顯著線性相關

付出最多的人,也是收穫最多的人 ~共勉之~