了解如何评估一个LR模型的好坏 Mikezgzhao.

Slides:



Advertisements
Similar presentations
index 目次 ( 請按一下滑鼠,解答就會出現喔 !) 接續下頁解答 3-1 極限的概念.
Advertisements

1/48 鸟网图片 glm 制作 G - 707 (3) 2/48 网名: F5 实名:沈强 来自:江苏省南京市 鸟网资深顾问,江苏野鸟会成员 作者自述: 爱好摄影, 08 年在文科总版的感染下,开始学习鸟类摄影,一发而不可收。业 余时间基本上全用在了观鸟拍鸟上,倾听自然是我最好的减压方式。 通过几年的学习,认识了很多鸟友益师,拍摄了.
國小閱讀推廣經驗分享 臺中市西屯區大鵬國小設備組長林益生 102 年度圖書教師進階課程 國立台中圖書館 國際會議廳 2013/03/08.
西安交通大学 1. 2 概述 筛检和诊断试验的评价 提高筛检效率方法 西安交通大学 3 筛查起源于 19 世纪的结核病预防。一直 以来广泛运用于慢性病的早期诊断。从疾病 防治的过程来看,它属于一级和二级预防; 从对象和目的来看,它具有突出的公共卫生 意义;从实施来看,它要求检测方法快速、 简便、经济、安全。
SCI 论文网 SCI论文写作 ——诊断试验类.
國中新編多元性向測驗.
600年前,鄭和率領世界上最強大的艦隊,浩浩蕩蕩的駛入印度洋,展開一場「文化帝國」的海上大秀。
SPSS 軟體與統計應用 Ya-Yun Cheng, How-Ran Guo
新編多元性向測驗 測驗說明 輔導室
國中多元進路簡報 主講:陳裕宏( ) 現職:木柵高工教務主任 學歷:1.國立台灣師範大學工業教育系(畢業)
G-951 国家地理镜头中的民国 古城新都 来源:新浪环球地理 二胡独奏:江河水 glm制作 左键翻阅.
市场营销策略模块 项目十一 促销策略--营业推广
基北區104學年度適性入學管道宣導 宣講單位:新莊國中教務處.
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
在《命运交响曲》 音乐声中 安静我们的心 迎接挑战.
2017/3/9 实验误差及其控制 魏敏杰 陈 杰 阮 强 王振宁 单凤平 孟繁浩 富伟能 陈 磊 中国医科大学.
交通大学教职工团购车险方案
房型介紹 單日 10天以上 托嬰照護 月子餐 VIP 特約 溫馨 精緻
101年國中畢業生多元進路宣導 國中部註冊組 100年10月29日.
99年成語200題庫(21-40).
高中職優質化專題 教育研究博士班二年級 游宗輝.
海星國中部直升方案說明 報告人:教務處 陳博文主任
高中第二群組 1.北一女 中~ 2.中山女中~ 3.政大附中~.
101年度十二年國民基本教育 國民中學校長專業研習 校長落實補救教學、適性輔導 中輟生的預防與復學輔導之實務作為
第七章 筛检 Screening.
歡迎各位老師 蒞校參訪 召集人、各位委員、同仁大家好,我是林淑玟,負責教務行政進行簡報 報告人:林淑玟 中華民國九十九年三月二十三日.
大學甄選入學 選填志願輔導說明會 曾文農工輔導室.
一所具有悠久歷史與優良傳統的 優質學校 強調生活教育與精緻教學 是您有心向學的最佳選擇.
科 目 名 稱:身心醫學概論 Psychosomatic Medicine
國立嘉義高級工業職業學校 101年度綜合高中宣導研習 國立嘉義高工 教務主任 林章明
医学统计学 8 主讲人 陶育纯 医学统计学 8 主讲人 陶育纯
2016中重卡网络规划 中重卡营销部 2016年6月.
《临床实验室管理学》课件 第十七章 诊断试验的临床效能评价.
海軍軍官學校 士官二專班 招生簡報 、 第1頁,共30頁.
海軍軍官學校 士官二專班 103學年度 招生簡報.
服 务 管 理 新 概 念 服务行业管理软件专业开发商.
2006年台灣醫學中心大搜查 聰明病人 完全就醫指南.
臺中市僑忠國小 101年度圖書館閱讀教師實施計畫
车险精算技术在太平洋产险的应用 韩之然 太平洋产险精算部总经理助理,FCAS
经济长周期视角下的保险资金运用研究 北京大学经济学院 朱南军 中国人民大学汉青研究院 翟建辉 清华大学工程物理系 冯玉林
中学生心理健康讲座 打开心灵之门 开启阳光之路 主讲人:范荃.
教育部宣導專員 國立臺中家商 許敏政主任 101年2月23日製作 #201~203
预防医学系 吉林大学公共卫生学院.
次数依变量模型 (Models for Count Outcomes)
課程九 迴歸與相關1.
金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
Logistic Regression Appiled Linear Statistical Models,由Neter等著
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
電腦與科技 『我要創業』 中三專題練習.
以每年參觀Lake Keepit的人數為例
MyLibrary ——数字图书馆的个性化服务
十二年國民基本教育 103學年度高中高職及五專 入學方式與就學區規劃 (草案諮詢稿)
課程十 迴歸3.
项目四 客房部对客服务.
高中職多元進路 家長說明會 主講人: 東莞台商子弟學校 麥馨月 日 期:
研究所生物統計課程整合說明 課程規劃及修課建議 楊奕馨 高雄醫學大學 藥學系 研究所生統課程授課教師
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
品質管理與實習 : MIL-STD-105E 何正斌 國立屏東科技大學工業管理學系.
國立嘉義高級工業職業學校 101年度雲嘉區綜合高中宣導研習 國立嘉義高工 綜高高中學務組長 呂明欣
Logistic回归 Logistic regression 研究生《医学统计学》.
线性分类 方匡南 教授 博士生导师 耶鲁大学博士后 厦门大学数据挖掘研究中心 副主任 厦门大学经济学院统计系 中华数据挖掘协会(台湾) 顾问
99年基測暨直升、原藝班、 申請、甄選入學報名作業說明
服務套裝.
臺灣北區102學年度高級中等學校 舞蹈班暨聯合甄選入學術科測驗 暨甄選入學說明會
台中市黎明國中105學年度 學生報考 一般智能暨學術性向資賦優異學生鑑定 報名流程說明
信用评分卡 第七组 团队 组长:范亚军 组员:张鹏伟、方俊雅、庞瑞、王漪慧 汇报人员:张鹏伟.
Presentation transcript:

了解如何评估一个LR模型的好坏 Mikezgzhao

LR简介 逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作 “评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、 临床、数量心理学、计量经济学、市场营销等统计实证分析的 回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模 型用于预测或者分类。该方法处理的数据可以是多维的。 线性模型对于输出的 y 没有界限,y 可以取任意大或者任意小(负数)的值,对于某些问题来说不够 adequate, 比如我们想得到 0 到 1 之间的 probability 输出,这时候就要用到比 linear regression 更加强大 的 logistic regression 了。 逻辑回归适用于因变量Y是两个结果(取值0,1), 因变量函数可以表示为: R中glm包(广义线性模型,Generalized Linear Models)提供了LR模型 > glm(response ~ explanantory_variables, family=binomial)

LR简介 logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射 一个机器学习的模型,实际上是把决策函数限定在某一组条件下,这组限定条件就决定了模型的假设空间。当然, 我们还希望这组限定条件简单而合理。而逻辑回归模型所做的假设是: 这里的 g(h)g(h) 是上边提到的 sigmoid 函数,相应的决策函数为: 选择0.5作为阈值是一个一般的做法,实际应用时特定的情况可以选择不同阈值,如果对正例的判别准确性要求高, 可以选择阈值大一些,对正例的召回要求高,则可以选择阈值小一些。

LR R使用 #s函数 f <- function(x) 1/(1+exp(-x)) curve(f, -10, 10) #准备数据 set.seed(1024) index <- which(iris$Species != 'setosa') data0 = iris[index,] data0 data0$group = ifelse(data0$Species == 'versicolor', 1, 0) data1 = data0[,-5] data1

LR R使用 #按照30%、70%来划分训练集和验证集 idx <- sample(x = 2, size = nrow(data1), replace = T, prob = c(.7, .3)) trans <- data1[idx == 1, ] test <- data1[idx == 2, ] lrdm <- glm(formula = group~., family=binomial(link=‘logit’), data = trans) ##模型建立 summary(lrdm) #模型参数:data.glm$coefficients #线性模型的预测数据:data.glm$linear.predictors #vip等于1的概率prob.vip: data.glm$fitted.values #线性拟合模型的残差:data.glm$residuals real<-test$group #验证集上运用模型 pre <- predict(lrdm, newdata = test, type = 'response') #计算测试集结果混淆矩阵 res <- data.frame(real,predict =ifelse(pre>0.5,1,0)) plot(res) #计算分类准确度 table(data.frame(predict =ifelse(pre>0.5,1,0), real))

模型评估一般方法 1.混淆矩阵 Confusion Matrix 1.1 准确率vs 错误率: accuracy = (TP+TN)/total error tate = (FP+FN)/total 1.2 召回率(覆盖率,正确预测的正样本/实际正样本) recall (sensitivity) = TP/AP 1.3 负例覆盖率 specificity = TN/AN

模型评估一般方法 2.ROC 和 AUC(AUC, Area Under the ROC Curve) 横轴 (1- specificity) = 1 - TN/AN = FP/AP 纵轴 recall (sensitivity) = TP/AP 最佳筛查界值(cut-off值)的确定, 一般选择似然比最大的阈值

模型评估一般方法 Lift(提升)和Gain(增益) K-S图 基尼系数

R语言LR模型评估 > summary(lrdm) Intercept 截距 Estimate 因子 std. Error就是标准差 Z value = estimate/std.error Pr P值 AIC值越小越好 Null deviance是在你估的系数(截 距项除外)都为0时的devuiance值 Residual deviance就是估计出的模 型的devuiance值 自由度为样本量n-你估计的系数个数

LR相关链接 线性分类器: https://zh.wikipedia.org/wiki/%E7%BA%BF%E6%80%A7%E5%88%86%E 7%B1%BB%E5%99%A8 逻辑回归链接: https://zh.wikipedia.org/wiki/%E9%82%8F%E8%BC%AF%E8%BF%B4%E 6%AD%B8 线性回归: https://zh.wikipedia.org/wiki/%E7%B7%9A%E6%80%A7%E5%9B%9E%E 6%AD%B8 模型评估: http://www.jianshu.com/p/41f434818ffc