统计之都五周年系列活动 漫谈统计分析与 R 语言 刘思喆 2011 年 5 月 24 日

Slides:



Advertisements
Similar presentations
计算机动画与仿真. 计算机动画是计算机图形学和艺术相结合 的产物,它是伴随着计算机硬件和图形算 法高速发展起来的一门高新技术,它综合 利用计算机科学、艺术、数学、物理学和 其它相关学科的知识在计算机上生成绚丽 多彩的连续的虚拟真实画面,给人们提供 了一个充分展示个人想象力和艺术才能的 新天地。 计算机动画是计算机图形学和艺术相结合.
Advertisements

我的 x 檔案 張春桂 ( 阿桂 ). 我的基本資料  破蛋日 :2000 年 9 月 7 日  星座 : 處女 血型 : 未知  興趣 : 敬請期待第 6 頁  身高 :160 體重 : 比你重就對了  性別 : ㄜ ~~ 當然是男的摟  我的偶像 : 我自己  如果臂力強得化可以跟我比腕力喔.
夯实教师教育 办好非师范教育 ---- 以外语专业为例 河北师范大学 李正栓. 1. 坚定不移地实施教师教育 A. 关键词:师范院校 师范院校是以培育师资为目的的教育机构,多属于高等教育 层级。 含 “ 师范大学 ” 或 “ 师范学院 ” 。另外,由师专升为本科的院校 多数更名为 “XX 学院 ”
2 Chp1 知识概述 一、莆田概况 1 、位置 位于北纬 25° ,东经 119° , 背山面海,北依省会福州市, 南邻泉州市。东南靠濒海,与 台湾省隔海相望。 2 、面积 全市陆地面积约为 3781 平 方千米。海域面积 1.1 万平方 千米。
1 語音下單代表號 請輸入分公司代碼 2 位結束請按#字鍵 統一證券您好 ﹗ 請輸入分公司代碼結束請按#字鍵,如不知分公司代碼請按*號。 請輸入您的帳號後 7 位 結束請按#字鍵 請在聽到干擾音時輸入您的密碼結束請按#字鍵 主選單一覽表 委託下單請按 1 ; 取消下單請按 2 成交回報請按.
人權教育融入教學與 法治教育 彭巧綾 蔡永棠 閱讀理解 六頂思考帽 以概念圖整理閱讀理解 指導學生運用關鍵詞,繪製概 念圖,並分享修正。
义务教育课程标准实验教材 四年级下册 语文园地六 词语盘点 习作 口语交际 我的发现 日积月累 展示台.
被 江 泽 民 残 酷 迫 害 致 死 的 法 轮 功 学 员 李竟春,女,1954年3月16日出生,江西省九江市人。于2000年12月18日到北京证实大法,关押在北京市门头沟看守所遭受非人的迫害。在狱中李竟春绝食抗争被管教骗喝一瓶“可疑的豆浆”后一直咳嗽不断,发烧呕吐,吐出白色有强烈异味液体,于2000年1月4日死亡。
第八编 清代文学 清代文学绪论 第一章 清代诗词文 第二章 《长生殿》与《桃花扇》 第三章 《聊斋志异》 第四章 《儒林外史》
“锦带功曹”为何褪色? Part 2 元初凄凉:珍禽入寒林
回归教材、梳理知识、突出能力 ——2015年历史二轮复习思考 李树全 西安市第八十九中学.
視力不良學(幼)童 篩檢與矯治常見問題 長庚醫院 兒童眼科 楊孟玲 醫師.
问卷调查法.
第三章 饮食民俗.
第三章 企业主要经济业务核算 学习目的和要求:通过对工业企业的主要经济业务的了解,要求学生掌握、巩固帐户与借贷记帐法的相关知识及其运用,并进一步了解和熟悉会计核算方法。 本章重点与难点问题是:企业在各阶段的业务核算 内容提要:本章首先介绍企业在各不同阶段(企业创立阶段、企业供应阶段、企业生产阶段、企业销售阶段等)的业务内容;然后介绍了各阶段业务核算所需设置的帐户及其帐户的功能与结构;最后举例说明各阶段业务的核算。
司法体制改革与律师执业前景瞻望 黄太云
校本培训 常州市新北区新桥实验小学 金文英 团体活动助人成长 校本培训 常州市新北区新桥实验小学 金文英
2014年造价员资格考试 建设工程造价管理基础知识 徐建元.
教師權益─ 退撫制度變革修法 吳忠泰 退撫制度變革修法電子檔可在全教總網站下載分享
【 准 备 上 课 啦 】 心 境 —— 快 乐 源 泉 学习 — 悦于心 聚于魂 化于行.
第七章 无形资产.
《幼儿园模拟教学》(第一章 第二章) 呼伦贝尔学院 教育科学学院 学前教育教研室.
广州事业单位面试专项练习 主讲:蔡厚佳 微博:腰果公考菜菜爱做梦 2016年04月29日-05月05日.
房地产开发项目经营情况 (X204-1表).
幼儿园现代管理的思考与实践.
企業實習方案 --「保險機構實習」 報告時間:105年5月18日 報告者: 汪 芳 國.
志向篇 中职生职业理想 ——专题讲座.
童軍志工服務報告 陽光基金會 愛心捐活動 第2組 報告人:秦惠芬 製作人:江妮錡.
主辦單位:朝陽科技大學休閒事業管理學系 協辦單位:體育室、課外活動組 活動日期:民國100年5月21日 活動地點:朝陽科技大學操場
面试与面试技术.
湖南师大附中高三政治第二次月考 试题讲评 试题讲评.
函 文种常识 结构写法 注意事项 例文赏析与训练.
学习情境四 旅行社接待业务的管理 【学习目标】 了解旅行社接待业务的性质与特点; 熟悉旅行社门市接待业务与管理;
目录 Part 1 项目宗旨 Part 3 培训方案 Part 2 目标成效 Part 项目时间表.
发生火灾怎么办 后窑镇中心小学 吴琼.
103年度社區照顧關懷據點評鑑 單位logo 或代表性照片 報告單位:臺中市○○區○○社區發展協會 報告人:○○○ 103年○月○日.
太阳能概述   太阳能是由太阳内部热核反应所释放出的光能、热能及辐射能量。它每年辐射到地球上的能量达1813亿吨标准煤,相当于全世界年需要能量总和的5000倍,是地球上最大的能源。 广东工业大学 材料能源学院.
强化。心系.
年金改革的是與非 吳忠泰.
勞保局人員.
走向对话的地理课堂教学 海盐高级中学 徐海群.
中国出了个毛泽东.
仿写训练 华罗庚实验学校西宁分校 钟卫平.
三、进项转出.
求职信.
102年度「農業旅遊特色商品發展暨行銷活動計畫」研提原則說明
十二章 罪数形态.
任务驱动:请阅读下文思考及完成以下任务 环节一、导入新课,激发兴趣
项目四 出入境计调操作流程.
第六章 技术创新与经济增长 本章主要问题 ---技术创新过程 ---技术创新分类 ---技术创新动力源 ---技术创新影响因素
名师垂教 阳痿1年余.
(和上个月比较,上个月用电量是单位“1”)
用百分数解决问题(二).
2005年度人事劳动教育统计 年报培训 水利部人才资源开发中心 二○○五年十二月.
“点”击中考 -----破题方法 平昌中学 谢向前.
标点符号的作用 某人外出做生意,给父母写了这样一封信:“儿的生活好痛苦一点儿也没有粮食多病少挣了很多钱。”父母读了这封没有标点的信后,一个笑一个哭。请根据这两位父母的不同理解,加标点。 笑:儿的生活好痛苦一点儿也没有粮食多病少挣了很多钱 哭:儿的生活好痛苦一点儿也没有粮食多病少挣了很多钱.
親子伴讀 2013年11月12日 (星期二) 圖書館梁愷恩老師.
檔案銷毀、移轉及移交.
第四章 存货 第一节 存货的确认与初始计量 一、概念与确认条件 (一)概念 P95 (二)种类 P95 原材料; 在产品; 自制半成品;
农村后1/5数学学困生的成因 及对策研究略谈 衢州市教育局教研室 裴云姣.
已知长方形的周长为72厘米,长比宽的2倍还少12厘米,求长方形的面积。
梅 花 魂.
青春期孩子的相处之道.
企业所得税年度纳税申报表(2014版)讲解 ——税收优惠.
有趣的汉字.
奧運時刻 具名贊助建議書 2016年8月6日至8月22日17天.
第七章 調整 (一) 7-1 調整的意義及功用 7-2 會計基礎 7-3 應計項目之調整 7-4 遞延項目之調整 7-5 評量 試算.
建国初期的严峻局势 第2课 新中国政权的巩固 巩固政权 得民心 抗美援朝战争 土地改革运动 镇压反革命运动.
吉林师范大学博达学院思想政治课 多媒体教学软件
FaceBook 粉絲頁建立 主講人:王金鳳.
Presentation transcript:

统计之都五周年系列活动 漫谈统计分析与 R 语言 刘思喆 范建宁 @首都经济贸易大学 2011 年 5 月 24 日 刘思喆 范建宁 @首都经济贸易大学 2011 年 5 月 24 日

Part 1:统计与 R 语言

一些思考 为什么学统计? “我们这一代最聪明的人竟然都在这里思考着怎样让人们去大量地点击广告,真衰。”——数学天才 Jeff Hammerbacher,2006年,从哈佛毕业一年后加入 Facebook,奠定了 Facebook 业务的基石─精准广告。 两年后,Hammerbacher 开始怀疑人生,2008年,他从Facebook辞职了。 Hammerbacher 最早从事的职业是华尔街的“数量(统计)分析师”。

统计分析师? 一名合格的统计分析师需要什么条件? 把握数据来源(抽样要懂一些,数据库要懂一些) 数据分析方法(统计模型、统计图形、数据挖掘) 业务知识理解(商业问题转化为统计问题) 工具呢?

计算机时必须的,如果没有计算机,则……

工具呢? 软件,我要智能的! 选择灵活的,而不是“傻瓜”的 能解决前沿的统计问题 简单易学 R 语言不出,谁与争锋! 跪求 XX 软件注册码…… ⇒ R 完全免费! XX 软件可以做 XX 分析吗? ⇒ R 不能做什么? 给个学习 R 的理由?

R是什么? Ross Ihaka Robert Gentleman

R的优势 灵活 易学 免费 开源 更新快 √ × 求助方便

R的主页

CRAN(Comprehensive R Archive Networks)

主流统计分析软件功能模块对照

R相关项目(I)

R相关项目(II)

KDNuggets网站对数据挖掘(分析)工具的调查 资料来源:http://www.kdnuggets.com/polls/

加、减、乘、除 > ((3+2)-4*5)/6 [1] -2.5 求和、求积、累加、累乘 一些简单运算 加、减、乘、除 > ((3+2)-4*5)/6 [1] -2.5 求和、求积、累加、累乘 > sum(1:100)+prod(1:4) [1] 5074 > cumsum(1:4) [1] 1 3 6 10 > cumprod(1:4) [1] 1 2 6 24 开方、乘方、对数、指数 >sqrt(5)-log(3)+exp(25)^(1/3) [1] 4161.399 枚举、组合 > combn(1:4,2) [,1] [,2] [,3] [,4] [,5] [,6] [1,] 1 1 1 2 2 3 [2,] 2 3 4 3 4 4 > choose(5,3) [1] 10

与MatLab相媲美的矩阵操作 生成矩阵 X=matrix(1:12, nr=3, nc=4, byrow = TRUE) 转置 T(x) 求逆 > Y=matrix(1:9, nr=3, nc=3, byrow=TRUE) > Y [,1] [,2] [,3] [1,] 1 2 3 [2,] 4 5 6 [3,] 7 8 9 > det(Y) # 行列式 [1] -9.517127e-16

常用的 R 语言命令可以参考 R Reference Card

极坐标图 三叶线 方程 生成 的离散序列,计算极坐标,在极坐标中绘图 > theta = seq(0, 2 * pi, by = 0.01) > rho = 2 * sin(3 * theta) > polar.plot(rho,rp.type="p",poly.col="green", line.col="blue",grid.col="red",lty=2)

向日葵散点图 > data(iris) sunflowerplot(iris[,3:4], col="gold",seg.col="gold")

平滑散点图 smoothScatter(BinormCircle)

散点图矩阵 > idx = as.integer(iris[["Species"]]) > pairs(iris[1:4], upper.panel = function(x, y, ...) points(x, + y, pch = c(17, 16, 6)[idx], col = idx), pch = 20, + oma = c(2, 2, 2, 2), lower.panel = panel.smooth, + diag.panel = panel.hist)

相关矩阵图 > library(corrplot) > corrplot(corr, col = wb, bg="gold2", order="PCA", addcolorlabel="no")

脸谱图(I) > library(TeachingDemos) > faces2(mtcars[, c("hp", "disp", "mpg", "qsec", "wt")], + which = c(14, 9, 11, 6, 5))

脸谱图(II) > library(aplpack) > data(longley) > faces(longley[1:9,],face.type=1)

统计模拟 蒲丰投针 高尔顿板 蒙特卡洛模拟与定积分 参考 animation 包

曼德布洛特集合(Mandelbrot set)

曼德布洛特集合(Mandelbrot set) ……

统计图形这部分内容非常庞大,几乎每个图形后面都要涉及一套统计理论。即便简单的叙述,也至少需要 1 天的时间,这个部分先暂时打住。 大家可以期待谢益辉的《现代统计图形》

Part 2:R 语言应用实例

统计学习和机器学习(Statistical and Machine Learning)

实例——开机率的求解(I) 逻辑增长曲线具有以下性质:y 随着时间t 的增加(至+∞),趋向于K,即K 为y 的饱和值;y 的增长有一个拐点,拐点之前y 的增长速度越来越快,拐点之后,y 的增长速度越来越慢,直至为0。

实例——开机率的求解(II) 红色标记的点表示终端机实际使用率变化,而通过逻辑增长曲线拟合的终端机使用率,使用图中蓝色的曲线表示。从模型预测结果上看,最终终端机使用率将在 xx 天以后达到64.86% 的理论峰值。

旅行商问题(I) 旅行商问题是图论和优化组合的经典问题,TSP包专门求解旅行商问题,其核心函数为solve_TSP(): solve_TSP(x, method, control) 走遍中国问题: 周游全中国,从北京出发,要游遍我国34个省级行政中心,最后回到北京,假设各个城市之间的距离为它们在地球上最短距离,请设计一条线路,是行程最短

旅行商问题(II)

1973-2010年 1 级以上地震及核电站分布

C4.5 决策树的应用 美国男子职业篮球联赛2008-2009 赛季火箭队的赢球模式:同经验一致,得分(PTS) 和篮板(DREB)是火箭队赢球最重要的因素。当全队得分达到102 分以上时,火箭队进攻行云流水,势不可当;一旦球队进攻不力(得分低于102),防守篮板成为主要因素,如果防守篮板数低于31 个,输球概率比较高,但抢断(STL)大于10 次时,仍有希望;防守篮板高于31 时,三分试投数(3PA) 成为关键,如果能够控制在19 次以内,球队赢球的概率依旧较高

中国TOP200流行歌手关系 问题: 歌手的范围如何界定?是中文、英文、日文、韩文、法文等一起考虑,还是一个语种一个语种的考虑?—— 数据量 歌手列表如何获得?——数据获取 歌手间的关系如何获得?——依然是数据获取 如何衡量歌手的关系?——最后才是“模型”

Part 3:统计之都和 R 语言

统计之都 主站:看看大家都在研究什么? 论坛:今天的讲座没听懂? 维基:统计学百科全书? 和统计之都相关的: R语言会议 数据挖掘邀请赛 SNA、LARS、WinBUGS、LDA、精算…… 论坛:今天的讲座没听懂? 维基:统计学百科全书? 和统计之都相关的: R语言会议 数据挖掘邀请赛 Logo:统计印

致谢 感谢首都经济贸易大学老师们组织的统计周活动 感谢郑冰师妹的辛苦工作 感谢R语言前辈们留下的宝贵财富 感谢来听讲座的各位听众 稍等…… 还有范建宁师弟带来的 SNA 方面的知识分享