R與資料探勘(data mining)簡介

Slides:



Advertisements
Similar presentations
湖南省长沙市第一中学 黄旭华. 开心辞典 1 、现在美国国旗星条旗上有多少颗星 ? 2 、英国绅士为什么总要手提一把雨伞,为什么? 3 、北极的气温比南极的气温高吗? 4 、企鹅是否可以生活在赤道附近? 5 、 “ 沪宁杭 ” 地区的 “ 宁 ” 是指哪座城市? 6 、 “ 七月流火 ” 指天气发生了什么变化?
Advertisements

努力创建学习型党组织 莲都区委学校 刘宏华. 内容提纲 一、学习的含义。 二、学习型组织内涵。 三、建设学习型党组织的原则和要求。 主要参考书目: 《第五项修炼》,彼得 · 圣吉,中信出 版社, 2010 年 5 月第 6 次印刷。
天文信息学的思考 国家天文台 赵永恒 2011 年 11 月. 2 X-informatics 生物信息学 化学信息学 医学信息学 水信息学 地理信息学(系统) 空间信息科学与技术.
第四冊第九課 劉老老 曹雪芹.
企業入口網站(EIP)/ 應用系統(ERP, SCM, CRM)
《思想道德修养与法律基础》 精品课程 楚 雄 师 范 学 院 思想政治理论教育教学研究部.
東風西合一堂 姊妹学校情谊深长 東風西路小學李海鷹副校長 合一堂學校 梁秀芳副校長
第七章 日治時期社會、文藝的新趨向 第一節日治時期的社會變遷
中 國 大 節 慶 陳淑貞.
釣魚台事件 屬於我們的保「釣」運動將持續進行!.
修辭解析 作者:謝佩陵 指導老師:沈老師.
Presentation of Big Data Issues
統 計 程 式 語 言.
第4章 統計圖.
資訊概論 INTRODUCTION TO INFORMATION SCIENCE
大紅燈籠高高掛 從電影藝術談微觀權力作用 組員: 陳思潓 蘇惠瑄
大陸高等教育現況之分析 楊景堯 淡江大學中國大陸研究所.
5.1 Excel 概述 Excel的特点 1、表格制作 2、完成复杂运算 3、建立图表 4、数据库管理 5、决策支持.
氣喘 組別:第一組 組員: 4A 蔡易儒 4A1I0026 鄭筠蒨 4A1I0034 韓宜瑄 4A1I0035 劉毓眉
第十一課 紅頭繩兒 王鼎鈞.
我们会赞叹生命之花的绚丽和多姿,也会歌颂生命之树的烂漫和青翠,但是生命是如此脆弱……
中国《大数据时代,广告公司业务模式重构》培训会 Big data era, open a new business model
趣味小故事:马和驴子 在唐太宗贞观年间,有一匹马和一头驴子,它们 是好朋友。贞观3年,这匹马被玄奘大师选中,出 发前往印度取经。17年后,这匹马驮着经书回到长 安,重到磨坊会见驴子朋友。老马谈起这次旅途的 经历,浩瀚无边的沙漠,高耸云霄的山岭,凌云的 冰雪,壮阔的波澜……神话般的一切,让驴子听了 大为惊异、好生羡慕!驴子惊叹到:“你有多么丰.
師資培育中心外埠教育參觀.
项目9 制作学生成绩报告单 教学目标 1.会创建邮件合并的数据源文档; 2.能显示“邮件合并”工具栏;
12年國教前哨站 談適性輔導及免試入學 12年國教前哨站 談適性輔導及免試入學 主講人:龍門國中王意蘭 校長 輔導主任 潘姿伶.
第六課 諫逐客書 李 斯.
没错,他们就是 中国最具活力和创富能力大的群体之一——
统计学Statistics 主讲人:商学院 刘后平 教授
§8.2.3 区间估计 区间估计的具体做法是,构造两个统计量 及 且 ,用区间 来估计未知参数 的可能取值范围,要求 落在区间 的概率尽可能的大。通常,我们事先给定一个很小的数.
深圳市南山实验教育集团 Shenzhen Nanshan Experimental Educational Group 2014年1月3日.
商業智慧與資料倉儲 課程簡介 靜宜大學資管系 楊子青.
訓儉示康 司馬光.
第一章 R與資料探勘(data mining)簡介
大数据在医疗行业的应用.
统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:
第十章 房地产开发项目的经济评价 §1 房地产开发项目及其前期工作 §2 房地产开发项目经济评价 本章内容.
服務聯網地政雲.
第八課 始得西山宴遊記 柳宗元.
Module 5 Shopping 第2课时.
組員: 1號池亦庭 13號張愷苡.
資訊管理 第九章 資料採礦.
1. 数据挖掘简介 2. 非线性规划及其对偶理论 3. 支持向量机理论、算法与应用
Data Mining 工具介紹 (Weka+JDBC)
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
Data Mining 工具介紹 (Weka/R + ODBC)
Area of interaction focus
Area of interaction focus
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
四書期末報告-論語 述而篇第四 國三甲 黃瀞儀 指導教授:胡瀚平 105年5月18日.
永續運輸資訊系統 -交通事故資料分析研究 周家慶 高級分析師 交通部運輸研究所.
Unit title: 日常生活和衣服 Daily life and clothes Area of interaction focus
專題習研電腦科-西藏民族的服飾 西藏長袍、僧衣、西藏的頭飾 中二班朱惠掦製作.
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
Android智慧型手機程式設計實務應用班
Unit 7 Protect the earth (Story Time).
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.
詩經 蔡柳金.
计算机文化 第7讲:数据库技术 王哲 河南中医药大学信息技术学院.
虚 拟 仪 器 virtual instrument
第十章 線上行銷研究.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
訓儉示康 司馬光.
第十二章 顧客關係管理.
An Quick Introduction to R and its Application for Bioinformatics
時間管理在SAP B1之應用 -如何準備個案 作者:蕭景陽 何亘翊 指導教授:陳武林 教授.
第四冊第十二課 詞選 虞美人──李煜 水調歌頭──蘇軾 醉花陰──李清照.
Unit 1 Book 8 A land of diversity
報紙的真相 「報紙」----「報給你知的紙」 10元買「報」,還是買「紙」? 「報紙」的真相 10元不足以買「紙」
电 商 数 据 分 析 汇报人:冯方慧 第一组:杜孟泽、李诗语、金艳平、冯方慧、张梦洁 CDA数据分析就业班
Presentation transcript:

R與資料探勘(data mining)簡介

R 隨著 Big Data 熱潮,R的身價大翻轉,變成了資料科學界眼中的寶。 不只是木訥的統計學家熟知它,包括 Wall Street 交易員、生物學家,以及矽谷開發者,他們都相當熟悉 R。 多元化的公司像是 Google、Facebook、美國銀行以及 New York Times 通通都使用 R,它的商業效用持續提高。

S語言 S語言,一種用於統計的程式語言,主要用於統計運算,它在1975年至1976年間在貝爾實驗室(Bell Laboratories)被開發出來。 由貝爾實驗室的約翰·錢伯斯(John Chambers)、瑞克·貝克爾(Rick Becker)與艾倫·威爾克斯(Allan Wilks)共同研發。它的目標在於,快速而忠實的將想法轉化為軟體。 當時最主要的統計運算程式,都是直接呼叫Fortran的子程序。但是S語言採用了高度互動式的方法來實作 R語言與S-PLUS是它的後繼者。 https://zh.wikipedia.org/wiki/S%E8%AA%9E%E8%A8%80

R是什麼? 「The R environment」是由S語言所轉變而來,由貝爾實驗室的John Chambers最初所設計,繼而有Douglas Bates, Rick Becker, Bill Cleveland, Trevor Hastie, Daryl Pregibon 及Allan Wilks等人所實踐落實及修改。 所以事實上R language就是「新的S語言」。承襲S語言的設計理念,它是一個整合型的資料處理軟體及統計軟體,同時也是繪圖軟體。 http://www.cc.ntu.edu.tw/chinese/epaper/0009/20090620_9005-1.htm

R是什麼? R最初是由來自紐西蘭奧克蘭大學的Ross Ihaka和Robert Gentleman開發,也因此稱為R。現在則由所謂的「R開發核心團隊」負責。 R大致上的語言方式與S或S-plus語言相通,最大的不同乃在於結果的輸出,R僅會顯示最少的訊息,但可以將想要輸出結果儲存為一個物件(object),以提供後續演算,這也是與許多統計軟體如:SAS、SPSS不同的地方。 http://www.cc.ntu.edu.tw/chinese/epaper/0009/20090620_9005-1.htm

R是什麼? 由於它是免付費的公開軟體,原始碼也可自由下載使用,在加上十分容易在官方網站(http://www.r-project.org/)找到別人寫好的套件(Package)或分析程式碼,因此近年來使用的人越來越多,並且不乏許多專業人士,如:風險分析師、研究學者、統計學家等。R能快速的擴張歸功於它的物件導向功能,具有執行使用者自訂功能及Package的能力。另外他在程式語彙上的彈性也是容易編輯也成為擴展的優點。 http://www.cc.ntu.edu.tw/chinese/epaper/0009/20090620_9005-1.htm

資料科學家 在Big Data時代下,資料科學家不但被《哈佛商業評論》譽為21世紀最性感(Sexiest)的工作, 資料科學家有多「性感」?讓我們很現實地從薪資說起。根據美國商業智慧軟體公司SiSense調查研究指出,資訊分析相關人才起薪約為年薪5.5萬美元(約台幣180萬),換句話說,相較美國大學畢業生平均年薪為4.76萬美元,高出7400美元,而最高薪的資料科學家,平均年薪為13.2萬美元(約台幣440萬) ,打敗一票如蘋果、高通等大型科技公司的高階工程師。 http://www.iiiedu.org.tw/ites/portal/DS.htm

資料科學家 Gartner報告指出,2018年全球將會有440萬個職場新工作與Big Data有關;另外,麥肯錫預估,到了2018年,光是美國就需要至少30萬個懂得Big Data的人才,屆時市場至少短缺14~19萬個具備深度分析資料的人才! http://www.iiiedu.org.tw/ites/portal/DS.htm

資料科學家 根據一位資料軟體相關業者指出,具備資料蒐集與分析的碩士畢業生,「起薪起碼44K起跳!」他指出,如果有一年至兩年經驗的資料探勘人才,平均月薪甚至領到七萬元,都不是問題,換句話說,當上資料科學家,等於擁有一張年薪百萬元的入場券。 http://www.iiiedu.org.tw/ites/portal/DS.htm

資料科學家 Big Data應用在全球各國發酵之際,伴隨而來的問題,就是各國普遍缺乏資料科學家。在臺灣,Big Data的應用雖然才已經萌芽,但是要面臨的幾項重大挑戰,除了資料分析人才不足之外,其他還有在地顧問服務不足以及對資料價值的敏感度不足的問題,而這些因素都將影響巨量資料在臺灣市場的發展。資料科學家的工作職缺,從2011年開始急速攀升,成為前10大熱門職缺。這項統計是匯集1千多個人力銀行的數百萬個職缺結果。 http://www.iiiedu.org.tw/ites/portal/DS.htm

資料科學家 http://www.iiiedu.org.tw/ites/portal/DS.htm

資料科學家 當資訊科學博士碰上數據時,常常會花太多時間思考用哪種演算法,反而忽略一般性問題。像是哪套變數(或特徵)比較重要等等。 資料科學家康迪多(John Candido)說:「我不想貶低博士學歷的價值,但我不覺得這是(成為好的資料科學家的)必要條件。」 資料分析師和商業情報專家知道要分析哪些資料,但資料科學家的作法更具實驗性,他們必須找出資料組合,想出可以從中挖掘出哪些資訊,以及如何挖掘。 http://www.wired.tw/2013/05/02/datascientist/index.html

Why Learn R?為何學R? Because R is one of the most demanded scripting language developed by and for statisticians. R是為與被統計學家所開發的最需要的語言之一。 With its unparalleled advantages, we introduce to you what R can do for present and future Business Analysts.憑藉其無可比擬的優勢,我們向大家介紹R能夠為當前和未來的商業分析師做什麼。 http://www.edureka.co/blog/why-learn-r/

Why Learn R? http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R is a Free, Open Source Language(R是免付費的公開軟體) R是免費提供的!這意味著,任何人都可以從互聯網上下載R,並開始工作。 還有什麼?你甚至可以修改代碼並添加您自己的創新吧。 R沒有許可的限制,因為它是在GNU(通用公共許可證)發行的,是一個開放程式碼的語言。 http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: 2. R is Cross-Platform Compatible(跨平台相容的): 其中的R的最大的優點就是可以在多個作業系統和各種軟體/硬體上執行R。它經常使用在Microsoft Windows(32位和64位),蘋果,GNU / Linux,UNIX以及其衍生出的系統,如Mac OS X,Darwin,FreeBSD,Solaris等。它還可以在Mainframes的系統上運行。由於將R開發核心團隊投入的努力,使其跨平台兼容! http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: Most Advanced Statistical Programming Language(最進階的統計程式語言): R程式師可以處理大量複雜的物件,用Excel 交換資料,確保程式碼的準確,保存每計算步驟的軌跡,做為日後參考的歷史、做進階統計分析、 做複雜的視覺化分析等。R的整體結構和語法是專門發展用於統計計算的。 http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: Outstanding Graphical Outputs(優秀的圖形輸出): http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R is Flexible ‘n’ Fun(R是靈活與有趣的): http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R is Extremely Comprehensive(R是非常全方位的): 想像一下,一個程式語言提供超過4800套件從生物資訊、計量經濟和空間分析各種與資料探勘相關的知識庫! R程式師執行各種各樣的功能,例如:資料處理、古典統計檢定、統計建模(無論是線性或非線性)、和圖形的技術、分類、集群、等等。 http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R Supports Extensions(R支援推廣): R不只是全方位的語言且其結構是非常可推廣的. R的資料結構有vectors, scalars, data frames, time series, matrices, lists, etc. R也支援矩陣運算.  http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: 8. R has a Vast Community(R有一個龐大的社群): 隨著越來越多的人和企業採用R,R創造了一個龐大的社區!這些志同道合的人,用自己的經驗替論壇,社交媒體,R會議和其他網絡管道帶來許多價值。透過這些使用R的社團,學生和專業人士對於R是甚麼,R的優勢以及如何使用R的特點在他們的職涯上,可以得到一個清楚的說法。 http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R easily Relates to other Programming Languages(R容易與其他程式語言連結): R容易與其他程式語言連結。 當資料由其他地方輸入時,R也非常友善,資料不僅來可來自Microsoft Excel中,也可來自Microsoft Access、MySQL和SQLite的,Oracle等。 R能夠同時使用ODBC(開放式數據庫連接協議)和ROracle包很容易地連接到各種資料庫 http://www.edureka.co/blog/why-learn-r/

Data mining資料探勘 資料探勘(Data mining),又譯為數據挖掘、資料挖掘、資料採礦。它是資料庫知識發現(英文:Knowledge-Discovery in Databases,縮寫:KDD)中的一個步驟。 資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊關聯性(屬於Association rule learning)的資訊的過程。 資料挖掘通常與電腦科學有關,並通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。 https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98

資料探勘方法 資料探勘的方法包括監督式學習(Supervised learning)、非監督式學習(Unsupervised learning)、關聯分組(Affinity Grouping)與購物籃分析(Market Basket Analysis)或者稱為關聯規則分析、集群(Clustering)與描述(Description)。 監督式學習包括:分類、估計、預測。 https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98

資料探勘定義 資料探勘有以下這些不同的定義: 「從資料中提取出隱含的過去未知的有價值的潛在資訊」 「一門從大量資料或者資料庫中提取有用資訊的科學。」 儘管通常資料挖掘應用於資料分析,但是像人工智慧(AI)一樣,它也是一個具有豐富含義的詞彙,可用於不同的領域。 它與KDD的關係是:KDD是從資料中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而資料探勘是KDD通過特定的演算法在可接受的計算效率限制內生成特定模式的一個步驟。 事實上,在現今的文獻中,這兩個術語經常不加區分的使用。 https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98

Data Mining 範例: 啤酒與尿布 http://slicedbread.co.uk/blog/how-to-strike-gold-with-microsoft-data-mining-tools

Data Mining產業應用 信用卡公司 授權決定、持卡購物行為、偵測詐欺等 金融服務機構 發展投資策略等 銀行 發展行銷策略、識別顧客貸款活動等 保險公司 偵測保險詐欺等 電信公司 提供服務、偵測竊打等 航空業 顧客關係管理等 醫療業 控制流程效率等 製造業 品管控制、流程監控等 電話銷售及直銷 區隔顧客、發展行銷策略等 零售商 發展行銷策略、偵測收銀員詐欺行為等

資料探勘的程序 設定 目標 資料 取得 前置 處理 資料 探勘 結果 詮釋 http://csyue.nccu.edu.tw/ch/Data%20Mining(200910).pdf

付出最多的人,也是收穫最多的人 ~共勉之~