第一章 R與資料探勘(data mining)簡介

Slides:



Advertisements
Similar presentations
統 計 程 式 語 言.
Advertisements

二岸工作經驗分享座談 蔡翔宇.
行銷研究 單元三 次級資料的蒐集.
我们会赞叹生命之花的绚丽和多姿,也会歌颂生命之树的烂漫和青翠,但是生命是如此脆弱……
Bank 3.0 證券產業發展趨勢 與數位化應用 富邦證券 副總經理 郭永宜 (行銷暨商品督導)
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
陳維魁 博士 儒林圖書公司 第九章 資料抽象化 陳維魁 博士 儒林圖書公司.
多元化科學教學策略工作坊 吳木嘉 小學校本課程發展組.
TQC+ JAVA全國教師研習會 PLWeb 程式設計練習平台 簡介.
計算機概論 蘇木春 中央大學資工系.
第 1 章 使用 APP INVENTOR 2 開發 ANDROID APP
亞洲大學的數位學習資源與應用 鍾仁宗老師 101年12月4日.
程式語言的基礎 Input Output Program 世代 程式語言 第一世代 Machine language 第二世代
臺北市立大學 資訊科學系(含碩士班) 賴阿福
程式設計概論 1.1 程式設計概論 程式語言的演進 物件導向程式 程式開發流程 1.2 C++開發工具
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2014 Fall 1.
Java簡介.
Chapter 1 Introduction.
第一篇 Unix/Linux 操作介面 第 1 章 Unix/Linux 系統概論 第 2 章 開始使用 Unix/Linux
第1章 認識Arduino.
手機作業系統介紹.
電子商務基本概念 電子商務的定義 1-1 電子商務的特性 1-2 電子商務的演進 1-3.
桌面環境簡介及IDE開發工具 Outline (一)什麼是Linux? (二)桌面環境系統簡介 (三)IDE開發工具.
SQL Stored Procedure SQL 預存程序.
R教學 安裝RStudio 羅琪老師.
ASP.NET基本設計與操作 建國科技大學 資管系 饒瑞佶 2007年.
安裝JDK 安裝Eclipse Eclipse 中文化
Android App簡介及 App Inventor 2體驗 靜宜大學資管系 楊子青
第二章 SPSS的使用 2.1 啟動SPSS系統 2.2 結束SPSS系統 2.3 資料分析之相關檔案 2.4 如何使用SPSS軟體.
CH03 資訊管理的智慧觀點:技術篇.
私立南山高中 信息組 電腦研習 電腦資料的備份 中華民國 99年4月20日 星期二.
大數據與我 4A 陳駿榜.
網路安全技術 OSI七層 學生:A 郭瀝婷 指導教授:梁明章.
TB-054A  周天穎 編著 儒林圖書公司 發行.
Web Applications & IT Trends (靜宜資管楊子青)
Web Applications & IT Trends (靜宜資管楊子青)
網頁程式概論 建國科技大學資管系 饒瑞佶 2015/9 V1 2016/4 V2 2016/9 V3.
網頁資料知多少? 事 實 ? 謠言?.
CH05. 選擇敘述.
教學媒體作業 歷史系99級 楊琇媚. 教學媒體作業 歷史系99級 楊琇媚.
R與資料探勘(data mining)簡介
競爭情報 LinkedIn and Competitive Intelligence Putting Social Networking to Real Use by RogerPhelps 圖資四 B 鄭艾妮 B 蒲碩瑩 B 楊淑涵.
智慧型手機程式設計 建國科技大學資管系 饒瑞佶 2011年(992).
六年級電腦科 KompoZer w3.dhps.tp.edu.tw.
電子期刊使用統計 CONCERT 2002 meeting November 13-14, 2002 羅宙康 Springer-Verlag
MicroSim pspice.
(Mobile User music–Sharing Innovation Center)
資訊安全和資訊倫理宣導 永康區復興國小教務處.
第 7 章 主要商業功能.
電腦概論考題分析 佛學資訊組 碩一 張榮顯.
英文管理期刊導讀 A Guide on Reading International Management Journals Spring, 2007 Friday, 10:10~12:00 R9208 Instructor: 張婉菁 Phone:
Chinese Internet Marketing Opportunity
黃影雯副教授講授 E_Mail Address:
動畫演示 Node規範了一些基本的方法,像是增加節點、刪除節點、讓節點做一些事、取得第n個節點等等
An Quick Introduction to R and its Application for Bioinformatics
國立台灣大學 關懷弱勢族群電腦課程 By 資訊工程 黃振修
花王集團.
資料擷取與監控應用實務.
程式語言與邏輯:主題示範 報告人:國立台灣師大附中 李啟龍 老師 學年度資訊科技概論研習.
新事業發展專題
非負矩陣分解法介紹 報告者:李建德.
銘鴻電子FPGA影像編輯平台.
由Facebook看SNS的現況與未來發展趨勢
電腦網絡與教學.
第一章 電子商務簡介 第一篇 電子商務概論篇.
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
10303: How Many Trees? ★★☆☆☆ 題組:Contest Archive with Online Judge
營運模式.
主 講 人: 任 立 中 博士 國立臺灣大學管理學院國際企業學系暨研究所副教授
Introduction to Mobile Computing
Presentation transcript:

第一章 R與資料探勘(data mining)簡介

R 隨著 Big Data 熱潮,R的身價大翻轉,變成了資料科學界眼中的寶。 不只是木訥的統計學家熟知它,包括 Wall Street 交易員、生物學家,以及矽谷開發者,他們都相當熟悉 R。 多元化的公司像是 Google、Facebook、美國銀行以及 New York Times 通通都使用 R,它的商業效用持續提高。

S語言 S語言,一種用於統計的程式語言,主要用於統計運算,它在1975年至1976年間在貝爾實驗室被開發出來。 由貝爾實驗室的約翰·錢伯斯(John Chambers)、瑞克·貝克爾(Rick Becker)與艾倫·威爾克斯(Allan Wilks)共同研發。它的目標在於,快速而忠實的將想法轉化為軟體。 當時最主要的統計運算程式,都是直接呼叫Fortran的子程序。但是S語言採用了高度互動式的方法來實作 R語言與S-PLUS是它的後繼者。 https://zh.wikipedia.org/wiki/S%E8%AA%9E%E8%A8%80

R是什麼? 「The R environment」是由S語言所轉變而來,由貝爾實驗室的John Chambers最初所設計,繼而有Douglas Bates, Rick Becker, Bill Cleveland, Trevor Hastie, Daryl Pregibon 及Allan Wilks等人所實踐落實及修改。 所以事實上R language就是「新的S語言」。承襲S語言的設計理念,它是一個整合型的資料處理軟體及統計軟體,同時也是繪圖軟體。 http://www.cc.ntu.edu.tw/chinese/epaper/0009/20090620_9005-1.htm

R是什麼? R最初是由來自紐西蘭奧克蘭大學的Ross Ihaka和Robert Gentleman開發,也因此稱為R。現在則由所謂的「R開發核心團隊」負責。 R大致上的語言方式與S或S-plus語言相通,最大的不同乃在於結果的輸出,R僅會顯示最少的訊息,但可以將想要輸出結果儲存為一個物件(object),以提供後續演算,這也是與許多統計軟體如:SAS、SPSS不同的地方。 http://www.cc.ntu.edu.tw/chinese/epaper/0009/20090620_9005-1.htm

R是什麼? 由於它是免付費的公開軟體,原始碼也可自由下載使用,在加上十分容易在官方網站(http://www.r-project.org/)找到別人寫好的套件(Package)或分析程式碼,因此近年來使用的人越來越多,並且不乏許多專業人士如:風險分析師、研究學者、統計學家等。R能快速的擴張歸功於它的物件導向功能,具有執行使用者自訂功能及Package的能力。另外他在程式語彙上的彈性也是容易編輯也成為擴展的優點。 http://www.cc.ntu.edu.tw/chinese/epaper/0009/20090620_9005-1.htm

資料科學家 在Big Data時代下,資料科學家不但被《哈佛商業評論》譽為21世紀最性感(Sexiest)的工作, 資料科學家有多「性感」?讓我們很現實地從薪資說起。根據美國商業智慧軟體公司SiSense調查研究指出,資訊分析相關人才起薪約為年薪5.5萬美元(約台幣180萬),換句話說,相較美國大學畢業生平均年薪為4.76萬美元,高出7400美元,而最高薪的資料科學家,平均年薪為13.2萬美元(約台幣440萬) ,打敗一票如蘋果、高通等大型科技公司的高階工程師。 http://www.iiiedu.org.tw/ites/portal/DS.htm

資料科學家 Gartner報告指出,2018年全球將會有440萬個職場新工作與Big Data有關;另外,麥肯錫預估,到了2018年,光是美國就需要至少30萬個懂得Big Data的人才,屆時市場至少短缺14~19萬個具備深度分析資料的人才! http://www.iiiedu.org.tw/ites/portal/DS.htm

資料科學家 根據一位資料軟體相關業者指出,具備資料蒐集與分析的碩士畢業生,「起薪起碼44K起跳!」他指出,如果有一年至兩年經驗的資料探勘人才,平均月薪甚至領到七萬元,都不是問題,換句話說,當上資料科學家,等於擁有一張年薪百萬元的入場券。 http://www.iiiedu.org.tw/ites/portal/DS.htm

資料科學家 Big Data應用在全球各國發酵之際,伴隨而來的問題,就是各國普遍缺乏資料科學家。在臺灣,Big Data的應用雖然才剛剛萌芽,但是要面臨的幾項重大挑戰,除了資料分析人才不足之外,其他還有在地顧問服務不足以及對資料價值的敏感度不足的問題,而這些因素都將影響巨量資料在臺灣市場的發展。資料科學家的工作職缺,從2011年開始急速攀升,成為前10大熱門職缺。這項統計是匯集1千多個人力銀行的數百萬個職缺結果。 http://www.iiiedu.org.tw/ites/portal/DS.htm

資料科學家 http://www.iiiedu.org.tw/ites/portal/DS.htm

資料科學家 當資訊科學博士碰上數據時,常常會花太多時間思考用哪種演算法,反而忽略一般性問題。像是哪套變數(或特徵)比較重要等等。 資料科學家康迪多(John Candido)說:「我不想貶低博士學歷的價值,但我不覺得這是(成為好的資料科學家的)必要條件。」 資料分析師和商業情報專家知道要分析哪些資料,但資料科學家的作法更具實驗性,他們必須找出資料組合,想出可以從中挖掘出哪些資訊,以及如何挖掘。 http://www.wired.tw/2013/05/02/datascientist/index.html

Why Learn R?為何學R? Because R is one of the most demanded scripting language developed by and for statisticians. R是為與被統計學家所開發的最需要的語言之一。 With its unparalleled advantages, we introduce to you what R can do for present and future Business Analysts.憑藉其無可比擬的優勢,我們向大家介紹R能夠為當前和未來的商業分析師做什麼。 http://www.edureka.co/blog/why-learn-r/

Why Learn R? http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R is a Free, Open Source Language(R是免付費的公開軟體) R是免費提供的!這意味著,任何人都可以從互聯網上下載R,並開始工作。 還有什麼?你甚至可以修改代碼並添加您自己的創新吧。 R沒有許可的限制,因為它是在GNU(通用公共許可證)發行的,是一個開放程式碼的語言。 http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: 2. R is Cross-Platform Compatible(跨平台相容的): 其中的R的最大的優點就是可以在多個作業系統和各種軟體/硬體上執行R。它經常使用在Microsoft Windows(32位和64位),蘋果,GNU / Linux,UNIX以及其衍生出的系統,如Mac OS X,Darwin,FreeBSD,Solaris等。它還可以在Mainframes的系統上運行。由於將R開發核心團隊投入的努力,使其跨平台兼容! http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: Most Advanced Statistical Programming Language(最進階的統計程式語言): R程式師可以處理大量複雜的物件, 用Excel 交換資料, 確保程式碼的準確, 保存每計算步驟的軌跡, 做為日後參考的歷史, 做進階統計分析, 做複雜的視覺化分析等. R的整體結構和語法是專門發展用於統計計算的. http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: Outstanding Graphical Outputs(優秀的圖形輸出): http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R is Flexible ‘n’ Fun(R是靈活與有趣的): http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R is Extremely Comprehensive(R是非常全方位的): 想像一下,一個程式語言提供超過4800套件從生物資訊,計量經濟和空間分析各種與資料探勘相關的知識庫! R程式師執行各種各樣的功能,例如:資料處理,古典統計檢定,統計建模(無論是線性或非線性),和圖形的技術,分類,集群,等等。 http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R Supports Extensions(R支援推廣): R不只是全方位的語言且其結構是非常可推廣的. R的資料結構有vectors, scalars, data frames, time series, matrices, lists, etc. R也支援矩陣運算.  http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: 8. R has a Vast Community(R有一個龐大的社群): 隨著越來越多的人和企業採用R,R創造了一個龐大的社區!這些志同道合的人,用自己的經驗替論壇,社交媒體,R會議和其他網絡管道帶來許多價值。透過這些使用R的社團,學生和專業人士對於R是甚麼,R的優勢以及如何使用R的特點在他們的職涯上,可以得到一個清楚的說法。 http://www.edureka.co/blog/why-learn-r/

Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R easily Relates to other Programming Languages(R容易與其他程式語言連結): R容易與其他程式語言連結。 當資料由其他地方輸入時,R也非常友善,資料不僅來可來自Microsoft Excel中,也可來自Microsoft Access,MySQL和SQLite的,Oracle等。 R能夠同時使用ODBC(開放式數據庫連接協議)和ROracle包很容易地連接到各種資料庫 http://www.edureka.co/blog/why-learn-r/

Data mining資料探勘 資料探勘(Data mining),又譯為數據挖掘、資料挖掘、資料採礦。它是資料庫知識發現(英文:Knowledge-Discovery in Databases,縮寫:KDD)中的一個步驟。 資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊關聯性(屬於Association rule learning)的資訊的過程。 資料挖掘通常與電腦科學有關,並通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。 https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98

資料探勘方法 資料探勘的方法包括監督式學習(Supervised learning)、非監督式學習(Unsupervised learning)、關聯分組(Affinity Grouping)與購物籃分析(Market Basket Analysis)或者稱為關聯規則分析、集群(Clustering)與描述(Description)。 監督式學習包括:分類、估計、預測。 https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98

資料探勘定義 資料探勘有以下這些不同的定義: 「從資料中提取出隱含的過去未知的有價值的潛在資訊」 「一門從大量資料或者資料庫中提取有用資訊的科學。」 儘管通常資料挖掘應用於資料分析,但是像人工智慧一樣,它也是一個具有豐富含義的詞彙,可用於不同的領域。 它與KDD的關係是:KDD是從資料中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而資料探勘是KDD通過特定的演算法在可接受的計算效率限制內生成特定模式的一個步驟。 事實上,在現今的文獻中,這兩個術語經常不加區分的使用。 https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98

Data Mining 範例: 啤酒與尿布 http://slicedbread.co.uk/blog/how-to-strike-gold-with-microsoft-data-mining-tools

Data Mining產業應用 信用卡公司 授權決定、持卡購物行為、偵測詐欺等 金融服務機構 發展投資策略等 銀行 發展行銷策略、識別顧客貸款活動等 保險公司 偵測保險詐欺等 電信公司 提供服務、偵測竊打等 航空業 顧客關係管理等 醫療業 控制流程效率等 製造業 品管控制、流程監控等 電話銷售及直銷 區隔顧客、發展行銷策略等 零售商 發展行銷策略、偵測收銀員詐欺行為等

資料探勘的程序 http://csyue.nccu.edu.tw/ch/Data%20Mining(200910).pdf

付出最多的人,也是收穫最多的人 ~共勉之~