第一章 R與資料探勘(data mining)簡介
R 隨著 Big Data 熱潮,R的身價大翻轉,變成了資料科學界眼中的寶。 不只是木訥的統計學家熟知它,包括 Wall Street 交易員、生物學家,以及矽谷開發者,他們都相當熟悉 R。 多元化的公司像是 Google、Facebook、美國銀行以及 New York Times 通通都使用 R,它的商業效用持續提高。
S語言 S語言,一種用於統計的程式語言,主要用於統計運算,它在1975年至1976年間在貝爾實驗室被開發出來。 由貝爾實驗室的約翰·錢伯斯(John Chambers)、瑞克·貝克爾(Rick Becker)與艾倫·威爾克斯(Allan Wilks)共同研發。它的目標在於,快速而忠實的將想法轉化為軟體。 當時最主要的統計運算程式,都是直接呼叫Fortran的子程序。但是S語言採用了高度互動式的方法來實作 R語言與S-PLUS是它的後繼者。 https://zh.wikipedia.org/wiki/S%E8%AA%9E%E8%A8%80
R是什麼? 「The R environment」是由S語言所轉變而來,由貝爾實驗室的John Chambers最初所設計,繼而有Douglas Bates, Rick Becker, Bill Cleveland, Trevor Hastie, Daryl Pregibon 及Allan Wilks等人所實踐落實及修改。 所以事實上R language就是「新的S語言」。承襲S語言的設計理念,它是一個整合型的資料處理軟體及統計軟體,同時也是繪圖軟體。 http://www.cc.ntu.edu.tw/chinese/epaper/0009/20090620_9005-1.htm
R是什麼? R最初是由來自紐西蘭奧克蘭大學的Ross Ihaka和Robert Gentleman開發,也因此稱為R。現在則由所謂的「R開發核心團隊」負責。 R大致上的語言方式與S或S-plus語言相通,最大的不同乃在於結果的輸出,R僅會顯示最少的訊息,但可以將想要輸出結果儲存為一個物件(object),以提供後續演算,這也是與許多統計軟體如:SAS、SPSS不同的地方。 http://www.cc.ntu.edu.tw/chinese/epaper/0009/20090620_9005-1.htm
R是什麼? 由於它是免付費的公開軟體,原始碼也可自由下載使用,在加上十分容易在官方網站(http://www.r-project.org/)找到別人寫好的套件(Package)或分析程式碼,因此近年來使用的人越來越多,並且不乏許多專業人士如:風險分析師、研究學者、統計學家等。R能快速的擴張歸功於它的物件導向功能,具有執行使用者自訂功能及Package的能力。另外他在程式語彙上的彈性也是容易編輯也成為擴展的優點。 http://www.cc.ntu.edu.tw/chinese/epaper/0009/20090620_9005-1.htm
資料科學家 在Big Data時代下,資料科學家不但被《哈佛商業評論》譽為21世紀最性感(Sexiest)的工作, 資料科學家有多「性感」?讓我們很現實地從薪資說起。根據美國商業智慧軟體公司SiSense調查研究指出,資訊分析相關人才起薪約為年薪5.5萬美元(約台幣180萬),換句話說,相較美國大學畢業生平均年薪為4.76萬美元,高出7400美元,而最高薪的資料科學家,平均年薪為13.2萬美元(約台幣440萬) ,打敗一票如蘋果、高通等大型科技公司的高階工程師。 http://www.iiiedu.org.tw/ites/portal/DS.htm
資料科學家 Gartner報告指出,2018年全球將會有440萬個職場新工作與Big Data有關;另外,麥肯錫預估,到了2018年,光是美國就需要至少30萬個懂得Big Data的人才,屆時市場至少短缺14~19萬個具備深度分析資料的人才! http://www.iiiedu.org.tw/ites/portal/DS.htm
資料科學家 根據一位資料軟體相關業者指出,具備資料蒐集與分析的碩士畢業生,「起薪起碼44K起跳!」他指出,如果有一年至兩年經驗的資料探勘人才,平均月薪甚至領到七萬元,都不是問題,換句話說,當上資料科學家,等於擁有一張年薪百萬元的入場券。 http://www.iiiedu.org.tw/ites/portal/DS.htm
資料科學家 Big Data應用在全球各國發酵之際,伴隨而來的問題,就是各國普遍缺乏資料科學家。在臺灣,Big Data的應用雖然才剛剛萌芽,但是要面臨的幾項重大挑戰,除了資料分析人才不足之外,其他還有在地顧問服務不足以及對資料價值的敏感度不足的問題,而這些因素都將影響巨量資料在臺灣市場的發展。資料科學家的工作職缺,從2011年開始急速攀升,成為前10大熱門職缺。這項統計是匯集1千多個人力銀行的數百萬個職缺結果。 http://www.iiiedu.org.tw/ites/portal/DS.htm
資料科學家 http://www.iiiedu.org.tw/ites/portal/DS.htm
資料科學家 當資訊科學博士碰上數據時,常常會花太多時間思考用哪種演算法,反而忽略一般性問題。像是哪套變數(或特徵)比較重要等等。 資料科學家康迪多(John Candido)說:「我不想貶低博士學歷的價值,但我不覺得這是(成為好的資料科學家的)必要條件。」 資料分析師和商業情報專家知道要分析哪些資料,但資料科學家的作法更具實驗性,他們必須找出資料組合,想出可以從中挖掘出哪些資訊,以及如何挖掘。 http://www.wired.tw/2013/05/02/datascientist/index.html
Why Learn R?為何學R? Because R is one of the most demanded scripting language developed by and for statisticians. R是為與被統計學家所開發的最需要的語言之一。 With its unparalleled advantages, we introduce to you what R can do for present and future Business Analysts.憑藉其無可比擬的優勢,我們向大家介紹R能夠為當前和未來的商業分析師做什麼。 http://www.edureka.co/blog/why-learn-r/
Why Learn R? http://www.edureka.co/blog/why-learn-r/
Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R is a Free, Open Source Language(R是免付費的公開軟體) R是免費提供的!這意味著,任何人都可以從互聯網上下載R,並開始工作。 還有什麼?你甚至可以修改代碼並添加您自己的創新吧。 R沒有許可的限制,因為它是在GNU(通用公共許可證)發行的,是一個開放程式碼的語言。 http://www.edureka.co/blog/why-learn-r/
Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: 2. R is Cross-Platform Compatible(跨平台相容的): 其中的R的最大的優點就是可以在多個作業系統和各種軟體/硬體上執行R。它經常使用在Microsoft Windows(32位和64位),蘋果,GNU / Linux,UNIX以及其衍生出的系統,如Mac OS X,Darwin,FreeBSD,Solaris等。它還可以在Mainframes的系統上運行。由於將R開發核心團隊投入的努力,使其跨平台兼容! http://www.edureka.co/blog/why-learn-r/
Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: Most Advanced Statistical Programming Language(最進階的統計程式語言): R程式師可以處理大量複雜的物件, 用Excel 交換資料, 確保程式碼的準確, 保存每計算步驟的軌跡, 做為日後參考的歷史, 做進階統計分析, 做複雜的視覺化分析等. R的整體結構和語法是專門發展用於統計計算的. http://www.edureka.co/blog/why-learn-r/
Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: Outstanding Graphical Outputs(優秀的圖形輸出): http://www.edureka.co/blog/why-learn-r/
Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R is Flexible ‘n’ Fun(R是靈活與有趣的): http://www.edureka.co/blog/why-learn-r/
Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R is Extremely Comprehensive(R是非常全方位的): 想像一下,一個程式語言提供超過4800套件從生物資訊,計量經濟和空間分析各種與資料探勘相關的知識庫! R程式師執行各種各樣的功能,例如:資料處理,古典統計檢定,統計建模(無論是線性或非線性),和圖形的技術,分類,集群,等等。 http://www.edureka.co/blog/why-learn-r/
Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R Supports Extensions(R支援推廣): R不只是全方位的語言且其結構是非常可推廣的. R的資料結構有vectors, scalars, data frames, time series, matrices, lists, etc. R也支援矩陣運算. http://www.edureka.co/blog/why-learn-r/
Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: 8. R has a Vast Community(R有一個龐大的社群): 隨著越來越多的人和企業採用R,R創造了一個龐大的社區!這些志同道合的人,用自己的經驗替論壇,社交媒體,R會議和其他網絡管道帶來許多價值。透過這些使用R的社團,學生和專業人士對於R是甚麼,R的優勢以及如何使用R的特點在他們的職涯上,可以得到一個清楚的說法。 http://www.edureka.co/blog/why-learn-r/
Why Learn R?為何學R? 下面是R如此受資料科學家歡迎的9優點: R easily Relates to other Programming Languages(R容易與其他程式語言連結): R容易與其他程式語言連結。 當資料由其他地方輸入時,R也非常友善,資料不僅來可來自Microsoft Excel中,也可來自Microsoft Access,MySQL和SQLite的,Oracle等。 R能夠同時使用ODBC(開放式數據庫連接協議)和ROracle包很容易地連接到各種資料庫 http://www.edureka.co/blog/why-learn-r/
Data mining資料探勘 資料探勘(Data mining),又譯為數據挖掘、資料挖掘、資料採礦。它是資料庫知識發現(英文:Knowledge-Discovery in Databases,縮寫:KDD)中的一個步驟。 資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊關聯性(屬於Association rule learning)的資訊的過程。 資料挖掘通常與電腦科學有關,並通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。 https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98
資料探勘方法 資料探勘的方法包括監督式學習(Supervised learning)、非監督式學習(Unsupervised learning)、關聯分組(Affinity Grouping)與購物籃分析(Market Basket Analysis)或者稱為關聯規則分析、集群(Clustering)與描述(Description)。 監督式學習包括:分類、估計、預測。 https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98
資料探勘定義 資料探勘有以下這些不同的定義: 「從資料中提取出隱含的過去未知的有價值的潛在資訊」 「一門從大量資料或者資料庫中提取有用資訊的科學。」 儘管通常資料挖掘應用於資料分析,但是像人工智慧一樣,它也是一個具有豐富含義的詞彙,可用於不同的領域。 它與KDD的關係是:KDD是從資料中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而資料探勘是KDD通過特定的演算法在可接受的計算效率限制內生成特定模式的一個步驟。 事實上,在現今的文獻中,這兩個術語經常不加區分的使用。 https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98
Data Mining 範例: 啤酒與尿布 http://slicedbread.co.uk/blog/how-to-strike-gold-with-microsoft-data-mining-tools
Data Mining產業應用 信用卡公司 授權決定、持卡購物行為、偵測詐欺等 金融服務機構 發展投資策略等 銀行 發展行銷策略、識別顧客貸款活動等 保險公司 偵測保險詐欺等 電信公司 提供服務、偵測竊打等 航空業 顧客關係管理等 醫療業 控制流程效率等 製造業 品管控制、流程監控等 電話銷售及直銷 區隔顧客、發展行銷策略等 零售商 發展行銷策略、偵測收銀員詐欺行為等
資料探勘的程序 http://csyue.nccu.edu.tw/ch/Data%20Mining(200910).pdf
付出最多的人,也是收穫最多的人 ~共勉之~