大數據的學習路線目前做不到的：機率性太高的(博奕) 大數據的核心：預測預測來自於：分析及樣本樣本的產生及收集樣本的儲存樣本的處理

大數據的學習路線目前做不到的：機率性太高的(博奕) 大數據的核心：預測預測來自於：分析及樣本樣本的產生及收集樣本的儲存樣本的處理
關聯性的尋找來自於分析分析所需的處理能力分析依據的理論運算能力及儲存能力雲端運算虛擬化容器

大數據基礎統計學基礎程式語言機器學習文字探勘視覺化大數據資料匯整資料轉換工具集

大數據基礎 (5%) 基礎矩陣線性代數雜湊二元數 O(n) 關聯代數 DB基礎內積外積 CAP理論表格資料資料頁框資料系列
Theta Join CAP理論表格資料資料頁框資料系列資料分片 OLAP 多維資料模式報表商業智慧分析 JSON XML NoSQL 正規表示大數據廠商應用環境設定

程式語言 Python 基礎 Excel 程式基礎 R設定 R Studio 快速資料挖掘變數向量矩陣 Factors Lists
表達式 IBM SPSS 快速資料挖掘變數向量矩陣陣列 Factors Lists Data Frames CSV 讀取原生資料存取資料子分類

程式語言資料頁框處理函數因子分析套件安裝 (15%)

統計學基礎選擇資料集(UCI Repo) 描述性統計學(中數、方差等) 探索資料分析貝式理論亂數變數 Cumul Dist Fn
Histogram Percentiles Outliers 貝式理論亂數變數 Cumul Dist Fn 連續分佈高斯、帕森、正常 Skewness ANOVA Prob Den Function 中間限制理論蒙地卡羅理論假設測試 P值

Chi2測試評估 CI值 MLE Pearson 因子最小適用 Euclidean距離 (30%)

視覺化 (40%) 資料探索使用R 單雙多資料視覺 ggplot2 Scatter Plot Spatial Charts Survey
Histogram Pie Tree Tree Map Scatter Plot Line Charts Spatial Charts Survey Plot 時間軸決策樹 D3.js Infovis IBM ManyEyes Tabular

機器學習機器學習基礎數值變數分類變數監督學習觀念輸入屬性訓練及測試資料分類預測 OverLift Bias
非監督學習觀念輸入屬性訓練及測試資料分類預測 Lift OverLift Bias Variance Trees 分類分類率決策樹 Boosting

機器學習 (50%) Naïve貝式分類 K近似值邏輯回歸 Ranking Perception Neutral 網路科學分析協作
線性回歸 Perception 階層式 Clustering Neutral 網路科學分析 K近似 Clustering 協作過濾標記 Trees 分類分類率決策樹 Boosting

文字探勘 (50%) 語料庫命名個體辨識文字分析 UIMA 文字分類使用WEKA 使用Mahout 市場為主分析關聯規則支援
字彙對映文字分類使用NLTK 使用WEKA 使用Mahout 特徵擷取市場為主分析關聯規則支援向量機 Term頻率權重 Term文件矩陣

大數據 Hadoop 資料複製 HDFS 元件原則 MR 程式設計 Sqoop Pig 資料載入 HIVE For HDFS 語言 SQL
MapReduce YARN Hadoop 元件 HDFS 資料複製原則安裝 Hadoop NameNodes DataNodes JobTracker TaskTracker MR 程式設計 Sqoop 資料載入 HDFS 非結構性 Flume Scribe Pig For SQL HIVE 語言 Chukwa Weblog Mahout Zookeeper Avro Storm 即時資料

大數據 Spark Streaming RHadoop R MR Cassandra MongoDB Neo4j

資料匯整資料格式資料來源簡介資料發現資料整合取得資料轉換加工資料總量資料調查 ETL 資料混合 Google
OpenRefine 資料總量 ETL

資料轉換 (80%) 基本元件可接受分析取樣去噪取樣分散資料整合正規化無偏差評估器維度及數量等級降低特徵擷取
資料擦洗正規化維度及數量等級降低

(100%) 工具集 R語言 Java R Studio Python Rattle Spark Storm EXCEL 分析工具集
Weka Knime RapidMiner Hadoop 版本選擇 Spark Storm Flume Scribe Chukwa Nutch Talend ScrapperWiki WebScrapper Flume Sqoop Rweka NTLK RHIPE D3.js Ggplot2 Shiny IBM Languageware Cassandra MongoDB

大數據的學習路線目前做不到的：機率性太高的(博奕) 大數據的核心：預測預測來自於：分析及樣本樣本的產生及收集樣本的儲存樣本的處理

Similar presentations

Presentation on theme: "大數據的學習路線目前做不到的：機率性太高的(博奕) 大數據的核心：預測預測來自於：分析及樣本樣本的產生及收集樣本的儲存樣本的處理"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

大數據的學習路線 目前做不到的：機率性太高的(博奕) 大數據的核心：預測 預測來自於：分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理

Similar presentations

Presentation on theme: "大數據的學習路線 目前做不到的：機率性太高的(博奕) 大數據的核心：預測 預測來自於：分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理"— Presentation transcript:

Similar presentations

About project

反馈

大數據的學習路線目前做不到的：機率性太高的(博奕) 大數據的核心：預測預測來自於：分析及樣本樣本的產生及收集樣本的儲存樣本的處理

Presentation on theme: "大數據的學習路線目前做不到的：機率性太高的(博奕) 大數據的核心：預測預測來自於：分析及樣本樣本的產生及收集樣本的儲存樣本的處理"— Presentation transcript: