大數據的學習路線 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理

Slides:



Advertisements
Similar presentations
ArchSummit 全球架构师峰会深 圳站 移动大数据平台架构实践 阎志涛 关于 TalkingData TalkingData( 北京腾云天下科技有限公司 ) 成立于 2011 年 9 月, 2013 年完成千万美元 A 轮融资 ( 北极光 领投 ) , 2014 年完成数千万美元的.
Advertisements

1 第 10 章 品牌定位分析 授課教師:. 學習目標 2 瞭解並挑選定位基礎 學習建立評分表 學習使用因素分析建立知覺圖 瞭解知覺定位分析的內容 學習使用多元尺度法建立知覺圖.
课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
山西职业技术学院 蒋晋红.
中国旅游研究院武汉分院成果展示 ——2011年武汉市旅游市场调研成果简报 华中师范大学 中国旅游研究院武汉分院 二〇一一年十二月.
高级软件工程 复习课.
第六章 统计表与统计图 第一节 统计表 第二节 统计图 1.
Big Data Ecosystem – Hadoop Distribution
班級:醫管3B 組別:第二組 組員:王品媛、郭雅瑄、謝淑玲、蔡孟蔙
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
请说出牛顿第一定律的内容。.
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
E-Mapreduce培训系列 基本介绍.
第十一章 多变量的可视化分析 第一节 引言 第二节 折线图分析法 第三节 条形图分析法 第四节 散点图分析法 第五节 雷达图分析法
云计算业务应用-数据挖掘.
巨量資料平台: Hadoop的生態系.
大數據的解決方案 (以Hadoop為中心) 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集
五至七年級數理創意營教材之研發與教學實驗 期末報告
11.3 国产大数据库技术 阿里巴巴OceanBase 云创存储数据立方(DataCube)
15 簡單迴歸分析與相關分析  學習目的.
如何使用 Excel 與SPSS繪製 統計圖型
按按按高互動遙控教學系統.
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
第6章 問卷統計分析軟體 操作(SPSS,Excel)
转正述职报告 乐恩公司 史航
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
医学统计学 主讲人:信息部 林雪君.
数据创造价值、创新驱动未来 浅析高校大数据建设方法 演讲人:伍剑 时间:
基于hadoop与hive的大数据分析体系构建
Made by Feng Nie 开源机器学习库&Hadoop介绍 Made by Feng Nie
基于R和pentaho的全套开源BI平台的实现
NoSQL分布式数据库.
資料探勘工具 - Splunk介紹 報告者:曾彥志 報告日期:2015/09/18.
厦门大学数据库实验室NoSQL系列学习之
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
云计算之分布式计算.
基于Hadoop的数据仓库Hive.
Data Mining 工具介紹 (Weka+JDBC)
第九讲 Hadoop架构再探讨 (2016春季学期)
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Hadoop平台與應用規劃實作 報告者:劉育維.
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
从TDW-Hive到TDW-SparkSQL
Hadoop.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
第八章 科研资料的整理与分析.
《Spark编程基础》 《 Spark编程基础》课程介绍 (PPT版本号:2018年2月)
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
斯坦福大学调研 蒋达晟.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
生涯手冊第18頁 生涯統整面面觀.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
主在聖殿中! 崇拜開始前請安靜就座 務請把您的手提電話關掉!.
16 複迴歸分析與相關分析  學習目的.
社会科学统计软件及应用 马秀麟 2016年5月.
臺北市99學年度 輔導分發選習國民中學技藝教育學程 就讀高中職實用技能學程宣導說明會
Excel 2010电子 表格制作案例教程.
群聚分析操作介紹 -以SOM和K-means為例
上海理工大学 光电信息与计算机工程学院 数据仓库与数据挖掘 张 艳 上海理工大学 光电信息与计算机工程学院.
班級:210 學號:60915 姓名:李佾璇 學號:60935 姓名:趙家瑩 學號:60938 姓名:鄭伊婷
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
Statistical Table and Statistical Graph
Presentation transcript:

大數據的學習路線 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理   關聯性的尋找來自於分析 分析所需的處理能力 分析依據的理論 運算能力及儲存能力 雲端運算 虛擬化 容器

大數據基礎 統計學基礎 程式語言 機器學習 文字探勘 視覺化 大數據 資料匯整 資料轉換 工具集

大數據基礎 (5%) 基礎矩陣 線性代數 雜湊 二元數 O(n) 關聯代數 DB基礎 內積外積 CAP理論 表格資料 資料頁框 資料系列 Theta Join CAP理論 表格資料 資料頁框 資料系列 資料分片 OLAP 多維資料模式 報表 商業智慧 分析 JSON XML NoSQL 正規表示 大數據廠商應用 環境設定

程式語言 Python 基礎 Excel 程式基礎 R設定 R Studio 快速 資料挖掘 變數 向量 矩陣 Factors Lists 表達式 IBM SPSS 快速 資料挖掘 變數 向量 矩陣 陣列 Factors Lists Data Frames CSV 讀取 原生資料 存取 資料 子分類

程式語言 資料頁框 處理 函數 因子分析 套件安裝 (15%)

統計學基礎 選擇資料集(UCI Repo) 描述性統計學(中數、方差等) 探索資料分析 貝式理論 亂數變數 Cumul Dist Fn Histogram Percentiles Outliers 貝式理論 亂數變數 Cumul Dist Fn 連續分佈 高斯、帕森、正常 Skewness ANOVA Prob Den Function 中間限制理論 蒙地卡羅 理論 假設測試 P值

Chi2測試 評估 CI值 MLE Pearson 因子 最小適用 Euclidean距離 (30%)

視覺化 (40%) 資料探索 使用R 單雙多資料視覺 ggplot2 Scatter Plot Spatial Charts Survey Histogram Pie Tree Tree Map Scatter Plot Line Charts Spatial Charts Survey Plot 時間軸 決策樹 D3.js Infovis IBM ManyEyes Tabular

機器學習 機器學習 基礎 數值 變數 分類 變數 監督 學習 觀念 輸入 屬性 訓練及 測試資料 分類 預測 OverLift Bias 非監督 學習 觀念 輸入 屬性 訓練及 測試資料 分類 預測 Lift OverLift Bias Variance Trees 分類 分類率 決策樹 Boosting

機器學習 (50%) Naïve貝式分類 K近似值 邏輯回歸 Ranking Perception Neutral 網路 科學分析 協作 線性回歸 Perception 階層式 Clustering Neutral 網路 科學分析 K近似 Clustering 協作 過濾 標記 Trees 分類 分類率 決策樹 Boosting

文字探勘 (50%) 語料庫 命名個體辨識 文字分析 UIMA 文字分類 使用WEKA 使用Mahout 市場為主分析 關聯規則 支援 字彙對映 文字分類 使用NLTK 使用WEKA 使用Mahout 特徵擷取 市場為主分析 關聯規則 支援 向量機 Term頻率 權重 Term文件 矩陣

大數據 Hadoop 資料複製 HDFS 元件 原則 MR 程式設計 Sqoop Pig 資料載入 HIVE For HDFS 語言 SQL MapReduce YARN Hadoop 元件 HDFS 資料複製 原則 安裝 Hadoop NameNodes DataNodes JobTracker TaskTracker MR 程式設計 Sqoop 資料載入 HDFS 非結構性 Flume Scribe Pig For SQL HIVE 語言 Chukwa Weblog Mahout Zookeeper Avro Storm 即時資料

大數據 Spark Streaming RHadoop R MR Cassandra MongoDB Neo4j

資料匯整 資料格式 資料來源 簡介 資料發現 資料整合 取得 資料轉換 加工 資料總量 資料調查 ETL 資料混合 Google OpenRefine 資料總量 ETL

資料轉換 (80%) 基本元件 可接受 分析 取樣 去噪 取樣 分散資料 整合 正規化 無偏差 評估器 維度及數量等級降低 特徵擷取 資料擦洗 正規化 維度及數量等級降低

(100%) 工具集 R語言 Java R Studio Python Rattle Spark Storm EXCEL 分析工具集 Weka Knime RapidMiner Hadoop 版本選擇 Spark Storm Flume Scribe Chukwa Nutch Talend ScrapperWiki WebScrapper Flume Sqoop Rweka NTLK RHIPE D3.js Ggplot2 Shiny IBM Languageware Cassandra MongoDB