電子商務：數位時代商機‧梁定澎總編輯‧前程文化出版

Slides:

Advertisements

Similar presentations

大数据基础技术和应用. 大纲大数据概述大数据基础技术工程技术策略技术典型应用我们处于数据爆炸的时代数据库文字记录照片线下数据信息化网页数据用户行为记录数字图像互联网 - 移动互联网设备监控智能家居摄像头传感器地球上至今总共的数据量：在 2006 年，个人用户才刚刚迈.

Advertisements

ArchSummit 全球架构师峰会深圳站移动大数据平台架构实践阎志涛关于 TalkingData TalkingData( 北京腾云天下科技有限公司 ) 成立于 2011 年 9 月， 2013 年完成千万美元 A 轮融资 ( 北极光领投 ) ， 2014 年完成数千万美元的.

秦代舞蹈本檔案圖片來源： google 圖片. 戰國七雄終結者統一文字制定律法郡縣名田  秦王征服六國，終結分裂割據的局面，建立中國歷史上第一個中央集權的封建大帝國，統一文字、制定律法與郡縣、名田等制度，將戰國時期散漫衰敗狀態的社會，轉變成統一強大的國家。秦始皇.

什麼是大數據？. Q ：大數據是什麼？ A ：大數據（ Big Data ）又被稱為巨量資料，其概念其實就是過去 10 年廣泛用於企業內部的資料分析、商業智慧（ Business Intelligence ）和統計應用之大成。但大數據現在不只是資料處理工具，更是一種企業思維和商業模式，因為資料量急速成長、儲存設備成本下降、

分布式系统 Distributed Systems 第 13 讲 NoSQL Lecture 13 NoSQL

广州市档案专业技术资格申报评审有关事项姓名：付建华联系电话：联系地址：广州市番禺区大学城档案馆路33号A403科教处

聞一多詩集導讀-- 《死水》與《紅燭》系級/組別：森資一第五組

102學年度多元入學大學.

互联网金融之金融数据挖掘邹永杰江西财经大学金融学院.

Big Data Ecosystem – Hadoop Distribution

讲好后勤故事提升后勤形象淮阴师范学院宣传部副部长张同刚.

第八讲基于Hadoop的数据仓库Hive （PPT版本号：2016年4月6日版本）

2013年生源地贷款工作回顾及下一步工作思路 2013年11月.

術科測試解析第二站櫃檯作業 (瑋博POS系統).

穆公(朱金清微博：淘穆公阿里HBase业务设计实践穆公(朱金清微博：淘穆公

主講：陳永隆博士國家文官學院、地方行政研習中心講座交通大學科管所、世新大學資管系兼任副教授

PB级科研数据集的管理和应用曙光信息产业（北京）有限公司.

云计算学习报告报告人: 陈霁大规模数据处理软件Apache Hadoop.

（讲座幻灯课件请在网上下载，让我们一起思考！）

云计算业务应用-数据挖掘.

南京大学计算机科学与技术系主讲人：黄宜华 2011年春季学期

巨量資料平台： Hadoop的生態系.

基于大数据的智慧北京推进策略北京市经济和信息化委员会 2014年6月.

浙江省小学数学六班班级学习简报（八） ●.

第11章海量信息存储主讲：刘方明副教授华中科技大学计算机学院

HADOOP的高能物理分析平台孙功星高能物理研究所/计算中心

数据采集与Hadoop框架报告人：黄文君导师：王华忠 BEA Confidential.

基于hadoop的数据仓库技术.

歷史背景 1931年，台灣總督府創設”台南高等工業學校”於台南市；”機械工學科”是創校時成立、歷史最悠久之三個學系之一

大数据在医疗行业的应用.

服務聯網地政雲.

中共盘县卫生和计划生育局党组落实主体责任情况汇报

YARN & MapReduce 2.0 Boyu Diao

電子商務未卜先知的利器大數據 Big Data

NoSQL分布式数据库.

資料探勘工具 - Splunk介紹報告者：曾彥志報告日期：2015/09/18.

厦门大学数据库实验室NoSQL系列学习之

云计算之分布式计算.

王耀聰陳威宇國家高速網路與計算中心(NCHC)

Goolge的云计算分布式数据表BigTable.

基于Hadoop的数据仓库Hive.

kCloudStorage - 基于云技术的廉价冗余天文海量数据存储

精通redis数据库开发、管理与优化第1讲什么是redis 讲师：黄锡峰.

CHAPTER 6 認識MapReduce.

开源云计算系统简介电子工业出版社刘鹏主编《云计算》教材配套课件11.

Cloud Computing(雲端運算) 技術的現況與應用

HBase简介与实践分享剑英.

基于大数据的物流资源整合福建师范大学协和学院沈庆琼.

Homework 1(上交时间：10月14号) 倒排索引.

Cloud Computing Google云计算原理.

解讀大數據

浙江省教育科学规划课题管理系统 2015年新版申请人培训手册

软件工程基础云计算概论刘驰.

大数据介绍及应用案例分享 2016年7月华信咨询设计研究院有限公司.

第7章網路行銷的研究.

大數據商業模式與應用領域.

基于大数据平台数据管理研究何家乐 2013年7月中国科学院高能物理研究所.

A Big Data Framework for u-Healthcare Systems Utilizing Vital Signs

Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian

Художественная компания“Ноосфера” 智慧圈艺术公司

基于云计算及数据挖掘技术的海量数据处理研究

102學年度大學個人申請入學招生審查資料上傳作業說明

空間規劃知識研究室簡介林峰田特聘教授

荷邮宝寄小包到欧洲就用荷邮宝.

教學輔導教師認證資料繳交說明認證申請期間：108年4月10日至108年6月30日請教師自行確認符合各項取證資格再行送件.

Cloud Computing Google云计算原理.

人工智慧＆Scratch 林俞均侯藹玲陳芸儀鄭涵庭

東吳大學『樂齡大學』外雙溪環境與生態產業黃顯宗東吳大學微生物學系 101.

大数据发展的问题与方向中国信通院云大所.

Presentation transcript:

電子商務：數位時代商機‧梁定澎總編輯‧前程文化出版第14章網路探勘與巨量資料管理授課教師：電子商務：數位時代商機‧梁定澎總編輯‧前程文化出版

摘要 14.1 導論 14.2 網路資料 14.3 網路文章的探勘 14.4 社群資料的探勘 14.5 行動資料的探勘 14.6 巨量資料處理技術 14.7 摘要與結論

學習目標了解巨量資料的一些相關名詞之具體意義。會思考巨量資料的一些應用。了解文字探勘的內涵。了解社群和行動資料探勘的內涵。對於巨量資料的查詢與處理有正確的認知。

Netflix利用巨量資料分析來創新美國著名的DVD租賃公司Netflix的執行長黑思廷斯（Reed Hastings）1991年他創設 Pure Software公司，開發和販賣偵錯和修正軟體。創立Netflix：黑思廷斯向當時最大的DVD 租借店百視達（Blockbuster）借一片名為「阿波羅13號」的DVD，觀賞完畢後卻不知置於何處，六個星期後找到並歸還時被罰了40美元。

Netflix利用巨量資料分析來創新此事促使他思考百事達的商業模式，若是採用月租費，且無觀賞期不限制（也因此就不會有罰金），是否會更吸引顧客？因此黑思廷斯投資了250萬美元在1998年創立 Netflix，並於1999年推出繳月租費便可無限借閱的商業模式，消費者可以選擇月租費不同的各種方案，當然月租費越高可同時擁有的DVD就越多。

Netflix利用巨量資料分析來創新會員利用Netflix的網站維護一個DVD的清單，Netflix就按照這個清單使用專用信封寄送DVD給會員，會員看完後再利用相同信封免費寄還給Netflix，Netflix再寄下一批 DVD給會員。黑思廷斯從之前擔任工程師和軟體公司執行長的經驗獲得一些心得，並將此內化成 Netflix的企業文化：「自由和責任」（ Freedom and Responsibility），Netflix付給員工遠高於業界標準的薪水，以期吸收最優秀的人才。

Netflix利用巨量資料分析來創新黑思廷斯從過去的經驗裡學習到這個產業的市場一直在變化，再好的流程或規則也會因市場的變化而過時，唯有留住最好的人才並給他們自由度才是因應瞬息萬變市場的王道。因應這樣的企業文化，Netflix非常重視資料的分析，希望據以掌握顧客的需求。

Netflix利用巨量資料分析來創新以核心事業DVD租賃來說，他們開發出一套個人化電影推薦系統Cinamatch，該系統考量個人基本資料、對一些電影的評價，以及電影的屬性（例如電影種類、級別、導演和演員、專家評價等），利用協力過濾（Collaborative filtering）的技術推薦給會員（協力過濾的技術將在第14.4.2節介紹）。

Netflix利用巨量資料分析來創新黑思廷斯認為Netflix的成功與這個系統能精確推薦出符合使用者喜好的電影有密切關係，因此想辦一個比賽，由Netflix提供上億筆的電影評價真實資料，只要全世界任何隊伍可以設計出一個比Cinamatch更好的推薦系統（例如精確度高10%以上），就可獲得獎金100萬美元。

Netflix利用巨量資料分析來創新這個想法獲得行銷部門的支持，認為此舉會有新聞性，並透過比賽的過程讓社會大眾了解到Netflix先進的IT技術能力，對 Netflix的形象有加分的效果。然而法務部門卻擔心此舉會有會員資料外洩之虞，將來有可能產生對公司的集體訴訟，因此持反對立場。軟體部門則持中立立場，不過認為若要辦這樣的比賽，則應提供完整的資料，否則獲獎的系統將無法為公司所用。

導論一些數據手機和隨身碟：數十GB or 數百本書個人電腦：數百GB或1TB or 數千或數萬本書伺服器：數TB或數十萬本書 14.1 導論 14.2 14.3 14.4 14.5 14.6 14.7 導論一些數據手機和隨身碟：數十GB or 數百本書個人電腦：數百GB或1TB or 數千或數萬本書伺服器：數TB或數十萬本書叢集式的系統：數PB（1015）網路上的資料：數ZB（1021）

14.1 導論 14.2 14.3 14.4 14.5 14.6 14.7 導論

14.1 導論 14.2 14.3 14.4 14.5 14.6 14.7 導論迫切的分析需求

導論 Data Analytics Programs Programs by Regions 14.1 導論 14.2 14.3 14.4 14.5 14.6 14.7 導論 Data Analytics Programs Programs by Regions Country Count USA 52 UK 9 Ireland 4 Asia 3 Spain 2 Belgium 1 Canada France Hungary Latin America Middle East and Africa Sweden

網路資料種類公部門資料私部門資料使用者自行產生的資料（UGC）電子化政府的服務和政令宣導 Open Data Movement 14.1 14.2 網路資料 14.3 14.4 14.5 14.6 14.7 網路資料種類公部門資料電子化政府的服務和政令宣導 Open Data Movement 私部門資料公司產品和服務資訊財務報表和內部文件使用者自行產生的資料（UGC）電子郵件資料討論版資料社會網路資料

14.1 14.2 網路資料 14.3 14.4 14.5 14.6 14.7 網路資料種類知名UGC網站台灣 PTT、Facebook、Google Handout、tripadvisor、 Mobile01 LINE 大陸新浪微博、人人網、QQ空間 WeChat 其他 Twitter、LinkedIn、Plurk、Orkut、MySpace WhatsApp

14.1 14.2 網路資料 14.3 14.4 14.5 14.6 14.7 網路資料種類 tripadvisor資料範例

14.1 14.2 網路資料 14.3 14.4 14.5 14.6 14.7 網路資料種類

UGC特性結構性資料非結構性資料網路型資料 PO文的Meta data PO文本身使用者與使用者間的關係（好友、跟進、信任） 14.1 14.2 網路資料 14.3 14.4 14.5 14.6 14.7 UGC特性結構性資料 PO文的Meta data 評論對象、評論者、旅遊型態、各個構面的評價非結構性資料 PO文本身可以歸納出其討論議題和看法網路型資料使用者與使用者間的關係（好友、跟進、信任） PO文與PO文間的關係（回覆、引述、推文） PO文與使用者間的關係（作者、讚、噓）

14.1 14.2 網路資料 14.3 14.4 14.5 14.6 14.7 巨量資料處理的發展狀況巨量資料分析範例(一)

Target百貨預知顧客懷孕美國的知名連鎖賣場Target寄發孕婦用品廣告給中學女生。 Target特別重視懷孕的預測有了小孩是家庭的一件大事，未來十餘年的物品購買習慣都會跟著改變。 Target根據使用者的購買紀錄，包括使用的化妝品和所吃的維他命，來決定一位婦女的「懷孕預測指數」。購買的商品和個人資料來預測懷孕指數值，正確率高達87%。

14.1 14.2 網路資料 14.3 14.4 14.5 14.6 14.7 巨量資料處理的發展狀況

14.1 14.2 14.3 網路文章的探勘 14.4 14.5 14.6 14.7 結構性資料的探勘以旅遊文章的PO文為例：

結構性資料的探勘資料分類（或稱Predictive Analytics）根據使用者的基本資料和喜歡的文章預測他對於某一飯店的喜歡程度 14.1 14.2 14.3 網路文章的探勘 14.4 14.5 14.6 14.7 結構性資料的探勘資料分類（或稱Predictive Analytics）根據使用者的基本資料和喜歡的文章預測他對於某一飯店的喜歡程度 WHY 該飯店為人稱道的特色剛好是該使用者所重視的分類技術決策樹、SVM、貝式網路

結構性資料的探勘資料分群常用來將資料分成數群找出每一群的特性, E.g., 14.1 14.2 14.3 網路文章的探勘 14.4 14.5 14.6 14.7 結構性資料的探勘資料分群常用來將資料分成數群找出每一群的特性, E.g., 30歲以下的單獨旅遊者。 25-55歲具大學學歷的商務旅遊者。 55歲以上的家庭旅遊者。歸納出每一群的消費特徵，以方便檢視和做目標行銷, E.g., 25-55歲具大學學歷的商務旅遊者較不計較價錢但在乎飯店位置。

結構性資料的探勘關聯分析用來找出資料值間的相關性或甚至因果關係。 E.g., 北部商務旅客較常住五星級飯店。商務旅客給的飯店評價較高。 14.1 14.2 14.3 網路文章的探勘 14.4 14.5 14.6 14.7 結構性資料的探勘關聯分析用來找出資料值間的相關性或甚至因果關係。 E.g., 北部商務旅客較常住五星級飯店。商務旅客給的飯店評價較高。

網路文章議題的探勘文字處理斷字系統去除無效字（如”的”、”在”、”了”）取出需要的詞性網路文章的非正式用語也要處理 14.1 14.2 14.3 網路文章的探勘 14.4 14.5 14.6 14.7 網路文章議題的探勘文字處理斷字系統中研院中文斷字系統史丹福大學POS Tagger 去除無效字（如”的”、”在”、”了”）取出需要的詞性 E.g., 名詞網路文章的非正式用語也要處理 GR8great 689 國民黨 609 民進黨

網路文章議題的探勘將一篇PO文轉成一個向量值用人工方式找出議題相關字。 PO文裡這些相關字的值高可能就是在討論該議題。 14.1 14.2 14.3 網路文章的探勘 14.4 14.5 14.6 14.7 網路文章議題的探勘將一篇PO文轉成一個向量值 TF-IDF（Term Frequency-Inverse Document Frequency） tf(t, d)：字詞t 在文章d裡出現的頻率 tf-idf(t, D) = tf(t, d) * idf(t, d) 用人工方式找出議題相關字。 PO文裡這些相關字的值高可能就是在討論該議題。

網路文章議題的探勘自動找出議題和其相關字 LDA 輸入每一篇PO文的字詞自動找出每一篇PO文的議題分布。每一個議題的字詞分布。 14.1 14.2 14.3 網路文章的探勘 14.4 14.5 14.6 14.7 網路文章議題的探勘自動找出議題和其相關字 LDA 輸入每一篇PO文的字詞自動找出每一篇PO文的議題分布。每一個議題的字詞分布。

14.1 14.2 14.3 網路文章的探勘 14.4 14.5 14.6 14.7 網路文章議題的探勘

網路文章評價的探勘著重表達情緒的字詞準備一套正面情緒字庫和一套負面情緒字庫，依此來決定一個句子的情緒。但須解決以下問題 14.1 14.2 14.3 網路文章的探勘 14.4 14.5 14.6 14.7 網路文章評價的探勘著重表達情緒的字詞形容詞和副詞（好、壞、舒適、難過）。名詞和動詞（非常、喜歡、正妹）。準備一套正面情緒字庫和一套負面情緒字庫，依此來決定一個句子的情緒。但須解決以下問題不同領域的用詞習慣有差別一詞多義他很喜歡談論別人的「是非」。他是一個「是非」分得很清楚的人。

網路文章評價的探勘但須解決以下問題同樣是正（負）面詞，強度可能大不同否定句的問題先褒後貶的問題反諷句的問題 14.1 14.2 14.3 網路文章的探勘 14.4 14.5 14.6 14.7 網路文章評價的探勘但須解決以下問題同樣是正（負）面詞，強度可能大不同「做得好」和「做得棒」。否定句的問題「iPhone 5對你來說不是一個好選擇」。先褒後貶的問題雖然XXX有炫麗的外型、高解析度的照相功能，且輕薄短小，但它完全不符合商務人士的使用習慣。反諷句的問題 XXX公司竟然推出這樣的好…產品。

從新聞和評論文章預測股票走勢觀察產品、服務或公司的評價，可能會對於這些產品或服務的銷售和公司的股票有所影響。有一間名為「股票聲納」（Stock Sonar ）的公司，專門收集和分析與某一家公司有關的評論文章，來源包括新聞、公開文件、部落格和推特，並自動分析這些文章中對於該公司的評價，然後列出這些評價值和股票走勢。圖14-4列出台積電（TSM）的評價值和股票走勢圖，可以看出在8月26日有五篇正面的評論文章，果然接下來股票就開始上漲。

台積電股票和評論文章評價的走向圖 (www.thestocksonar.com) 從新聞和評論文章預測股票走勢客戶如果想看詳細的文章自行判斷也可以在網頁下方看到。台積電股票和評論文章評價的走向圖 (www.thestocksonar.com)

社群的衡量指標社會網路的分析，常見的分析指標：關係密切之群體（Dense group）橋接節點（Bridge） 14.1 14.2 14.3 14.4 社群資料的探勘 14.5 14.6 14.7 社群的衡量指標社會網路的分析，常見的分析指標：關係密切之群體（Dense group）死黨，他們可能會有共同的價值觀和行為模式，可以據以擬定行銷策略或教化模式。橋接節點（Bridge）橋接節點有機會接觸多個群體，資訊較為流通，也比旁人有更多的機會。集中度（Centrality）在社會網路裡有較多連線的節點，可能是比較重要的節點。

社群推薦技術一般的推薦方式利用社會網路的推薦 14.1 14.2 14.3 14.4 社群資料的探勘 14.5 14.6 14.7 社群推薦技術一般的推薦方式根據目標客戶的個人基本資料（性別、學歷、專長、社經地位）和所購買或瀏覽過的產品，找出相似產品來進行推薦。利用社會網路的推薦採用協力過濾法（Collaborative Filtering），推薦一些你的夥伴所喜歡，但你卻還沒購買的商品。何謂夥伴信任的朋友購買習慣類似的陌生人

行動資料的特性與服務行動資料的特性以位置為基礎（location-based）服務大量的位置資訊有不同程度的誤差和資料遺失路線規劃 14.1 14.2 14.3 14.4 14.5 行動資料的探勘 14.6 14.7 行動資料的特性與服務行動資料的特性大量的位置資訊有不同程度的誤差和資料遺失以位置為基礎（location-based）服務路線規劃找鄰近的停車場、加油站、餐廳、旅館和商店旅遊景點推薦找鄰近的計程車或同伴城市塞車路段的偵測

行動資料探勘的應用探勘歷史性的移動資料應用移動群體的探勘推測使用者的生活圈找出活動的可能參與者共同結伴逛賣場的朋友動物的群聚 14.1 14.2 14.3 14.4 14.5 行動資料的探勘 14.6 14.7 行動資料探勘的應用探勘歷史性的移動資料應用移動群體的探勘共同結伴逛賣場的朋友動物的群聚推測使用者的生活圈辦公室與家庭形成個人的生活輪廓找出活動的可能參與者考慮個人偏好和活動區域

巨量資料的特性 4 V Volume：量極大 Variety：資料格式十分多樣化 Velocity：產生速度極快 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的特性 4 V Volume：量極大以TB, PB來計。 Variety：資料格式十分多樣化包括結構化資料、文字資料、數字型資料和影音資料。 Velocity：產生速度極快感測器產生的是串流型的資料（streaming data）。 Veracity：資料品質不一有人或是裝置產生，必然有誤差。

巨量資料的特性 NoSQL資料庫 Not Only SQL：下一代非關聯式的資料庫技術。支援分散式儲存具備開放原始碼精神 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的特性 NoSQL資料庫 Not Only SQL：下一代非關聯式的資料庫技術。支援分散式儲存具備開放原始碼精神容易進行水平式擴充（Horizontally scalable）

巨量資料的特性 NoSQL資料庫的特徵無綱目（Schema-Free）高延展性（High Scalability）簡單的存取介面 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的特性 NoSQL資料庫的特徵無綱目（Schema-Free）無須事先明確定義資料實體間的關係與結構。高延展性（High Scalability）透過增加伺服器的方式，提升容量與處理能量。簡單的存取介面提供支援開發語言的應用程式介面（API），或是支援REST風格的網路服務介面，不使用SQL。最終的一致性（Eventually Consistent）分散複製多份複本，在一段足夠長的時間後，逐步同步所有的複本。

巨量資料的模式 NoSQL資料庫類型 Key-Value類型文件類型圖形（Graph）類型適合存取資料實體與其屬性的結構化資料。 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的模式 NoSQL資料庫類型 Key-Value類型適合存取資料實體與其屬性的結構化資料。文件類型適用於儲存非結構性的文件。圖形（Graph）類型適合用來記錄社會網路（Social Network）資料。

巨量資料的模式 Key-Value類型NoSQL資料庫資料結構常見資料庫 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的模式 Key-Value類型NoSQL資料庫資料結構資料是以Key-Value成對的結構儲存，而Key可能包含多個屬性。常見資料庫 Google Bigtable Hadoop HBase Amazon Dynamo

巨量資料的模式文件類型NoSQL資料庫資料結構常見資料庫 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的模式文件類型NoSQL資料庫資料結構以XML、YAML、JSON、或BSON等標準，或以二元型式如PDF或Word格式，表達文件資料，並以文件為單位儲存與維護資料。常見資料庫 Apache CouchDB 10gen MongoDB

巨量資料的模式圖形類型NoSQL資料庫資料結構常見資料庫 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的模式圖形類型NoSQL資料庫資料結構使用圖形的節點（Node）、邊（Edge）和屬性（Property）等表達並儲存資料。常見資料庫 Neo Neo4j Franz AllegroGraph

巨量資料的模式 Google BigTable Google 在 2004 開始研發應用於 Google 多項專案資料庫需求 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的模式 Google BigTable Google 在 2004 開始研發應用於 Google 多項專案如：網頁索引、Google Earth、Google Finance。資料庫需求儲存Petabytes等級之大量資料的資料庫提供一個分散式高可用性的系統滿足高效能的批次處理兼顧低延遲的即時處理容易擴充伺服器高延展性

巨量資料的模式 BigTable的結構基本組成是鍵值（key）與內容值（value）的對應鍵值由三類鍵所組成 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的模式 BigTable的結構基本組成是鍵值（key）與內容值（value）的對應鍵值由三類鍵所組成列鍵（row key）：字串型態行鍵（column key）：字串型態時間戳記（timestamp）：64位元的整數內容值則是一個任意長度的位元陣列（byte array）格式： (row:string, column:string, timestamp:int64)  value: byte[]

巨量資料的模式 BigTable的Key-Value對應範例 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的模式 BigTable的Key-Value對應範例 (“tw.edu.nsysu.mis.www”, “contents:”,t1) (“tw.edu.nsysu.mis.www”, “anchor:www.nsysu.edtu.tw”,t2) (“tw.edu.nsysu.mis.www”, “anchor:www.cm.nsysu.edtu.tw”,t3) (“tw.edu.nsysu.finance.www”,”anchor:www.cm.nsysu.edtu.tw”,t6) “資訊管理學系” “<html>Ver 1.1…” “<html>Ver 1.0…” (“tw.edu.nsysu.finance.www”,”contents:”,t4) (“tw.edu.nsysu.finance.www”,”anchor:www.nsysu.edtu.tw”,t5) (“tw.edu.nsysu.finance.www”, “contents:”,t7) “<html>…” “財務管理學系”

巨量資料的模式以列鍵為群組BigTable範例 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 “..Ver1.0 ...” “contents:” “anchor: www.nsysu.edu.tw” www.cm.nsysu.edu.tw” “資訊管理學系” “tw.edu.nsysu.mis.www” “<html> ...” “財務管理學系” t1 t4 t2 t3 t5 t6 t7 “tw.edu.nsysu.finance.www” “..Ver1.1...”

巨量資料的模式 Google NoSQL資料庫的技術堆疊 DataStore MegaStore BigTable GFS v2.0 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的模式 Google NoSQL資料庫的技術堆疊 GFS v2.0 BigTable MegaStore DataStore Google 分散式檔案系統 key-value 資料儲存多列的交易處理，以及簡易的索引與查詢無綱目儲存，以及高階查詢引擎

巨量資料的模式 MapReduce引擎適合Key-Value資料型態的處理。處理的任務分成二種類型 14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的模式 MapReduce引擎適合Key-Value資料型態的處理。處理的任務分成二種類型 Map任務：處理一筆筆Key-Value資料後，依照Key 值排序，同一個Key的資料被合併成一個群體（Group）。 Reduce任務：接續Map輸出的資料，以一個群體為單位，進行資料的彙總。可以配置在電腦叢集的多個節點上並行運算，達到提升處理效能的目的。

14.1 14.2 14.3 14.4 14.5 14.6 巨量資料處理技術 14.7 巨量資料的模式 MapReduce範例

摘要與結論巨量資料的應用正方興未艾，包括商業、醫療、社會、政治等領域無一不包。決策靠的不只是經驗和直覺，而是有數據佐證的證據。 14.1 14.2 14.3 14.4 14.5 14.6 14.7 摘要與結論摘要與結論巨量資料的應用正方興未艾，包括商業、醫療、社會、政治等領域無一不包。決策靠的不只是經驗和直覺，而是有數據佐證的證據。人類的社會勢必會因巨量資料分析而起了根本的改變。雖說擁護的聲音，也有不少質疑的聲浪。

摘要與結論迷思「只要資料足夠，數字自會說話」數字不會說話，資料不論規模大小，仍受人類設計限制。「海量資料可提高城市智慧及效能」 14.1 14.2 14.3 14.4 14.5 14.6 14.7 摘要與結論摘要與結論迷思「只要資料足夠，數字自會說話」數字不會說話，資料不論規模大小，仍受人類設計限制。獲取的資料無法如實代表社會結構。演算式也有偏見，尤其是運用演算式來評估個人。「海量資料可提高城市智慧及效能」某些部份是，但也會造成有些民眾及社區遭到漠視或代表性不足。

摘要與結論迷思「海量資料對各個社會族群一視同仁」「個人化」名義下，巨量資料卻可能用來針對特定社會族群，給予不一樣的待遇。 14.1 14.2 14.3 14.4 14.5 14.6 14.7 摘要與結論摘要與結論迷思「海量資料對各個社會族群一視同仁」「個人化」名義下，巨量資料卻可能用來針對特定社會族群，給予不一樣的待遇。預測用戶相當敏感的個人資訊，例如性傾向、族裔、宗教與政治立場、個性、智商、幸福程度、菸毒習慣、父母婚姻狀況、年齡、性別等。