Presentation is loading. Please wait.

Presentation is loading. Please wait.

資料庫管理 Homework 期末專題 楊立偉教授 台灣大學工管系 2016.

Similar presentations


Presentation on theme: "資料庫管理 Homework 期末專題 楊立偉教授 台灣大學工管系 2016."— Presentation transcript:

1 資料庫管理 Homework 期末專題 楊立偉教授 台灣大學工管系 2016

2 Requirement 應用真實世界的大數據進行探索性分析,找出有商業價值之應用

3 題目分派 主題資料集 每組任選其一(可與它組交換),分派如下 繳交紙本報告 期末每組上台簡報 組別 資料集1 資料集2 1 (財經)新聞
Movie 7 13 2 Food 8 14 3 Stock 9 15 4 通訊板 10 16 5 合購版 11 17 6 投資理財 12 18

4 主題資料集 2016資料集 下載連結 以7zip解壓縮(含密碼), Access格式 2016/1/1~2016/11/30
PTT Movie, Food, MobileComm, BuyTogether, Stock 鉅亨網, Yahoo奇摩理財, Yahoo股市, 聯合財經網 (全) mobile01 > 投資與理財 以7zip解壓縮(含密碼), Access格式 可以用ODBC剪貼入MySQL 或是用工具轉換, 搜尋「access to mysql」

5 主題資料集 2015資料集 下載連結 資料集 Gossiping 9月 10月 11月 12月 Food 9-12月 MobileComm
Movie BuyTogether 1999 7-10月

6 作業要求 指派領域 針對該領域所收到的資料,進行分析 設計十個以上具商業價值的問題,並以SQL回答 將問題設計(含SQL及答案)作成報告
有層次地講出一個觀察、一個故事、或一種預測

7 評分標準 分成10個等級 指派領域 依詳盡用心程度加分 商業問題設計,正確合理 發掘不為人知的資訊
使用MS Excel (Power) Pivot 製作有意義之圖或表,並詮釋之 使用Weka或R或類似工具進行分析,印出結果,並詮釋之 使用一種以上資料彼此解釋某種現象,並詮釋之 例如股市新聞加TEJ股價資料,或Movie加網路公開之票房資料等

8 Deadline 於 2017.1.5 前繳至 ceiba,並於當天簡報 由組長繳交即可 以 Word檔,做文字說明報告
取名為「組別_hw5.doc」 以 PowerPoint,做簡報(10分鐘內) 取名為「組別_hw5.ppt」 兩者一同壓縮為「組別_hw5.zip」

9 資料庫管理 Homework 社群資料分析範例
楊立偉教授 台灣大學工管系 2016

10 社群資料分析 結合結構性與非結構性資料 結構性資料 非結構性資料 (文字) 以一或多句SQL查詢分析 以標記技巧轉為結構化資料
輔以字串處理函數 再以一或多句SQL查詢分析

11 社群資料分析 – 以Food為例 (1) 列出推噓最熱門的主文 列出正面情緒最高的主文
SELECT title, comment_count, post_time, author FROM ts_page_content WHERE content_type='main' ORDER BY comment_count DESC; SELECT title, comment_count, positive_score, post_time, author FROM ts_page_content WHERE content_type='main' ORDER BY positive_score DESC;

12 社群資料分析 – 以Food為例 (2) 配合字串處理,統計文章標題類別 left(string, len) 自左邊取len個字
right(string, len) 自右邊取len個字 mid(string, start, len) 自start起取len個字 可搜尋Access說明"字串" → 字串函數及其使用方法 SELECT mid(title,2,2), count(*) FROM ts_page_content WHERE content_type='main' and left(title,1)='[' GROUP BY mid(title,2,2) ORDER BY count(*) DESC;

13 社群資料分析 – 以Food為例 (3) 依餐廳名稱之討論熱門度進行統計 Step 1 以字串處理取出餐廳名稱,暫存為tmp
SELECT id, title, author, instr(1,content,"餐廳名稱:") AS pos1, instr(pos1,content," ") AS pos2, mid(content,pos1+5,pos2-pos1-5) AS shopname INTO tmp FROM ts_page_content WHERE content_type='main';

14 社群資料分析 – 以Food為例 (3) Step 2 與原表JOIN統計最熱門的餐廳
若要加速,可將 JOIN 及WHERE條件欄位轉為短文字varchar並建立索引 人工過濾雜訊資料 SELECT t.shopname, count(*) FROM ts_page_content AS c, tmp AS t WHERE c.content_type='main' AND c.id=t.id AND t.shopname<>'' GROUP BY t.shopname ORDER BY count(*) DESC;

15 社群資料分析 – 以Food為例 (4) 依內容關鍵字詞或特殊人事物做標記 分次逐步進行標記,例如分為「貴」與「便宜」
之後可單用該表,或與原表JOIN做查詢分析 首次 SELECT id, title, author, "貴" AS tag INTO tmp2 FROM ts_page_content WHERE content_type='main' AND (content like '*好貴*' OR content like '*有點貴*') 之後 INSERT INTO tmp2 SELECT id AS id, title AS title, author AS author, "便宜" AS tag AND (content like '*便宜*' AND NOT content like '*不便宜*')

16 社群資料分析 – 以Food為例 (5) 列出貴的餐聽 列出便宜的餐廳 SELECT t.shopname, count(*)
FROM tmp AS t, tmp2 as g WHERE t.id=g.id AND tag='貴' and t.shopname<>'' GROUP BY t.shopname ORDER BY count(*) DESC; SELECT t.shopname, count(*) FROM tmp AS t, tmp2 as g WHERE t.id=g.id AND tag='便宜' and t.shopname<>'' GROUP BY t.shopname ORDER BY count(*) DESC;

17 GOOD LUCK !


Download ppt "資料庫管理 Homework 期末專題 楊立偉教授 台灣大學工管系 2016."

Similar presentations


Ads by Google