Presentation is loading. Please wait.

Presentation is loading. Please wait.

Python Final Project Hello Idol

Similar presentations


Presentation on theme: "Python Final Project Hello Idol"— Presentation transcript:

1 Python Final Project Hello Idol
第12組 資工三 吳昭儀 資工三 陳子晴

2 目錄 目的 使用的理論 使用的工具 步驟 步驟說明

3 目的 資料太分散,難以掌握 粉絲想時刻掌握明星的消息 商人把握他們賺錢的機會 我要一手掌握

4 因此,我們搜集藝人、粉絲團上的資訊,整理成一個明星行程表。
目的 因此,我們搜集藝人、粉絲團上的資訊,整理成一個明星行程表。

5 Cosine similarity → 找行程相近的藝人 TF-IDF(此處只用TF) → 推測活躍度
使用的理論 Cosine similarity → 找行程相近的藝人 TF-IDF(此處只用TF) → 推測活躍度 Pt1: 但還沒想到…

6 使用的工具 Google Map API Facebook-SDK MySQL Requests Pandas jieba JIEBA

7 步驟 步驟 1 搜集藝人、粉絲團的貼文 步驟 2 斷詞 步驟3 結合貼文地點與Google Map 步驟 4 計算TF及相似度
利用爬蟲程式將資料抓下來 步驟 2 斷詞 將文字斷開 步驟3 結合貼文地點與Google Map 使用google map api將貼文中提到的地點標出來 步驟 4 計算TF及相似度 找行程相近的藝人和推測藝人近期的活躍程度 步驟 5 輸出 將搜尋結果輸出到網頁上面

8 步驟 1 (搜集藝人、粉絲團的貼文)

9 步驟 2 (斷詞)

10 步驟 2 (斷詞) 消息/170508/SMT/日本場/官方公告/
SMTOWN/ LIVE/ WORLD/ TOUR/ VI/ IN/ JAPAN/ 大阪/ 場館/京瓷巨蛋大阪/ 公演/日期/ 2017/7/15 /週六 2017/7/16 /周日 #:SHINee 斷詞結果

11 步驟 3 (結合貼文地點與Google Map)
行程 經度 緯度 東京巨蛋CONCERT

12 步驟 4 (計算TF及相似度) 計算TF 給特定的term一個分數,再乘以出現次數作加總
如:演唱會+20,見面會+1,一位+3(歌曲排行榜第一) 該藝人分數=20*3+3*5+1*2=77 Term 演唱會 一位 見面會 frequency 3 5 2

13 步驟 4 (計算TF及相似度) 計算相似度 延續TF作法,把一個term當成一個維度,多個term會形成一個向量,再將每個 藝人的向量互相做相似度計算 該藝人向量=(3,5 ,2) Term 演唱會 一位 見面會 frequency 3 5 2

14 步驟 5 (輸出)

15 步驟 5 (輸出)

16 The End


Download ppt "Python Final Project Hello Idol"

Similar presentations


Ads by Google