Python Final Project Hello Idol 第12組 4103054032 資工三 吳昭儀 4103056023 資工三 陳子晴
目錄 目的 使用的理論 使用的工具 步驟 步驟說明
目的 資料太分散,難以掌握 粉絲想時刻掌握明星的消息 商人把握他們賺錢的機會 我要一手掌握
因此,我們搜集藝人、粉絲團上的資訊,整理成一個明星行程表。 目的 因此,我們搜集藝人、粉絲團上的資訊,整理成一個明星行程表。
Cosine similarity → 找行程相近的藝人 TF-IDF(此處只用TF) → 推測活躍度 使用的理論 Cosine similarity → 找行程相近的藝人 TF-IDF(此處只用TF) → 推測活躍度 Pt1: 但還沒想到…
使用的工具 Google Map API Facebook-SDK MySQL Requests Pandas jieba JIEBA
步驟 步驟 1 搜集藝人、粉絲團的貼文 步驟 2 斷詞 步驟3 結合貼文地點與Google Map 步驟 4 計算TF及相似度 利用爬蟲程式將資料抓下來 步驟 2 斷詞 將文字斷開 步驟3 結合貼文地點與Google Map 使用google map api將貼文中提到的地點標出來 步驟 4 計算TF及相似度 找行程相近的藝人和推測藝人近期的活躍程度 步驟 5 輸出 將搜尋結果輸出到網頁上面
步驟 1 (搜集藝人、粉絲團的貼文)
步驟 2 (斷詞)
步驟 2 (斷詞) 消息/170508/SMT/日本場/官方公告/ SMTOWN/ LIVE/ WORLD/ TOUR/ VI/ IN/ JAPAN/ 大阪/ 場館/京瓷巨蛋大阪/ 公演/日期/ 2017/7/15 /週六 2017/7/16 /周日 #:SHINee 斷詞結果
步驟 3 (結合貼文地點與Google Map) 行程 經度 緯度 東京巨蛋CONCERT 35.705587 139.751891
步驟 4 (計算TF及相似度) 計算TF 給特定的term一個分數,再乘以出現次數作加總 如:演唱會+20,見面會+1,一位+3(歌曲排行榜第一) 該藝人分數=20*3+3*5+1*2=77 Term 演唱會 一位 見面會 frequency 3 5 2
步驟 4 (計算TF及相似度) 計算相似度 延續TF作法,把一個term當成一個維度,多個term會形成一個向量,再將每個 藝人的向量互相做相似度計算 該藝人向量=(3,5 ,2) Term 演唱會 一位 見面會 frequency 3 5 2
步驟 5 (輸出)
步驟 5 (輸出)
The End