指導老師:邱登裕老師 組員:B09110306 張萬鈞 B09110312 鄭瑞傑 B09110329 蔡譯陞 B09110344 胡瑜真 個人保健知識地圖 指導老師:邱登裕老師 組員:B09110306 張萬鈞 B09110312 鄭瑞傑 B09110329 蔡譯陞 B09110344 胡瑜真
大綱 緒論 時程規劃 系統分析與設計 系統展示 系統評估 結論 感言
緒論(1/1) 背景和動機 為何要使用知識地圖 針對保健知識製作的原因 系統特色 應用文件分類 知識地圖導引 新知自動分類
時程規劃(1/2)
時程規劃(2/2)
系統分析與設計 (1/5) 使用者分析 平時有蒐集醫藥或保健知識習慣的人 對醫藥或保健知識偶爾看看的人 對保健知識毫不關心的人
系統分析與設計 (2/5) 功能分析 整體架構分析 資料流程圖分析
系統分析與設計(3/5)
系統分析與設計(4/5)
系統分析與設計(5/5)
系統展示
系統評估(1/1) 訓練前 訓練後 P值 R值 F1值 醫藥館 0.288 0.306 0.297 0.291 0.316 0.303 兩性館 0.391 0.35 0.402 0.468 0.433 美容館 0.732 0.667 0.698 0.784 0.791 0.788 健身館 0.183 0.844 0.3 0.382 0.467 0.42 舒壓館 0.6 0.623 0.611 0.616 0.654 0.634 飲食館 0.44 0.419 0.429 0.405 0.448 0.425 平均 0.439 0.529 0.48 0.524 0.501
結論(1/2) 未來展望 資料夾僅能轉換一次的問題 自動繪圖功能的問題 程式功能的再加強
結論(2/2) 結論 知識地圖的目標 達到「早期發現,早期治療」的目標。 關心身邊的保健知識。
感言 感謝邱登裕 老師和謝岡陵學長及陳炳傑學長和在專題製作過程中的指導。 感謝邱登裕 老師和謝岡陵學長及陳炳傑學長和在專題製作過程中的指導。 邱登裕老師對我們的觀念不厭其煩的作修正,使我們對於知識地圖的概念有了更明確的了解。
報告完畢 請老師指教
附錄一 文章分類-TFIDF TF (term frequency)字詞頻率:指某一字詞出現在文件或資訊內容的頻率。 IDF(inverse document frequency) 反文件頻率:指某一字詞出現在其他文章或資訊內容之倒數。 因此當字詞TF越高時則此文章和此字詞的關聯性越高。反之,當字詞IDF 越高時則此字詞越能代表此文章。因此可以利用TFIDF判斷此文章對字詞的相關屬性,甚至進一步歸類此文章的類別。
附錄二 文章分類-Rocchio Ci = η1(ΣDεPD)/|P|-η2*(ΣDεND)/|N| (將所有屬於類別的文章向量)*η1/類別文章數-(不屬於類別的文章向量)*η2/不屬於類別的文章數 用來分類文件並紀錄每個類別的特性。 每類別會由一個向量代表。 將訓練資料依事先定義好的類別分類,利用公式計算代表該類別的類別向量;當文件要進行分類判斷或過濾時,以該類別的類別向量與要分類之文件的向量作比較,並以兩個向量之間的距離或夾角是否在門檻值(Thresholds)之內,判斷是否屬於該類別。
附錄二 文章分類-Rocchio 將文章以keyword為基底,以向量作為表示,再經訓練後,使此向量能代表類別.對於新增加的文章以同樣方式,產生另一組向量,將兩組向量作內積。若內積的值接近一,表示文章和類別的相關性很高,若內積的值趨近於零,則表示文章和類別的關聯性較小。
附錄三 文章分類-VSM VSM (Vector Space Model) 向量空間:判斷文章類別的相似程度,將文件轉換成向量,當文件被轉換成文件向量後,任何文件都可以依向量間的夾角推論出相似程度,兩者越近似則夾角越小,函數值越接近1,相似度則愈高。
附錄四 效能評估公式 P =找出的文章數/資料庫內文章總數 R =找出的文章數/所有符合此議題的文章數 P (Precision):精確率 R (Recall):檢出率 F1:(F-measure)綜合分類率