文字和網站探勘 學習目標 說明文字探勘與了解文字探勘需求 分辨文字探勘與資料探勘 了解文字探勘的不同應用 了解執行文字探勘專案的流程 CHAPTER 6 文字和網站探勘 學習目標 說明文字探勘與了解文字探勘需求 分辨文字探勘與資料探勘 了解文字探勘的不同應用 了解執行文字探勘專案的流程 以不同方法了解文字資料結構 說明網頁探勘、目標以及助益 了解網頁探勘的三個不同支派 了解網頁內容探勘、網頁結構探勘以及網頁日誌探勘 決策支援與企業智慧 Chapter 6 文字和網站探勘
前言短文 「探勘文字於安全與反恐之應用」 MITRE為何? 問題說明 建議的解決方案 結果 回答並且討論案例問題 決策支援與企業智慧 Chapter 6 文字和網站探勘 3
前言短文 來自60000筆新聞報導的分群 決策支援與企業智慧 Chapter 6 文字和網站探勘 4
文字探勘概念 1/2 85%~90%的公司所擁有資料都是以無結構化形式擷取與儲存。 無結構化公司資料的大小每18個月會增加一倍。 要利用這些原始資料,但是也必須保有競爭力。 文字探勘 從大量無結構化原始資料之半自動化抽取模式(有用資訊與知識)流程。 文字探勘的輸入流程為收集無結構化(或較無結構化)資料檔案,像是Word文件、PDF檔、text expert、XML檔等。基本上,文字探勘能夠視為在文字原始資料上加入結構,再使用資料探勘技術從結構化資料抽取相關資訊與知識的流程。 決策支援與企業智慧 Chapter 6 文字和網站探勘 5
文字探勘概念 2/2 特別在文字豐富的資料環境中,文字探勘的好處非常明顯: 例如,法律(法庭命令)、學術研究(研究論文)、財務(季報)、醫學(出院摘要報告)、生物(分子交互作用)、技術(專利檔案)、行銷(顧客意見)等。 電子通訊紀錄(例如Email) 分類與過濾垃圾郵件 依據重要性自動排序郵件以及產生自動回應 決策支援與企業智慧 Chapter 6 文字和網站探勘 6
文字探勘應用領域 資訊抽取 主題追溯 摘要 分類 分群 概念連結 問題回答 決策支援與企業智慧 Chapter 6 文字和網站探勘 7
文字探勘專有名詞 無結構化或半結構化資料 語料庫(corpus) 詞 概念 字根還原 停用字 同義字與一詞多義 字詞區塊化 詞典 字頻 詞性標記 字形 字詞-文件矩陣 奇異質分解 決策支援與企業智慧 Chapter 6 文字和網站探勘 8
自然語言處理 1/4 文字探勘應用 老方法:字詞袋 新方法:自然語言處理 自然語言處理(NLP) 文字探勘中的重要組件 人工智慧與電腦語言學之中的子領域 它研究「了解」自然人類語言的問題,將人類語言的描述(像是文字文件)轉變為正規形式(以數值資料與符號資料形式),讓電腦程式更容易操作。 決策支援與企業智慧 Chapter 6 文字和網站探勘 9
自然語言處理 2/4 何謂「了解」 ? 人類了解, 那麼電腦呢? 自然語言為模糊、 背景導向 真正理解需要對主題有廣泛的知識 電腦是否能夠以跟人類相同/精準的方式了解自然語言? 決策支援與企業智慧 Chapter 6 文字和網站探勘 10
自然語言處理 3/4 執行NLP的挑戰 詞性標記 斷詞 詞義辨識 語法模擬兩可 不完美或不規則輸入 語言行為 AI社群的夢想 擁有能夠自動閱讀以及從文字取得知識演算法 決策支援與企業智慧 Chapter 6 文字和網站探勘 11
自然語言處理 4/4 WordNet 情感分析 英文字詞、定義、同義字以及同義字集之間各種語法關係等手工編輯資料庫。 NLP的主要資料來源。 情感分析為使用大批原始文字資料來偵測對特定產品與服務喜愛與否的技術;為CRM的重要部分之一。 決策支援與企業智慧 Chapter 6 文字和網站探勘 12
NLP 任務分類 資訊擷取 資訊抽取 專有名詞辨識 問題回答 自動摘要 自然語言產生與理解 機械翻譯 外語朗讀與書寫 語音辨識 文字轉語音 文字校對 文字辨識 決策支援與企業智慧 Chapter 6 文字和網站探勘 13
文字探勘應用 1/2 行銷應用 文字探勘是CRM的無價之寶。 安全應用 ECHELON, OASIS 詐騙偵測 生醫應用 學術應用 研究分流分析 決策支援與企業智慧 Chapter 6 文字和網站探勘 14
文字探勘應用 (基因/蛋白質互動辨識) 決策支援與企業智慧 Chapter 6 文字和網站探勘 15
文字探勘流程 1/7 文字探勘流程情境圖 決策支援與企業智慧 Chapter 6 文字和網站探勘 16
文字探勘流程 2/7 三步驟的文字探勘流程 決策支援與企業智慧 Chapter 6 文字和網站探勘 17
文字探勘流程 3/7 步驟 1:建立語料庫 收集所有經研究的背景相關文件(例如,文字文件、XML檔案、emails、網頁、短訊、音檔錄音…) 轉變並且組織成相同的電腦處理代表形式(例如,ASCII文字檔) 決策支援與企業智慧 Chapter 6 文字和網站探勘 18
文字探勘流程 4/7 步驟 2:建立字詞–文件矩陣 決策支援與企業智慧 Chapter 6 文字和網站探勘 19
文字探勘流程 5/7 步驟 2:建立字詞–文件矩陣(TDM)續 是否應該含括所有字詞? 停用字、 含括字 同義字、 同音異義字 字根還原 索引的最佳表現方式為何? 對數頻率 二元頻率 逆向文件頻率 決策支援與企業智慧 Chapter 6 文字和網站探勘 20
文字探勘流程 6/7 步驟 2:建立字詞–文件矩陣 (TDM)續 要如何減少TDM的維度至可以管理的大小? 人工 – 由專家進行 刪除只出現在少數文件中的少數字詞 使用奇異質分解(SVD)轉變矩陣 決策支援與企業智慧 Chapter 6 文字和網站探勘 21
文字探勘流程 7/7 步驟 3: 抽取知識 分類(文字分類) 分群(文字的自然群組) 改善的搜尋召回率 改善的搜尋精準度 分散/收集 查詢特定分群 關聯 趨勢分析 決策支援與企業智慧 Chapter 6 文字和網站探勘 22
文字探勘工具 商用軟體工具 ClearForest IBM Intelligent Miner Data Mining Suite SAS Text Miner SPSS Text Mining for Clementine Statistica Text Mining VantagePoint Provalis Research WordStat 免費軟體工具 GATE LingPipe Spy-EM Vivisimo/Clusty 決策支援與企業智慧 Chapter 6 文字和網站探勘 23
網頁探勘概論 1/2 Web為世上最大的資料儲存庫 資料為HTML、XML、文字格式 挑戰 Web規模太大無法有效進行資料探勘 Web太複雜 決策支援與企業智慧 Chapter 6 文字和網站探勘 24
網頁探勘概論 2/2 網頁探勘(或Web資料探勘)為從Web資料發掘本質關係(即有趣與有用資訊)的流程,以文字、連結或使用資訊形式表示。 決策支援與企業智慧 Chapter 6 文字和網站探勘 25
網頁內容探勘與網頁結構探勘 網頁內容探勘(Web content mining)指的是網頁中有用資訊的抽取。文件可以在一些機器可判讀格式中抽取,這麼一來,自動化技術可以產生一些與網頁有關資訊。Web爬蟲(Web crawler)用來自動判讀Web內容。 網站包括超連結 授權頁 中樞網頁 超連結索引主題搜尋 (HITS) 決策支援與企業智慧 Chapter 6 文字和網站探勘 26
網頁使用探勘 1/3 透過網頁瀏覽與交易產生資料擷取有用資訊 儲存在伺服器的取用記錄、參考記錄、代理記錄以及客戶端cookie中自動產生的資料。 使用者資料檔案。 Metadata,像是網頁屬性、內容屬性與使用資料。 決策支援與企業智慧 Chapter 6 文字和網站探勘 27
網頁使用探勘 2/3 Web使用探勘應用 判斷客戶的生命週期價值。 設計產品的跨行銷策略。 評估促銷活動。 根據使用者取用模式,鎖定使用者團體電子廣告與折價券。 根據之前學習到的規則與使用者資料檔案,預測使用者行為。 根據利益與資料檔案,呈現動態資訊給使用者。 決策支援與企業智慧 Chapter 6 文字和網站探勘 28
網頁使用探勘 3/3 決策支援與企業智慧 Chapter 6 文字和網站探勘 29
Web使用探勘軟體 決策支援與企業智慧 Chapter 6 文字和網站探勘 30
網頁探勘的成功故事 Ask.com Scholastic.com St. John Health System 決策支援與企業智慧 Chapter 6 文字和網站探勘 31