Download presentation
Presentation is loading. Please wait.
1
文字探勘與知識工程 Text Mining & Knowledge Engineering
楊立偉教授 2017
2
楊立偉教授 研究領域為資料庫及語意分析技術、知識管理、數位行銷 現任 台大工管系暨商研所兼任助理教授 2006~
台大資管系兼任助理教授 2017~ 資訊及通信國家標準技術委員 意藍資訊 董事總經理(創辦人) 1999~ 國內規模最大的網路情報與社群口碑自動分析平台 龍捲風科技 董事總經理 國內企業搜尋引擎市佔率最高;國際檢索競賽第一名 經歷 智威湯遜數位行銷首席顧問、尚藍互動行銷共同創辦人 2009年獲選100 MVP最有價值經理人,擁有超過20項語意分析專利 2012年獲國家雲端創新獎、數位時代「創業之星」首獎
3
課程內容 請參考課程網頁 http://homepage.ntu.edu.tw/~wyang/tm2017 文字及社群數據分析 財經數據分析
其他 (客服、零售、廣告等)
4
Source: 大數據玩行銷 Big Data Marketing
5
Big Data Analytics Introduction
Data that exist in very large volumes and many different varieties (data types) and that need to be processed at a very high velocity (speed). Analytics Systematic analysis and interpretation of data—typically using mathematical, statistical, and computational tools—to improve our understanding of a real-world domain. This chapter is primarily about these two new advances in data technologies and approaches. Traditional data management technologies were created to ensure accurate and efficient transaction processing. As we saw from chapter 9, later database structures were created to support decision-making and overall understanding of the business. We called these data warehouses. Big data and analytics takes us further down this road.
6
Figure 11-11 Generations of Business Intelligence and Analytics
Adapted from Chen et al., 2012 BI&A 1.0 Focus on structured quantitative data largely from relational databases BI&A 2.0 Include data from the Web (web interaction logs, customer reviews, social media) BI&A 3.0 Include data from mobile devices, (location, sensors, etc.) as well as Internet of Things BI&A has evolved along with other elements of information technology. It should be noted that there is far more unstructured and semistructured data (characteristic of Web and mobile technology) than there is structured data (typically found in relational databases). And although all data (structured and unstructured alike) is increasing in volume over time, the rate of growth is largest in the unstructured space.
7
Types of Analytics Descriptive analytics – describes the past status of the domain of interest using a variety of tools through techniques such as reporting, data visualization, dashboards, and scorecards Predictive analytics – applies statistical and computational methods and models to data regarding past and current events to predict what might happen in the future Prescriptive analytics –uses results of predictive analytics along with optimization and simulation tools to recommend actions that will lead to a desired outcome With descriptive analytics we ask what happened already (last week, last year, etc.). With predictive analytics we ask what’s going to happen in the future and how will it affect us. With prescriptive analytics, we ask what is the best decision to make.
8
技術趨勢 自然語言處理(NLP)與文字探勘(Text mining)是美國麻省理工學院MIT選為未來十大最重要技術之一
是重要的跨學域研究 (inter-discipline research) Linguistics 語言學, and Computing Linguistics 計算語言學 Information Retrieval and Extraction 資訊檢索與擷取 Text Mining 文本探戡 and Knowledge Discovery 知識探索 Ontology, Domain knowledge… etc. 先能處理大量資訊,再將處理層次提升 Ex. 全文檢索 → 摘要 → 意見與觀點偵測 → 找出意見持有者 → 找出比較性意見 → 做持續性追蹤 → 找出答案 …. Info Retrieval & Extraction → Text Mining → Knowledge Discovery
9
近年來的技術突破 演算法及模型、 計算複雜度及規模、巨量資料
10
案例:Tornado Search Platform 搜尋引擎架構
TS Platform Fuzzy Search Synonym Phrase Wild-Card Multi-field Filter Composer / Refiner Preprocessing Classifying Tagging External Data Indexer Term Extract Term Index Searcher DBMS Other Systems Index DB MetaStore Application (User Interface)
11
案例 : 語意分析平台 Tornado ENLP Platform
關聯圖(知識地圖) 曾雅妮 LPGA 高球 妮妮 球后 風暴圖 分類導覽 結果呈現 語意關聯 查詢輔助 智慧提示 自動摘要 情緒分析 意見評價 相關文件 形似相關 關聯計算 分類引擎 語意解析 內容分析 實體擷取 詞彙擷取 斷詞 / 新詞 地址 人名/組織名 電話 帳號 自訂詞庫 龍捲風知識檢索平台 非結構資料 整合檢索
12
案例 : 考慮語言層級的檢索功能 多國語系全文檢索 可用 關鍵字 配合 (AND|OR|NOT) 與萬用字元
支援條件過濾 可用日期、作者、分類等多重條件加以篩選 支援模糊查詢 貿協→外貿協會,中研院→中央研究院 支援詞性變化 open→opens、opened、opening…等 支援同音字查詢 意大利→義大利,台灣→臺灣 支援同義字查詢 電腦→Computer、 電子計算機…等 雙向繁簡對譯 光碟→光盘、印表機→打印機、晶片組→芯片組 相關詞、主動推薦、自動完成、自動拼字提示
13
案例 : 語言分析功能 知識地圖 群集推薦與摘要 自訂主題追蹤
14
案例 : 多維度檢索與分類 時間 依知識分類 作者 來源 形態
15
案例 : 語言分析與標記 Tagging – 人名、關鍵詞、時間、地點、情續 Summary – 摘要、相關詞、事件追蹤
16
學習目的 這是一門介紹觀念與演算法的課 這是一門著重應用與實務的課 運用最新工具與技術 在既有基礎之上進行開發,發展出實際應用
17
其他說明 選修同學,自行分組完畢,並選任組長,將分組名單送交課程助教;分組報告均含互評成績。
選修同學需具高度興趣並投入時間、心力完成各項要求。 不需程式撰寫經驗;惟無相關經驗者若欲選修,應有隨課程進展自習相關工具及技術的決心。 採用R、Python、Java、SAS、Weka 配合資料庫均可
18
問題討論
Similar presentations