文字探勘與知識工程 Text Mining & Knowledge Engineering

Slides:



Advertisements
Similar presentations
IM426 – BUSINESS CASE 6: SOCIAL SENTIMENTAL ANALYSIS 社群情感分析 Original case source & reference: Rainer, Kelly, Prince, Brad and Watson, Hugh, Management.
Advertisements

高中英语教材分析与教学建议 福建教育学院外语研修部特级教师:周大明. 课程目录  一、理论创新与教材发展  二、现行教材的理论基础和编写体系  三、图式理论与 “ 话题教学 ”  四、课例分析与教学建议.
变革中的教师教育 Teacher education in transformation
云计算辅助教学风云录 黎加厚 上海师范大学教育技术系 2010年8月9日.
第一章 会计信息系统 第一节 计算机会计概述.
Presentation of Big Data Issues
METAEDGE Corporation Taiwan
“Internet+” Business Innovation
人工智能 Artificial Intelligence 第十一章
怎样规划部署您的大数据应用系统 大数据厂商联盟 李 永 VoltDB基础 概念与架构 1.
如何在醫院中建構實證醫學研究環境 臺北醫學大學•市立萬芳醫院 張錦梅 組員
全球科研项目整合检索系统 海研网
寻找适合您的工业4.0 Dell/曾峰.
商業智慧與資料倉儲 課程簡介 靜宜大學資管系 楊子青.
大数据在医疗行业的应用.
桂小林 西安交通大学电子与信息工程学院 计算机科学与技术系
统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:
59 中 张丽娟 学习目标: 1. 识记并理解运用 6 个单词和 5 个短语。 (source, accessible, network, access, via, create come up with, from the moment on, consist of, go down , at the.
Leftmost Longest Regular Expression Matching in Reconfigurable Logic
Semantic-Synaptic Web Mining: A Novel Model for Improving the Web Mining 報告者:陳宜樺 報告日期:2015/9/25.
Homework 4 an innovative design process model TEAM 7
微小光機電的新科技生活 一花一世界,一沙一天國; 君掌盛無邊,剎那含永劫。(李叔同) 沈志雄 彰化師範大學機電工程學系 光磊科技研發部
Ericsson Solutions for Intelligent Transport Systems and Solutions
數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee
Unit title: 买东西 - Shopping
沈 彤 英特尔中国区嵌入式产品事业部 市场经理 Jul, 26th 2011
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
Chap 1:企業資源規劃簡介 ERP的定義與沿革 企業為何使用ERP ERP導入 以ERP為基礎的企業E化
大專校院資訊單位組織及 經費合理性調查研究報告
Decision Support System (靜宜資管楊子青)
HLA - Time Management 陳昱豪.
13. 行銷研究 授課教師:國立台灣大學農業經濟學系 雷立芬教授
CCF-ADL 58 大媒体与大数据分析 北京·清华大学
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
5.3 USE OF PREVIOUS RESEARCH
你的梦想 真的可以实现吗? 1.
DSS #1:決策支援系統概論 一、管理與決策制定 二、資訊系統及其演進 三、決策支援系統的定義
Unit title: 假期 – Holiday
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
971研究方法課程第九次上課 認識、理解及選擇一項適當的研究策略
数据库内容及检索功能 – 如何利用这些资源帮助科技论文的写作与发表 钟似璇 (Sixuan Zhong s.
Reinventing Your Business Model Christensen, C. M. et al
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
ACM電腦相關領域全文資料庫 Presentation by iGroup Taiwan.
Decision Support System (靜宜資管楊子青)
服務於中國研究的網絡基礎設施 A Cyberinfrastructure for Historical China Studies
Introduction to Database Management
Customer Expectations of Service
介面使用說明 飛資得知識服務.
Guide to a successful PowerPoint design – simple is best
電子商務安全 Secure Electronic Commerce
Supply Chain Management
虚 拟 仪 器 virtual instrument
Unit 5 First aid Warming up 《和你一样》 中国红十字会宣传曲 高二年级 缪娜.
OvidSP Introduction Flexible. Innovative. Precise.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
商業英文 組員: 張裕欣 廖彥鈞 吳鎵佑 陳奕達.
交通大學 運輸科技與管理學系 博士班二年級 朱佑旌
系统科学与复杂网络初探 刘建国 上海理工大学管理学院
5/4/2019 4:42 PM © 2009 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered.
The viewpoint (culture) [观点(文化)]
汪卫 王轶彤 老逸夫楼602-3 数据库新技术 汪卫 王轶彤 老逸夫楼602-3.
An organizational learning approach to information systems development
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.
(二)盲信号分离.
Further Development Translation 来自 创思英语 Grammar.
Decision of Preparing the Revenue Forecast For HealthSouth
食品科技與食品工業 Food Technology and Industry
变化的新环境,变化的图书馆 Changing Landscape, Changing Libraries
Presentation transcript:

文字探勘與知識工程 Text Mining & Knowledge Engineering 楊立偉教授 2017

楊立偉教授 研究領域為資料庫及語意分析技術、知識管理、數位行銷 現任 台大工管系暨商研所兼任助理教授 2006~ 台大資管系兼任助理教授 2017~ 資訊及通信國家標準技術委員 意藍資訊   董事總經理(創辦人) 1999~        國內規模最大的網路情報與社群口碑自動分析平台        龍捲風科技  董事總經理        國內企業搜尋引擎市佔率最高;國際檢索競賽第一名 經歷 智威湯遜數位行銷首席顧問、尚藍互動行銷共同創辦人 2009年獲選100 MVP最有價值經理人,擁有超過20項語意分析專利 2012年獲國家雲端創新獎、數位時代「創業之星」首獎

課程內容 請參考課程網頁 http://homepage.ntu.edu.tw/~wyang/tm2017 文字及社群數據分析 財經數據分析 其他 (客服、零售、廣告等)

Source: 大數據玩行銷 Big Data Marketing

Big Data Analytics Introduction Data that exist in very large volumes and many different varieties (data types) and that need to be processed at a very high velocity (speed). Analytics Systematic analysis and interpretation of data—typically using mathematical, statistical, and computational tools—to improve our understanding of a real-world domain. This chapter is primarily about these two new advances in data technologies and approaches. Traditional data management technologies were created to ensure accurate and efficient transaction processing. As we saw from chapter 9, later database structures were created to support decision-making and overall understanding of the business. We called these data warehouses. Big data and analytics takes us further down this road.

Figure 11-11 Generations of Business Intelligence and Analytics Adapted from Chen et al., 2012 BI&A 1.0 Focus on structured quantitative data largely from relational databases BI&A 2.0 Include data from the Web (web interaction logs, customer reviews, social media) BI&A 3.0 Include data from mobile devices, (location, sensors, etc.) as well as Internet of Things BI&A has evolved along with other elements of information technology. It should be noted that there is far more unstructured and semistructured data (characteristic of Web and mobile technology) than there is structured data (typically found in relational databases). And although all data (structured and unstructured alike) is increasing in volume over time, the rate of growth is largest in the unstructured space.

Types of Analytics Descriptive analytics – describes the past status of the domain of interest using a variety of tools through techniques such as reporting, data visualization, dashboards, and scorecards Predictive analytics – applies statistical and computational methods and models to data regarding past and current events to predict what might happen in the future Prescriptive analytics –uses results of predictive analytics along with optimization and simulation tools to recommend actions that will lead to a desired outcome With descriptive analytics we ask what happened already (last week, last year, etc.). With predictive analytics we ask what’s going to happen in the future and how will it affect us. With prescriptive analytics, we ask what is the best decision to make.

技術趨勢 自然語言處理(NLP)與文字探勘(Text mining)是美國麻省理工學院MIT選為未來十大最重要技術之一 是重要的跨學域研究 (inter-discipline research) Linguistics 語言學, and Computing Linguistics 計算語言學 Information Retrieval and Extraction 資訊檢索與擷取 Text Mining 文本探戡 and Knowledge Discovery 知識探索 Ontology, Domain knowledge… etc. 先能處理大量資訊,再將處理層次提升 Ex. 全文檢索 → 摘要 → 意見與觀點偵測 → 找出意見持有者  → 找出比較性意見 → 做持續性追蹤 → 找出答案 …. Info Retrieval & Extraction → Text Mining → Knowledge Discovery

近年來的技術突破 演算法及模型、 計算複雜度及規模、巨量資料

案例:Tornado Search Platform 搜尋引擎架構 TS Platform Fuzzy Search Synonym Phrase Wild-Card Multi-field Filter Composer / Refiner Preprocessing Classifying Tagging External Data Indexer Term Extract Term Index Searcher DBMS Other Systems Index DB MetaStore Application (User Interface)

案例 : 語意分析平台 Tornado ENLP Platform 關聯圖(知識地圖) 曾雅妮 LPGA 高球 妮妮 球后 風暴圖 分類導覽 結果呈現 語意關聯 查詢輔助 智慧提示 自動摘要 情緒分析 意見評價 相關文件 形似相關 關聯計算 分類引擎 語意解析 內容分析 實體擷取 詞彙擷取 斷詞 / 新詞 地址 人名/組織名 電話 帳號 自訂詞庫 龍捲風知識檢索平台 非結構資料 整合檢索

案例 : 考慮語言層級的檢索功能 多國語系全文檢索 可用 關鍵字 配合 (AND|OR|NOT) 與萬用字元 支援條件過濾   可用日期、作者、分類等多重條件加以篩選 支援模糊查詢   貿協→外貿協會,中研院→中央研究院 支援詞性變化   open→opens、opened、opening…等 支援同音字查詢  意大利→義大利,台灣→臺灣 支援同義字查詢  電腦→Computer、 電子計算機…等 雙向繁簡對譯   光碟→光盘、印表機→打印機、晶片組→芯片組 相關詞、主動推薦、自動完成、自動拼字提示

案例 : 語言分析功能 知識地圖 群集推薦與摘要 自訂主題追蹤

案例 : 多維度檢索與分類 時間 依知識分類 作者 來源 形態

案例 : 語言分析與標記 Tagging – 人名、關鍵詞、時間、地點、情續 Summary – 摘要、相關詞、事件追蹤

學習目的 這是一門介紹觀念與演算法的課 這是一門著重應用與實務的課 運用最新工具與技術 在既有基礎之上進行開發,發展出實際應用

其他說明 選修同學,自行分組完畢,並選任組長,將分組名單送交課程助教;分組報告均含互評成績。 選修同學需具高度興趣並投入時間、心力完成各項要求。 不需程式撰寫經驗;惟無相關經驗者若欲選修,應有隨課程進展自習相關工具及技術的決心。 採用R、Python、Java、SAS、Weka 配合資料庫均可

問題討論