文字和網站探勘 學習目標 說明文字探勘與了解文字探勘需求 分辨文字探勘與資料探勘 了解文字探勘的不同應用 了解執行文字探勘專案的流程

Slides:



Advertisements
Similar presentations
西南政法大学图书馆 江波 重庆. 传统图书馆自动化图书馆复合图书馆数字图书馆  图书馆为图书流通服务所制定的相关规则,包 括图书流通类型、读者类型、读者可借阅图书 数量、可借阅时间、可续借时间、可续借次数、 可预约数量等。
Advertisements

1 正修科技大學餐飲系 題目:顧客關係管理以花旗銀 行電話解決客戶九成問題為例 課程名稱:顧客關係管理 指導老師:陳世穎 教授 組別:第 3 組 學生:陳詔淵 (S ) 陳竑吾 (S ) 李建鋒 (S ) 劉亭瑩 (S )
會計學 Chapter 1 基本概念 1-2 基本概念 第一節 單式簿記 第二節 會計學的定義與功用 第三節 會計學術與會計人員 第四節 企業組織 第五節 會計學基本第五節 會計學基本慣例 第六節 會計方程式 第七節 財務報表.
Chapter 5 教育發展與職業選擇. 1. 認識高職學生的生涯進路。 2. 了解個人特質與職業屬性之 間的關係。 3. 認識打工安全與勞動權益。
政治全球化 促進國際間的了解, 抑或加劇了種族、宗教、文化和政 治實體之間的衝突 ?. 政治全球化 指一個國家或國際的政治事務,由一國或少數國家決定的模 式,逐漸過渡至複雜的跨國以至全球決策模式 政治活動和政治決策跨越國家界限.
一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
急性腹痛 急性疼痛. 急性疼痛 — 孙树杰、沈洪、 刘保池 (1)(1)(1)(1) 概 述 (2)(2)(2)(2) 重症急性腹痛的临床特点 (3)(3)(3)(3) 急性腹痛的分类及诊治 主要教学内容.
全国青少年科技创新大赛 科技辅导员项目组织与实施
Chapter 7 心意-記憶與失憶 第一節 記憶力 第二節 注意力 第三節 失憶.
广州市档案专业技术资格 申报评审有关事项 姓名:付建华 联系电话: 联系地址:广州市番禺区大学城档案馆路33号A403科教处
102學年度 多元入學 大 學.
小 王 子 組別:第五組 班級:財金二甲 組員:A 林安潔 A 陳思羽 A 許雅涵
第八章 收益分配决策补:案例,习题 本章结构、主要内容、重点难点: 收益分配的原则;程序 收益分配的政策: 影响股利的因素 股利政策的种类
11-1 保險業之定義 11-2 保險業之設立 11-3 保險業之組織 11-4 保險業之營業範圍
上海体育职业学院 祁社生 一、重视体育科研在提高竞技运动训练水平中的意义和作用
湖南省科学技术奖励 推荐工作要求.
9-1 火災保險 9-2 海上保險 9-3 陸空保險 9-4 責任保險 9-5 保證保險 9-6 其他財產保險
智学网账号登录 1、打开网页,在地址栏里输入 2、点击登录,输入用户名和密码,即可登录:
高一年级过渡性学习 活动汇报 高一年级组 教科研室 汉滨高中.
槍砲病菌與鋼鐵 第三組.
第 4 章 社會中的文化 一、文化的意義與特徵 二、文化的內涵 三、次文化 四、文化的傳承與創新 課後複習 歷屆基測試題.
中国特色社会主义政党制度 主讲:西南大学 李强 2011年12月28日.
------全国教育科学规划办公室 吴键 副研究员
本章要學會: 1.彙整統計分析資料 2.繪製表格及圖形 3.撰寫報告
新型电子材料项目可行性研究报告 提供发改委甲级资质 《商业计划书》 《可行性研究报告》 《投资价值分析报》 《资金申请报告》 《项目建议书》
欢迎南京市政治学科的教研同仁 光临指导.
導覽解說與環境教育 CHAPTER 3 解說員.
在系統完成資料填報後 系統產生所有表件請全數印出 如下載的表件為「空白」文件,請安裝PDF中文字型 ★系統參考畫面:
第八章 网络课程的设计与开发.
財務報表的內容 四種報表格式 財務報表的補充說明 會計師簽證的重要性 合併報表 財務報表分析 Chapter 2 財務報表的內容.
五年級上學期 體育課教學方案 設計者:吳文芳.
老師 製作 法律與生活.
广东省高新技术企业培育库入库企业认定(第二批)工作介绍
文学名作与影视改编 郁达夫文学作品及相关影视赏析 授课教师 胡芳.
第十七章休閒農業之經營策略與成功之道 17 Chapter.
Chapter 2 勞工安全衛生法.
發 展 Chapter 8 實施團隊與規劃流程 Chapter 9 CRM策略規劃 Chapter 10 CRM需求分析
财务报表无纸化网上报送培训.
互联网时代班主任的挑战 万玮 2014年9月20日.
第四章 卫生管理体制与机制 卫生事业管理学 国家卫生和计划生育委员会“十二五”规划教材 全国高等医药教材建设研究会“十二五”规划教材
風險分析與財務結構 瞭解風險的定義與種類 衡量企業風險與財務風險 影響企業風險的因素 影響財務風險的因素 以現金流量衡量企業長期的財務狀況
寶來證券 林妤芸 陳柔安.
國際行銷管理 林 建 煌 著.
关注空巢老人的心理健康 525宿舍.
第一節 知覺 第二節 認知 第三節 學習 第四節 創造力
传媒学院2013年度团委工作 总结分析报告
CHAPTER 2 綜合所得稅之架構.
鄉村尋根-農具篇.
个人文献管理软件 NoteExpress 培 训 师 :蔡 晓 玲 2014 年 10 月.
全文检索 墨香简介 平台功能 产品优势 产品对比
SOA模型设计 杨子 2009/09/30.
老師 製作 休閒農場.
中汇会计师事务所(特殊普通合伙)无锡分所
107年 國中教育會考 准考證資料處理系統 學校版 (集體報名單位) 操作說明
108新課綱教學目標與特色 (一)強化務實致用 (二)落實課程連貫 (三)深化基本職能 (四)符應產業需求 考招連動配套 部定實習科目
心理學—日常生活中的應用 人際溝通.
102學年度大學個人申請入學 招生審查資料上傳作業說明
明新科技大學 電子公文線上簽核系統教育訓練
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
如何制订幼儿园园本培训工作计划 大连亿达世纪城幼儿园 姜承华 2011年3月10日.
鋼液冶煉製程介紹.
財務預測 財務預測的用途 法令相關規定 預測的基本認知 預測的方法 製作預測性報表 財務報表分析 Chapter 16 財務預測.
新疆维吾尔自治区高校科研计划项目网络管理平台项目申报操作指南
自慢 社長的成長學習筆記 何飛鵬.
新疆维吾尔自治区高校科研计划项目网络管理平台项目申报操作指南
團體工作的倫理議題 CHAPTER 12. 團體工作的倫理議題 CHAPTER 12 團體工作的倫理議題 1.如果我有資格執行個別治療,那麼我也可以執行團體治療。 2.仔細而審慎地篩選團體成員,較符合專業倫理要求。 3.在團體治療開始前,讓成員能先有準備以便從團體中獲得最大利益,是非常重要的。
第10章 網路問卷調查.
Chapter1 大師的視界,見證歷史的腳步
顧客關係管理介紹 班級:資管三德 姓名:樂書齊 學號:
全國高級中等學校專業群科 食品群專題組之專題製作 經驗分享 報告者:北門農工 (劉軒如).
Presentation transcript:

文字和網站探勘 學習目標 說明文字探勘與了解文字探勘需求 分辨文字探勘與資料探勘 了解文字探勘的不同應用 了解執行文字探勘專案的流程 CHAPTER 6 文字和網站探勘 學習目標 說明文字探勘與了解文字探勘需求 分辨文字探勘與資料探勘 了解文字探勘的不同應用 了解執行文字探勘專案的流程 以不同方法了解文字資料結構 說明網頁探勘、目標以及助益 了解網頁探勘的三個不同支派 了解網頁內容探勘、網頁結構探勘以及網頁日誌探勘 決策支援與企業智慧 Chapter 6 文字和網站探勘

前言短文 「探勘文字於安全與反恐之應用」 MITRE為何? 問題說明 建議的解決方案 結果 回答並且討論案例問題 決策支援與企業智慧 Chapter 6 文字和網站探勘 3

前言短文 來自60000筆新聞報導的分群 決策支援與企業智慧 Chapter 6 文字和網站探勘 4

文字探勘概念 1/2 85%~90%的公司所擁有資料都是以無結構化形式擷取與儲存。 無結構化公司資料的大小每18個月會增加一倍。 要利用這些原始資料,但是也必須保有競爭力。 文字探勘 從大量無結構化原始資料之半自動化抽取模式(有用資訊與知識)流程。 文字探勘的輸入流程為收集無結構化(或較無結構化)資料檔案,像是Word文件、PDF檔、text expert、XML檔等。基本上,文字探勘能夠視為在文字原始資料上加入結構,再使用資料探勘技術從結構化資料抽取相關資訊與知識的流程。 決策支援與企業智慧 Chapter 6 文字和網站探勘 5

文字探勘概念 2/2 特別在文字豐富的資料環境中,文字探勘的好處非常明顯: 例如,法律(法庭命令)、學術研究(研究論文)、財務(季報)、醫學(出院摘要報告)、生物(分子交互作用)、技術(專利檔案)、行銷(顧客意見)等。 電子通訊紀錄(例如Email) 分類與過濾垃圾郵件 依據重要性自動排序郵件以及產生自動回應 決策支援與企業智慧 Chapter 6 文字和網站探勘 6

文字探勘應用領域 資訊抽取 主題追溯 摘要 分類 分群 概念連結 問題回答 決策支援與企業智慧 Chapter 6 文字和網站探勘 7

文字探勘專有名詞 無結構化或半結構化資料 語料庫(corpus) 詞 概念 字根還原 停用字 同義字與一詞多義 字詞區塊化 詞典 字頻 詞性標記 字形 字詞-文件矩陣 奇異質分解 決策支援與企業智慧 Chapter 6 文字和網站探勘 8

自然語言處理 1/4 文字探勘應用 老方法:字詞袋 新方法:自然語言處理 自然語言處理(NLP) 文字探勘中的重要組件 人工智慧與電腦語言學之中的子領域 它研究「了解」自然人類語言的問題,將人類語言的描述(像是文字文件)轉變為正規形式(以數值資料與符號資料形式),讓電腦程式更容易操作。 決策支援與企業智慧 Chapter 6 文字和網站探勘 9

自然語言處理 2/4 何謂「了解」 ? 人類了解, 那麼電腦呢? 自然語言為模糊、 背景導向 真正理解需要對主題有廣泛的知識 電腦是否能夠以跟人類相同/精準的方式了解自然語言? 決策支援與企業智慧 Chapter 6 文字和網站探勘 10

自然語言處理 3/4 執行NLP的挑戰 詞性標記 斷詞 詞義辨識 語法模擬兩可 不完美或不規則輸入 語言行為 AI社群的夢想 擁有能夠自動閱讀以及從文字取得知識演算法 決策支援與企業智慧 Chapter 6 文字和網站探勘 11

自然語言處理 4/4 WordNet 情感分析 英文字詞、定義、同義字以及同義字集之間各種語法關係等手工編輯資料庫。 NLP的主要資料來源。 情感分析為使用大批原始文字資料來偵測對特定產品與服務喜愛與否的技術;為CRM的重要部分之一。 決策支援與企業智慧 Chapter 6 文字和網站探勘 12

NLP 任務分類 資訊擷取 資訊抽取 專有名詞辨識 問題回答 自動摘要 自然語言產生與理解 機械翻譯 外語朗讀與書寫 語音辨識 文字轉語音 文字校對 文字辨識 決策支援與企業智慧 Chapter 6 文字和網站探勘 13

文字探勘應用 1/2 行銷應用 文字探勘是CRM的無價之寶。 安全應用 ECHELON, OASIS 詐騙偵測 生醫應用 學術應用 研究分流分析 決策支援與企業智慧 Chapter 6 文字和網站探勘 14

文字探勘應用 (基因/蛋白質互動辨識) 決策支援與企業智慧 Chapter 6 文字和網站探勘 15

文字探勘流程 1/7 文字探勘流程情境圖 決策支援與企業智慧 Chapter 6 文字和網站探勘 16

文字探勘流程 2/7 三步驟的文字探勘流程 決策支援與企業智慧 Chapter 6 文字和網站探勘 17

文字探勘流程 3/7 步驟 1:建立語料庫 收集所有經研究的背景相關文件(例如,文字文件、XML檔案、emails、網頁、短訊、音檔錄音…) 轉變並且組織成相同的電腦處理代表形式(例如,ASCII文字檔) 決策支援與企業智慧 Chapter 6 文字和網站探勘 18

文字探勘流程 4/7 步驟 2:建立字詞–文件矩陣 決策支援與企業智慧 Chapter 6 文字和網站探勘 19

文字探勘流程 5/7 步驟 2:建立字詞–文件矩陣(TDM)續 是否應該含括所有字詞? 停用字、 含括字 同義字、 同音異義字 字根還原 索引的最佳表現方式為何? 對數頻率 二元頻率 逆向文件頻率 決策支援與企業智慧 Chapter 6 文字和網站探勘 20

文字探勘流程 6/7 步驟 2:建立字詞–文件矩陣 (TDM)續 要如何減少TDM的維度至可以管理的大小? 人工 – 由專家進行 刪除只出現在少數文件中的少數字詞 使用奇異質分解(SVD)轉變矩陣 決策支援與企業智慧 Chapter 6 文字和網站探勘 21

文字探勘流程 7/7 步驟 3: 抽取知識 分類(文字分類) 分群(文字的自然群組) 改善的搜尋召回率 改善的搜尋精準度 分散/收集 查詢特定分群 關聯 趨勢分析 決策支援與企業智慧 Chapter 6 文字和網站探勘 22

文字探勘工具 商用軟體工具 ClearForest IBM Intelligent Miner Data Mining Suite SAS Text Miner SPSS Text Mining for Clementine Statistica Text Mining VantagePoint Provalis Research WordStat 免費軟體工具 GATE LingPipe Spy-EM Vivisimo/Clusty 決策支援與企業智慧 Chapter 6 文字和網站探勘 23

網頁探勘概論 1/2 Web為世上最大的資料儲存庫 資料為HTML、XML、文字格式 挑戰 Web規模太大無法有效進行資料探勘 Web太複雜 決策支援與企業智慧 Chapter 6 文字和網站探勘 24

網頁探勘概論 2/2 網頁探勘(或Web資料探勘)為從Web資料發掘本質關係(即有趣與有用資訊)的流程,以文字、連結或使用資訊形式表示。 決策支援與企業智慧 Chapter 6 文字和網站探勘 25

網頁內容探勘與網頁結構探勘 網頁內容探勘(Web content mining)指的是網頁中有用資訊的抽取。文件可以在一些機器可判讀格式中抽取,這麼一來,自動化技術可以產生一些與網頁有關資訊。Web爬蟲(Web crawler)用來自動判讀Web內容。 網站包括超連結 授權頁 中樞網頁 超連結索引主題搜尋 (HITS) 決策支援與企業智慧 Chapter 6 文字和網站探勘 26

網頁使用探勘 1/3 透過網頁瀏覽與交易產生資料擷取有用資訊 儲存在伺服器的取用記錄、參考記錄、代理記錄以及客戶端cookie中自動產生的資料。 使用者資料檔案。 Metadata,像是網頁屬性、內容屬性與使用資料。 決策支援與企業智慧 Chapter 6 文字和網站探勘 27

網頁使用探勘 2/3 Web使用探勘應用 判斷客戶的生命週期價值。 設計產品的跨行銷策略。 評估促銷活動。 根據使用者取用模式,鎖定使用者團體電子廣告與折價券。 根據之前學習到的規則與使用者資料檔案,預測使用者行為。 根據利益與資料檔案,呈現動態資訊給使用者。 決策支援與企業智慧 Chapter 6 文字和網站探勘 28

網頁使用探勘 3/3 決策支援與企業智慧 Chapter 6 文字和網站探勘 29

Web使用探勘軟體 決策支援與企業智慧 Chapter 6 文字和網站探勘 30

網頁探勘的成功故事 Ask.com Scholastic.com St. John Health System 決策支援與企業智慧 Chapter 6 文字和網站探勘 31