參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9

Slides:



Advertisements
Similar presentations
急性腹痛 急性疼痛. 急性疼痛 — 孙树杰、沈洪、 刘保池 (1)(1)(1)(1) 概 述 (2)(2)(2)(2) 重症急性腹痛的临床特点 (3)(3)(3)(3) 急性腹痛的分类及诊治 主要教学内容.
Advertisements

企業入口網站(EIP)/ 應用系統(ERP, SCM, CRM)
陆铭 mingler.ccshu.org 第四讲 WEB检索研究(WEB IR) 陆铭 mingler.ccshu.org.
北京大学图书馆 张春红 数字信息资源 及其检索概述 北京大学图书馆 张春红
???.
第一章 会计信息系统 第一节 计算机会计概述.
Chapter 2 社會認知: 思考社會世界.
劳动关系法务-实操篇 规章制度修审与员工手册撰写.
第五章 資訊科技基礎建設與新興科技.
信息检索中效率问题的研究 报告人:赵江华 北京大学计算机科学与技术系 网络与分布式系统实验室 2002年4月21日.
陳浩然 國立台灣師範大學英語系 網路與英語學習: 口語,閱讀,及寫作 陳浩然 國立台灣師範大學英語系
医学文献和文献检索概论 哈尔滨医科大学图书馆 下一页.
Web与信息检索 LJ JUFE-SIT.
中国特色社会主义政党制度 主讲:西南大学 李强 2011年12月28日.
網路新聞製作與實務 ~2004華梵大學資訊傳播應用專班~
欢迎南京市政治学科的教研同仁 光临指导.
渤海商品交易所 丹东玉米交易中心 全国统一客服电话:
當那時候,末底改坐在朝門,王的太監中有兩個守門的,辟探和提列,惱恨亞哈隨魯王,想要下手害他。(斯2:21)
參考資料: 吳美美,Chap. 2-3 蔡明月,Chap. 2 卜小蝶,Chap. 2 Walker and Janes, Chap. 2
程式語言與設計 授課教師:蔣德威.
人工智能 Artificial Intelligence 第十一章
手持裝置應用系統之設計 與未來發展 黃有評 大同大學 資訊工程系.
報告人: 呂明蓁 國立臺南大學教育學系 莊宗嚴 國立臺南大學數位學習系
MovieBot: Booking Tickets Easily
Some Effective Techniques for Naive Bayes Text Classification
關鍵字廣告工具、 搜尋引擎最佳化、 損益表實例
汇报人:王晓东 单 位:信息科学与工程学院 日 期:2016年9月
數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee
Resources Construction of Distance Education
作業系統 補充: 雲端運算.
当那时候,末底改坐在朝门,王的太监中有两个守门的,辟探和提列,恼恨亚哈随鲁王,想要下手害他。(斯2:21)
计算机应用基础 马秀麟 2012年4月.
Challenges in Multimedia Information Retrieval & Filtering
信息检索的评价 哈工大计算机学院 信息检索研究室 2007.
文字探勘與知識工程 Text Mining & Knowledge Engineering
Word-Entity Duet Representations for Document Ranking
第七章 客服管理中心之系統規劃與建構 -以AvecCRM為例
基於聯合因子分析與麥克風陣列之強健性語音辨認
第十三章 網路行銷重要議題 網際網路行銷 Web 2.0.
課程名稱:_____________ 指導教授:_____________
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
行動醫療照護系統.
第二讲 计算机信息检索概述 主要内容: 一 信息检索的基本概念 二 电子资源的概念与类型 三 计算机信息检索系统 四 计算机检索技术.
Artificial Intelligence - 人工智慧導論
第九章 Web資料採掘 9. 1 非結構化Web資料來源 9. 2 Web採掘分類 9. 3 Web內容採掘 9. 4 Web結構採掘 9
電腦基本概念 張森 高階 適合程度 初學.
ISWC2014见闻 程龚.
運動競賽制度 授課教師:鄭俊傑副教授.
史忠植 王嘉 董明楷 张海俊 智能信息处理实验室 中国科学院计算技术研究所
檢索與資訊組織 --掌握資訊的贏家 師大圖資所 碩一 陳映后、張榕容.
SOA模型设计 杨子 2009/09/30.
Learn Question Focus and Dependency Relations from Web Search Results for Question Classification 各位老師大家好,這是我今天要報告的論文題目,…… 那在題目上的括號是因為,前陣子我們有投airs的paper,那有reviewer對model的名稱產生意見.
關鍵字廣告工具、 搜尋引擎最佳化、 損益表實例
汪卫 王轶彤 老逸夫楼602-3 数据库新技术 汪卫 王轶彤 老逸夫楼602-3.
指導老師:邱登裕老師 組員:B 張萬鈞 B 鄭瑞傑 B 蔡譯陞 B 胡瑜真
李允中教授-軟體工程實驗室研究方向 觀點導向之軟體發展(Aspect-Oriented Software Development): 觀點導向軟體開發方法主要源自於重新思考軟體系統的模組化(Modularization)以及關注點分離的概念(Separation of Concerns)。當建構軟體系統功能時,往往會發現到除該功能本身之外,必須還要在這些功能上特別關注其他面向的考量,例如執行效能的面向、元件或模組的再利用性、系統的可靠程度等等。因此,一個軟體系統內,往往存在著這些錯綜交織的面向於軟體開發的
SQL Server2000概述 SQL Server简介 SQL Server安装 SQL Server数据库 2019/5/8.
万方数据知识服务平台 论文相似性检测 培训师:何娟
第8章 Agent系统 8.1 Agent的概念 8.2 Agent的结构 8.3 Agent实例─Web Agent
如何制订幼儿园园本培训工作计划 大连亿达世纪城幼儿园 姜承华 2011年3月10日.
增進單元>第1章 中文字處理的基本概念 [T_CS11CH01_1.ppt] 5.1應用於生活層面的電腦通訊 5.2電腦通訊的網上應用
數位家庭中的人機介面研究.
軟體介紹與說明.
第8章 Agent系统 8.1 Agent的概念 8.2 Agent的结构 8.3 Agent实例─Web Agent
第三章 音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)
索引典與資訊檢索 參考資料: 黃慕萱,Chap.8 蔡明月,Chap. 10
香港大學出版社電子書 操作手冊.
陳昭珍 國立臺灣師範大學圖書資訊學研究所副教授
電子表單 簡介 高雄市鳳山區新甲國小 陳信宏.
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
Presentation transcript:

參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9 資訊檢索技術 參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9

資訊檢索技術簡介 目的 涵蓋各種類型資料之處理 包含所有分類、管理、儲存、搜尋大量電子資訊所需技術,以及對於使用者需求的認知 利用電腦儲存與計算能力,協助使用者從大量缺乏結構化(Non-structural)資料中,快速擷取所需 分析使用者資訊檢索需求意涵,嘗試提供解決方案 涵蓋各種類型資料之處理 文字、表格、圖片、文件 結構化 v.s. 非結構化 包含所有分類、管理、儲存、搜尋大量電子資訊所需技術,以及對於使用者需求的認知

資訊檢索技術的發展—1/2 發展歷程 各種技術標準問世 兩大發展族群 人工分類 關鍵詞技術 全文檢索 高品質全文檢索 MARC SGML KWIC KWOC 全文檢索 索引搜尋 快速比對 高品質全文檢索 各種技術標準問世 MARC SGML HTML Z39.50 XML 兩大發展族群 System-centred models User-centred or cognitive models

資訊檢索技術的發展—2/2 比較重點 早期研究方向 最新研究方向 資訊型態 文字型態為主 擴展至多媒體型式 資料特性 歷史性靜態資料 及時性動態資料 資料庫收錄範圍 學術性,如書目文獻 多元化,如即時新聞、Web Page等 檢索技術 以文字比對為基礎 發展智慧型檢索技術 服務層面 允許有限人次檢索 允許全球每日千萬人次上線檢索 服務範疇 限制在區域網路 幾乎皆以廣域網路為目標 服務型態 以公眾服務為主 開始個人化資訊服務 參與學門 資訊科學、圖書資訊學 大量科際整合,如電腦工程、電機工程、語言學、新聞傳播等

系統導向之資訊檢索技術模組 Boolean model(布林邏輯查詢) Cluster-Based Model(串聯基礎模式) Vector-Space Model(向量模式) Probabilistic Model(機率模式) Best match searching model(最佳化查詢模式) Relevance feedback model(相關回饋模式) Natural language processing model(自然語言處理模式) Hypertext model(超文件模式)

Boolean model 提供檢索詞彙間AND、OR、NOT的組合 製作簡單、檢索速度快 可用不同欄位資料來限定檢索範圍,對主題明確的檢索(如明確的作者名稱、標題名稱)非常有效 但一般使用者比較難以利用此種模式表達較為複雜的查詢

Cluster-Based Model 理論基礎 假設相似的文件,應能符合類似的資訊需求 以串聯技術分析文件中所使用的詞彙(Term),找出文件與文件間的相似性(Similarities),相似性一樣者形成一個串聯(Cluster)。 利用此種自動歸類(Automatic Clustering)方式,便能將內容相近的文件歸成一類,除能藉由此關連找出未包含檢索詞彙的相關文件,更能提供進一步的歸納、摘要,與主題辨識。

Vector-Space Model 將檢索系統所有的文件視為一個文件向量空間 每一篇文件則為這個空間內的一個點(一個向量) 使用者的查詢問句(query)亦視為文件向量空間的一個點 計算代表文件的向量與代表查詢問句的向量的相似性 系統依照文件與查詢問句相似性的大小,排列系統認為相關的文件

Probabilistic Model 以文件(document)機率的大小決定該文件是否與使用者之查詢問句(query)相關 使用者之查詢問句為已知條件,依據該查詢問句計算文件之機率 P(d|q)=P(d,q)/P(q) 超過一定機率的文件則被檢索系統認為符合使用者的檢索需求 機率的大小則為文件排序的依據

Best match searching model 採用Ranking理念 (重要性排序) 檢索結果按符合程度排序,以加快檢索結果的檢視整理與利用,此為布林邏輯模式難以達到的重要功能 排序方式 Term weighting 將查詢字串或文獻內的索引詞彙,依重要性分別給予加權比數。呈現檢索結果時,權重高的詞彙排序在前面。 Document Ranking 利用詞彙權重評比,來判斷文獻和檢索詞彙的相似度,可節省瀏覽無關資料的時間

Relevance feedback model 使用者根據系統對檢索條件的回應,將相關資料或條件回饋給系統,以導引系統搜尋的方向,逐步獲取自己所要的資料 執行初次檢索後,使用者根據系統回應,指出哪些文件或相關詞跟他的檢索主題相關或完全不相關,並將此訊息回饋給系統,系統便據此訊息,再作進一步的搜尋 相關回饋表現出來的檢索方式,常成為漸進式查詢(progressive query)或範例查詢(query by example)的模式。

Natural language processing model 允許使用者以不限定的自然詞語、句法與系統溝通,因此使用者的負擔更輕,但系統的介面部份必須具備相當程度的人工智慧能力,以瞭解自然語言的意義。 三種處理層次 Syntactic analysis(語句結構分析) Semantic analysis(語意分析) Pragmatic analysis(實際意涵分析)

Hypertext model 採用互動導覽方式,允許使用者瀏覽文件中個別不同內容,或同一文獻集中的不同文件。 跳脫原有線性循序閱讀方式 惟仍受限於設計者的思維模式

改善檢索品質的使用者查詢模式 Information filtering Personalized service Query by voice Query by dialog Fuzzy search Intelligent search agent Information Mining

Information filtering (資訊過濾) 此種模式與使用者主動查詢資料而系統被動反應相反。 使用者向系統登錄自己的資訊需求、興趣或檢索條件後,由系統主動、持續的為使用者蒐集相關的資料,再定時或不定時傳給使用者,使用者只需被動接受檢索與過濾後的結果即可。因此,在一段期間內,使用者只需做一次檢索,即可獲得持續的檢索結果。

Personalized service (個人化服務) Adaptive Information Retrieval 檢索系統記錄個別使用者的資訊需求,或是把相同需求的使用者的記錄組合運用,讓使用者彼此的需求和興趣交互推薦,使得使用者查詢時,系統提供較符合個人興趣的回應,做到個別化的服務

Query by voice (語音檢索) Conversational Information Retrieval 由文字介面轉變為較為自然的口語語音介面,減低文字打字輸入的困難度,可以配合其他檢索模式運用。 Speech recognition  voice-to-text Speech synthesis  text-to-voice

Query by dialog (對話式查詢) 系統以文字或語音為介面同使用者對話,從對話中透露使用者的資訊需求與意圖,系統再據以檢索。 此種模式強調的是使用者端運用較為精緻的人機介面技術,因此與檢索技術的實際運作原理可以較無關係。

Fuzzy search (模糊搜尋) 即容錯式、全文式、非控制字彙、近似字串 (proximity)、允許利用近似自然語言的方式表達檢索字串與條件的檢索模式。 此種模式大大降低資訊檢索的複雜度,對不明確自己檢索主題的使用者幫助尤其顯著。 尋易(CSmart)智慧型中文文件檢索系統 http://www.sinica.edu.tw/csmart/index.html

Intelligent search agent (智慧型檢索精靈) 使用者將自己的資訊需求交代檢索精靈程式,由此精靈代替使用者到各個相關資料庫檢索資料,再回報回使用者。 此種模式是以上各種模式與人機介面技術的綜合運用,使得資訊檢索可以達到時空無礙、虛擬實境的境界。

Information Mining(資訊探勘) 發掘隱沒在大量文件內的訊息,協助使用者發現知識、蒐集情報。 Data Mining(資料探勘) 從結構化資料中,找出資料的相關性 Document Mining(文本探勘) 從非結構化的資料中,找出資料的相關性

使用者導向資訊檢索模式 Ingwersen’s model Belkin’s model Saracevic’s model 使用者的認知因其工作或興趣而不同,也造成其資訊需求和資訊行為的差異 社會和組織環境也會影響之 Belkin’s model Scanning to searching、Goal of interaction、Mode of retrieval、Resource condisered Saracevic’s model Cognitive、Affective、Situational