資訊檢索之策略與技巧 The Strategy & Techniques of IR

Slides:



Advertisements
Similar presentations
各类护理论文的写作方法 《中国护理管理》杂志社 张立新. 护理论文分类 护理科研论文 (实验性研究、调查性研究) 护理经验论文 个案护理论文 护理综述论文 议论型护理论文.
Advertisements

第七节 心 悸 郑祖平. 一、概述 心悸是一种自觉心脏跳动的不适感或心 慌感。当心率加快时感到心脏跳动不适, 心率缓慢时则感到搏动有力。心悸时,心 率可快、可慢,也可有心律失常,心率和 心律正常者亦可有心悸。 一般认为与心肌收缩力心搏量的变化及 患者的精神状态注意力是否集中等多种因 素有关。
1/67 美和科技大學 美和科技大學 社會工作系 社會工作系. 2/67 社工系基礎學程規劃 ( 四技 ) 一上一下二上二下三上 校訂必修校訂必修 英文 I 中文閱讀與寫作 I 計算機概論 I 體育 服務與學習教育 I 英文 II 中文閱讀與寫作 II 計算機概論 II 體育 服務與學習教育 II.
聖若翰天主教小學 聖若翰天主教小學歡迎各位家長蒞臨 自行分配中一學位家長會 自行分配中一學位家長會.
認識食品標示 東吳大學衛生保健組製作.
Medline講義 呼吸照護學系98/2/24 江秀貞.
第八章 互换的运用.
北京大学图书馆 张春红 数字信息资源 及其检索概述 北京大学图书馆 张春红
手术切口的分级与抗菌药物的应用 贵阳医学院附属白云医院感染管理科 沈 锋
颞下颌关节常见病.
「健康飲食在校園」運動 2008小學校長高峰會 講題:健康飲食政策個案分享 講者:啟基學校-莫鳳儀校長 日期:二零零八年五月六日(星期二)
专题二 文学类文本·小说阅读(选考) ——把握人事,洞察百态 补上一课 如何读懂小说 第1讲 情节 第2讲 人物 第3讲 环境 
第一部分 微专题强化练.
致理科技大學保險金融管理系 實習月開幕暨頒獎典禮
欧洲西部 要点·疑点·考点 欧洲西部 1. 自然环境 位置:欧洲西半部,北临北冰洋,西临大西洋,南临地中海
脊柱损伤固定搬运术 无锡市急救中心 林长春.
報告人 方萱玉 100上學期教學組業務報告.
1. 什麼是微創手術 微創手術是利用幾個細小的切口,透過電視監察器進行的各類手術,相對傳統外科手術的大切口,創傷明顯大大減低,亦因此稱之為微創.
行政訴訟法 李仁淼 教授.
健康科學資源之組織: NLM分類表與Mesh標題表
2013年二手车市场环境分析.
经典中文期刊全文数据库检索 与通用技巧 王建涛 QQ:
結腸直腸腫瘤的認知.
經歷復活的愛 約翰福音廿一1-23.
中小企業新增租稅優惠介紹 (研究發展支出適用投資抵減辦法 、增僱員工薪資費用加成減除辦法及智慧財產權讓與所得之減免規定)
郭詩韻老師 (浸信會呂明才小學音樂科科主任)
洋流(大规模的海水运动).
诸葛亮广场.
周星驰电影鉴赏.
實證護理- 文獻搜尋 林口長庚圖書館 江瑋婷 分機:3481.
EndNote文献管理软件与Web of Science
第六课 我们的 中华文化.
《中文自修》VS.《读者》VS.《当代学生》
2. 戰後的經濟重建與復興 A. 經濟重建的步驟與措施 1.
好好學習 標點符號 (一) 保良局朱正賢小學上午校.
第九章 信息处理与分析 第一节 文献检索策略 与案例分析
學生:蔡耀峻、許裕邦 座號:23號、21號 指導老師:黃耿凌 老師
霸气车辆.
4. 聯合國在解決國際衝突中扮演的角色 C. 聯合國解決國際衝突的個案研究.
新陸書局股份有限公司 發行 第十九章 稅捐稽徵法 稅務法規-理論與應用 楊葉承、宋秀玲編著 稅捐稽徵程序.
The Principles and technology of Social sciences Information Retrieval
民法第四章:權利主體 法人 楊智傑.
通識教育中心 邱子恒 資訊檢索之理論與實作 通識教育中心 邱子恒
實證醫學常用資源及檢索 策略介紹 林愉珊 典藏閱覽組 國立陽明大學圖書館 民國98年5月11日.
OVID Medline & Ovid醫學資料庫使用
四年級 中 文 科.
Philosopher‘s Index 哲學資料庫
病例对照研究设计 选两组对象,一组是患病者(条件组),另一组是非患病者(对照组),与条件组有着大体相同的身体状况
如何利用圖書館的館藏資源 義大醫院圖書館 邱淑瑛.
叙词语言 张壬
OVID Medline & Ovid醫學資料庫使用
第五章 三角比 二倍角与半角的正弦、余弦和正切 正弦定理、余弦定理和解斜三角形.
聖誕禮物 歌羅西書 2:6-7.
政府採購法 第四章 履約管理 報 告 人:郭明恩 政府採購法及其子法相關規定 本法 第四章(§63~70)【8】
NLM分類表與Mesh主題標目 The NLM classification scheme and the MeSH
大连医科大学图书馆 张蕾 Tel: OvidSP数据库 ——Medline 大连医科大学图书馆 张蕾 Tel:
Ovid Medline 飛資得醫學 陳永祥 飛資得醫學 陳永祥 凡是對於EBM研究有興趣、希望學習PICO精確收集到研究文獻、想了解如何掌握資料庫提供的功能提昇檢索能力者都適合參加本次的講習。1.
依撒意亞先知書 第一依撒意亞 公元前 740 – 700 (1 – 39 章) 天主是宇宙主宰,揀選以民立約,可惜他們犯罪遭
第五课 提升职业道德境界 在职业实践中锤炼.
基督是更美的祭物 希伯來書 9:1-10:18.
索引典與資訊檢索 參考資料: 黃慕萱,Chap.8 蔡明月,Chap. 10
序偶及直角坐標系統.
香港大學出版社電子書 操作手冊.
圖資處數位資源組 王瑋婷 分機:2133轉65 PubMed生物醫學文獻資料庫 圖資處數位資源組 王瑋婷 分機:2133轉65
平面的基本性质 江苏省泰州中学 数学组 姜莹. 平面的基本性质 江苏省泰州中学 数学组 姜莹.
經文 : 創世紀一章1~2,26~28 創世紀二章7,三章6~9 主講 : 周淑慧牧師
Presentation transcript:

資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 臺北醫學大學通識教育中心 2012.04.02-04.09

大綱 資訊檢索之基本概念 檢索策略 檢索技巧 網路資源之檢索

學習目標 瞭解資訊檢索之基本概念 瞭解資訊檢索之策略 瞭解資訊檢索之技巧 熟悉網路資源之檢索

I. 資訊檢索之基本概念 IS&R 自然語言 vs. 控制字彙 precision vs. recall 布林邏輯運算元 切截 相近運算元 Known item search vs. subject search

資訊儲存與檢索(IS&R Model)

索引作業 檢索作業 資料 需求 分析內容 分析需求 選擇關鍵詞 選擇關鍵詞 索引典 轉譯 轉譯 資料庫 系統關鍵詞 系統關鍵詞 檢索結果 關鍵詞比對

自然語言 自然語言是相對於人工語言的一種人類語言,也是最合乎人類教談行為的溝通方式,它依循著人類自然進化而發展,成為人和人之間溝通的最基本工具,如中文、英文、日文等都是自然語言。

控制字彙 標題表 (Medical Subject Heading) 索引典 Scope note BT NT RT Use / Use for

標題表(Subject Headings) LCSH=Library of Congress Subject Headings MeSH=Medical Subject Headings 是“控制字彙”的工具 (vs.自然語言 ) 以“詞彙”來表達文獻內容的“主題”

標題表(Subject Headings) 按字母順排序,以BT,NT, RT(SA=See also)來表現詞彙間的關係 BT=廣義詞 NT=狹義詞 RT=相關詞 Use(See)=指引使用者由系統不用的詞到系統選用的詞 例: Cancer USE Neoplasms

MeSH之例子– 範圍註 定義

MeSH之例子—範圍註 相關詞 不用的詞

MeSH之例子 – 樹狀結構

MeSH之例子 – 複分

以OVID-Medline實例說明

自然語言檢索: cancer於所有與主題相關之欄位 共193,949篇

自然語言檢索: cancer出現於文獻的篇名 共104,998篇

控制字彙檢索 勾選此項

自動mapping to MeSH 擴展 聚焦

顯現主概念與子概念之文獻數

可選擇需要的主題複分

得到比自然語言檢索更精確的結果 共42,583篇

Explode之功能:找更多相關文獻 共463,333篇

Focus之功能:找更少相關文獻 共32,318篇

Focus之意義 *表示為此文獻之主要主題

回收率&精確率 b+d a+c d c b a Recall(回收率/查全率) & Precision(精確率/查準率) 不相關 相關 總數 d c 未檢索到 b a 檢索到 不相關 相關

查全率=a/(a+c) 查準率=a/(a+b) 相關 無關 c d a b

布林邏輯(AND、OR、NOT) A AND B A AND B AND C A OR B A OR B NOT C

切截 (truncation) Library, libraries, librarian, librarians, librarianship --> lib* (單複數, 詞性不同, 使用 右切截) Woman, Women --> Wom#n (單複數, 使用中間切截) Color, Colour --> Colo#r (美式/英式拚音, 使用中間切截)

相近運算元 (adjacent/near) ANALOG* ADJ1 DIGITAL* 482(1999) ANALOG* NEAR1 DIGITAL* 506(1999)

Known item search 已知書目之檢索, 即精確檢索 用已知的書目資料來檢索, 包括: 作者, 題名, 期刊名, 出版商, 出版年… etc.

Subject search 主題檢索 想檢索一下到底有那些關於某主題的文獻存在

II. 檢索策略 針對一檢索問題之通盤考量或全面性規劃 分區組合檢索法 (Block Building) 引用文獻滾雪球法 (Citation Pearl Growing) 簡易檢索 (Brief search) 主題層面連續檢索 (successive facet strategies) 主題層面配對檢索 (pairwise facets strategies)

分區組合檢索法 1. 選擇資料庫 2. 確定問題之主要概念及其布林邏輯關係 3. 依序找出代表每個概念之所有詞彙 4. 將各概念下所有詞彙以“OR”連結 5. 將步驟4所得結果以步驟2所決定之布林邏輯關係進行結合 6. 依步驟1至步驟5 規劃檢索敘述 7. 輸入檢索敘述 8. 評估檢索成果

分區組合檢索法示意圖

引用文獻滾雪球法 事先掌握一篇或數篇相關文章, 利用這些相關文章找尋更多相關的文章, 如此相關文章就像雪球一樣越滾越大. 在資訊檢索上的應用: 以相關文章的關鍵字或敘述語繼續檢索. 是由precision反向追求recall的方法 通常必須進行多次檢索, 才能找到足夠的相關文章.

簡易檢索 最常見的檢索 通常用簡單的幾個關鍵字, 加上布林邏輯的組合 快速, 同時檢索到的文章不多, recall低 適用情形: 檢索者只想閱讀“幾篇”相關文章 執行已知書目檢索時 檢索概念相當專指 (specific) 時

主題層面連續檢索 在決定檢索問題的主題層面之後, 必須確認各主題層面的優先順序. 在最專指概念或是可能產生最少資料的概念輸入系統後, 如果產生太多資料, 再輸入其他次要概念與之結合. 直到檢索者認為檢索筆數可以接受為止.

主題層面連續檢索 適用情形: 當所有主題層面以布林運算元結合, 可能產生零筆資料時 當檢索問題中有一至二個主題層面涵義相當模糊時 當檢索問題具備其他非主題之檢索條件時 (如: 資料類型, 語文, 出版年代), 可將此非主題檢索條件視為第一個檢索概念

主題層面連續檢索 適用情形: (續) 當檢索者寧願忍受誤引, 而不願失去相關文章時 當加入其他主題層面所花費的時間和金錢, 可能會超過直接列出檢索結果, 每筆一一審視時 當相關文獻過少, 檢索者願意檢視一些相關度較低的文章時

主題層面連續檢索示意圖

主題層面配對檢索 是先將主題層面兩兩配對, 並取其交集 也就是取任意二主題層面的交集而後聯集之 適用情形: 當所有主題層面都同樣重要時 當主題層面之專指性或模糊性相差不大時 當將所有主題層面結合可能導致零筆資料時

主題層面配對檢索示意圖

比較圖

III. 檢索技巧 為完成特性目的所採取的行動 當檢索所得資料筆數過多時(通常指誤引太多) 當檢索所得資料筆數過少時(包括零筆資料) 當檢索者想提高 recall 時 當檢索者想提高 precision 時

當檢索所得資料筆數過多時 是否過份簡化問題? 是否需要重新釐清檢索概念? 是否使用了正確的布林邏輯運算元? 是否使用過份含混或一般性之名詞? 是否應考慮使用控制字彙? 是否相近運算元限制過鬆? 是否切截應用過鬆?

當檢索所得資料筆數過少時 是否將問題過份複雜化? 是否真有文獻探討該主題? 是否每個概念都使用足夠的檢索詞彙來表達? 是否相近運算元限制過緊? 是否使用了正確的布林邏輯運算元? 是否有語法或拼字上的錯誤? 是否該改用自然語言進行檢索? 是否考慮使用切截?

當檢索者想提高 recall 時 增加同義詞和類同義詞的數目 使用較廣義的檢索詞彙 以自然語言檢索代替控制字彙檢索 檢索其他主題欄位 刪除布林邏輯運算元“AND”及“NOT” 增加切截的範圍 使用較鬆的相近運算元 刪除一些非主題之檢索限制(如:年代, 資料類型) 刪除一主題層面

當檢索者想提高 precision 時 刪除部份類同義詞或是詞意含糊的檢索詞彙 使用專指性較高的詞彙進行檢索 當有適當的控制字彙工具時, 盡量使用其來代替自然語言 增加一主題層面 使用“ NOT” 除去不相關文章 減弱切截的範圍 加上非主題之檢索限制 (如年代,資料類型)

Q & A?