黃居仁 中央研究院語言學研究所 92年9月10日 「語言座標」研習營 中 英 雙 語 知 識 本 體 與 領 域 檢 索 簡 介 Academia Sinica Bilingual Ontological WordNet 黃居仁 中央研究院語言學研究所 92年9月10日 「語言座標」研習營
中英雙語知識本體與領域檢索介面雛型. http://ckip. iis. sinica. edu 中英雙語知識本體與領域檢索介面雛型 http://ckip.iis.sinica.edu.tw/CKIP/ontology/(舊) http://bow.sinica.edu.tw/(新) 資料來源 1.中研院遠見中英對譯資料庫 2.WordNet 1.7 http://www.cogsci.princeton.edu/~wn/ 3.中研院詞庫小組 http://ckip.iis.sinica.edu.tw/CKIP/ 4. SUMO ontology http://ontology.teknowledge.com
2. 檢索 ‘Fish’ (英查中功能)
英查中 English-Chinese Lookup 檢索詞(Keyword):fish 與其他資源比對情況 知識本體(Ontology) 詞類(POS) 參考詞彙(Reference word) 詞義(Sense) 1: 釣魚遊戲 詞義(Sense) 2: 釣魚 詞義(Sense) 3: 沽名釣譽 詞義(Sense) 4: 魚兒 詞義(Sense) 5: 魚肉 詞義(Sense) 6: 蠢貨
3. 查看詞義 4
4. 查看詞義 4的 「下位詞」 詞義(Sense) 4: 魚兒 領域(Domain)一般(General) 詞類(POS)名詞(Noun) 解釋(Explanation) 翻譯(Translation) 同義詞集(Synset) (整體)部件詞(Part meronym) 上位詞(Hypernym) 下位詞(Hyponym) (成員)群體詞(Member holonym) SUMO:魚類(fish)
檢索結果:魚類分類和名稱 下位詞(Hyponym) food_fish game_fish rough_fish 下位詞(Hyponym) snapper sole panfish shad sardine trout tuna sea_bass groundfish herring salmon whitefish game_fish rough_fish chondrichthian bony_fish mouthbreeder
4.查看詞義 4的 「(整體)部件詞」 詞義(Sense) 4: 魚兒 領域(Domain)一般(General) 詞類(POS)名詞(Noun) 解釋(Explanation) 翻譯(Translation) 同義詞集(Synset) (整體)部件詞(Part meronym) 上位詞(Hypernym) 下位詞(Hyponym) (成員)群體詞(Member holonym) SUMO魚類(fish)
檢索結果:魚類部分和器官名稱 (整體)部件詞(Hyponym) milt tail_fin fishbone fish_scale fin roe lateral_line_organ
5.查看詞義 5的 「下位詞」 詞義(Sense) 5: 魚肉 領域(Domain)一般(General) 詞類(POS)名詞(Noun) 解釋(Explanation) the flesh of fish used asfood 翻譯(Translation) 同義詞集(Synset) 上位詞(Hypernym) 下位詞(Hyponym) SUMO:肉類(meat)
檢索結果:食用魚名稱 下位詞(Hyponym) anchovy panfish haddock shad trout hake stockfish eel salmon
6.檢索’seafood’
查看’seafood’的「下位詞」 詞義(Sense) 1: 海產食品 領域(Domain)一般(General) 詞類(POS)名詞(Noun) 解釋(Explanation) 翻譯(Translation) 同義詞集(Synset) 上位詞(Hypernym) 下位詞(Hyponym) SUMO肉類(meat)
檢索結果:海鮮名稱 下位詞(Hyponym) shellfish octopus roe squid shrimp saltwater_fish freshwater_fish whitefish
「語言座標」提供 -語言資訊與概念架構(知識本體)的連結 連結到SUMO這個上層共用知識本體。 SUMO: Suggested Upper Merged Ontology 可以由每個詞查到該詞在概念架構上的歸屬。 利用知識本體架構作知識內容分類,與簡單推理 如哺乳動物為溫血
知識本體(Ontology) 對任一網頁/資源知識內容及資訊架構的描述與定義 以RDF(或類似語言)寫成的文件,清楚定義概念間的關係和推理的邏輯規則 ─請注意資訊學中把ONTOLOGY當成知識/訊息的基底架構;與哲學中本體論的原定義大不相同
SUMO: Suggested Upper Merged Ontology An Upper Ontology created under IEEE Standard Upper Ontology Working Group. Maintained and Accessible on web at http://ontology.teknowledge.com Provides interface to English words through WordNet, as well as inference in 5 languages
Upper Ontology vs. Domain Ontology (Upper) Ontology: 各領域,各典藏通用的知識架構,是跨領域/跨典藏知識內容交換與處理的基礎 E.g. SUMO Domain Ontology: 個別領域特有的知識結構,E.g. SUMO virus domain ontology
知識本體Ontology與典藏的知識架構 我們從魚類ontology上的鰓(gill)來舉例說明知識的延伸... 「器官」「內部器官」「呼吸器官」「鰓」。 對此我們可利用以下兩種資源來進行知識的延伸: SUMO( Suggested Upper Merged Ontology) WordNet
A SUMO Perspective 由於SUMO是最上層的概念集合,因此前頁的例子中的四個節點,都是屬於SUMO 內的「器官」概念
知識本體中的知識分類訊息 另外,我們也能得到「器官」在SUMO上的子節點(Subclass)以及兄弟節點(Coordinate terms) 等資訊
如何呈現語言的知識本體? 詞彙網路的構成元素: 詞彙網路WordNet是最直接的語言本體表徵 ─某個語言內所有的詞彙(任一個詞形lemma與詞義sense的獨特配對定義為一個詞彙) ─該語言表達的所有概念(即所有詞義sense) ─一組基本的詞彙語意關係
詞彙網路的架構 以詞義為基準,把有相同詞義的所有詞彙放在一個同義詞集(SynSet) 同義詞集即是表達相同概念的所有詞的集合 以定義過的詞彙語意關係,連結所有的同義詞集 即是建立所有概念間的語意關係 除同義,反義,近義外,更重要的有上位,下位,及功能等關係
Synset:詞彙驅動的概念(知識)單位 Semantic Relation: 概念連結與知識衍生的基本關係 詞彙網路提供的知識基本架構 Synset:詞彙驅動的概念(知識)單位 Semantic Relation: 概念連結與知識衍生的基本關係 專家(such as reference librarian)用什麼方法找keyword找不到的資料?
詞彙網路與知識運籌 知識運籌的兩個挑戰 知識如何計量 (How to Itemize Knowledge?) 知識如何編目 (How to Catalogue Knowledge?)
「索引典」建立在 equivalence class 的概念上,原則上只標記同義關係(synonymy) 詞彙網路與 (圖書館學中的)索引典 「索引典」建立在 equivalence class 的概念上,原則上只標記同義關係(synonymy) 可以很快找到預先設定的固定類別
問題: 分類定義 因 時/地置宜 「蕃薯,本地」 「芋頭,外來」 <響尾蛇,飯匙倩> <桌子,table/desk>
Equivalence Classes vs. Relational Classes --下載, 拷貝,錄製 --數位檔案, 電子檔,機讀檔, 程式 --音樂…. --相片… --小說… --貝多芬,李玟,Stephen King, Steve Martin, Harry Potter (How about 閱讀,欣賞,買…)
詞義關係 antonymy 反義關係 hypernymy 上位關係 hyponymy 下位關係 holonymy 整體-部份關係 meronymy 部份-整體關係 metonymy 轉指關係 near-synonymy 近義關係 synonymy 同義關係 troponymy 方式關係
antonym /antonymy 【反義詞】 /反義關係 man- N ANTONYM woman-N ‘to sell’ and ‘to buy’ 例一:「胖」與「瘦」 例二:「買」與「賣」
hypernym /hypernymy 【上位詞】泛稱詞 / 上位關係 car N HAS_HYPERONYM vehicle N 佛教 宗教 禪宗 佛教
holonym /holonymy 整體詞 /整體-部份關係 ‘door’ and ‘room’ ‘finger’ and ‘hand’ 「筆劃」與「字」
meronym /meronymy 部份詞 /部份-整體關係 09 部件_整體詞_為 HAS_HOLO_PART 10 部件_部份詞_為 HAS_MERO_PART 整體及其組成單元,例如,「桌腳」與「桌子」: 11 成員_整體詞_為 HAS_HOLO_MEMBER 12 成員_部份詞_為 HAS_MERO_MEMBER 集合及成員,例如,「球員」與「球隊」, 「內政部」與「內閣」
meronym /meronymy 部份詞 /部份-整體關係 13 單位_整體詞_為 HAS_HOLO_PORTION 14 單位_部份詞_為 HAS_MERO_PORTION 「飯」與「飯粒」 15 成份_整體詞_為 HAS_HOLO_MADEOF 16 成份_部份詞_為 HAS_MERO_MADEOF 實體及其構成材料,例如,「紙張」與「書籍」 17 區域_整體詞_為 HAS_HOLO_LOCATION 18 區域_部份詞_為 HAS_MERO_LOCATION 綠洲是沙漠的一部份
metonym /metonymy 轉指詞 /轉指關係 思科(宣布裁員) 台北(主辦COLING2002)
troponym/troponymy: 方式詞/方式關係 move walk, run, jog 煮 煎,炒,炸,燉
Involved 涉入 19 導致 CAUSES 20 肇因於 IS_CAUSED_BY Example (1): ‘to kill’ and ‘to die’ Example (2): ‘murder’ and ‘death’ 例一:「筆誤」(N)與「錯字」(N) 21 (角色)涉入 ROLE 22 涉入角色_有 INVOLVED 23 施事者_角色 ROLE_AGENT 24 涉入_施事者 INVOLVED_AGENT 25 經歷者_角色 ROLE_PATIENT 26 涉入_經歷者 INVOLVED_PATIENT
(Princeton的原始英文詞網)Since 1990 www.cogsci.princeton.edu/~wn/ WordNet 1.5. 詞彙網路 (Princeton的原始英文詞網)Since 1990 www.cogsci.princeton.edu/~wn/ Monolingual: English
EuroWorNet (EWN) 歐語詞網 Since 1996 http://www.hum.uva.nl/~ewn/ Multilingual: Basque, Catalan, Czech, Dutch, French, English, Estonian, French, German, Italian, Spanish, (Swedish, Norway, Danish, Greek, Portuguese, Romanian, Lithuan, Russian, Bulgarian, Slovenic)
知網(董振東的中文語意網路) Since 1995(?) http://www.keenage.com Bilingual: EC, CE HowNet 知網(董振東的中文語意網路) Since 1995(?) http://www.keenage.com Bilingual: EC, CE (pre-set ontology)