Download presentation
Presentation is loading. Please wait.
1
中國地名、組織機構名稱和英譯名的自動辨識
R 周彥呈
2
Outline 地名的自動辨識 組織機構名稱的自動辨識 英譯名的自動辨識
3
Outline 地名的自動辨識 組織機構名稱的自動辨識 英譯名的自動辨識
4
地名的自動辨識 資源 地名辨識系統
5
地名的自動辨識 資源 中國地名庫 (收錄中華人民共和國地名錄) 中國地名用字庫 中國地名用詞庫 (Ex:水庫、名勝、苗族)
並列聯繫詞庫 (、 和 與 並引入可信度) 地名指示詞詞庫(在、到、位於、城市、地區) word position basic weight
6
中國地名用字庫 收錄全部中國地名庫的用字 因為用字不集中 中國地名庫地名用字在真實文本中的覆蓋情況:可達95%
7
中國地名用字庫 紀錄 該字在地名中出現在中國地名庫的首中尾的次數
該字在地名中出現在真實語料的地名的首中尾的次數(與中國地名庫有出入所以須紀錄) 該字在真實語料中出現的次數 該字做地名首中尾字的使用程度 可以訓練 例:也、沂 (地名出現在首字此數相同,實際使用”也”高出很多)
8
地名的自動辨識 資源 地名辨識系統
9
地名的自動辨識 地名辨識系統 地名識別規則庫 中國地名辨識系統
10
地名識別規則
11
地名識別規則
12
中國地名辨識系統結構圖
13
地名辨識範例 1.分詞
14
地名辨識範例 2.Ps(w) 、Pm(w) 、Pe(w) Threshold T1=0.005 T2=0.005 T1=0.007
15
地名辨識範例 3.選出”菜戶營橋” 4.收集上下文:位於、下 5.推理:用規則確認,左右界確定 菜戶營橋 中國地名評測語料封閉測試
Return rate=93.8% 正確率=86.7%
16
地名的自動辨識的困難 數量大、無規律 出現情況複雜 到北京、到十二月、到湖鄉 中國民間藝術之鄉 港、澳同胞 湖北京山縣 有眼不識泰山
老北京最喜歡吃的 地名長短:滬vs雙江拉估族佤族布朗族傣族自治縣
17
Outline 地名的自動辨識 組織機構名稱的自動辨識 英譯名的自動辨識
18
組織機構名稱的自動辨識 組織機構名稱的語法性質和語意特性 組織機構名稱自動辨識演算法 組織機構名稱分析系統 組織機構名稱分析系統的改進
19
語法性質和語意特性 名詞(大部分)|形容詞|序數詞|動詞 + 機構中心語(名詞) 分類 地名:北京大學 人名:中山大學
學科專業、部門系統:電子工業部、教育委員會 研究、生產、經營對象:軟件研究所 上述綜合:白求恩醫科大學 大機構、團體、組織、職業:中國人民解放軍外語學院、中國發明家學會 專造的機構名:復旦大學、四通公司 創辦工作方式:某某集團、某某股份公司
20
語法性質和語意特性 {<地名><機構團體>} | <序數詞> | {<人名> | <專造名>} | {<產品、對象>|<功能/方式/等級>|<學科/行業>} + <機構稱呼詞> 越是反映事物固定內在本質的定語越靠近中心詞 各機構可進一步規範:高校名稱的構造規則--<地名><機構團體><序數詞><人名><專造名><為學方式><學科/行業>+”大學/學院/院.等”
21
組織機構名稱自動辨識演算法
22
組織機構名稱分析系統
23
組織機構名稱分析系統的改進 附加規則1:首詞為地名且後接有地名人名機構團體或專造名則該地名不包括在高效名稱中。Ex:上海復旦大學、美國華盛頓大學 附加規則2:表示地區方位的方位詞(東南西北中)可視為地名或地名的組成部份。Ex:中央音樂學院、中南工業大學 附加規則3:高校修飾語不能只含有國家或更大區域的名稱。Ex:中國高中X
24
組織機構名稱分析系統的改進 前後界定位均正確者 後界定位正確者 Return rate=93.8% 正確率=86.7%
正確率=99.4%
25
Outline 地名的自動辨識 組織機構名稱的自動辨識 英譯名的自動辨識
26
英語譯名的自動辨識 英語譯名識別的當用資源 英語譯名的自動識別算法
27
英語譯名識別的當用資源 英語姓名譯名用字表(英語姓名譯名手冊) CC-Only-Head Ex:包牛 CC-Not-Head Ex:子琴
CC-Only-Tail Ex:生雄 CC-Not-Tail Ex:卓強 聯想表 Ex:其-->奇 汗-->漢
28
英語姓名譯名用字表
29
英語譯名的自動識別算法
30
英語譯名的自動識別算法 範例:他對諾貝爾醫學與生理獎獲得者休伯和書塞爾教授的研究成果作出修正 靠用字表得出:諾貝爾、生理、得者休伯、書塞爾
生->CC-Not-Head 得,者->CC-Not-Head
31
英語譯名的自動識別算法 範例:任命雷鳥本.利斯塔為海軍新聞發布官 靠用字表得出:雷鳥本.利斯塔為 為->CC-Not-Tail
32
英語譯名的自動識別實測 十萬句隨機抽取1500句含譯名的句子 真實譯名有2103個 找到2574個潛在譯名裡面1806個正確譯名
Return rate=88% 正確率=72% 可用新英語詞典附錄的常用英語姓名表來提高Return rate和正確率
33
suah Thank you
Similar presentations