中國地名、組織機構名稱和英譯名的自動辨識

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

台中市牙醫師公會 社會教育委員會 蔡佩音醫師 迎接新口腔時代. 蛀牙 v.s 全身疾病.
主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
翻譯技巧解說 例文 授課教師:何資宜. 一、加譯 「おしん」の視 聴率は、最高の時が 62.9 %に達した。ク ロジロが出てくる 「南極物語」は、配 給収入が 52 億円を超 えて、記録を更新し た。 《阿信》的收視率最 高時曾達 62.9% 。此 外,以兩隻小狗太郎 次郎為主角的《南極 物語》,票房收入也.
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
產學攜手合作計畫 楊授印 國立虎尾科技大學 推廣教育中心 主任 動力機械工程系 助理教授 民國103年10月30日.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
福榮街官立小學 我家孩子上小一.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
小數怕長計, 高糖飲品要節制 瑪麗醫院營養師 張桂嫦.
制冷和空调设备运用与维修专业 全日制2+1中等职业技术专业.
会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析 组员:2006级工商企业管理专业 金国芳 叶乐慧 魏观红 徐挺挺 虞琴琴.
第六章 人体生命活动的调节 人体对外界环境的感知.
芹菜 英语051班 9号 黄秋迎 概论:芹菜是常用蔬菜之一,既可热炒,又能凉拌,深受人们喜爱。近年来诸多研究表明,这是一种具有很好药用价值的植物。 别名:旱芹、样芹菜、药芹、香芹、蒲芹 。 芹菜属于花,芽及茎类。
2012年 学生党支部书记工作交流 大连理工大学 建工学部 孟秀英
北京市职业技能鉴定管理中心试题管理科.
2014吉林市卫生局事业单位招聘153名工作人员公告解读
各類所得扣繳法令 與申報實務 財政部北區國稅局桃園分局 103年9月25日
初級游泳教學.
爱国卫生工作的持续发展 区爱卫办 俞贞龙.
第八章 数学活动 方程组图象解法和实际应用
本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响. 本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响.
散文鉴赏方法谈.
比亚迪集成创新模式探究 深圳大学2010届本科毕业论文答辩 姓名:卓华毅 专业:工商管理 学号: 指导老师:刘莉
如何撰写青年基金申请书 报 告 人: 吴 金 随.
点击输 入标题 点击输入说明性文字.
國際志工海外僑校服務 越南 國立臺中教育大學 2010年國際志工團隊.
痰 饮.
學分抵免原則及 學分抵免線上操作說明會.
教 学 查 房 黄宗海 南方医科大学第二临床医学院 外科学教研室.
评 建 工 作 安 排.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
首都体育学院 武术与表演学院 张长念 太极拳技击运用之擒拿 首都体育学院 武术与表演学院 张长念
现行英语中考考试内容与形式的利与弊 黑龙江省教育学院 于 钢 2016, 07,黄山.
個人傷害險-鐵馬逍遙專案 商品介紹 商品特色 保障內容 承保對象 保險費 案例 業務費用及淨業績 車險部業務規劃科.
导游资格证考试概要.
公會組織糾紛 指導老師:柯伶玫 組員 495B0065 劉致維 495B0072 廖怡塵 495B0097 范家皓.
教育部技職司 北區:2015年10月12日下午 南區:2015年10月16日下午
長高 長壯 ㄋㄟㄋㄟ補給站 每天2份奶~~健康跟著來!.
證券投資實務 講師:方俊儒教授.
103年度清水區農會四健推廣教育 第2單元 06月12 日 PM1:20-2:50 題目:六大類食物/均衡飲食金字塔 均衡飲食金字塔
易學基礎教程 國文系99 王隆運. 易學基礎教程 國文系99 王隆運.
代表机构年报操作指南 (代表机构端) 二〇一一年二月.
技术试验及其方法 制作者 : 贾琼瑞
如何查財產(2/6) EX:利息明細提醒您於金融機構有存款;營利(股利)明細提醒您有買股票。
住宅部門能源消費及節能意識之性別差異分析
運用網路資源趣味化 「每日飲食指南份量」教學
教育部補助 「大專校院社團帶動中小學社團發展」
企業講座 組長: 張仁杰 組員: 指導老師:洪伯毅 楊巧歆 楊明芬 陳璿安
能量買賣訊號 ◎波段賣訊:下列四項出現三項以上(含三項) 1、空方能量升至整波上漲之最高水準,且空方能量>多方 能量30%以上。
新形势下如何操作净水市场 疏龙林.
教育人員退休新法說明會 106年12月14日 ★資料來源:參考銓敘部及高雄市教育局人事室簡報檔.
國文(一) 1.第一單元---青春印記 (學習篇、愛情篇) 2.第二單元---生活美學 3.第三單元---優遊家園.
给孩子做一面明亮的镜子 给孩子做一面明亮的镜子.
寿命表.
勞工保險年金制度 簡報人:吳宏翔.
法律的解釋 楊智傑.
Presentation transcript:

中國地名、組織機構名稱和英譯名的自動辨識 R94921023 周彥呈

Outline 地名的自動辨識 組織機構名稱的自動辨識 英譯名的自動辨識

Outline 地名的自動辨識 組織機構名稱的自動辨識 英譯名的自動辨識

地名的自動辨識 資源 地名辨識系統

地名的自動辨識 資源 中國地名庫 (收錄中華人民共和國地名錄) 中國地名用字庫 中國地名用詞庫 (Ex:水庫、名勝、苗族) 並列聯繫詞庫 (、 和 與 並引入可信度) 地名指示詞詞庫(在、到、位於、城市、地區) word position basic weight

中國地名用字庫 收錄全部中國地名庫的用字 因為用字不集中 中國地名庫地名用字在真實文本中的覆蓋情況:可達95%

中國地名用字庫 紀錄 該字在地名中出現在中國地名庫的首中尾的次數 該字在地名中出現在真實語料的地名的首中尾的次數(與中國地名庫有出入所以須紀錄) 該字在真實語料中出現的次數 該字做地名首中尾字的使用程度 可以訓練 例:也、沂 (地名出現在首字此數相同,實際使用”也”高出很多)

地名的自動辨識 資源 地名辨識系統

地名的自動辨識 地名辨識系統 地名識別規則庫 中國地名辨識系統

地名識別規則

地名識別規則

中國地名辨識系統結構圖

地名辨識範例 1.分詞

地名辨識範例 2.Ps(w) 、Pm(w) 、Pe(w) Threshold T1=0.005 T2=0.005 T1=0.007

地名辨識範例 3.選出”菜戶營橋” 4.收集上下文:位於、下 5.推理:用規則確認,左右界確定 菜戶營橋 中國地名評測語料封閉測試 Return rate=93.8% 正確率=86.7%

地名的自動辨識的困難 數量大、無規律 出現情況複雜 到北京、到十二月、到湖鄉 中國民間藝術之鄉 港、澳同胞 湖北京山縣 有眼不識泰山 老北京最喜歡吃的 地名長短:滬vs雙江拉估族佤族布朗族傣族自治縣

Outline 地名的自動辨識 組織機構名稱的自動辨識 英譯名的自動辨識

組織機構名稱的自動辨識 組織機構名稱的語法性質和語意特性 組織機構名稱自動辨識演算法 組織機構名稱分析系統 組織機構名稱分析系統的改進

語法性質和語意特性 名詞(大部分)|形容詞|序數詞|動詞 + 機構中心語(名詞) 分類 地名:北京大學 人名:中山大學 學科專業、部門系統:電子工業部、教育委員會 研究、生產、經營對象:軟件研究所 上述綜合:白求恩醫科大學 大機構、團體、組織、職業:中國人民解放軍外語學院、中國發明家學會 專造的機構名:復旦大學、四通公司 創辦工作方式:某某集團、某某股份公司

語法性質和語意特性 {<地名><機構團體>} | <序數詞> | {<人名> | <專造名>} | {<產品、對象>|<功能/方式/等級>|<學科/行業>} + <機構稱呼詞> 越是反映事物固定內在本質的定語越靠近中心詞 各機構可進一步規範:高校名稱的構造規則--<地名><機構團體><序數詞><人名><專造名><為學方式><學科/行業>+”大學/學院/院.等”

組織機構名稱自動辨識演算法

組織機構名稱分析系統

組織機構名稱分析系統的改進 附加規則1:首詞為地名且後接有地名人名機構團體或專造名則該地名不包括在高效名稱中。Ex:上海復旦大學、美國華盛頓大學 附加規則2:表示地區方位的方位詞(東南西北中)可視為地名或地名的組成部份。Ex:中央音樂學院、中南工業大學 附加規則3:高校修飾語不能只含有國家或更大區域的名稱。Ex:中國高中X

組織機構名稱分析系統的改進 前後界定位均正確者 後界定位正確者 Return rate=93.8% 正確率=86.7% 正確率=99.4%

Outline 地名的自動辨識 組織機構名稱的自動辨識 英譯名的自動辨識

英語譯名的自動辨識 英語譯名識別的當用資源 英語譯名的自動識別算法

英語譯名識別的當用資源 英語姓名譯名用字表(英語姓名譯名手冊) CC-Only-Head Ex:包牛 CC-Not-Head Ex:子琴 CC-Only-Tail Ex:生雄 CC-Not-Tail Ex:卓強 聯想表 Ex:其-->奇 汗-->漢

英語姓名譯名用字表

英語譯名的自動識別算法

英語譯名的自動識別算法 範例:他對諾貝爾醫學與生理獎獲得者休伯和書塞爾教授的研究成果作出修正 靠用字表得出:諾貝爾、生理、得者休伯、書塞爾 生->CC-Not-Head 得,者->CC-Not-Head

英語譯名的自動識別算法 範例:任命雷鳥本.利斯塔為海軍新聞發布官 靠用字表得出:雷鳥本.利斯塔為 為->CC-Not-Tail

英語譯名的自動識別實測 十萬句隨機抽取1500句含譯名的句子 真實譯名有2103個 找到2574個潛在譯名裡面1806個正確譯名 Return rate=88% 正確率=72% 可用新英語詞典附錄的常用英語姓名表來提高Return rate和正確率

suah Thank you