自然语言处理 第06章 词法分析概述 软件学院 陈鄞.

Slides:



Advertisements
Similar presentations
八年级英语冀教版上 Lesson 34 制作人:张国凤. Teaching Aims 1.Vocabulary: stay, somebody, check, ambition, predict, etc. 2.Sentence Patterns: My ambitition is to be an.
Advertisements

Chapter 2 Combinatorial Analysis 主講人 : 虞台文. Content Basic Procedure for Probability Calculation Counting – Ordered Samples with Replacement – Ordered.
allow v. wrong adj. What’s wrong? midnight n. look through guess v. deal n. big deal work out 允许;准许 有毛病;错误的 哪儿不舒服? 午夜;子夜 快速查看;浏览 猜测;估计 协议;交易 重要的事.
English Grammar Edited and Published For Your Reference Only.
一. 不定冠词的用法. 分析 : a 和 an 均用于单数可数名词 之前,表示一类人或事物中的 “ 任何 ” 一个,相当于汉语中的 “ 一 ” ,但不 用于强调数目的概念。 1. Jack’s father is _____ doctor. A. a B. an C. some D. /
Unit 6 I’m more outgoing than my sister. Unit 6 I’m more outgoing than my sister.
语态变化法 廖文君 许君 覃志斌. 这里说的语态是指主动语态和被动语 态。这两种语态在英汉两种语言中的 使用情况是很不相同的:英语大量使 用被动语态,而汉语很少使用,即使 使用,也不像英语那样有固定的构成 形式。譬如说,汉语的被动不是只用 一个 “ 被 ” 字表示。因此,为使译文更 加地道,在翻译中就必须采用变化语.
國中新編多元性向測驗.
Unit 7 Will people have robots? Think about our future … future world school life daily life science city…
新建本科院校 应用型人才培养若干问题探析 张德江.
Unit 10 Section B Period 2 (3a-Self Check). What’s your biggest worries? a lot of homework quarry with my friends.
機動普查員 培訓課程 1.2b 問卷內容 ﹙第四部分及學科編碼﹚ PPT_1.2b_問卷內容(四及學科編碼)_ST 1.
Adjective Review 形容词复习 锦州市实验学校 吴宏丽
谢天蔚 Dr. Tim Xie California State University, Long Beach
聖哉 聖哉 聖哉 全能的大主宰 Ho-ly Ho-ly Ho-ly Lord God Al-might-y 聖哉﹗聖哉﹗聖哉﹗全能大主宰
形容词与副词的比较等级.
How can we become good leamers
Phonetic Symbols 4 前元音 3 中元音 5 后元音 12 单元音 20 元音 48 音标 8 双元音 10对+8 辅音
Unit1 What’s the matter? 学科网.
Lesson 8 Students: 2-3 students in one group
中四中五家長講座 同行會考路 (二零零八年三月十五日).
湖州中学微课程 走进定语从句的世界 --初识定语从句 湖州中学 朱筱杭 湖州中学微课程.
词缀法记英文单词 谭 方 黎 江苏科技大学.
Unit2 School life Reading 2.
Welcome Welcome to my class Welcome to my class!.
Unit 4 What can you do? Lesson 4 绿色圃中小学教育网
Unit 4 Our World Section A
The Bug Book Adjectives
Operators and Expressions
Been During the Vacation?
Grammar & usage.
Module 5.
Topic 3 We had a wonderful party.
! 温故知新 上下文无关文法 最左推导 最右推导 自上而下 自下而上 句柄 归约 移进-归约冲突 移进-归约分析 递归下降预测分析
M3 U7 LESSON 3-2 The Sea World Grammar.
資料庫結構與組織.
第四章 语 法 【教学目的要求】  认识语法在语言系统中的地位;掌握语法中的组合规则与聚合规则,并能结合语言事实进行分析;认识变换的意义;认识不同语言的语法结构的特点。
现代信息检索 Modern Information Retrieval
机器学习与数据挖掘 样本准备(2).
⑥ 词汇.
Uses of “It” I、 用作人称代词的 it II. 用作先行词的 it III. 用在强调句型中的 it
Lesson 44:Popular Sayings
主耶穌是我良友 有主勝得萬有 萬人中救主是我最好靈友 主是谷中百合花 我惟一需要祂 祂能洗淨我使我聖潔無瑕
Unit 1 鸳大九义校 杨付春.
單複數與冠詞 英三B 楊婷鈴.
Unit 4.
构词法 Word-formation 定义:按照语言一定的规律创造新词的方法叫作构词法。
Could you please clean your room?
lesson10 How Many Are There?
第十五课:在医院看病.
售后维修技术指导与问题解析 -飞机类 韩亚军
Unit 1 How can we become good learners?
二、雅思学术类阅读题型 10种题型 5种大题型+5种小题型.
建国以来,大陆对台政策 金亚丽 周莎 黄运娜.
形容詞比較級的用法.
Let’s Spell Unit4 At the farm (A) 义务教育教科书 英语(PEP) (三年级起点) 四年级下册
兒少保護通報處理流程介紹 臺中市家庭暴力及性侵害防治中心 陳秀婷/張美慧 社工督導員 2012/10/19.
中考英语阅读理解 完成句子命题与备考 宝鸡市教育局教研室 任军利
高考应试作文写作训练 5. 正反观点对比.
課稅負擔的歸屬.
參考資料: 黃慕萱,Chap. 2-3 Harter, Chap. 3
冀教版 九年级 Lesson 20: Say It in Five.
國立清華大學 National Tsing Hua University
厦大附中高三英语备课组 专题讲座系列 构词法.
Revision (Four tenses) Liyang Xiping Primary School Jiang Yihua
自主练悟 ①(2017·桂林市联考)To them, life is a competition — they have to do _______ (good) than their peers to be happy. ②(2017·菏泽市模拟)People who forgive.
Views on the News 不同的观点 选自《多维阅读第11级》.
Energy Saving Equipment
In the World but not of the World –
Presentation transcript:

自然语言处理 第06章 词法分析概述 软件学院 陈鄞

引言 词法分析的任务 单词的识别 汉语方面 汉语自动分词 英语方面 英文断词 英语形态还原(lemmatization) 词性标注

本章内容 6.1 英文断词 6.2 英文形态还原

6.1 英文断词(tokenization) 断词过程中容易引起歧义的符号 句点(period) 撇号(apostrophe) 连字符(hyphen)

The experiments led by Dr. Alan achieved a precision of 90.7%. 6.1.1 句点引起的歧义 句点的作用 The experiments led by Dr. Alan achieved a precision of 90.7%. (1)句子结束(93.20%,Brown语料) (2)小数点 (3)缩写: Jan. Feb. Mar. U. S. Calif. Wash. …… (4)缩略:缩写词出现在句尾时,句子末尾只保留一个句点。 数字表达式的构成比较有规律,小数点多数位于中间,前后有数字相邻,很少引起歧义。 缩写中的句点位于单词的后面,同句号产生冲突 如何识别缩写?

缩写的识别 通常采用基于规则的方法 不借助词表 借助词表(通用词表、缩略词表)

缩写的识别:不借助词表 单个字母后接一个句点,如 连续的“字母-句点”序列,如 一个大写字母后接若干辅音小写字母及句点,如 M. H. Thatcher Ronald W. Reagan 连续的“字母-句点”序列,如 U. S. i. e. 一个大写字母后接若干辅音小写字母及句点,如 Mr. St. Assn. 对Brown语料的句子切分准确率由93.20%提高到97.66%

缩写的识别:借助词表 将待判定的字符串记为S,字符串及后面的句点记为S’ S在通用词表中存在,则S’不是缩写

(“is” or “was” or “has”?) 6.1.2 撇号引起的歧义 撇号主要用于构成英文的动词缩写式(verb contractions)和名词所有格(genitive of nouns) 撇号的处理:分为两个单元 例 I’m → I + ’m won’t → wo + n’t children’s → children + ’s he’s → he + ’s parents’ → parents + ’ 由词性标注过程进行消歧 (“is” or “was” or “has”?) (所有格or右单引号?) 是否存在左单引号 下一个词的词性信息

6.1.3 连字符引起的歧义 连字符的功能 歧义情况 构成合成词 在排版时调整格式 第一类功能的连字符恰好处于行尾 固定成词,如:e-mail,co-operate 根据特定用法或语言环境生成的词,如four-year,1983-1987,All-In-One 在排版时调整格式 此时需去掉连字符 歧义情况 第一类功能的连字符恰好处于行尾 解决方案:主要通过词表解决

6.1.4 断句 基本思想 句末标点 多个句末点号 句末点号之后还有右侧标号 句号、问号、感叹号、分号、冒号 ?! !! …… “这是你的课本吗?”“不是,是小张的。”他微笑着回答。 找到句末标点时,不能认为这一句已结束,应该再往后搜索,直到不是句末点号为止。 发现(若干个连续的)句末点号之后,如果遇到右侧标号,还应该搜索完所有连续的右侧标号。

提纲 6.1 英文断词 6.2 英文形态还原

6.2 英文形态还原 英语具有丰富的词形变化(如works, worked, working),如果把这些词形变化的单词也放在词典中,会造成词典规模过大 英语的形态变化大多数都是有规律的,可以通过形态还原技术来解决这个问题 英语形态还原(lemmatization):去除屈折型语言的词尾形态变化,将其还原为词的原形,即词元(lemma)

基于规则的形态还原方法 动词 -ed -ing -s *ed → * (worked → work) *ed → *e (believed → believe) *ied → *y (studied → study) -ing *ing → * (developing → develop) *ing → *e (saving → save) *ying → *ie (dying → die) -s *s → * (works → work) *es → * (discusses → discuss) *ies → *y (studies → study)

基于规则的形态还原方法 动词 名词 -s -’s *s → * (pens → pen) *es → * (boxes → box) *ies → *y (bodies → body) *ves → *f (knives → knife) -’s *’s → * (children’s → children) *s’ → *s (parents’ → parents)

基于规则的形态还原方法 动词 名词 形容词 -er - est - ly *er → * (colder → cold) *ier → *y (easier → easy) - est *est → * (coldest → cold) *iest → *y (easiest → easy) - ly *ly → * (hardly → hard) 对于不规则的形态变化,建立不规则词表

形态剖析 在词形还原的过程中可以获得丰富的词法信息,这也为句法分析的后续处理提供了重要依据 形态剖析的标准算法 “词表+规则”的有限状态转录机(Finite-state transducer, FST) 冯志伟,孙乐译,自然语言处理综论,电子工业出版社,2005.6 输入 输出 cat cat + N + SG cats cat + N + PL cities city + N + PL goose goose + N + SG goose + V geese goose + N + PL gooses goose + V + 3SG merging merge + V + PRES-PART caught catch + V + PAST-PART catch + V + PAST

词干提取 词干提取(stemming) 形态还原vs.词干提取 把具有形态变化的单词还原成词干形式 形态还原的目标是获得词元 (lemma) CONNECT CONNECTED CONNECTING CONNECTION CONNECTIONS 词干可能是词元,也可能不是词 COMPUTES COMPUTED COMPUTING 词干 stem 词缀 suffix 词干 stem 词缀 suffix

词干提取可以用于完成信息检索(IR)这样的任务 词干提取的主要方法 基于规则的方法——Porter算法 M.F.Porter. An algorithm for suffix stripping. 1980 基于统计的方法——后继变化数法

Porter算法—— The most common English stemmer

Some difinitions c→辅音字母(consonant ) v→元音字母(vowel) C → a list ccc... of length greater than 0 V → a list vvv... of length greater than 0 (VC)m → VC repeated m times, Any word can be written form: [C](VC)m[V] examples: m=0 TREE, BY m=1 TROUBLE, OATS, TREES, IVY m=2 TROUBLES, PRIVATE, OATEN, ORRERY

Rules (condition) S1 → S2 if a word ends with the suffix S1, and the stem before S1 satisfies the given condition, S1 is replaced by S2. example In a set of rules written beneath each other, only one is obeyed, and this will be the one with the longest matching S1 for the given word. Step 1a SSES → SS IES → I SS → SS S → caresses ponies ties caress cats → caress → poni → ti → cat

If the second or third of the rules in Step 1b is successful *d → the stem ends with a double consonant (e.g. -TT, -SS). *o → the stem ends cvc, where the second c is not W, X or Y (e.g. -WIL, -HOP). Step 1b (m>0) EED -> EE (*v*) ED -> (*v*) ING -> agreed -> agree feed -> feed plastered -> plaster bled -> bled motoring -> motor sing -> sing If the second or third of the rules in Step 1b is successful AT -> ATE BL -> BLE IZ -> IZE (*d and not (*L or *S or *Z))-> single letter (m=1 and *o) -> E conflat(ed) -> conflate troubl(ed) -> trouble siz(ed) -> size hopp(ing) -> hop tann(ed) -> tan fall(ing) -> fall hiss(ing) -> hiss fizz(ed) -> fizz fil(ing) -> file fail(ing) -> fail

Step 1c (*v*) Y -> I happy -> happi sky -> sky

Step 2 (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition rational -> rational (m>0) ENCI -> ENCE valenci -> valence (m>0) ANCI -> ANCE hesitanci -> hesitance (m>0) IZER -> IZE digitizer -> digitize (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical (m>0) ENTLI -> ENT differentli -> different (m>0) ELI -> E vileli - > vile (m>0) OUSLI -> OUS analogousli -> analogous (m>0) IZATION -> IZE vietnamization -> vietnamize (m>0) ATION -> ATE predication -> predicate (m>0) ATOR -> ATE operator -> operate (m>0) ALISM -> AL feudalism -> feudal (m>0) IVENESS -> IVE decisiveness -> decisive (m>0) FULNESS -> FUL hopefulness -> hopeful (m>0) OUSNESS -> OUS callousness -> callous (m>0) ALITI -> AL formaliti -> formal (m>0) IVITI -> IVE sensitiviti -> sensitive (m>0) BILITI -> BLE sensibiliti -> sensible

Step 3 (m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal (m>0) ICITI -> IC electriciti -> electric (m>0) ICAL -> IC electrical -> electric (m>0) FUL -> hopeful -> hope (m>0) NESS -> goodness -> good

Step 4 (m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer (m>1) ER -> airliner -> airlin (m>1) IC -> gyroscopic -> gyroscop (m>1) ABLE -> adjustable -> adjust (m>1) IBLE -> defensible -> defens (m>1) ANT -> irritant -> irrit (m>1) EMENT -> replacement -> replac (m>1) MENT -> adjustment -> adjust (m>1) ENT -> dependent -> depend (m>1 and (*S or *T)) ION -> adoption -> adopt (m>1) OU -> homologou -> homolog (m>1) ISM -> communism -> commun (m>1) ATE -> activate -> activ (m>1) ITI -> angulariti -> angular (m>1) OUS -> homologous -> homolog (m>1) IVE -> effective -> effect (m>1) IZE -> bowdlerize -> bowdler

Step 5a (m>1) E -> probate -> probat rate -> rate (m=1 and not *o) E -> cease -> ceas Step 5b (m > 1 and *d and *L) -> single letter controll -> control roll -> roll

An example generalizations → generalization (Step 1) → generalize (Step 2) → general (Step 3) → gener (Step 4)

在后继变化数比前后都大、出现尖峰的位置切开 通过统计的方法自动地获得词干,和语言关联性不大 后继变化数法 后继变化数 语料库中跟在某个字符串后的不同字符的个数 在后继变化数比前后都大、出现尖峰的位置切开 基于对文本集合的统计分析 给定一个足够大的语料库, 可以通过统计的方法获得词干 这种方法是自动的,和语言关联性不大的 切出来的词必须完整 如:READ 考虑英文词典 pr? -> 后继变化数是多少? pro? -> ? pr 和 pro 谁更像一个词根? 直觉:如果一个字符串的后继变化数值很低,则可能是一个词根 通过统计的方法自动地获得词干,和语言关联性不大

课程作业 作业2 (15分) 作业3( 15分,选做) 以上两个作业均要求 内容 自行准备测试样本和答案,并提供自动测试功能 设计并实现英文句子切分工具 作业3( 15分,选做) 设计并实现英文形态还原工具 以上两个作业均要求 自行准备测试样本和答案,并提供自动测试功能 将作业提交至乐学网(https://cms.hit.edu.cn),包括:源程序、测试样本、答案、使用说明( readme )文件等 提交截至时间:2016年5月15日23:55

结束