Presentation is loading. Please wait.

Presentation is loading. Please wait.

自然语言处理 第06章 词法分析概述 软件学院 陈鄞.

Similar presentations


Presentation on theme: "自然语言处理 第06章 词法分析概述 软件学院 陈鄞."— Presentation transcript:

1 自然语言处理 第06章 词法分析概述 软件学院 陈鄞

2 引言 词法分析的任务 单词的识别 汉语方面 汉语自动分词 英语方面 英文断词 英语形态还原(lemmatization) 词性标注

3 本章内容 6.1 英文断词 6.2 英文形态还原

4 6.1 英文断词(tokenization) 断词过程中容易引起歧义的符号 句点(period) 撇号(apostrophe)
连字符(hyphen)

5 The experiments led by Dr. Alan achieved a precision of 90.7%.
6.1.1 句点引起的歧义 句点的作用 The experiments led by Dr. Alan achieved a precision of 90.7%. (1)句子结束(93.20%,Brown语料) (2)小数点 (3)缩写: Jan. Feb. Mar. U. S. Calif. Wash. …… (4)缩略:缩写词出现在句尾时,句子末尾只保留一个句点。 数字表达式的构成比较有规律,小数点多数位于中间,前后有数字相邻,很少引起歧义。 缩写中的句点位于单词的后面,同句号产生冲突 如何识别缩写?

6 缩写的识别 通常采用基于规则的方法 不借助词表 借助词表(通用词表、缩略词表)

7 缩写的识别:不借助词表 单个字母后接一个句点,如 连续的“字母-句点”序列,如 一个大写字母后接若干辅音小写字母及句点,如
M. H. Thatcher Ronald W. Reagan 连续的“字母-句点”序列,如 U. S. i. e. 一个大写字母后接若干辅音小写字母及句点,如 Mr. St. Assn. 对Brown语料的句子切分准确率由93.20%提高到97.66%

8 缩写的识别:借助词表 将待判定的字符串记为S,字符串及后面的句点记为S’ S在通用词表中存在,则S’不是缩写

9 (“is” or “was” or “has”?)
6.1.2 撇号引起的歧义 撇号主要用于构成英文的动词缩写式(verb contractions)和名词所有格(genitive of nouns) 撇号的处理:分为两个单元 I’m → I + ’m won’t → wo + n’t children’s → children + ’s he’s → he + ’s parents’ → parents + ’ 由词性标注过程进行消歧 (“is” or “was” or “has”?) (所有格or右单引号?) 是否存在左单引号 下一个词的词性信息

10 6.1.3 连字符引起的歧义 连字符的功能 歧义情况 构成合成词 在排版时调整格式 第一类功能的连字符恰好处于行尾
固定成词,如: ,co-operate 根据特定用法或语言环境生成的词,如four-year, ,All-In-One 在排版时调整格式 此时需去掉连字符 歧义情况 第一类功能的连字符恰好处于行尾 解决方案:主要通过词表解决

11 6.1.4 断句 基本思想 句末标点 多个句末点号 句末点号之后还有右侧标号 句号、问号、感叹号、分号、冒号 ?! !! ……
“这是你的课本吗?”“不是,是小张的。”他微笑着回答。 找到句末标点时,不能认为这一句已结束,应该再往后搜索,直到不是句末点号为止。 发现(若干个连续的)句末点号之后,如果遇到右侧标号,还应该搜索完所有连续的右侧标号。

12 提纲 6.1 英文断词 6.2 英文形态还原

13 6.2 英文形态还原 英语具有丰富的词形变化(如works, worked, working),如果把这些词形变化的单词也放在词典中,会造成词典规模过大 英语的形态变化大多数都是有规律的,可以通过形态还原技术来解决这个问题 英语形态还原(lemmatization):去除屈折型语言的词尾形态变化,将其还原为词的原形,即词元(lemma)

14 基于规则的形态还原方法 动词 -ed -ing -s *ed → * (worked → work)
*ed → *e (believed → believe) *ied → *y (studied → study) -ing *ing → * (developing → develop) *ing → *e (saving → save) *ying → *ie (dying → die) -s *s → * (works → work) *es → * (discusses → discuss) *ies → *y (studies → study)

15 基于规则的形态还原方法 动词 名词 -s -’s *s → * (pens → pen) *es → * (boxes → box)
*ies → *y (bodies → body) *ves → *f (knives → knife) -’s *’s → * (children’s → children) *s’ → *s (parents’ → parents)

16 基于规则的形态还原方法 动词 名词 形容词 -er - est - ly *er → * (colder → cold)
*ier → *y (easier → easy) - est *est → * (coldest → cold) *iest → *y (easiest → easy) - ly *ly → * (hardly → hard) 对于不规则的形态变化,建立不规则词表

17 形态剖析 在词形还原的过程中可以获得丰富的词法信息,这也为句法分析的后续处理提供了重要依据 形态剖析的标准算法
“词表+规则”的有限状态转录机(Finite-state transducer, FST) 冯志伟,孙乐译,自然语言处理综论,电子工业出版社,2005.6 输入 输出 cat cat + N + SG cats cat + N + PL cities city + N + PL goose goose + N + SG goose + V geese goose + N + PL gooses goose + V + 3SG merging merge + V + PRES-PART caught catch + V + PAST-PART catch + V + PAST

18 词干提取 词干提取(stemming) 形态还原vs.词干提取 把具有形态变化的单词还原成词干形式 形态还原的目标是获得词元 (lemma)
CONNECT CONNECTED CONNECTING CONNECTION CONNECTIONS 词干可能是词元,也可能不是词 COMPUTES COMPUTED COMPUTING 词干 stem 词缀 suffix 词干 stem 词缀 suffix

19 词干提取可以用于完成信息检索(IR)这样的任务 词干提取的主要方法
基于规则的方法——Porter算法 M.F.Porter. An algorithm for suffix stripping. 1980 基于统计的方法——后继变化数法

20 Porter算法—— The most common English stemmer

21 Some difinitions c→辅音字母(consonant ) v→元音字母(vowel)
C → a list ccc... of length greater than 0 V → a list vvv... of length greater than 0 (VC)m → VC repeated m times, Any word can be written form: [C](VC)m[V] examples: m=0 TREE, BY m=1 TROUBLE, OATS, TREES, IVY m=2 TROUBLES, PRIVATE, OATEN, ORRERY

22 Rules (condition) S1 → S2 if a word ends with the suffix S1, and the stem before S1 satisfies the given condition, S1 is replaced by S2. example In a set of rules written beneath each other, only one is obeyed, and this will be the one with the longest matching S1 for the given word. Step 1a SSES → SS IES → I SS → SS S → caresses ponies ties caress cats → caress → poni → ti → cat

23 If the second or third of the rules in Step 1b is successful
*d → the stem ends with a double consonant (e.g. -TT, -SS). *o → the stem ends cvc, where the second c is not W, X or Y (e.g. -WIL, -HOP). Step 1b (m>0) EED -> EE (*v*) ED -> (*v*) ING -> agreed -> agree feed > feed plastered -> plaster bled > bled motoring -> motor sing > sing If the second or third of the rules in Step 1b is successful AT -> ATE BL -> BLE IZ -> IZE (*d and not (*L or *S or *Z))-> single letter (m=1 and *o) -> E conflat(ed) -> conflate troubl(ed) -> trouble siz(ed) > size hopp(ing) -> hop tann(ed) -> tan fall(ing) -> fall hiss(ing) -> hiss fizz(ed) -> fizz fil(ing) -> file fail(ing) -> fail

24 Step 1c (*v*) Y -> I happy -> happi sky -> sky

25 Step 2 (m>0) ATIONAL -> ATE relational -> relate
(m>0) TIONAL -> TION conditional -> condition rational > rational (m>0) ENCI -> ENCE valenci > valence (m>0) ANCI -> ANCE hesitanci > hesitance (m>0) IZER -> IZE digitizer > digitize (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli > radical (m>0) ENTLI -> ENT differentli -> different (m>0) ELI -> E vileli > vile (m>0) OUSLI -> OUS analogousli -> analogous (m>0) IZATION -> IZE vietnamization -> vietnamize (m>0) ATION -> ATE predication -> predicate (m>0) ATOR -> ATE operator > operate (m>0) ALISM -> AL feudalism > feudal (m>0) IVENESS -> IVE decisiveness -> decisive (m>0) FULNESS -> FUL hopefulness -> hopeful (m>0) OUSNESS -> OUS callousness -> callous (m>0) ALITI -> AL formaliti > formal (m>0) IVITI -> IVE sensitiviti -> sensitive (m>0) BILITI -> BLE sensibiliti -> sensible

26 Step 3 (m>0) ICATE -> IC triplicate -> triplic
(m>0) ATIVE -> formative > form (m>0) ALIZE -> AL formalize > formal (m>0) ICITI -> IC electriciti -> electric (m>0) ICAL -> IC electrical -> electric (m>0) FUL -> hopeful > hope (m>0) NESS -> goodness > good

27 Step 4 (m>1) AL -> revival -> reviv
(m>1) ANCE -> allowance > allow (m>1) ENCE -> inference > infer (m>1) ER -> airliner > airlin (m>1) IC -> gyroscopic -> gyroscop (m>1) ABLE -> adjustable -> adjust (m>1) IBLE -> defensible -> defens (m>1) ANT -> irritant > irrit (m>1) EMENT -> replacement -> replac (m>1) MENT -> adjustment -> adjust (m>1) ENT -> dependent > depend (m>1 and (*S or *T)) ION -> adoption > adopt (m>1) OU -> homologou > homolog (m>1) ISM -> communism > commun (m>1) ATE -> activate > activ (m>1) ITI -> angulariti -> angular (m>1) OUS -> homologous -> homolog (m>1) IVE -> effective > effect (m>1) IZE -> bowdlerize -> bowdler

28 Step 5a (m>1) E -> probate > probat rate > rate (m=1 and not *o) E -> cease > ceas Step 5b (m > 1 and *d and *L) -> single letter controll > control roll > roll

29 An example generalizations → generalization (Step 1)
→ generalize (Step 2) → general (Step 3) → gener (Step 4)

30 在后继变化数比前后都大、出现尖峰的位置切开 通过统计的方法自动地获得词干,和语言关联性不大
后继变化数法 后继变化数 语料库中跟在某个字符串后的不同字符的个数 在后继变化数比前后都大、出现尖峰的位置切开 基于对文本集合的统计分析 给定一个足够大的语料库, 可以通过统计的方法获得词干 这种方法是自动的,和语言关联性不大的 切出来的词必须完整 如:READ 考虑英文词典 pr? -> 后继变化数是多少? pro? -> ? pr 和 pro 谁更像一个词根? 直觉:如果一个字符串的后继变化数值很低,则可能是一个词根 通过统计的方法自动地获得词干,和语言关联性不大

31 课程作业 作业2 (15分) 作业3( 15分,选做) 以上两个作业均要求 内容 自行准备测试样本和答案,并提供自动测试功能
设计并实现英文句子切分工具 作业3( 15分,选做) 设计并实现英文形态还原工具 以上两个作业均要求 自行准备测试样本和答案,并提供自动测试功能 将作业提交至乐学网( readme )文件等 提交截至时间:2016年5月15日23:55

32 结束


Download ppt "自然语言处理 第06章 词法分析概述 软件学院 陈鄞."

Similar presentations


Ads by Google