Download presentation
Presentation is loading. Please wait.
1
从句分析的一些总结 丁文韬
2
依存关系和从句的联系 如果相信依存分析的结果,“找到”从句可以直 接通过检查依存标记来完成。 并列句 时间、因果类从句
and, or, …:词/短语级和从句的并列在标记上相同 *需要结合cc标记两侧的结构来分析 时间、因果类从句 有对应的的从句类标记advcl,是哪一类要再分析 先导词的标记均为mark 现代分词/过去分词/不定式类的“从句”也是advcl 但不会有先导词 有没有先导词是一个比较好的处理标准
3
识别从句的类别 即使考虑词性序列,特定从句的模式可能仍然是 可能需要一个模式多种处理 不可靠的 or 不够多的
有比较明确的关键词列表(if, because, when, …) 不能保证完整 时间从句和条件从句的区分 when/whenever 可能需要一个模式多种处理 引入概率 可能回到了一个实现parser的工作 需要考虑近年的新技术,大量的机器学习技巧
4
数据的一些情况 Universal Dependency 实际出现的advcl从句主要就是时间/因果类的
文本类别:weblog、 、answers、review 实际出现的advcl从句主要就是时间/因果类的 时间:when占绝大多数,偶尔有after/before 但是when到底是时间还是条件呢? 因果:if/as最常见,#so > #because > #since for几乎不引导因果类的从句 整体上说,数据在这类从句上还是比较理想的 除了时间和条件的区别,基本不需要比较深的处理 (个别情况深处理也不一定能解决)
5
一些复杂情况 是从句,但是看不到作为主语的名词 # sent_id = reviews-140302-0003
# text = The paint and wheels looked like glass and the interior looked new! 1 The DET DT Definite=Def|PronType=Art 2 det paint NOUN NN Number=Sing 5 nsubj 3 and CCONJ CC _ 4 cc wheels NNS Number=Plur conj looked VERB VBD Mood=Ind|Tense=Past|VerbForm=Fin root 6 like ADP IN 7 case glass obl 8 11 9 the 10 interior ADJ JJ Degree=Pos 12 new xcomp 13 ! PUNCT . punct
6
一些复杂情况 多个“先导词”的从句结构(类似的还有even if) 1 They PRON PRP
# sent_id = weblog-blogspot.com_marketview_ _ENG_ _ # text = They work on Wall Street, after all, so when they hear a company who's stated goals include "Don't be evil", they imagine a company who's eventually history will be "Don't be profitable." 1 They PRON PRP Case=Nom|Number=Plur|Person=3|PronType=Prs 2 nsubj work VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin root … 10 so ADV RB _ 28 advmod 11 when WRB PronType=Int 13 mark 12 they hear advcl 25 , PUNCT punct 26 '' 27 imagine parataxis
7
Q & A Thanks for listening
Similar presentations