Presentation is loading. Please wait.

Presentation is loading. Please wait.

黄昌宁 清华大学计算机科学与技术系 cnhuang0908@126.com 国内中文树库需加强 谓词-论元结构描写 黄昌宁 清华大学计算机科学与技术系 cnhuang0908@126.com.

Similar presentations


Presentation on theme: "黄昌宁 清华大学计算机科学与技术系 cnhuang0908@126.com 国内中文树库需加强 谓词-论元结构描写 黄昌宁 清华大学计算机科学与技术系 cnhuang0908@126.com."— Presentation transcript:

1 黄昌宁 清华大学计算机科学与技术系 cnhuang0908@126.com
国内中文树库需加强 谓词-论元结构描写 黄昌宁 清华大学计算机科学与技术系

2 提纲(第一部分) 宾州树库简介 X-标杠模式 谓词-论元结构的标注实例 国内外中文树库的对比 讨论

3 宾州英文树库(PTB) 1989-1992: 宾州英文树库(PTB-I) ◇支配及约束(GB)理论,X-标杠理论
◇华尔街日报真实语料: 100万词次 : 宾州英文树库(PTB-II) (Marcus et al.1994) ◇增加谓词-论元结构的标注 ◇空语类(empty category)和同指索引(co-indexing)

4 宾州中文树库(CTB) 1998-2000:宾州中文树库(CTB-I) ◇重要目标:谓词-论元结构的描写
◇新华通讯社新闻稿: 规模10万词次 2007:宾州中文树库(CTB 6.0) ◇增加人民日报、香港新闻电讯和台湾期刊等语料,规模增加到73万词次

5 X-标杠模式 在句法中,通过词项投射和填位过程生成出来的二阶短语必须符合如下X-标杠模式:
说明语(又称标定语)、附加语和补足语只是出现在短语某一特定位置上的短语名称。 在句法中,通过词项投射和填位过程生成出来的二阶短语必须符合如下X-标杠模式:

6 CTB规范定义的三种语法关系 (1) 中心语-补足语关系(complementation)
(2) 中心语-附加语关系(adjunction)

7 CTB规范定义的三种语法关系 (3) 并列关系(coordination)
依据X-标杠模式,CTB使每个短语节点所统辖的括号对或子树只表示一种抽象的语法关系。 CTB严格区分述语动词的补足语和附加语,使谓词-论元结构的识别建立在可靠的句法基础上。

8 CTB例1:表的表示 例1:浦东积极、及时地制定和推出法规性文件。 (IP (NP-PN-SBJ (NR 浦东))
(VP (DVP (ADVP (AD 积极) 【ADVP: DEV的补足语】 (PU 、) (AD 及时)) (DEV 地)) 【DEV: DVP的中心语】 (VP (VP (VV 制定) 【RNR: 右节点爬升】 (NP-OBJ (-NONE- *RNR*-1))) (CC 和) (VP (VV 推出) 【VV:VP的中心语】 (NP-OBJ-1 (NN 法规性) (NN 文件)))))) 【NP-OBJ-1: VV的补足语】

9 CTB例1:树的表示 例1:浦东积极、及时地制定和推出法规性文件。

10 CTB例1:语义角色标注

11 CTB例2:宾语控制动词“批准” 例2:国务院批准这些城市成立边境经济合作区。

12 CTB例2:语义角色标注 例2:国务院批准这些城市成立边境经济合作区。

13 CTB例3:话题句 例3:各种收费已在一个月前宣布。

14 CTB例3:语义角色标注

15 概率型上下文无关语法(PCFG) PCFG是一种表层的树库语法(Treebank Grammar)
它以删除空语类和功能标记的树库作为训练样本 (IP (NP-TPC-2 (DP (DT各) (CLP (M 种))) (NP (NN 收费))) (NP-SBJ (-NONE- *pro*)) (VP (ADVP (AD 已)) (PP-TMP (P 在) (LCP (NP (QP (CD 一) (CLP (M 个))) (NP (NN 月))) (LC 前))) (VP (VV 宣布) (NP-OBJ (-NONE- *T*-2)))))

16 删除空语类和功能标记 (IP (NP-TPC-2 (DP (DT各) (CLP (M 种))) (NP (NN 收费)))
(NP-SBJ (-NONE- *pro*)) (VP (ADVP (AD 已)) (PP-TMP (P 在) (LCP (NP (QP (CD 一) (CLP (M 个))) (NP (NN 月))) (LC 前))) (VP (VV 宣布) (NP-OBJ (-NONE- *T*-2)))))

17 删除后的树库样本 (IP (NP (DP (DT各) (CLP (M 种))) (NP (NN 收费)))
(VP (ADVP (AD 已)) (PP (P 在) (LCP (NP (QP (CD 一) (CLP (M 个))) (NP (NN 月))) (LC 前))) (VP (VV 宣布))))

18 讨论:黎锦熙定义的补足语 (黎锦熙 1924:27)补足语总共有五种,都是用来补足句中谓语(动词)所没有完全表达出来的意思的,所以叫补足语。(简称足语,和后附于动词或形容词的‘副词性附加语’即一般所谓补语的性质不同,成分不同。) 黎氏句本位思想:要在句子的整体视野下考察句子的语法结构,否则句子意思是不完整的。 从本质上讲,词组本位用上下文无关的眼光看待短语和句子的结构,因此它不描写跨短语或跨小句的谓词-论元关系。

19 讨论:黎著中的补足语例句 黎氏把宾语和补足语都定义为动词的连带成分。如同动词(系词和动词“有”)后的名词性成分: ○工人是劳动者。
○空气也有重量。 后来被称为递系句和兼语句的句型,黎氏当时称之为特定外动词及其连带成分所形成的句型: ○工人请我报告。 ○工人推举张同志作代表。 ○我爱他们诚实。

20 讨论:用“补足语”取代“补语” 国内语法学界把补语定义为动词后面的副词性附加语,而补语和补足语的英译名都是complement。“前主后宾,前状后补”是结构主义留给我们的遗产吗? 吕叔湘在“现代汉语语法(提纲)”(未发表)中主张完全抛弃“补语”的国内通行含义,重新将“补语” 用于类似于“补足语”的含义。 (《吕叔湘全集》第十三卷: ) CTB在大规模树库中完全不用“补语”这个概念,其利弊得失可供我们自由评说。

21 北京大学中文树库(詹卫东 2008) 例4:赞扬侨胞台胞为支援祖国的社会主义建设做出了重要贡献。(小句兵)

22 北京大学中文树库(PKU) 詹坦言,北京大学和清华大学提出的句法标住体系,“主要是以结构主义语法理论为背景”,由于PKU的加工规范“不假设深层结构,因而也没有深层结构成分的标记”;并且“从资料的易维护性和易扩展性考虑”,“主张分层分级标注”短语的内部结构类型、语义角色等信息,“而不实行宾州树库那样将这些信息都以树节点标签的形式来反映”。 (詹卫东 2008) 生成语法后期已放弃深层结构的假设,而且改变了前期把句法和语义割裂开来的错误做法,这一时期的重要进步是:用空语类和同指索引描写句子中的远距离依存关系。国内树库建设出现某些疏漏的主要原因是:对当代语言学理论存有不同认识。

23 例4的CTB格式(兼语句) 例4:赞扬侨胞台胞为支援祖国的社会主义建设做出了重要贡献。(詹卫东 2008)

24 结束语 国内中文树库对促进汉语句法分析技术的进步作出了巨大的贡献,然而它们在谓词-论元结构描写方面的疏漏也是明显的。
树库建造离不开语言学理论的指导,我们在语言理论上的落后应当引起足够重视。 今后构建的中文树库应在句法、语义两个层面上加强谓词-论元结构描写;现有树库则可通过适当改造来加深句法描写深度。

25 谢谢!


Download ppt "黄昌宁 清华大学计算机科学与技术系 cnhuang0908@126.com 国内中文树库需加强 谓词-论元结构描写 黄昌宁 清华大学计算机科学与技术系 cnhuang0908@126.com."

Similar presentations


Ads by Google