Presentation is loading. Please wait.

Presentation is loading. Please wait.

中国传媒大学 播音主持艺术学院 侯 敏 houminxx@263.net 传媒语言语料库的 建设与应用 中国传媒大学 播音主持艺术学院 侯 敏 houminxx@263.net.

Similar presentations


Presentation on theme: "中国传媒大学 播音主持艺术学院 侯 敏 houminxx@263.net 传媒语言语料库的 建设与应用 中国传媒大学 播音主持艺术学院 侯 敏 houminxx@263.net."— Presentation transcript:

1 中国传媒大学 播音主持艺术学院 侯 敏 houminxx@263.net
传媒语言语料库的 建设与应用 中国传媒大学 播音主持艺术学院 侯 敏

2 主要内容 一、建设传媒语言语料库的目的 二、传媒语言语料库的结构 三、语料的采集与标注 四、传媒语言语料库的应用 五、目前存在的问题

3 一、建设传媒语言语料库的目的 语料库已成为语言研究和自然语言信息处理研究 的信息源和知识源,成为一种必要的现代化的研 究工具和手段;
广播电视语言对社会语言生活具有深远的影响; 为我院教师、研究生研究广播电视语言搭建一个 平台,提供语言资源及现代化工具,为教学服务; 为所有对传媒有声语言、尤其是 广播电视语言有 兴趣的人员提供研究资源及现代化工具,为社会 服务。

4 二、传媒语言语料库的结构 传媒语料库 文本语料库 音视频语料库 音视频 熟语料库 文本 熟语料库 音视频 生语料库 文本 生语料库

5 生语料库检索界面

6 熟语料库检索界面

7 音视频语料库点播系统界面

8 三、语料的采集与标注 语料的采集  文本语料的采集  音视频语料的采集 语料的标注  文本语料的标注  音视频语料的标注

9 工作流程 音视频采集工作站 磁盘阵列 DVD录像机 数字化工作站 互联网 转写工作站 用户浏览查询终端 语料加工工作站 服务器

10 音频语料的采集和标注 语料规模:大约400小时 语料内容:以新闻节目为主 电视节目:340小时 广播节目:50小时 其 他:10小时
其 他:10小时 已 标 注:1小时 标注工具:开发了一个面向汉语的语音标注系统

11 基于Tcl/Tk+Snack开发的语音标注工具界面
标注文件可以和其他语音处理软件兼容,如PRAAT等; 中文界面,实现了中文语音文件的汉字标注。

12 汉字层 拼音层 声韵层 停断层 重音层 基于Tcl/Tk+Snack工具开发的标注工具界面及标注实例

13 文本语料的采集 采集原则:以节目文本为单位,全面采样,力求均衡; 语料来源:电台、电视台网站的节目文本;
选样参数:大陆与港台、中央与地方、不同的语言样态 不同的受众群体、不同的内容领域…… 目前规模:目前已达到5000万字(不包括篇头信息) 电视语料4000万; 包括17家电视台,165个电视栏目; 广播语料1000万; 包括22家电台,133个广播栏目; 总共有12396个文件。

14 文本语料的标注 篇头信息:各种背景信息的标注(元数据) 篇体信息:自动分词 词性信息标注 语体信息标注 句法信息标注 语义关系信息标注
语用信息标注 篇章关系标注 已做 正在做

15 词性标注样本 熟语的双层标注 语体信息标注 许多/m 游客/n 在/p 景点/n 前/f “/w 望票兴叹/v/i/ls ”/w 。/w 游客/n 是/v “/w 车/n 到/v 山/n 前/f ”/w ,/w 进退两难/v/i ,/w 大老远/a/ky 慕名而来/v/l ,/w 如/c 不/d 进去/v 游览/v ,/w 实在/d 不/d 甘心/v ,/w 而/c 要/v 了却/v “/w 到此一游/v/l ”/w 的/u 心愿/n ,/w 一行/n 三五/m 人/n 就/d 得/v 先/d 掏/v 几百/m 元/q 的/u “/w 进门费/n/ls ”/w 。/w

16 句法、语义关系标注样本 XWLB <P>(DJ_ZJ(O1_SU 胡/nr 锦涛/nr ) (I1 主持/v) (O2_OB 仪式/n )(I2 欢迎/v )(O3_OS_NP(A_LS 拉脱维亚/ns)(!总统/n )) (I3 访华/v )) </P> XWLB (YF(O_SU 孔/nr 泉/nr )(I 说/v ) ,/w ) (DJ_ZJ (E1_SJ_NP 4月/t 13号/t ,/w )(O_DS_NP(A1_NU_QP 17/m 名/q )(A2_LS 中国/ns )(! 船员/n )(E2_CS_PP 在/p 印度/ns 孟加拉湾/ns 海域/n )(E3_YY_PP 因/p 沉船/v )(I 遇险/v ) 。/w ) XWLB (DJ_ZJ(E_SJ_FP中拉关系/n 正常化/v 以来/f ,/w) (O_DS_NP (A_LS_NP 两/m 国/n)(!关系/n )) (E_ZT 顺利/a )(I 发展/v ) 。/w )

17 篇章标注(RST树图分析)样本

18 多层次 一体化 目标与特点 语音(音节、韵律标注) 文字 词语(分词、词性标注、语体信息、语用信息) 短语(浅层分析、短语结构标注)
多层次 一体化 语音(音节、韵律标注) 文字 词语(分词、词性标注、语体信息、语用信息) 短语(浅层分析、短语结构标注) 句子(句法、语义关系标注) 篇章(篇章关系标注)

19 四、传媒语言语料库的应用 研制语料库分词标注系统 面向信息处理的语言研究 一般的语言研究 广播电视语言研究 普通话韵律研究

20 五、目前存在的问题 语料使用权问题 文本语料自动及辅助标注工具的研制 音视频语料的转写 音频语料的标注 语料库的功能 带标语料库的运用

21 请批评指正! 谢谢!


Download ppt "中国传媒大学 播音主持艺术学院 侯 敏 houminxx@263.net 传媒语言语料库的 建设与应用 中国传媒大学 播音主持艺术学院 侯 敏 houminxx@263.net."

Similar presentations


Ads by Google