中国传媒大学 播音主持艺术学院 侯 敏 houminxx@263.net 传媒语言语料库的 建设与应用 中国传媒大学 播音主持艺术学院 侯 敏 houminxx@263.net
主要内容 一、建设传媒语言语料库的目的 二、传媒语言语料库的结构 三、语料的采集与标注 四、传媒语言语料库的应用 五、目前存在的问题
一、建设传媒语言语料库的目的 语料库已成为语言研究和自然语言信息处理研究 的信息源和知识源,成为一种必要的现代化的研 究工具和手段; 广播电视语言对社会语言生活具有深远的影响; 为我院教师、研究生研究广播电视语言搭建一个 平台,提供语言资源及现代化工具,为教学服务; 为所有对传媒有声语言、尤其是 广播电视语言有 兴趣的人员提供研究资源及现代化工具,为社会 服务。
二、传媒语言语料库的结构 传媒语料库 文本语料库 音视频语料库 音视频 熟语料库 文本 熟语料库 音视频 生语料库 文本 生语料库
生语料库检索界面 http://ling.cuc.edu.cn/rawpub
熟语料库检索界面
音视频语料库点播系统界面
三、语料的采集与标注 语料的采集 文本语料的采集 音视频语料的采集 语料的标注 文本语料的标注 音视频语料的标注
工作流程 音视频采集工作站 磁盘阵列 DVD录像机 数字化工作站 互联网 转写工作站 用户浏览查询终端 语料加工工作站 服务器
音频语料的采集和标注 语料规模:大约400小时 语料内容:以新闻节目为主 电视节目:340小时 广播节目:50小时 其 他:10小时 其 他:10小时 已 标 注:1小时 标注工具:开发了一个面向汉语的语音标注系统
基于Tcl/Tk+Snack开发的语音标注工具界面 标注文件可以和其他语音处理软件兼容,如PRAAT等; 中文界面,实现了中文语音文件的汉字标注。
汉字层 拼音层 声韵层 停断层 重音层 基于Tcl/Tk+Snack工具开发的标注工具界面及标注实例
文本语料的采集 采集原则:以节目文本为单位,全面采样,力求均衡; 语料来源:电台、电视台网站的节目文本; 选样参数:大陆与港台、中央与地方、不同的语言样态 不同的受众群体、不同的内容领域…… 目前规模:目前已达到5000万字(不包括篇头信息) 电视语料4000万; 包括17家电视台,165个电视栏目; 广播语料1000万; 包括22家电台,133个广播栏目; 总共有12396个文件。
文本语料的标注 篇头信息:各种背景信息的标注(元数据) 篇体信息:自动分词 词性信息标注 语体信息标注 句法信息标注 语义关系信息标注 语用信息标注 篇章关系标注 已做 正在做
词性标注样本 熟语的双层标注 语体信息标注 许多/m 游客/n 在/p 景点/n 前/f “/w 望票兴叹/v/i/ls ”/w 。/w 游客/n 是/v “/w 车/n 到/v 山/n 前/f ”/w ,/w 进退两难/v/i ,/w 大老远/a/ky 慕名而来/v/l ,/w 如/c 不/d 进去/v 游览/v ,/w 实在/d 不/d 甘心/v ,/w 而/c 要/v 了却/v “/w 到此一游/v/l ”/w 的/u 心愿/n ,/w 一行/n 三五/m 人/n 就/d 得/v 先/d 掏/v 几百/m 元/q 的/u “/w 进门费/n/ls ”/w 。/w
句法、语义关系标注样本 XWLB040415-001 <P>(DJ_ZJ(O1_SU 胡/nr 锦涛/nr ) (I1 主持/v) (O2_OB 仪式/n )(I2 欢迎/v )(O3_OS_NP(A_LS 拉脱维亚/ns)(!总统/n )) (I3 访华/v )) </P> XWLB040415-138 (YF(O_SU 孔/nr 泉/nr )(I 说/v ) ,/w ) (DJ_ZJ (E1_SJ_NP 4月/t 13号/t ,/w )(O_DS_NP(A1_NU_QP 17/m 名/q )(A2_LS 中国/ns )(! 船员/n )(E2_CS_PP 在/p 印度/ns 孟加拉湾/ns 海域/n )(E3_YY_PP 因/p 沉船/v )(I 遇险/v ) 。/w ) XWLB040415-005 (DJ_ZJ(E_SJ_FP中拉关系/n 正常化/v 以来/f ,/w) (O_DS_NP (A_LS_NP 两/m 国/n)(!关系/n )) (E_ZT 顺利/a )(I 发展/v ) 。/w )
篇章标注(RST树图分析)样本
多层次 一体化 目标与特点 语音(音节、韵律标注) 文字 词语(分词、词性标注、语体信息、语用信息) 短语(浅层分析、短语结构标注) 多层次 一体化 语音(音节、韵律标注) 文字 词语(分词、词性标注、语体信息、语用信息) 短语(浅层分析、短语结构标注) 句子(句法、语义关系标注) 篇章(篇章关系标注)
四、传媒语言语料库的应用 研制语料库分词标注系统 面向信息处理的语言研究 一般的语言研究 广播电视语言研究 普通话韵律研究
五、目前存在的问题 语料使用权问题 文本语料自动及辅助标注工具的研制 音视频语料的转写 音频语料的标注 语料库的功能 带标语料库的运用
请批评指正! 谢谢!