说 话 人 识 别 王林海 2003.7.17
说话人识别 一.概述 1.什么是说话人识别(SR)? 2.SR的历史 3.语音识别技术 4.语音识别的困难与对策 5 语音识别的应用 5 语音识别的应用 6.语音识别的前景
说话人识别(Speaker Recognition,SR)技术是以话音对说话人进行区分,从而进行身份鉴别与认证的技术。 在国外,说话人识别技术获得了广泛的研究,同时也有少量成熟产品问世。AT&T、TI与美国著名的通讯公司Sprint都已经展开了在声音识别领域的实验和实际的应用。说话人识别技术有着广阔的市场应用前景。通过SR技术,可以利用人本身的生物特性进行身份鉴别,例如为公安部门进行语音验证、为一般用户提供防盗门开启功能等等。在互联网应用及通信领域,SR技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息服务、语音E-mail、安全控制、计算机远程登录等领域。在呼叫中心应用上,SR技术同样可以提供更加个性化的人机交互界面。当顾客以电话方式对呼叫中心进行请求时,系统能够根据话音判断出来者的身份,从而提供更个性化、更贴心的服务。
2. SR的历史 60年代,计算机的应用推动了语音识别的发展。 70年代,语音识别领域取得了突破
80年代,语音识别研究进一步走向深入 进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实 用。
我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发。
3.语音识别技术 语音识别系统的分类方式及依据 根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统
根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。 根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如图1所示。
语音输入 识别结果 特征提取 模式匹配 模型库 图1 语音识别的实现
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取
(1)语音识别单元的选取 选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
(2)特征参数提取技术 语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。
(3)模式匹配及模型训练技术 模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配
语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。
3 语音识别的困难与对策 目前,研究工作进展缓慢,主要表现在理论上一直没有突破。虽然各种新的修正方法不断涌现,但其普遍适用性都值得商榷。
●语音识别系统的适应性差, ●高噪声环境下语音识别进展困难 ●语言学、生理学、心理学方面的研究成果应用
●我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚 ●语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决
如果要使语音识别系统性能有大的提高,就要综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的
4 语音识别的应用 AT&T于1992年开发的VRCP系统 AT & T 800语音识别服务系统 NTT ANSER语音识别银行服务系统 Northen Telecom股票价格行情系统
●collect call——受话人付费电话,命令字col1ect ●person-person-call——定人呼叫,命令字person
●third-party-billing-call——第三方付费电话,命令字third number ●operator-assisted call——话务员协助呼叫,命令字operator ●credit card call——信用卡呼叫,命令字calling card
6.语音识别的前景 SR技术发展至今,尽管已经取得了不错的进展,要寻找更加优良的研究方法仍然有相当艰巨的路要走。
二.语者识别的基本问题 (1)如何选取能够唯一表征人的有效 而可靠的参量,如何对它进行处理。 (2)如何规定相似性的测度使相似性的计算既简单又可靠。 (3)考虑到人的状况在不断变化,为使系统能够可靠工作,如何使它的参考量不断更新以适应使用者。
模型 产生 模型 存储 语音 分析 特征 提取 距离 测量 识别 判决 身份 声明
三.表征说话人特点的基本特征 这些特征应该具有如下特点: (1)能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定。 (2)易于从语音信号中提取。 (3)不易被模仿。
四.说话人识别的几种方法 1.模板匹配法 模板匹配法的要点是:在训练过程中从每个说话人发出的训练语句中提取相应的特征矢量,这些特征矢量能充分描写各个说话人的行为。这些特征矢量称为各说话人的模板。它们可以从单词,数字串或句子中提取。在测试阶段,从说话人发出的语音信号中按同样的处理方法提取测试模板,并且与其相应的参考模板相比较。
2.概率模型法 利用子词单元构成的隐含马尔柯夫模型,构成了一个说话人确认系统,每个子词单元用一个从左至右的HMM描写,每个模型包含2到3个状态。
提取特征矢量 初试分段 构造种子模型 读入一次发音的特征矢量 计数器初使化 Viterbi算法重分段 “语法”约束 模型参数 最后一次发音 根据新的语音分段边界,重估计各HMM状态的输出分布均值和方差,求方差的特征值,特征矢及每次转移的概率 收敛 结束
(1)语音分析
(2)初使分段
(3)训练
(4)测试
说话人1 特征提取 距离求和 说话人 说话人N 说话人1 说话人N
3.一种基于矢量量化的且与文本无关的说话人识别系统
SR的未来 虽取得一定进展,还有相当艰巨的路要走。 SR所面临的挑战
语音识别的研究工作大约开始于50年代,当时AT& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。
60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响
说话人识别技术有着广阔的市场应用前景。通过SR技术,可以利用人本身的生物特性进行身份鉴别,例如为公安部门进行语音验证、为一般用户提供防盗门开启功能等等。在互联网应用及通信领域,SR技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息服务、语音E-mail、安全控制、计算机远程登录等领域。在呼叫中心应用上,SR技术同样可以提供更加个性化的人机交互界面。当顾客以电话方式对呼叫中心进行请求时,系统能够根据话音判断出来者的身份,从而提供更个性化、更贴心的服务。
SR的未来 ----SR技术发展至今,尽管已经取得了不错的进展,要寻找更加优良的研究方法仍然有相当艰巨的路要走。由于技术条件所限,目前所采用的抽样建模方法还存在着不足。对SR最有影响的因素是在不同实验中声音特性信号的变更,包括说话者生理上的变动性以及实验条件的不稳定性等,这些都对SR识别系统构成严峻的挑战。此外,SR技术还应解决提取声音长期稳定的特征参数的问题。在两个人进行交谈时,自动从中提取出每个人的声音特性并加以区分的技术也是值得研究的方向。