公安部科技局/北京市公安局《声纹鉴定与自动识别技术应用研讨会》 2002年9月16日声纹自动识别技术的关键与核心算法鄭方

声纹自动识别技术的关键与核心算法鄭方 fzheng@d-Ear.com; fzheng@sp.cs.tsinghua.edu.cn
公安部科技局/北京市公安局《声纹鉴定与自动识别技术应用研讨会》 2002年9月16日声纹自动识别技术的关键与核心算法鄭方北京得意音通技术有限责任公司清华大学智能技术与系统国家重点实验室

地址：北京市海淀区上地信息路2号D栋505室电话/传真：（8610）8289 6531 邮编：100085
公司简介地址：北京市海淀区上地信息路2号D栋505室电话/传真：（8610）邮编：100085

得意公司是从事语音识别与语言理解的专业技术公司
公司核心技术概述－－三大核心技术方向得意公司是从事语音识别与语言理解的专业技术公司语音识别（ASR）： “音字”的转换共性特征提取声学模型语言模型降噪音处理语言理解（NLU）： “字意”的转换规则提取语义分析对话管理声纹识别（SpkID）：谁的声音？个性特征提取声纹辨认声纹确认

公司核心技术概述－－六大应用方向声纹识别 d-Ear ID 得意身份证中文整句输入法 d-Ear IME 得意输入法
国防监听：辨认拼音输入法刑侦：辨认声纹识别 d-Ear ID 得意身份证中文整句输入法 d-Ear IME 得意输入法笔划输入法银行证券：确认数字输入法个性化：确认计算机辅助教学语言学习 d-Ear Teacher 得意教师智能玩具嵌入式命令导航声控拨号语音命令与控制 d-Ear Command 得意命令家电控制智能玩具网上智能信息检索口语对话系统语言理解 d-Ear Parser 得意分析器随意语音命令导航呼叫中心自动总机接驳关键词检出 d-Ear Word-Spotter 得意关键词检出器国防监听呼叫中心

主要的创业者和技术、管理团队都毕业于清华大学计算机科学与技术系，技术队伍均为计算机应用专业的博士，并有在国内外著名公司工作的经验。
公司技术力量主要的创业者和技术、管理团队都毕业于清华大学计算机科学与技术系，技术队伍均为计算机应用专业的博士，并有在国内外著名公司工作的经验。得意公司技术源自清华大学，并有面向市场的进一步发展。得意公司与清华大学智能技术与系统国家重点实验室建有“清华—得意语音技术联合实验室”，结成了牢固的“产学研”联盟。与中国军方、中国刑警学院等有良好的合作

清华大学语音技术中心 (Center of Speech Technology)
成立于1979年，隶属清华大学智能技术与系统国家重点实验室。全国最早从事语音和语言处理的研究单位之一。智能技术与系统国家重点实验室(LITS)是在信息技术领域处于全国领先地位的国家重点实验室，在1994年、1997年和2002年国家计委组织的全部三次全国国家重点实验室评审中均为A 。语音技术中心承担国家重点攻关任务、863高科技研究任务、973重点基础研究任务、军方科研任务、清华大学一流大学重点学科建设985项目，以及许多国际和国内合作项目等，并多次获奖。语音技术中心研制成功的语音技术在国家863评测中一直名列前茅；在国际国内的会议和各种学术刊物上发表论文数百篇；同时研发了数十项语音产品，行销于国内外市场。其中声纹识别产品有成功的应用范例(北京某通讯公司)。语音技术中心的成果和相关论文请参见

声纹识别核心技术

说话人识别的两个阶段模型训练－－学习识别特征提取模型训练识别判决模型库结果

按识别任务分说话人识别的分类说话人辨认说话人编号说话人确认匹配分数/概率 > 接受 < 拒识是哪个人的声音？
闭集开集前端处理说话人1 说话人2 说话人N … M A X 匹配分数/概率说话人编号是XX的声音吗？前端处理冒名顶替者模型 < 拒识 > 接受宣称说话人模型适应  ＋－

开集说话人辨认和说话人确认中的拒识问题似然分数的计算冒名顶替者(Impostor)模型或背景(Background)模型Bkg
＝p(X|S) / p(X | Bkg(S)) 冒名顶替者(Impostor)模型或背景(Background)模型Bkg 使用一个与说话人无关的统一模型UBM (Universal Background Model)： pS(X|H0) = p(X|UBM) 使用一组其他说话人模型： pS(X|H0) = p(X|Bkg(S))，其中Bkg(S)是与说话人S相关的那些说话人模型的某种函数，如“平均”或“最大”

按说话内容分文本无关(Text-Independent)－－不限定说什么文本文本相关(Text-Dependent)－－必须是特定的文本
语种无关 (Language-Independent) 语种相关 (Language-Dependent) 文本相关(Text-Dependent)－－必须是特定的文本必定语种相关

说话人发音方式发生变化(语言、内容、方式、身体状况、不同时间等)：learning+adaptation
2019/1/14 说话人识别需要攻克的难题更具可分性的特征：多层次特征的使用好的说话人模型：GMM、LBG等短话音问题：训练：基准模型＋自适应识别：累计判别说话人发音方式发生变化(语言、内容、方式、身体状况、不同时间等)：learning+adaptation 模仿声音问题：综合使用各种层次的特征；外加密码多说话人情况下的说话人检测：有限状态自动机：已有说话人集＋冒名者说话人改变检测(SCD) BIC: Baysian Information Criterion

多说话人检测 Unknown?

说话人识别的特征提取人类在进行说话人识别时常常用到多个层面(尤其是高层)的信息现阶段很多系统只用到低层信息－－声学特征高层次的信息包括
语义、修辞、发音、言语习惯－社会经济状况、受教育水平、出生地韵律、节奏、速度、语调、音量－个人特点、父母影响语音的声学特性、鼻音、带深呼吸的、沙哑的等－发音机制的解剖学结构现阶段很多系统只用到低层信息－－声学特征高层次的信息包括语速时序模板基音模板特性词/词组的使用特性发音笑声 …… 声纹自动识别模型目前可以使用的特征：声学特征 (倒频谱) 词法特征 (说话人相关的词ngram，音素ngram) 韵律特征 (利用ngram描述的基音和能量“姿势”) 语种、方言和口音信息通道信息 (使用何种通道)

观察序列，即特征序列，必须对说话人具有可分性： O={X, W, F, C, …}
将特征用于说话人识别的问题求解 argmax Prob (S | O) S – 说话人 O －观察序列观察序列，即特征序列，必须对说话人具有可分性： O={X, W, F, C, …} 声学特征(MFCC/LPCC)： X = { x1, x2, …, xT} 词法特征(词、短语、音素等)： W = { w1, w2, …, wN} 韵律特征： F = { F1, F2, …, Fp} 通道信息： C = { PC麦克风、固话、免提、手机、手持设备、会议室麦克风, …}

文本相关的说话人识别器说话人相关的语言模型说话人相关的韵律模型说话人的通道信息说话人的先验知识
声学特征(MFCC/LPCC)： X = { x1, x2, …, xT} 词法特征(词、短语、音素等)： W = { w1, w2, …, wN} 韵律特征： F = { F1, F2, …, Fp} 通道信息： C = { PC麦克风、固话、手机、手持设备、免提、会议室麦克风, …} 说话人的先验知识

特征的选择－用还是不用？例如，信道的信息在刑侦应用上，希望不用，也就是说希望弱化信道对说话人识别的影响
在银行交易上，希望用，即希望信道对说话人识别有较大影响，从而剔除录音、模仿等

说话人模式匹配模板匹配最近邻神经网络 HMM 多项式分类器动态时间弯折(DTW)用以对准训练和测试特征序列
主要用于固定词组的应用（通常为文本相关任务）最近邻训练时保留所有特征矢量测试时，对每个矢量都找到训练矢量中最近的K个模型存储和相似计算的量都很大神经网络有很多种形式：多层感知、径向基函数(RBF)等；显式训练以区分说话人和其背景说话人训练量很大，且模型的可推广性不好 HMM 单状态的HMM（GMM）多项式分类器有较高的精度模型存储和计算量比较大

三阶的多项式分类器就可以取得较好的效果：平均ERR=0.38%；SID error=1.01%
观察序列为：多项式分类器：每一帧矢量Xt(t=1,…,T)都按多项式展开映射到高维空间中，例如二阶多项式展开把矢量X=[x1, x2, …, xN]T映射成在高维空间中，利用一个线性分类器可以把用户特征(Xusr)与其他的冒名顶替者特征(Ximp)分开。线性分类器的构造准则是使下面的均方误差(MSE)最小：通用线性分类边界可以表示为f ((X)) = <(X), W> 其中W通过矩阵分解法进行优化，每个说话人对于一个W。这样，每一帧矢量Xt都赋予了一个分数f ((Xt))。识别时，相对于说话人M的模型的总分数定义为三阶的多项式分类器就可以取得较好的效果：平均ERR=0.38%；SID error=1.01%

观察序列为：高斯混合模型(GMM)： VQ聚类模型(LBG)：是一个单状态的HMM。观察序列的似然分为：每个说话人有Q个类

从研究的角度讲，说话人识别的应用存在很多而难选择，也就是说，需要进行平衡点的选择
说话人识别中的两难问题－－平衡点的选取从研究的角度讲，说话人识别的应用存在很多而难选择，也就是说，需要进行平衡点的选择话音长短与识别率文本相关与无关信道影响检出率与拒识率

错限制增加误拒绝的概率 (%) 错误接受的概率 (%) 25% 10% 0.1% 1% 文本无关
40 20 10 5 2 1 0.5 0.2 0.1 错误接受的概率 (%) 错误拒绝的概率 (%) 限制增加文本无关 (朗读句子) 军用无线数据多个无线接收装置和麦克风训练数据适量 25% 文本相关 (组合) 干净数据单个麦克风大量训练/测试数量 10% 文本无关 (对话) 电话数据多个麦克风训练数据适量文本相关 (数字串) 电话数据多个麦克风训练数据量较小 0.1% 1%

DET (Detection Error Tradeoff) 曲线
40 20 10 5 2 1 0.5 0.2 0.1 错误接受的概率 (%) 错误拒绝的概率 (%) 有线传输：错误接受的代价很大为了安全性考虑用户可以容忍拒绝 Toll Fraud：错误拒识率很低欺骗者很容易进入系统高安全性等错误率(ERR)=1% 平衡点高方便性

我们的声纹识别技术介绍

语言无关文本无关训练语音最短8秒测试语音最短4秒测试结果说话人识别目前性能指标 120人的库(近期目标1,000人) 24秒＋8秒
一选正确率：98.33% 二选：100％

个性化服务方面：机器自动识别客户身份后，提供相应服务客户并不知道系统正在进行声纹识别，因此
成功应用案例一电话语音个性化服务方面：机器自动识别客户身份后，提供相应服务客户并不知道系统正在进行声纹识别，因此说话内容随意；说话方式自然；说话长度很短；同时有客户和接线员两人通话

“得意”接线员转接时，将首先告知对方是谁的电话
应用案例二应用于“得意”接线员系统中客户通过电话说出要找人的姓名，方式：单命令识别，或关键词检出话音长度比较短 “得意”接线员将识别出：客户要找的人的姓名客户的身份（开集说话人辨认） “得意”接线员转接时，将首先告知对方是谁的电话

得意语音—— 与您心意相通的人性科技 The End.

公安部科技局/北京市公安局《声纹鉴定与自动识别技术应用研讨会》 2002年9月16日声纹自动识别技术的关键与核心算法鄭方

Similar presentations

Presentation on theme: "公安部科技局/北京市公安局《声纹鉴定与自动识别技术应用研讨会》 2002年9月16日声纹自动识别技术的关键与核心算法鄭方"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

公安部科技局/北京市公安局《声纹鉴定与自动识别技术应用研讨会》 2002年9月16日 声纹自动识别技术的 关键与核心算法 鄭 方

Similar presentations

Presentation on theme: "公安部科技局/北京市公安局《声纹鉴定与自动识别技术应用研讨会》 2002年9月16日 声纹自动识别技术的 关键与核心算法 鄭 方"— Presentation transcript:

Similar presentations

About project

反馈

公安部科技局/北京市公安局《声纹鉴定与自动识别技术应用研讨会》 2002年9月16日声纹自动识别技术的关键与核心算法鄭方

Presentation on theme: "公安部科技局/北京市公安局《声纹鉴定与自动识别技术应用研讨会》 2002年9月16日声纹自动识别技术的关键与核心算法鄭方"— Presentation transcript: