Download presentation
Presentation is loading. Please wait.
Published byMarkku Hakola Modified 5年之前
1
声纹自动识别技术的 关键与核心算法 鄭 方 fzheng@d-Ear.com; fzheng@sp.cs.tsinghua.edu.cn
公安部科技局/北京市公安局《声纹鉴定与自动识别技术应用研讨会》 2002年9月16日 声纹自动识别技术的 关键与核心算法 鄭 方 北京得意音通技术有限责任公司 清华大学智能技术与系统国家重点实验室
2
地址:北京市海淀区上地信息路2号D栋505室 电话/传真:(8610)8289 6531 邮编:100085
公司简介 地址:北京市海淀区上地信息路2号D栋505室 电话/传真:(8610) 邮编:100085
3
得意公司是从事语音识别与语言理解的专业技术公司
公司核心技术概述--三大核心技术方向 得意公司是从事语音识别与语言理解的专业技术公司 语音识别(ASR): “音字”的转换 共性特征提取 声学模型 语言模型 降噪音处理 语言理解(NLU): “字意”的转换 规则提取 语义分析 对话管理 声纹识别(SpkID): 谁的声音? 个性特征提取 声纹辨认 声纹确认
4
公司核心技术概述--六大应用方向 声纹识别 d-Ear ID 得意身份证 中文整句输入法 d-Ear IME 得意输入法
国防监听:辨认 拼音输入法 刑侦:辨认 声纹识别 d-Ear ID 得意身份证 中文整句输入法 d-Ear IME 得意输入法 笔划输入法 银行证券:确认 数字输入法 个性化:确认 计算机辅助教学 语言学习 d-Ear Teacher 得意教师 智能玩具 嵌入式命令导航 声控拨号 语音命令与控制 d-Ear Command 得意命令 家电控制 智能玩具 网上智能信息检索 口语对话系统 语言理解 d-Ear Parser 得意分析器 随意语音命令导航 呼叫中心 自动总机接驳 关键词检出 d-Ear Word-Spotter 得意关键词检出器 国防监听 呼叫中心
5
主要的创业者和技术、管理团队都毕业于清华大学计算机科学与技术系,技术队伍均为计算机应用专业的博士,并有在国内外著名公司工作的经验。
公司技术力量 主要的创业者和技术、管理团队都毕业于清华大学计算机科学与技术系,技术队伍均为计算机应用专业的博士,并有在国内外著名公司工作的经验。 得意公司技术源自清华大学,并有面向市场的进一步发展。得意公司与清华大学智能技术与系统国家重点实验室建有“清华—得意语音技术联合实验室”,结成了牢固的“产学研”联盟。 与中国军方、中国刑警学院等有良好的合作
6
清华大学语音技术中心 (Center of Speech Technology)
成立于1979年,隶属清华大学智能技术与系统国家重点实验室。全国最早从事语音和语言处理的研究单位之一。 智能技术与系统国家重点实验室(LITS)是在信息技术领域处于全国领先地位的国家重点实验室,在1994年、1997年和2002年国家计委组织的全部三次全国国家重点实验室评审中均为A 。 语音技术中心承担国家重点攻关任务、863高科技研究任务、973重点基础研究任务、军方科研任务、清华大学一流大学重点学科建设985项目,以及许多国际和国内合作项目等,并多次获奖。 语音技术中心研制成功的语音技术在国家863评测中一直名列前茅;在国际国内的会议和各种学术刊物上发表论文数百篇;同时研发了数十项语音产品,行销于国内外市场。其中声纹识别产品有成功的应用范例(北京某通讯公司)。 语音技术中心的成果和相关论文请参见
7
声纹识别核心技术
8
说话人识别的两个阶段 模型训练--学习 识别 特征提取 模型训练 识别判决 模型库 结果
9
按识别任务分 说话人识别的分类 说话人辨认 说话人编号 说话人确认 匹配分数/概率 > 接受 < 拒识 是哪个人的声音?
闭集 开集 前端处理 说话人1 说话人2 说话人N … M A X 匹配分数/概率 说话人编号 是XX的声音吗? 前端处理 冒名顶替者模型 < 拒识 > 接受 宣称说话人模型 适应 + -
10
开集说话人辨认和说话人确认中的拒识问题 似然分数的计算 冒名顶替者(Impostor)模型或背景(Background)模型Bkg
=p(X|S) / p(X | Bkg(S)) 冒名顶替者(Impostor)模型或背景(Background)模型Bkg 使用一个与说话人无关的统一模型UBM (Universal Background Model): pS(X|H0) = p(X|UBM) 使用一组其他说话人模型: pS(X|H0) = p(X|Bkg(S)),其中Bkg(S)是与说话人S相关的那些说话人模型的某种函数,如“平均”或“最大”
11
按说话内容分 文本无关(Text-Independent)--不限定说什么文本 文本相关(Text-Dependent)--必须是特定的文本
语种无关 (Language-Independent) 语种相关 (Language-Dependent) 文本相关(Text-Dependent)--必须是特定的文本 必定语种相关
12
说话人发音方式发生变化(语言、内容、方式、身体状况、不同时间等):learning+adaptation
2019/1/14 说话人识别需要攻克的难题 更具可分性的特征:多层次特征的使用 好的说话人模型:GMM、LBG等 短话音问题: 训练:基准模型+自适应 识别:累计判别 说话人发音方式发生变化(语言、内容、方式、身体状况、不同时间等):learning+adaptation 模仿声音问题:综合使用各种层次的特征;外加密码 多说话人情况下的说话人检测: 有限状态自动机:已有说话人集+冒名者 说话人改变检测(SCD) BIC: Baysian Information Criterion
13
多说话人检测 Unknown?
14
说话人识别的特征提取 人类在进行说话人识别时常常用到多个层面(尤其是高层)的信息 现阶段很多系统只用到低层信息--声学特征 高层次的信息包括
语义、修辞、发音、言语习惯 - 社会经济状况、受教育水平、出生地 韵律、节奏、速度、语调、音量 - 个人特点、父母影响 语音的声学特性、鼻音、带深呼吸的、沙哑的等 - 发音机制的解剖学结构 现阶段很多系统只用到低层信息--声学特征 高层次的信息包括 语速 时序模板 基音模板 特性词/词组的使用 特性发音 笑声 …… 声纹自动识别模型目前可以使用的特征: 声学特征 (倒频谱) 词法特征 (说话人相关的词ngram,音素ngram) 韵律特征 (利用ngram描述的基音和能量“姿势”) 语种、方言和口音信息 通道信息 (使用何种通道)
15
观察序列,即特征序列,必须对说话人具有可分性: O={X, W, F, C, …}
将特征用于说话人识别的问题求解 argmax Prob (S | O) S – 说话人 O - 观察序列 观察序列,即特征序列,必须对说话人具有可分性: O={X, W, F, C, …} 声学特征(MFCC/LPCC): X = { x1, x2, …, xT} 词法特征(词、短语、音素等): W = { w1, w2, …, wN} 韵律特征: F = { F1, F2, …, Fp} 通道信息: C = { PC麦克风、固话、免提、手机、 手持设备、会议室麦克风, …}
16
文本相关的 说话人识别器 说话人相关的 语言模型 说话人相关的 韵律模型 说话人的 通道信息 说话人的 先验知识
声学特征(MFCC/LPCC): X = { x1, x2, …, xT} 词法特征(词、短语、音素等): W = { w1, w2, …, wN} 韵律特征: F = { F1, F2, …, Fp} 通道信息: C = { PC麦克风、固话、手机、 手持设备、免提、会议室麦克风, …} 说话人的 先验知识
17
特征的选择-用还是不用? 例如,信道的信息 在刑侦应用上,希望不用,也就是说希望弱化信道对说话人识别的影响
在银行交易上,希望用,即希望信道对说话人识别有较大影响,从而剔除录音、模仿等
18
说话人模式匹配 模板匹配 最近邻 神经网络 HMM 多项式分类器 动态时间弯折(DTW)用以对准训练和测试特征序列
主要用于固定词组的应用(通常为文本相关任务) 最近邻 训练时保留所有特征矢量 测试时,对每个矢量都找到训练矢量中最近的K个 模型存储和相似计算的量都很大 神经网络 有很多种形式:多层感知、径向基函数(RBF)等; 显式训练以区分说话人和其背景说话人 训练量很大,且模型的可推广性不好 HMM 单状态的HMM(GMM) 多项式分类器 有较高的精度 模型存储和计算量比较大
19
三阶的多项式分类器就可以取得较好的效果: 平均ERR=0.38%;SID error=1.01%
观察序列为: 多项式分类器: 每一帧矢量Xt(t=1,…,T)都按多项式展开映射到高维空间中,例如二阶多项式展开把矢量X=[x1, x2, …, xN]T映射成 在高维空间中,利用一个线性分类器可以把用户特征(Xusr)与其他的冒名顶替者特征(Ximp)分开。线性分类器的构造准则是使下面的均方误差(MSE)最小: 通用线性分类边界可以表示为f ((X)) = <(X), W> 其中W通过矩阵分解法进行优化,每个说话人对于一个W。这样,每一帧矢量Xt都赋予了一个分数f ((Xt))。识别时,相对于说话人M的模型的总分数定义为 三阶的多项式分类器就可以取得较好的效果: 平均ERR=0.38%;SID error=1.01%
20
观察序列为: 高斯混合模型(GMM): VQ聚类模型(LBG): 是一个单状态的HMM。观察序列的似然分为: 每个说话人有Q个类
21
从研究的角度讲,说话人识别的应用存在很多而难选择,也就是说,需要进行平衡点的选择
说话人识别中的两难问题--平衡点的选取 从研究的角度讲,说话人识别的应用存在很多而难选择,也就是说,需要进行平衡点的选择 话音长短与识别率 文本相关与无关 信道影响 检出率与拒识率
22
错 限 制 增 加 误 拒 绝 的 概 率 (%) 错 误 接 受 的 概 率 (%) 25% 10% 0.1% 1% 文本无关
40 20 10 5 2 1 0.5 0.2 0.1 错 误 接 受 的 概 率 (%) 错 误 拒 绝 的 概 率 (%) 限 制 增 加 文本无关 (朗读句子) 军用无线数据 多个无线接收装置和麦克风 训练数据适量 25% 文本相关 (组合) 干净数据 单个麦克风 大量训练/测试数量 10% 文本无关 (对话) 电话数据 多个麦克风 训练数据适量 文本相关 (数字串) 电话数据 多个麦克风 训练数据量较小 0.1% 1%
23
DET (Detection Error Tradeoff) 曲线
40 20 10 5 2 1 0.5 0.2 0.1 错 误 接 受 的 概 率 (%) 错 误 拒 绝 的 概 率 (%) 有线传输: 错误接受的代价很大 为了安全性考虑用户可以容忍拒绝 Toll Fraud: 错误拒识率很低 欺骗者很容易进入系统 高安全性 等错误率(ERR)=1% 平衡点 高方便性
24
我们的声纹识别技术介绍
25
语言无关 文本无关 训练语音最短8秒 测试语音最短4秒 测试结果 说话人识别目前性能指标 120人的库(近期目标1,000人) 24秒+8秒
一选正确率:98.33% 二选:100%
26
个性化服务方面:机器自动识别客户身份后,提供相应服务 客户并不知道系统正在进行声纹识别,因此
成功应用案例一 电话语音 个性化服务方面:机器自动识别客户身份后,提供相应服务 客户并不知道系统正在进行声纹识别,因此 说话内容随意; 说话方式自然; 说话长度很短; 同时有客户和接线员两人通话
27
“得意”接线员转接时,将首先告知对方是谁的电话
应用案例二 应用于“得意”接线员系统中 客户通过电话说出要找人的姓名,方式: 单命令识别,或关键词检出 话音长度比较短 “得意”接线员将识别出: 客户要找的人的姓名 客户的身份(开集说话人辨认) “得意”接线员转接时,将首先告知对方是谁的电话
28
得意语音—— 与您心意相通的人性科技 The End.
Similar presentations