公安部科技局/北京市公安局《声纹鉴定与自动识别技术应用研讨会》 2002年9月16日 声纹自动识别技术的 关键与核心算法 鄭 方

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

校第六届“新天瑞”杯创业计划大奖赛 赛前培训
博士人员科研答辩   答辩人: 答辩日期:.
PROJECT NAME 项目名称 上海xx文化传播有限公司.
复旦大学上海医学院.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
毕业论文答辩PPT模板 学院:地理与旅游学院 专业:会展经济与管理 答辩人:北纬 指导老师:北纬君.
迅航基于云服务的 美业Saas软件.
网页设计师的职业成长规律 主讲:刘万辉 淮安信息职业技术学院.
淄博信息工程学校 ZIBOIT&ENGINEERING VOCATONAL SHCOOL 02 认识虚拟局域网 计算机网络技术专业.
车联网 大事记 联盟 2014.
姓 名 出生年月 所在学科 最高学历/位 专业 毕业学校 成果内容 本人业绩 (一)教学内容
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
通货紧缩 唐山工业职业技术学院 管理工程系 李文鹏
第四次大作业 登陆学校图书馆网站的电子数据库
新华上海贵金属交易中心 中国银行个人客户网上签约流程.
《数据结构》课程简介 李武军 南京大学计算机科学与技术系 2016年秋季.
计算机基础知识 丁家营镇九年制学校 徐中先.
                                                                                                                                                                
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
R in Enterprise Environment 企业环境中的R
基于全方位视觉的多人体运动检测跟踪 利用全方位摄像机获取360˚ 的环境信息,在室内对多个人体目标进行实时运动检测。
数 控 技 术 华中科技大学机械科学与工程学院.
Windows网络操作系统管理 ——Windows Server 2008 R2.
第一章 cdma2000无线网络 基本性能指标 肖 建 荣.
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
基于规则抽取的 时间表达式识别.
应用实例 识别Ps & Pt ADTS 压力通道并校验 CPD8000 New MENSOR‘s ADTS: CPA8001.
❶云端下载 请根据自己的手机系统(支持IOS系统与Android系统)选择下述下载方式: 手机系统 应用搜索下载 二维码扫描下载 IOS系统
《编译原理与技术》 期末复习 计算机科学与技术学院 郑启龙 李 诚 25/12/2018.
Science and technology report service systemUsage method
混合绘制 2019/4/5 Visual Analytics Group | CAD&CG国家重点实验室.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
何勉 新浪微博: Scrum框架及其背后的原则 原始图片 何勉 新浪微博:
厂商—型号 荣耀-HiRouter-H1 外观设计 产品类型:无线路由器 建议零售价格:149元 上市时间:2017 年 5月
准备考试 一组(20人)考生拍照结束后,工作人员会发给考生朗读篇目和说话题目的抽签条(抽签条上不允许写上任何字词);考生准备时间为10-15分钟;准备结束,进入测试室正式测试.
姓名 遥感科学国家重点实验室 中国科学院遥感与数字地球研究所﹒北京师范大学 地址:北京市朝阳区大屯路甲20号北 北京9718信箱
C语言程序设计 主讲教师:陆幼利.
微机系统的组成.
一、新变化2019——信息交流模块.
中文题名 介绍/亮点 研究方法 结果/讨论 结论 作者1 1*,作者2 1,2,作者3 2
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
河北大学申请博士生导师 人员基本情况 彩色照片 小二寸 免冠 一、近五年科研项目情况 姓名:张 芳 出生日期: 职称:
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
中国风背景论文答辩模板 某大学某某信息学院 答辩学生:代用名 指导老师:代用名 答辩时间:201X年1月30日
基于自然语言理解的智能搜索引擎 在移动互联网络上的应用
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
PROJECT NAME 项目名称 张三 安徽xx文化传播有限公司.
双语例句搜索 句库+巨酷 Web: Beijing 2008.
第八章 总线技术 8.1 概述 8.2 局部总线 8.3 系统总线 8.4 通信总线.
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
昆明理工大学先进计算软件技术与应用云南省创新团队昆明理工大学计算机应用重点实验室
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
户名:CIRS KOREA 账号 :WOORIBANK
蔡世民 合作者:禚钊,傅忠谦,张捷 电子科学与技术系 中国科学技术大学 2011/4/29
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
_07多连接之select模型 本节课讲师——void* 视频提供:昆山爱达人信息技术有限公司 官网地址:
Seminar 【Speaker】 Feng Shuaizhang, assistant professor of the
Continuous Authentication for Voice Assistants
户名:CIRS KOREA 账号 :WOORIBANK
手机淘宝“变形”产品—微淘 操作流程指南 (内测版).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
数学模型实验课(二) 最小二乘法与直线拟合.
学习数据结构的意义 (C语言版) 《数据结构》在线开放课程 主讲人:李刚
入侵检测技术 大连理工大学软件学院 毕玲.
网页版报名流程 Step 4 点击“详情”查阅具体岗位信息,输入身份数据及申请序列码进行最终报名
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

声纹自动识别技术的 关键与核心算法 鄭 方 fzheng@d-Ear.com; fzheng@sp.cs.tsinghua.edu.cn 公安部科技局/北京市公安局《声纹鉴定与自动识别技术应用研讨会》 2002年9月16日 声纹自动识别技术的 关键与核心算法 鄭 方 fzheng@d-Ear.com; fzheng@sp.cs.tsinghua.edu.cn 北京得意音通技术有限责任公司 清华大学智能技术与系统国家重点实验室

地址:北京市海淀区上地信息路2号D栋505室 电话/传真:(8610)8289 6531 邮编:100085 公司简介 地址:北京市海淀区上地信息路2号D栋505室 电话/传真:(8610)8289 6531 邮编:100085

得意公司是从事语音识别与语言理解的专业技术公司 公司核心技术概述--三大核心技术方向 得意公司是从事语音识别与语言理解的专业技术公司 语音识别(ASR): “音字”的转换 共性特征提取 声学模型 语言模型 降噪音处理 语言理解(NLU): “字意”的转换 规则提取 语义分析 对话管理 声纹识别(SpkID): 谁的声音? 个性特征提取 声纹辨认 声纹确认

公司核心技术概述--六大应用方向 声纹识别 d-Ear ID 得意身份证 中文整句输入法 d-Ear IME 得意输入法 国防监听:辨认 拼音输入法 刑侦:辨认 声纹识别 d-Ear ID 得意身份证 中文整句输入法 d-Ear IME 得意输入法 笔划输入法 银行证券:确认 数字输入法 个性化:确认 计算机辅助教学 语言学习 d-Ear Teacher 得意教师 智能玩具 嵌入式命令导航 声控拨号 语音命令与控制 d-Ear Command 得意命令 家电控制 智能玩具 网上智能信息检索 口语对话系统 语言理解 d-Ear Parser 得意分析器 随意语音命令导航 呼叫中心 自动总机接驳 关键词检出 d-Ear Word-Spotter 得意关键词检出器 国防监听 呼叫中心

主要的创业者和技术、管理团队都毕业于清华大学计算机科学与技术系,技术队伍均为计算机应用专业的博士,并有在国内外著名公司工作的经验。 公司技术力量 主要的创业者和技术、管理团队都毕业于清华大学计算机科学与技术系,技术队伍均为计算机应用专业的博士,并有在国内外著名公司工作的经验。 得意公司技术源自清华大学,并有面向市场的进一步发展。得意公司与清华大学智能技术与系统国家重点实验室建有“清华—得意语音技术联合实验室”,结成了牢固的“产学研”联盟。 与中国军方、中国刑警学院等有良好的合作

清华大学语音技术中心 (Center of Speech Technology) 成立于1979年,隶属清华大学智能技术与系统国家重点实验室。全国最早从事语音和语言处理的研究单位之一。 智能技术与系统国家重点实验室(LITS)是在信息技术领域处于全国领先地位的国家重点实验室,在1994年、1997年和2002年国家计委组织的全部三次全国国家重点实验室评审中均为A 。 语音技术中心承担国家重点攻关任务、863高科技研究任务、973重点基础研究任务、军方科研任务、清华大学一流大学重点学科建设985项目,以及许多国际和国内合作项目等,并多次获奖。 语音技术中心研制成功的语音技术在国家863评测中一直名列前茅;在国际国内的会议和各种学术刊物上发表论文数百篇;同时研发了数十项语音产品,行销于国内外市场。其中声纹识别产品有成功的应用范例(北京某通讯公司)。 语音技术中心的成果和相关论文请参见 http://sp.cs.tsinghua.edu.cn。

声纹识别核心技术

说话人识别的两个阶段 模型训练--学习 识别 特征提取 模型训练 识别判决 模型库 结果

按识别任务分 说话人识别的分类 说话人辨认 说话人编号 说话人确认 匹配分数/概率 > 接受 < 拒识 是哪个人的声音? 闭集 开集 前端处理 说话人1 说话人2 说话人N … M A X 匹配分数/概率 说话人编号 是XX的声音吗? 前端处理 冒名顶替者模型 < 拒识 > 接受 宣称说话人模型 适应  + -

开集说话人辨认和说话人确认中的拒识问题 似然分数的计算 冒名顶替者(Impostor)模型或背景(Background)模型Bkg =p(X|S) / p(X | Bkg(S)) 冒名顶替者(Impostor)模型或背景(Background)模型Bkg 使用一个与说话人无关的统一模型UBM (Universal Background Model): pS(X|H0) = p(X|UBM) 使用一组其他说话人模型: pS(X|H0) = p(X|Bkg(S)),其中Bkg(S)是与说话人S相关的那些说话人模型的某种函数,如“平均”或“最大”

按说话内容分 文本无关(Text-Independent)--不限定说什么文本 文本相关(Text-Dependent)--必须是特定的文本 语种无关 (Language-Independent) 语种相关 (Language-Dependent) 文本相关(Text-Dependent)--必须是特定的文本 必定语种相关

说话人发音方式发生变化(语言、内容、方式、身体状况、不同时间等):learning+adaptation 2019/1/14 说话人识别需要攻克的难题 更具可分性的特征:多层次特征的使用 好的说话人模型:GMM、LBG等 短话音问题: 训练:基准模型+自适应 识别:累计判别 说话人发音方式发生变化(语言、内容、方式、身体状况、不同时间等):learning+adaptation 模仿声音问题:综合使用各种层次的特征;外加密码 多说话人情况下的说话人检测: 有限状态自动机:已有说话人集+冒名者 说话人改变检测(SCD) BIC: Baysian Information Criterion

多说话人检测 Unknown?

说话人识别的特征提取 人类在进行说话人识别时常常用到多个层面(尤其是高层)的信息 现阶段很多系统只用到低层信息--声学特征 高层次的信息包括 语义、修辞、发音、言语习惯 - 社会经济状况、受教育水平、出生地 韵律、节奏、速度、语调、音量 - 个人特点、父母影响 语音的声学特性、鼻音、带深呼吸的、沙哑的等 - 发音机制的解剖学结构 现阶段很多系统只用到低层信息--声学特征 高层次的信息包括 语速 时序模板 基音模板 特性词/词组的使用 特性发音 笑声 …… 声纹自动识别模型目前可以使用的特征: 声学特征 (倒频谱) 词法特征 (说话人相关的词ngram,音素ngram) 韵律特征 (利用ngram描述的基音和能量“姿势”) 语种、方言和口音信息 通道信息 (使用何种通道)

观察序列,即特征序列,必须对说话人具有可分性: O={X, W, F, C, …} 将特征用于说话人识别的问题求解 argmax Prob (S | O) S – 说话人 O - 观察序列 观察序列,即特征序列,必须对说话人具有可分性: O={X, W, F, C, …} 声学特征(MFCC/LPCC): X = { x1, x2, …, xT} 词法特征(词、短语、音素等): W = { w1, w2, …, wN} 韵律特征: F = { F1, F2, …, Fp} 通道信息: C = { PC麦克风、固话、免提、手机、 手持设备、会议室麦克风, …}

文本相关的 说话人识别器 说话人相关的 语言模型 说话人相关的 韵律模型 说话人的 通道信息 说话人的 先验知识 声学特征(MFCC/LPCC): X = { x1, x2, …, xT} 词法特征(词、短语、音素等): W = { w1, w2, …, wN} 韵律特征: F = { F1, F2, …, Fp} 通道信息: C = { PC麦克风、固话、手机、 手持设备、免提、会议室麦克风, …} 说话人的 先验知识

特征的选择-用还是不用? 例如,信道的信息 在刑侦应用上,希望不用,也就是说希望弱化信道对说话人识别的影响 在银行交易上,希望用,即希望信道对说话人识别有较大影响,从而剔除录音、模仿等

说话人模式匹配 模板匹配 最近邻 神经网络 HMM 多项式分类器 动态时间弯折(DTW)用以对准训练和测试特征序列 主要用于固定词组的应用(通常为文本相关任务) 最近邻 训练时保留所有特征矢量 测试时,对每个矢量都找到训练矢量中最近的K个 模型存储和相似计算的量都很大 神经网络 有很多种形式:多层感知、径向基函数(RBF)等; 显式训练以区分说话人和其背景说话人 训练量很大,且模型的可推广性不好 HMM 单状态的HMM(GMM) 多项式分类器 有较高的精度 模型存储和计算量比较大

三阶的多项式分类器就可以取得较好的效果: 平均ERR=0.38%;SID error=1.01% 观察序列为: 多项式分类器: 每一帧矢量Xt(t=1,…,T)都按多项式展开映射到高维空间中,例如二阶多项式展开把矢量X=[x1, x2, …, xN]T映射成 在高维空间中,利用一个线性分类器可以把用户特征(Xusr)与其他的冒名顶替者特征(Ximp)分开。线性分类器的构造准则是使下面的均方误差(MSE)最小: 通用线性分类边界可以表示为f ((X)) = <(X), W> 其中W通过矩阵分解法进行优化,每个说话人对于一个W。这样,每一帧矢量Xt都赋予了一个分数f ((Xt))。识别时,相对于说话人M的模型的总分数定义为 三阶的多项式分类器就可以取得较好的效果: 平均ERR=0.38%;SID error=1.01%

观察序列为: 高斯混合模型(GMM): VQ聚类模型(LBG): 是一个单状态的HMM。观察序列的似然分为: 每个说话人有Q个类

从研究的角度讲,说话人识别的应用存在很多而难选择,也就是说,需要进行平衡点的选择 说话人识别中的两难问题--平衡点的选取 从研究的角度讲,说话人识别的应用存在很多而难选择,也就是说,需要进行平衡点的选择 话音长短与识别率 文本相关与无关 信道影响 检出率与拒识率

错 限 制 增 加 误 拒 绝 的 概 率 (%) 错 误 接 受 的 概 率 (%) 25% 10% 0.1% 1% 文本无关 0.1 0.2 0.5 1 2 5 10 20 40 40 20 10 5 2 1 0.5 0.2 0.1 错 误 接 受 的 概 率 (%) 错 误 拒 绝 的 概 率 (%) 限 制 增 加 文本无关 (朗读句子) 军用无线数据 多个无线接收装置和麦克风 训练数据适量 25% 文本相关 (组合) 干净数据 单个麦克风 大量训练/测试数量 10% 文本无关 (对话) 电话数据 多个麦克风 训练数据适量 文本相关 (数字串) 电话数据 多个麦克风 训练数据量较小 0.1% 1%

DET (Detection Error Tradeoff) 曲线 0.1 0.2 0.5 1 2 5 10 20 40 40 20 10 5 2 1 0.5 0.2 0.1 错 误 接 受 的 概 率 (%) 错 误 拒 绝 的 概 率 (%) 有线传输: 错误接受的代价很大 为了安全性考虑用户可以容忍拒绝 Toll Fraud: 错误拒识率很低 欺骗者很容易进入系统 高安全性 等错误率(ERR)=1% 平衡点 高方便性

我们的声纹识别技术介绍

语言无关 文本无关 训练语音最短8秒 测试语音最短4秒 测试结果 说话人识别目前性能指标 120人的库(近期目标1,000人) 24秒+8秒 一选正确率:98.33% 二选:100%

个性化服务方面:机器自动识别客户身份后,提供相应服务 客户并不知道系统正在进行声纹识别,因此 成功应用案例一 电话语音 个性化服务方面:机器自动识别客户身份后,提供相应服务 客户并不知道系统正在进行声纹识别,因此 说话内容随意; 说话方式自然; 说话长度很短; 同时有客户和接线员两人通话

“得意”接线员转接时,将首先告知对方是谁的电话 应用案例二 应用于“得意”接线员系统中 客户通过电话说出要找人的姓名,方式: 单命令识别,或关键词检出 话音长度比较短 “得意”接线员将识别出: 客户要找的人的姓名 客户的身份(开集说话人辨认) “得意”接线员转接时,将首先告知对方是谁的电话

得意语音—— 与您心意相通的人性科技 The End.