Presentation is loading. Please wait.

Presentation is loading. Please wait.

SmartDSP 主题模型与泊松因子分析模型 2016年4月5日 王薇.

Similar presentations


Presentation on theme: "SmartDSP 主题模型与泊松因子分析模型 2016年4月5日 王薇."— Presentation transcript:

1 SmartDSP 主题模型与泊松因子分析模型 2016年4月5日 王薇

2 目 录 1 2 3 4 5 CONTENTS Latent Dirichlet Allocation 泊松因子分析 深层泊松因子分析
泊松因子分析应用 5 参考文献

3 1 主题模型 主题模型是用来在文档集中发现抽象主题的一种统计模型。 主题模型主要解决的问题就是怎么样生成主题,基本可以认为:一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。

4 1 Latent Dirichlet Allocation LDA建模过程 根据以上的分析,LDA的联合概率密度函数为:

5 1 Latent Dirichlet Allocation 模型求解
LDA模型的建模过程是:先假设整个文档集的生成过程,然后根据实际观测到的文档集来估算生成过程中的各项具体参数。所以可以说LDA模型的训练阶段的任务就是找到“最有可能产生当前观察到的文档集”的参数。 LDA的训练过程就是估算超参数α和β使得 取得最大值,而LDA的预测过程则是根据已知的α和β来预测文档的主题分布θ及各个词语的主题分布。 采用统计估算技术来求解LDA模型,如变分(variational inference)、Markov Chain Monte Carlo(MCMC)的Gibbs抽样。不管使用的是什么估算算法,都是通过观测文档集的词语来推断模型中的隐变量。

6 2 泊松因子分析 计数模型 count data LDA模型的观测量也就是输入是词语,但只停留在一篇文章中是否存在这个词语,也就是数据类型还是停留在二进制的0或1上。 而文本数据中词语在每篇文章中还存在更高级的变量形式,那就是每个单词在每篇文章中的个数,这种变量形式符合一个被称为计数模型的假设,而且使用计数模型可以更好地阐述文本数据中词语与文档的数据关系,是更符合其物理意义的。 计数模型适用于处理计数型变量,即当因变量是离散的整数且具有数值小、取零个数较多而自变量大多是表示属性的名义变量。在处理文本型数据时,词语的输入形式就是每篇文章中存在的每个词语的个数,是离散变量。

7 2 泊松因子分析 Negative Binomial分布
计数模型一般使用泊松分布来建模,但是泊松分布对于超离散的数据拟合效果不好。原因是超离散的数据的建模要求方差比均值大,而泊松分布的均值与方差相等。 所以作者提出一种改进泊松分布的方法来拟合超离散数据的形式: The Negative Binomial Process,可称为逆二项分布。 均值: 方差:

8 2 泊松因子分析 单篇文档中单词出现的次数 对于单词I在文档中出现的次数,利用逆二项分布建模可以表示为:
为了与LDA中变量保持一致,我们用x替换k,用θ替换λ,于是得到。 将LDA中隐变量主题引入的时候,某个特定主题下,该单词出现的次数就应该如下表示:

9 2 泊松因子分析 单篇文档中主题的分布 加上LDA中特定文档中主题的分布形式: 可以得到文档中每个单词出现的次数可以表示成:
用向量的形式表示:

10 2 泊松因子分析 Poisson Factor Analysis 模型整体及其参数物理意义: 表示文档与主题间的概率分布
表示主题与单词间的概率分布,取Gamma分布就可构成逆二项分布 取Gamma分布,是逆二项分布的共轭先验 是0-1之间连续的随机变量,故取beta分布

11 2 泊松因子分析 Poisson Factor Analysis 概率图模型:

12 3 深层泊松因子分析 Deep Poisson Factor Analysis
当我们在实际中进行文本分析时,并不是每一篇文档都包含了所有的主题,而是每一篇文档仅仅只包含少量的主题,而大量的主题并没有在文档中出现过。因此,在原有泊松因子分析的基础可以进行改进,使得它在处理不同的文档时,应该具有不同的隐变量。我们利用一个 矩阵来对隐变量进行限制,那么现在的泊松因子分析的观测量 就可以表示为 而 为二进制隐变量特征矩阵,每一列 都是一个稀疏向量,它表示了在文档n中出现的主题集合。

13 3 深层泊松因子分析 Deep Poisson Factor Analysis 概率图模型: 利用W可以计算出主题与主题之间的相关性。

14 4 泊松因子分析应用 利用深层泊松因子分析挖掘电子病历数据
论文提出了一个基于深层泊松因子分析模型的深层多模态结构来分析电子病历。每 种形式,都是由实测计数组成的,且由泊松分布来代表,通过二进制隐层来参数化。 论文主要聚焦于2型糖尿病病人,这种病是一种病害和治疗代价都很高的慢性疾病。 糖尿病病人有很高的风险会患上并发症如冠心病、急性心肌梗死、心血管疾病、慢 性肾功能衰竭及截肢。论文利用DPFM来预测这些并发症,这对于高危患者的预后 交流和靶向治疗是非常重要的。 使用了三种模式的数据:患者自我报告的药物使用情况,实验室测试,诊断程序码。 每个病人的每种模式的计数矩阵都来自杜克大学的五年数据库。参考的是2007年 到2011年的使用了杜克健康系统的达勒姆县居民的医疗数据,包括三家医院和一 个广泛的医疗诊所网络。这个数据库拥有超过240000个病人和超过440万的患者 访问量。

15 4 泊松因子分析应用 利用深层泊松因子分析挖掘电子病历数据 数据形式
1,数据库包括39429种药物的名字,这些名字,同时包括品牌的版数,各种各样的 计量和配方,都被投射到药剂活性成分,并使用以python语言为基础的RxNorm应 用程序中。RxNorm是一个保存由国家医学图书馆维护的药物信息的数据库,其中 包括商品名称、品牌名称,剂量信息和活性成分。 2,数据库包括4391种实验室测试,被统一到LOINC标准上。LOINC标准是实验室 和临床观察的通用标准。本文的数据库使用了1869种LOINC实验。 3,数据库包括21305种诊断程序码。使用的是专用的ICD9和CPT标准。 并发症类别 并发症作为分类的类别一共有13种,包括急性心肌梗塞、截肢、心脏导管插入术、 冠状动脉疾病、抑郁症、心脏衰竭、肾病、神经疾病、肥胖症、眼科疾病、中风、 不稳定型心绞痛和死亡

16 4 泊松因子分析应用 实验效果 1,准确率,可以看出预测并发症的准 确率在75%到80%之间,且截肢的预测 准确度最高
2,分析:下图表现的是与截肢相关性最高的三个 topic,分别是topic7、126、67及用来表现这些 topic的top10 words 3,实验还表现出了主题与主题之间的关系,也就是可以表现出引起并发症的不同主题 之间存在的关系

17 5 参考文献 Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. the Journal of machine Learning research, 2003, 3: Zhou M, Hannah L, Dunson D, et al. Beta-Negative Binomial Process and Poisson Factor Analysis[J]. Eprint Arxiv, 2011: Gan Z, Chen C, Henao R, et al. Scalable Deep Poisson Factor Analysis for Topic Modeling[C]// Int. Conf. Machine Learning (ICML) Electronic Health Record analysis via deep poisson factor models[J]. Journal of Machine Learning Research, 2015, 1:1-48

18 SmartDSP THE END


Download ppt "SmartDSP 主题模型与泊松因子分析模型 2016年4月5日 王薇."

Similar presentations


Ads by Google