SmartDSP 主题模型与泊松因子分析模型 2016年4月5日 王薇.

Slides:



Advertisements
Similar presentations
学生、幼儿意外伤害保险  被保险人 在深圳市取得合法办学资格的全日制大中小学校、中等职业学校 (包括普通中专、成人中专、职业高中和技工学校)、特殊教育 学校、幼儿园在籍(园)学生。
Advertisements

元大京華證券 組員名單 : A 楊之奇 A 廖本揚 A 宋俊承 A 陳冠廷 A 郭峻瑋 A 指導教授 : 許素華 副教授.
颐高集团项目中心 海亮地产开发模式研究报告. 目 录 目 录 第四部分:海亮地产高周转模式执行 第二部分:海亮地产高周转模式原因 第三部分:海亮地产高周转模式内涵 第一部分:海亮地产企业背景 第五部分:海亮地产高周转支撑体系.
第十八章 林肯大郡 第十八章 林肯大郡災變緊急搶救應變措施 1997 年 8 月 18 日溫妮颱風襲台,汐止鎮 的林肯大郡山崩,遭崩場土石撞擊 1997 年 8 月 18 日溫妮颱風襲台,汐止鎮 的林肯大郡山崩,遭崩場土石撞擊造成二十八人罹難八十戶住宅倒塌的慘劇 此災變要喚起國人的重視 本章介紹搜救行動緊急應變措施。
喜迎 G20 中国 CONTENTS 目 录目 录 1 中国美食 2 中国守护神 美食美食,顾名思义就是美味的食 物,贵的有山珍海味,便宜的 有街边小吃。但是不是所有人 对美食的标准都是一样的,其 实美食是不分贵贱的,只要是 自己喜欢的,就可以称之为美 食。吃前有期待、吃后有回味 的东西。美食遭遇心情的时候,
庄子思想 天地与我并生 万物与我为一 形而上的本体观念 法则、规范、不可思议之事. 庄子作品 极富想象力和浪漫色彩,擅用寓(寄托)言,《史 记》载: “ 其著书十余万言,大抵率寓言也 ” 。 又称《南华经》、《南华真经》 内篇 7 ,外篇 15 ,杂篇 11 《庄子》内容 《逍遥游》《齐物论》《养生主》《人间世》
大教育家孔子 年 1 月 11 日,一座总高为 9.5 米的孔 子青铜雕像在国家博物馆北广场落成。 2011 年 1 月 11 日,一座总高为 9.5 米的孔 子青铜雕像在国家博物馆北广场落成。
学分制改革为大学英语教学带来的 挑战与机遇 —— 武汉科技大学交流报告. Contents 武汉科技大学外国语学院简介 一 四 我校学分制改革后大学英语教学改革探索 二 学分制改革为大学英语教学带来的挑战 三 学分制改革为大学英语教学带来的机遇.
泄 泻. 一、概述 定义: 大便稀薄,甚如水样,或完谷不化,并多 有排便次数增多。 泄与泻含义有别:泄者,漏泄之意,是指 大便溏薄,时作时止,病势较缓;泻者,倾 泻之意,是指大便直下,如水倾注,病势较 急。临床一般统称为泄泻。 病名: 《内经》称为 “ 泄 ” ,汉唐多与痢疾同归于 “ 下利 ” 之中,宋代以后渐以.
病案管理在医院统计中的作用 郑州大学第一附属医院 余晓红
世界读书日 4月23日.
月子保姆理论知识试卷.
因为爱,我们让研修果实更香甜 ——阜阳市临泉县小语1班第三期简报 编辑 葛泽付.
文亭淘宝城销售政策及租金政策 版权声明: 本文仅供客户内部使用,版权归北京和美行房地产经纪公司山东分公司所有,未经北京和美行房地产经纪公司山东分公司书面许可,不得擅自向其它任何机构和个人传阅、引用、复制和发布报告中的部分或全部内容。
古诗鉴赏 (常用答题方法 ).
甘肃小吃 文产二班 陶方 羊肉泡 牛肉面 暖锅.
李强 《烟草控制框架公约》知识及控烟立法能力培训班 2012年10月 青海西宁
励行“三严三实” 争做新时期“好干部” 专题教育党课 国电内蒙古东胜热电有限公司张殿福 2015年6月.
日期: 六 福 村.
第三课 氓.
目 录 探索社会力量参与矛盾化解新模式 创新背景 主要做法 创新亮点 取得成效 杭州市信访局(“12345”)
梦想的力量 博湖一小 赵秀珍. 梦想的力量 博湖一小 赵秀珍 读课文,你有什么感受和体会,相互交流一下。还可以把自己想到的写下来。 瑞恩的梦想是什么?他是怎样实现自己的梦想的? 梦想的力量是什么? 读课文,你有什么感受和体会,相互交流一下。还可以把自己想到的写下来。
善始善终 永不言弃 学 情 通 报 会 涪陵区教育委员会 中国教师研修网 2013年9月9日
周刊 总第38期 2013年6月1日 本期编辑:翁茜茜 温州滨海学校教科室主办
“湖北省高等学校数字图书馆”外文期刊资源的利用
2、加一笔成新字 一 →二 二 →三、干、工 十 →土、士 口 →日、中 日 →目、白、田 月 →用 目 →自 木 →禾、本 大 →天、太、犬 人 →大、个 了 →子.
集全球21位醫生的經驗和智慧 yst.
常州市戚墅堰实验中学 虞超群 执教 《诗经》选读 卫风·氓.
先秦诸子的性情人生 “语文教材微专题系列研究”之一 复旦附中 李郦.
作文训练: 突出中心.
愛情直播不NG -破解戀愛迷思 嘉南藥理科技大學 學生輔導中心.
盐津县人民医院法律法规培训 赵柄权 2014年6月.
四组制作: 许顺楠、姬少丽、李澎、刘伏、 徐娅丽、李頔
系统简介 理财顾问 业务 是基于通信平台的技术优势,整合《理财周刊》、第一理财网、乾隆集团等合作伙伴提供的理财产品内容和权威的理财专家资源,以集中式呼叫中心为主的服务方式,让普通百姓可以享受到快捷、全面、专业、权威的资讯及投资理财的服务平台。
贴近教学 服务师生 方便老师.
川信·中国奥园优债集合 资金信托计划1号 华南片区投资银行一部 2016年5月.
关于在宝钢全体党员中开展“学党章党规、 学系列讲话,做合格党员”学习教育的 实施方案
生物化学与养生 化学三班 张震.
深入贯彻党的十七届四中全会精神 切实提高全区组织工作科学化水平
宦官那些事儿 宦官那些事儿 主讲:小学部李永善 主讲:小学部李永善.
如何更好地撰写提案 阳西县政协副主席 钟基建 2015年1月.
电视教育课 【5】 小学生行为习惯养成教育.
关注教师、学生的应用体验 营造实用、高效的数字校园生态环境
义务教育课程标准实验教科书二年级下册 玲玲的画 山东滨州市无棣县棣丰街道中心小学 曹雪敏. 生活中有些事真有意思!要是肯动 脑筋,坏事也能变成好事;要是肯动脑 筋,看来不可能办成的事也能办成。碰 到问题,我们要认真想想,找到解决问 题的办法,做个善于思考的孩子。
受众定向标签体系 受众定向即为AUC打标签的过程 标签的两大主要作用 1 上下文标签可以认为是即时受众标签 建立面向广告主的流量售卖体系
歌咏对象是谁? 1)志洁行廉,爱国忠君真气节; 辞微旨远,经天纬地大诗篇。 2)翁去八百载,醉乡犹在; 山行六七里,亭影不孤。 3)刚直不阿,留得正气冲霄汉; 幽愁发愤,著成信史照尘寰。 4)世上疮痍,诗中圣哲; 人间疾苦,笔底波澜。 屈原 欧阳修 司马迁 杜甫.
项羽之死 司马迁.
第三章 古代汉语语法 3—1古汉语语法及其研究 一、《马氏文通》以前的《古汉语研究》
词 五 首.
宁波爱地房产市场年报 郊五区
2016年6月.
第一章 神话.
解读《全国文化市场技术与服务平台应用规范》
— —1998年全世界诺贝尔获奖者集会巴黎时的宣言
重点字词: 1、吾党之小子狂简 3、暴虎冯河 5、无所取材! 6、予所否者,天厌之 8、子哭之恸.
项目办公室.
28 唯一的听众 九年制义务教育课本第十册 Contents 作者:落雪.
学 术 报 告 新型富勒烯的合成 报告人: 时间: 地点: 简历: 谢素原 教授 (厦门大学) (周三)
16 葡萄沟.
一九九四年九月五日.
《神经网络与深度学习》 深度信念网络
新个人所得税 相关政策解读.
汕头大学医学院附属肿瘤医院 医务科 药学部 2014年12月
風水 東北亞 亞洲大陸 南亞 東南亞 位置 地形 氣候 宜蘭縣文化國中
音乐1 工作坊 学习简报 (第1期) 音乐1坊主: 胡真真 2016年5月.
孔祥星 合作者:张玄、侯振挺 中 南 大 学 2012年5月27日
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
說話的藝術 香港仔工業學校 盧仲衡老師.
7 間斷隨機變數及其常用的機率分配  學習目的.
社會學習領域 課綱修正宣導簡報 臺北市社會領域輔導小姐.
Presentation transcript:

SmartDSP 主题模型与泊松因子分析模型 2016年4月5日 王薇

目 录 1 2 3 4 5 CONTENTS Latent Dirichlet Allocation 泊松因子分析 深层泊松因子分析 泊松因子分析应用 5 参考文献

1 主题模型 主题模型是用来在文档集中发现抽象主题的一种统计模型。 主题模型主要解决的问题就是怎么样生成主题,基本可以认为:一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。

1 Latent Dirichlet Allocation LDA建模过程 根据以上的分析,LDA的联合概率密度函数为:

1 Latent Dirichlet Allocation 模型求解 LDA模型的建模过程是:先假设整个文档集的生成过程,然后根据实际观测到的文档集来估算生成过程中的各项具体参数。所以可以说LDA模型的训练阶段的任务就是找到“最有可能产生当前观察到的文档集”的参数。 LDA的训练过程就是估算超参数α和β使得 取得最大值,而LDA的预测过程则是根据已知的α和β来预测文档的主题分布θ及各个词语的主题分布。 采用统计估算技术来求解LDA模型,如变分(variational inference)、Markov Chain Monte Carlo(MCMC)的Gibbs抽样。不管使用的是什么估算算法,都是通过观测文档集的词语来推断模型中的隐变量。

2 泊松因子分析 计数模型 count data LDA模型的观测量也就是输入是词语,但只停留在一篇文章中是否存在这个词语,也就是数据类型还是停留在二进制的0或1上。 而文本数据中词语在每篇文章中还存在更高级的变量形式,那就是每个单词在每篇文章中的个数,这种变量形式符合一个被称为计数模型的假设,而且使用计数模型可以更好地阐述文本数据中词语与文档的数据关系,是更符合其物理意义的。 计数模型适用于处理计数型变量,即当因变量是离散的整数且具有数值小、取零个数较多而自变量大多是表示属性的名义变量。在处理文本型数据时,词语的输入形式就是每篇文章中存在的每个词语的个数,是离散变量。

2 泊松因子分析 Negative Binomial分布 计数模型一般使用泊松分布来建模,但是泊松分布对于超离散的数据拟合效果不好。原因是超离散的数据的建模要求方差比均值大,而泊松分布的均值与方差相等。 所以作者提出一种改进泊松分布的方法来拟合超离散数据的形式: The Negative Binomial Process,可称为逆二项分布。 均值: 方差:

2 泊松因子分析 单篇文档中单词出现的次数 对于单词I在文档中出现的次数,利用逆二项分布建模可以表示为: 为了与LDA中变量保持一致,我们用x替换k,用θ替换λ,于是得到。 将LDA中隐变量主题引入的时候,某个特定主题下,该单词出现的次数就应该如下表示:

2 泊松因子分析 单篇文档中主题的分布 加上LDA中特定文档中主题的分布形式: 可以得到文档中每个单词出现的次数可以表示成: 用向量的形式表示:

2 泊松因子分析 Poisson Factor Analysis 模型整体及其参数物理意义: 表示文档与主题间的概率分布 表示主题与单词间的概率分布,取Gamma分布就可构成逆二项分布 取Gamma分布,是逆二项分布的共轭先验 是0-1之间连续的随机变量,故取beta分布

2 泊松因子分析 Poisson Factor Analysis 概率图模型:

3 深层泊松因子分析 Deep Poisson Factor Analysis 当我们在实际中进行文本分析时,并不是每一篇文档都包含了所有的主题,而是每一篇文档仅仅只包含少量的主题,而大量的主题并没有在文档中出现过。因此,在原有泊松因子分析的基础可以进行改进,使得它在处理不同的文档时,应该具有不同的隐变量。我们利用一个 矩阵来对隐变量进行限制,那么现在的泊松因子分析的观测量 就可以表示为 而 为二进制隐变量特征矩阵,每一列 都是一个稀疏向量,它表示了在文档n中出现的主题集合。

3 深层泊松因子分析 Deep Poisson Factor Analysis 概率图模型: 利用W可以计算出主题与主题之间的相关性。

4 泊松因子分析应用 利用深层泊松因子分析挖掘电子病历数据 论文提出了一个基于深层泊松因子分析模型的深层多模态结构来分析电子病历。每 种形式,都是由实测计数组成的,且由泊松分布来代表,通过二进制隐层来参数化。 论文主要聚焦于2型糖尿病病人,这种病是一种病害和治疗代价都很高的慢性疾病。 糖尿病病人有很高的风险会患上并发症如冠心病、急性心肌梗死、心血管疾病、慢 性肾功能衰竭及截肢。论文利用DPFM来预测这些并发症,这对于高危患者的预后 交流和靶向治疗是非常重要的。 使用了三种模式的数据:患者自我报告的药物使用情况,实验室测试,诊断程序码。 每个病人的每种模式的计数矩阵都来自杜克大学的五年数据库。参考的是2007年 到2011年的使用了杜克健康系统的达勒姆县居民的医疗数据,包括三家医院和一 个广泛的医疗诊所网络。这个数据库拥有超过240000个病人和超过440万的患者 访问量。

4 泊松因子分析应用 利用深层泊松因子分析挖掘电子病历数据 数据形式 1,数据库包括39429种药物的名字,这些名字,同时包括品牌的版数,各种各样的 计量和配方,都被投射到药剂活性成分,并使用以python语言为基础的RxNorm应 用程序中。RxNorm是一个保存由国家医学图书馆维护的药物信息的数据库,其中 包括商品名称、品牌名称,剂量信息和活性成分。 2,数据库包括4391种实验室测试,被统一到LOINC标准上。LOINC标准是实验室 和临床观察的通用标准。本文的数据库使用了1869种LOINC实验。 3,数据库包括21305种诊断程序码。使用的是专用的ICD9和CPT标准。 并发症类别 并发症作为分类的类别一共有13种,包括急性心肌梗塞、截肢、心脏导管插入术、 冠状动脉疾病、抑郁症、心脏衰竭、肾病、神经疾病、肥胖症、眼科疾病、中风、 不稳定型心绞痛和死亡

4 泊松因子分析应用 实验效果 1,准确率,可以看出预测并发症的准 确率在75%到80%之间,且截肢的预测 准确度最高 2,分析:下图表现的是与截肢相关性最高的三个 topic,分别是topic7、126、67及用来表现这些 topic的top10 words 3,实验还表现出了主题与主题之间的关系,也就是可以表现出引起并发症的不同主题 之间存在的关系

5 参考文献 Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. the Journal of machine Learning research, 2003, 3: 993-1022. Zhou M, Hannah L, Dunson D, et al. Beta-Negative Binomial Process and Poisson Factor Analysis[J]. Eprint Arxiv, 2011:1462-1471. Gan Z, Chen C, Henao R, et al. Scalable Deep Poisson Factor Analysis for Topic Modeling[C]// Int. Conf. Machine Learning (ICML). 2015. Electronic Health Record analysis via deep poisson factor models[J]. Journal of Machine Learning Research, 2015, 1:1-48

SmartDSP THE END