Download presentation
Presentation is loading. Please wait.
1
数据挖掘与医学数据资源开发利用 报告人: 张霞文 2017年03月17日
资料下载: PPT课件下载: 范文下载: 试卷下载: Word教程: Excel教程: 优秀PPT下载: PPT教程: 节日PPT模板: PPT素材下载: PPT背景图片: PPT图表下载: PPT模板下载: 行业PPT模板: 教案下载: 数据挖掘与医学数据资源开发利用 报告人: 张霞文 2017年03月17日
2
医学数据首先是以疾病诊疗为目的而积累的,其次才是用于医学研究的资源。
医学数据资料的状况 医学数据首先是以疾病诊疗为目的而积累的,其次才是用于医学研究的资源。 医学领域数据来源: 医学影像 实验数据 医生与病人的交流
3
医学数据资料的状况 医学数据的形式: 纯数据(如体征参数、化验结果等); 影像(如B超、CT等医学成像设备);
信号(如肌电信号、脑电信号等); 文字(如病人的身份记录、症状描述、检测和诊断结果的文字表述等)。
4
医学数据资料的状况 随着计算机技术的发展,医学数据都逐步采用 数字化。现在电子医学数据库包括电子病历、医学 影像、病理参数、化验结果等。
因此,目前医院里面的医疗数据资料,主要集中在以下几种电子信息库里面: 医院管理信息系统(hospital information system,HIS); 电子病历(electronic medical record,EMR); 实验室系统(laborary information system,LIS); 影像系统(picture archiving and communication systems,PACS); 逐步实施的社区居民健康档案。
5
医学数据资料的状况 由此可见,有了计算机的帮助,医学数据可以 得到集中的储存。这样大大优于以前的纸质文件, 易于保管、提取以及进一步的科学研究。 但是对于这些数据的提取,因为数据的复杂性, 变得很困难,造成了数据丰富但是知识匮乏的现象 。 因此,在医学数据中加入挖掘理论,可以从缺 乏先验信息的海量数据中提取隐含的、有价值的、 有意义的信息,用以预测未来的趋势以及行为,作 出前瞻性的知识决策。
6
数据挖掘的应用 数据挖掘(data mining)的概念一般定义为:从数据库的大量数据中揭示隐含的、先进而未知的,潜在有用信息的频繁过程。就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的人们事先不知道但又是潜在有用的信息和知识的过程。 数据挖掘(data mining)技术产生了十几年的时间,在商业、工业生产及教育业中已经得到了广泛的应用,并取得了一定的经济和社会效益。但是数据挖掘在医学领域方面的应用还处于初步阶段,这是由医学数据的独特性造成的。
7
数据挖掘的应用 医学领域存在着大量的数据,包括大量关于病人的病史、诊断、检验和治疗的临床信息、药品管理信息、医院管理信息等,医学数据的复杂性,造就了数据的特殊性。主要模式包括多态性、不完整性、实践性和冗余性。这些特性使得医学数据的收集和研究,与其他行业的数据存在很大的差异。因此,如果想利用医学数据进行研究,必须对这些数据进行一定的清理和过滤,确保数据的一致性及私密性。
8
数据挖掘的应用 数据挖掘在分析医学数据的研究中可以大致分为以下三类: (1)聚类分析:可以把得到的医学数据分别归在一些子集里面。
(2)关联分析:在科研方面,可以分析临床病症与药之间的关系、临床病症与药复方之间的关系、临床病症与化学成分之间的关系,建立一些关联规则。 (3)预测行为:通过已知病历的数据挖掘,学习到新的预测病例的方法,可以提前预测疾病的发生,及时救治患者的生命。
9
数据挖掘的应用 目前对于数据挖掘在医疗领域的应用主要集中在以下几个方面: 数据挖掘在医院管理部门的应用; 数据挖掘在基础医学领域的应用;
在疾病的临床诊断和治疗方面的应用; 在流行病方面的预测; 在药物研究开发中的应用。
10
数据挖掘的方法 对医学数据库进行数据挖掘和知识发现的主要目 的是预测疾病和对疾病进行分类。分类和预测是两种 数据分析形式,可以用于描述重要数据类的模型或预 测未来的数据趋势。 数据挖掘的流程可以简单地分为以下几个步骤:确定目地;数据准备;确定方法;进行挖掘;结果分析;知识运用。也可以粗略地理解为三部曲:数据准备(data preparation)、数据挖掘(data mining),以及结果的解释评估(iterpretation and evaluation)。将数据挖掘技术应用到医学信息数据库中,可以发现其中的医学诊断规则和模式,从而辅助医生进行疾病诊断,实现临床决策支持的效果。
11
数据挖掘的方法 一、数据挖掘的主要步骤 (一)数据准备 (1)数据预处理:数据清洗,数据集成(采样), 数据转换和数据消减。
(2)因为医学信息涉及到患者隐私问题,因此还 需要特别的数据处理,对患者的资料和医学记录进行 匿名化(从记录中去除患者的标识)或者标识转换 (隐藏患者真实信息),分离患者与患者记录之间的 关联关系。 (3)需要对临床数据的文本数据进行标准化处理。
12
数据挖掘的方法 (二)数据采掘 (1)产生假设:发现型(discovery-driven):让数据 采掘系统为用户产生假设。验证型(verification-driven): 用户自己对数据库中可能包含的知识提出假设。 (2)选择合适的工具。 (3)发掘知识的操作。 (4)证实发现的知识。 (三)结果表达和解释 把结果表现出来,并且对信息进行过滤处理,如 不满意,重复的第(二)步。
13
数据挖掘的方法 二、数据挖掘的主要方法 对于医疗数据的挖掘,目前,数据挖掘的主要 技术为聚类、关联规则、决策树、粗糙集、神经网 络和遗传算法等方面。比如对海量的数据进行分类, 以便接下来的数据挖掘的聚类分析;找到药症之间, 药与药之间等相关的关系的关联方法;对未来的数 据进行预测的决策树方法等。
14
数据挖掘的方法 (1)聚类分析(clustering analysis)
聚类分析是对输入集中的记录进行分类。根据一 定的规则,合理地进行分组或聚类,并用显式或者隐 式的方法描述不同的类别。将数据聚集成类,使得类 间的相似性最小,而类内的相似性尽可能大。 聚类分析是一种探索性的统计分析方法,是在没 有先验知识的情况下对数据资料进行分类,其实质就 是按照资料的内在相似或相关程度将数据分为若干个 类别,以使得类别内数据的“差异”尽可能小,类别 间“差异”尽可能大。
15
数据挖掘的方法 (2)关联分析 表示数据库中一组对象之间某种关联关系的规则, 挖掘一个事件和其他事件之间依赖或关联的知识。如 果两项或多项属性之间存在关联,那么其中一项的属 性值就可以依据其他属性值进行预测。关联规则的挖 掘问题就是在给定的事务数据库中,找出满足最小支 持度(minsup)和最小置信度(minconf)的关联规则。 关联规则有如下优点:可以产生清晰有用的结果; 支持间接数据挖掘;可以处理变长的数据;计算的消 耗量可以预见。
16
数据挖掘的方法 (3)决策树 首先通过一批已知的训练数据建立一颗决策树 (decision tree);然后,利用建好的决策树,对数据进 行预测。这是一种用树枝状展现数据受各变量影响情 况的分析预测模型,根据对目标变量产生效应的不同, 而制定分类规则,它是建立在信息论基础之上对数据 进行分类的一种方法。 决策树的建立过程是数据规则的生成过程,因此 这种方法实现了数据规则的可视化,其输出结果容易 理解,精确度较好,效率较高,因而较常用。
17
数据挖掘的方法 三、结论 聚类分析、关联分析以及决策树是医学数据挖 掘中的主要方法,三者的结合,可以对某一类疾病 进行系统的分析,从疾病证候的分类,以及疾病与 药物之间的关联、证候与药物的关联,到最后通过 疾病的前期症状,对其的早期预测,以及定义相关 疾病的诊疗路径提供了很大的帮助。
18
谢谢,同学们辛苦了!
Similar presentations