Download presentation
Presentation is loading. Please wait.
1
医学大数据分析建模 朱啸禹
2
大数据分析模式图
3
大数据建模应遵循的规律 以业务目标作为实现目标 业务知识是每一步的核心 做好数据预处理 试验对寻找解决方案是必要的 数据中总含有模式
数据挖掘增大对业务的认知 预测提高了信息作用能力 大数据建模的价值不在于预测的准确率 模式因业务变化而变化
4
业务知识是每一步的核心 这里定义了数据挖掘过程的一个关键特征。CRISP-DM的一种朴素的解读是业务知识仅仅作用于数据挖掘过程开始的目标的定义与最后的结果的实施,这将错过数据挖掘过程的一个关键属性,即业务知识是每一步的核心。 商业理解必须基于业务知识,所以数据挖掘目标必须是业务目标的映射(这种映射也基于数据知识和数据挖掘知识); · 数据理解使用业务知识理解与业务问题相关的数据,以及它们是如何相关的;
5
业务知识是每一步的核心 · 建模是使用数据挖掘算法创建预测模型,同时解释模型和业务目标的特点,也就是说理解它们之间的业务相关性;评估是模型对理解业务的影响, 实施是将数据挖掘结果作用于业务过程 总之,没有业务知识,数据挖掘过程的每一步都是无效的,也没有“纯粹的技术”步骤。 业务知识指导过程产生有益的结果,并使得那些有益的结果得到认可。数据挖掘是一个反复的过程,业务知识是它的核心,驱动着结果的持续改善。这背后的原因可以用“鸿沟的表现”(chasm of representation)来解释(Alan Montgomery在20世纪90年代对数据挖掘提出的一个观点)。Montgomery指出数据挖掘目标涉及到现实的业务,然而数据仅能表示现实的一 部分;数据和现实世界是有差距(或“鸿沟”)的。在数据挖掘过程中,业务知识来弥补这一差距,在数据中无论发现什么,只有使用业务知识解释才能显示其重要 性,数据中的任何遗漏必须通过业务知识弥补。只有业务知识才能弥补这种缺失,这是业务知识为什么是数据挖掘过程每一步骤的核心的原因。
6
医学大数据建模应用案例
7
让医生通过消费信息评估你的健康状况 太久不运动结果办的健身卡都过期了、时不时就在超市收银台前抓一把糖果、又发福了只能去商店重新买一身XL的衣服……有没有想过,今后再发生这些情况时,你会接到医生的电话,提醒你说最近你该关注自己的健康了。 有些人会说,这怎么可能!然而对于加入了卡罗来纳医疗保健 (Carolinas HealthCare)体系的患者来说,这一天可能会很快就会到来。卡罗来纳医疗保健(Carolinas HealthCare)体系下包含了数百家医疗机构,大到医院、养老院,小到护理中心。据《彭博商业周刊》(Bloomberg Businessweek)报道,卡罗莱纳医疗保健体系会向数据代理商购买患者的消费信息,并利用预测模型对这些数据进行分析,得出患者的风险评分。而每个患者的评分会递交给医疗机构的医生,供医生用来提前预判患者病情。目前他们已经开始收集并分析2亿人的消费数据,用于识别高危患者,这样医生就可以在患者病情加重前进行健康干预。该公司的数据来源于中间商,而中间商的数据则来源于公共记录、商家以及人们的信用卡消费记录。 “对一个哮喘的患者来说,医院可以通过了解他是否按时在药店购买哮喘药、是否在商店购买过香烟以及是否居住在花粉浓度较高的社区来评估他何时会哮喘发作。”该医疗保健中心的首席医疗专员迈克尔·杜林(Michael Dulin)说,“这一系统可以通过分析一些诸如购买食物的类型,或有无健身卡之类的因素来评价一个人的心脏病发作风险。我们的想法是利用大数据和预测模型来评价人群的健康水平,然后再深入到个体层面。”
8
一些特定的消费习惯和健康风险之间的关系 虽然在卡罗来纳医疗保健中心和数据提供商的协商下,目前可以将患者的风险评估结果共享给他们的医生,但是一些细节信息是无法查看的,比如患者具体的消费内容。不过杜林表示,如果目前的尝试获得成功,他们将会和数据提供商进一步协商,让医生获得患者更为详细的消费习惯数据。 不过,许多患者和这一计划的支持者担心,将大数据拓展到医疗保健中会威胁到个人隐私。 一名Ⅰ型糖尿病患者就曾表示:“我有健康问题时打电话求助是一回事,接到不请自来的电话是另一回事。我不喜欢这样,如果我的健康保险公司会打电话和我讨论我的日常生活习惯,我会自动忽略这些来电。我认为这是对我的打扰。” 另外,健康倡导者和一些隐私方面的专家还担心,对数据分析的依赖也将削弱医患关系。 圣克拉拉大学应用伦理学马库拉中心的副主任莱恩·霍尔姆斯(Ryan Holmes)认为,如果医生在患者就诊前就已了解患者的信息,那么医生和患者之间原有的沟通可能就将会改变。
9
美国医疗保健技术公司Flatiron Health正在用大数据战胜癌症
据美国国家癌症研究所(National Cancer Institute)称,全美癌症患者共有1300多万人。但据奈特•特纳说,那些希望能开发出更好治疗方案的研究人员和医生却只能针对其中很小一部分人开展研究。 特纳和扎克•维恩伯格都是Flatiron Health公司的联合创始人。这家医疗保健技术公司位于纽约,成立才刚两年。最近它刚拿到谷歌风投(Google Ventures)领衔投资的1.3亿美元,名噪一时。特纳相信,他们公司打造的肿瘤学“云数据平台”可以帮助收集那些影响一半男性及三分之一女性的癌症相关数据。他说,尽管美国每年确诊的癌症有上百万例,但却一直缺乏足够的相关数据去改进癌症治疗方案。 他说:“在美国,绝大多数癌症治疗经验都来自于临床试验。”但是高达96%的病人并不参加这类试验。“这是个大问题,也就是说,100个进医院的病人中只有4个人可以供我们深入研究。” 另外96%的病人信息其实也有人收集——但特纳称,它们往往沉淀在电子病历(EMR)系统和医生笔记里。“我们的目标就是收集这96%的病人的数据,重新整理,让它们可以为医生、病人和其他利益相关者所用。说到底,我们是希望能提高癌症的治疗水平。” “谷歌想要的就是长生不老” Flatiron公司的肿瘤学云平台含有一个分析模块,一个电子病历模块,这两者是这家公司近期收购电子病历系统公司Altos Solutions的成果。此外,它还有一个病人入口和计费系统。这些板块和技术加起来就能提供这家公司所称的全球最大的结构化真实肿瘤学数据和信息的单一来源。Flatiron希望,通过让这些数据以符合健康保险便利及责任法案(HIPAA)的方式分享传播,能促进个体化的用药和研究。 特纳表示,目前有200多家癌症中心的1,500到2,000位临床医生和管理人员已经在使用这一技术。 这家公司迄今已经募得1.38亿美元,显然早已成为投资者追捧的对象。它的1.3亿美元B轮融资是谷歌风投第四大参投项目,也是其迄今为止规模最大的医药软件投资(谷歌风投也参投了Flatiron的A轮融资。) 谷歌公司对医疗保健公司的投资兴趣完全在人们意料之中。这家公司去年秋天宣布成立Calico公司,致力于拓展健康领域的研究;同时,它的风投部门也已投资了Foundation Medicine和DNAnexus(对此谷歌风投没有回应置评的要求)。 弗雷斯特研究公司(Forrester Research)资深分析师斯基普•斯诺说:“谷歌想要的是长生不老。他们深信自己介入医疗保健领域就是为了追求长寿——怎么帮助人们活得更长久、更健康?” “怎么可能与时俱进?”
10
首轮资本公司(First Round Capital)合伙人乔什•科普曼说:“我们以前就和奈特及扎克合作过,也投资了他们上一个公司Invite Media。正是考虑到他们的一贯表现,我们决定投资他们现在的企业。”它也参与了Flatiron Health的两轮融资。 科普曼补充说:“他们致力要解决的问题将对癌症治疗产生重大影响,这一点十分重要,也让我们产生了更强烈的投资兴趣。他们目前组建起来攻克这个难题的团队十分少有。” 斯诺称,循证医学目前正发生着翻天覆地的变化。他说:“一个医生现在针对某个健康问题所能采取的治疗方案太多了,数量之大变得难以管理,尤其是癌症,因为这个领域十分复杂。” 斯诺还称,使治疗更趋复杂的问题是,目前渠道在售的很多癌症治疗药物都做过生物标记。这就意味着,它们都是度身定制,只对特定人群、而不是所有人有效。 斯诺说:“如果你只是个内布拉斯加州社区医院的肿瘤医生,怎么可能跟得上这些发展呢?” 而另一方面,斯诺表示,Flatiron公司所谓的“96%”数据也“很唬人”。因为绝大多数临床试验都不会接受早期癌症病人,就算接受,一般也是找那些不太常见的癌症。 斯诺说:“不是每位癌症患者都适合参加临床试验。所谓的4%参与率不是个很有意义的统计数据。” 使问题更趋复杂的是:癌症患者一般并不知道自己适合参加哪些临床试验,斯诺称。“就算是斯隆•凯特灵纪念中心(Memorial Sloan Kettering,纽约著名癌症治疗中心——译注)的医生可能也不知道斯坦福大学(Stanford)的研究进展。” 而特纳称,Flatiron的技术可以在病人适合参加特定试验时通知主治医师。 “癌症领域的超级数据库” 像斯隆•凯特灵和西奈山伊坎研究院(Mt. Sinai’s Icahn Institute)这样的大型癌症研究机构也在很多方面想利用自己的数据积累开展和Flatiron一样的业务。人们认为这类机构有更多懂得数据处理的专家,而Flatiron的主要问题是它只能用一个机构的数据。不管这个数据量有多大,都不足以解决问题。 IDC公司Health Insights集团的研究总监阿兰•路易称,要深入研究所有电子病历也存在这个问题。 路易称:“把所有数据集中到一起是一回事,能否有效利用它们却是另外一回事。必须能把生物信息学和对癌症及症状的深入了解结合起来才行。” 大型癌症研究机构可能数据量相对有限,因为它们没法像Flatiron那样从多种渠道收集数据,他说:“但我认为这些机构的研究人员可能更懂得深奥的基因组学,也可能更有效地分析数据。” 特纳称,在电子病历系统上Flatiron公司也是有对手的,如Epic。但就这些病历的分析来说,他表示:“我还真没看到多少对手,也许微软公司(Microsoft)的Excel算一个。” IBM公司同样也是对手之一,但“它们主要致力于为1%的客户服务,并专攻决策支持,”特纳称。而美国临床肿瘤协会(American Society of Clinical Oncology)的CancerLinQ算另一个。 不过斯诺的看法有所不同。他说:“Flatiron更像是个信息服务提供商,而不像斯隆•凯特灵和伊坎这类专业研究机构。而斯隆•凯特灵和伊坎会说‘我们是专业卓越的中心,行业标准的起草者,我们为您提供授权,使您也能用上我们的卓越模式。’” 而另一方面,斯诺表示,Flatiron的目标是“在癌症研究领域成为像Lexis-Nexis(美国顶级商业与法律数据库——译注)一样的顶级数据库。它主要业务就是收集数据、存储数据,再将数据和相关工具授权给相关研究机构,使其能咨询相关问题。” 这意味着这家公司更核实的竞争对手是彭博社(Bloomberg)、Lexis-Nexis【隶属于里德爱思唯尔集团(Reed Elsevier)】,IMS Health和汤普森路透(Thompson-Reuters),而不是斯隆•凯特灵这类专攻癌症研究的机构。 斯诺称:“我想该公司肯定能胜过那些信息销售服务商。这将是他们能纵横驰骋的领域,而目前这个领域的巨头进展缓慢,尤其是在医疗健康领域。” 他说:“Flatiron的优势在于他们规模不大,聪明灵活。有了这一个亿,他们可能还能招到更出色的人才。”而这正是特纳的计划。
Similar presentations