大数据在医疗行业的应用
Interfacing to Established 什么是大数据 Insight By Location / Query 出现了更多的数据创造者和消费者 大数据集 扩展性差 更多的影像等多媒体信息 大数据 社交网络/协同医疗的数据 Interfacing to Established Solutions 高实效的/高价值的数据 分析价值不大 小数据集 传统的商务智能 Purpose Of This Slide – To Provide fundamental terms that are being used by the Analyst Community Around Big Data – To Show how it relates to the establish Data Structures that runs Business Processes today across many sectors. Key Point – To allow presenters to have enough knowledge of key terms that are used in the daily discussion of CIOs and ITDMS on the Topic of Big Data and How it can be harnessed for value. Approach - What we have is a balance between the traditional methods of delivering, managing and viewing information based on digital data and a shift in approach that allows data of all types and formats to be quickly sorted for transactional and operational opportunity. This in part has been driven by the availability of compute, storage and IO technologies that are evolving on the performance, trust and scalable vectors of IT Solutions. 非关系型数据 关系型数据 非结构化 Datasets whose size is beyond the ability of typical database software tools to capture, store, manage and analyze1 volume, variety, value and velocity 数量 种类 价值 变化 Unstructured 1Source: McKinsey Global Institute Analysis; SG Cross Asset Research, PwC
医疗数据的现状和未来的需求 医疗数据的现状 Unstructured Data 产生于大量的医院电子病例,体检, 健康档案,公共卫生9项服务等医 疗业务,大量的非结构化的数据格 式,包括图像,office 文档,以及 XML结构文档 国家积极倡导的3-5-2-1,区域医 疗系统的建设.会出现几百个医疗数 据中心,每个数据中心都承担这近 1000万人口的医疗数据。 根据估算,中国一个中等城市(一 千万人口)50年所积累的医疗数据 量就会达到10PB级。(来源:赛迪 网 ) 未来随着个人健康管理的推进,会 出现越来越多的个人日常健康监测 信息,这个数据的规模是难以想像 的。 Time Volume Structured Data Unstructured Data 个人健康管理 健康档案 公共卫生 诊疗数据
医疗数据的现状和未来的需求 医疗数据的利用 绝大多数的医疗数据是处于归档 状态,如果要检索是十分复杂的 这些数据又是分散的存储于不同 的业务系统中 过去不是没有整合这些数据的需 求,而是缺乏适合的技术手段 未来的数据利用前景是十分广阔 的,不仅用于临床诊断,临床科研, 而且为政府公共卫生决策及个人管 理健康都会发挥积极的作用。 进一步的医疗数据的统计为政府决策,实施监管 基本健康档案的查阅就有着现实意义 提高科研数据的质量和数量,减轻临床科研,也工作量
Video One
数据服务和数据利用和基层信息化/RHIN的关系 数据服务的期望 长期以来数据的价值和利用率都 受到了制约。其中技术方面的能 力限制了部分业务部门所期望的 数据服务. 区域医疗平台的定位和发展 “基于健康档案的区域卫生信息平 台的使用对象主要是医疗卫生人 员,最终的服务对象是居民和患 者。…在平台提供的这些服务中 有些是很基础但又很关键的服务, 比如:个人的身份识别、健康档 案索引服务、以人为中心的存储 服务、数据交换服务以及数据调 阅服务“ ----摘自基于健康档案的区域卫 生信息平台建设技术解决方案. 健康档案浏览器的要求 健康档案浏览器可以根据使用者 的特定需求提供不同卫生领域的 调阅展示服务。“ 数据的采集和利用相互促进,推动信息化的发展 传统的医疗信息网络将为大数据服务而改变
Video Two
Hadoop产品及部署集群架构剖析 普通的服务器级别的服务器 集群网络通常分成两层 双路(Dual-socket)四核或者六核处理器 12 – 24 GB内存 CPU和内存对集群的吞吐量影响很大 使用ECC内存, 每个核2 GB 6 – 12个硬盘 使用大量便宜的硬盘,例如SATA或者SAS硬盘 2 个千兆以太网卡 集群网络通常分成两层 每个机架有40台服务器,由一层交换机互联 二层通常采用链路聚合 核心交换机采用冗余配置
大数据处理在医疗行业有哪些可能的应用 业务应用 内容 临床数据比对 匹配同类型的病人的用药情况,分析最佳治疗途径; 临床决策支持 (药物过敏、重点人群、慢病患者等各类警示信息以及重复检验/检查提示等) 实时统计分析 展示公共卫生统计数据 远程病人数据分析 监控,分析临床监护数据 人口统计学分析 对不同体质人群分类 就诊行为分析 跟踪健康卡数据,分析病人就诊行为 基本药物临床应用分析 分析基本药物在处方中的比例 药品研发 基于大数据的药品市场预测 新农合基金数据分析 辅助制定农合基金的起付线,赔付病种等 新的服务模式 根据临床数据分析,提供个性化服务及自助服务等新模式
Video Three
Q&A
谢谢
你能展望一下大数据在国内医疗信息化上的作用和未来吗? 在可预见的未来,大数据在临床诊断、临床科研方面将得到充分的应用,而且 在政府公共卫生决策以及个人健康管理方面都会发挥积极的作用。 从“医疗服务”到“全程健康管理与服务”的转变过程中,各医疗机构可运用 区域卫生信息平台为居民提供主动的、人性化的健康服务,一方面为城乡居民 提供方便、快捷、全面、科学的健康服务和保障。另一方面将有助于增强居民 的健康保健意识,极大地提高居民的健康水平与生活质量。全程的健康管理与 服务,将产生大量的医疗和健康数据,大数据将在其中发挥重要的作用。 基于大数据,我们可以实现: -提供更为全面的个人健康管理服务。个人可以方便的获取医院的就诊信息、 检查数据、医疗影像等,并且可以查看个人的历史数据; -为慢性病患者提供远程数据分析和服务; -基于海量数据的分析,辅助临床诊断和用药决策; -为公共卫生机构提供及时的统计分析结果; -为药品研发、治疗方案的设计提供数据分析等。
中国有可能在哪些方面走在世界的前列 我国医疗信息化水平与国外先进国家之间还存在较大差距,发展状况也不平衡, 但是我们可以看到近年来我国医疗卫生信息化取得了长足的进步,涌现了一批 在医疗信息化道路上积极探索的医疗卫生机构和医疗信息化厂商。 从国家层面来看,卫生部一直致力于推动医疗卫生信息化的发展。在区域卫生 信息化、公立医院改革医院管理信息系统建设、县医院能力建设、基层医疗卫 生信息化等项目上都加大了投入。 从全球来看,大数据在医疗卫生行业的应用,正处于起步和探索阶段。医疗卫 生信息化从业者应该抓住我国医疗卫生信息的发展契机,与区域卫生信息化、 基层医疗卫生信息化等项目相结合,推动大数据在健康档案和数据服务方面的 应用,成为该领域的引领者。 此外,大数据的应用应该与我国在移动互联网、中文语义分析、影像分析等领 域的研究成果相结合,使多学科形成合力,促进大数据在我国临床医疗和科研 中的应用,并且达到世界先进水平。
Hadoop分布式文件系统 设计目标 •主要特点: 错误检测和快速自动恢复 为流式数据访问优化 支持大数据集 简化“一致性”模型 硬件故障是常态而非异常 为流式数据访问优化 支持大数据集 单个文件大小有数GB或者TB 可提供高聚合带宽访问 可能够扩展至数千个节点 简化“一致性”模型 一次写入、多次读 移动“计算”比移动“数据”更便宜 •主要特点: 使用低成本存储和服务器构建 存放PB级别的海量数据 高可扩展性,实际生产环境扩展至4000 个节点 高可靠性和容错性,数据自动复制 ,可 自我修复 高带宽,高并发访问
HBase 分布式数据库
Extend Virtual Storage Architecture to Include Local Disk Shared Storage: SAN or NAS Easy to provision Automated cluster rebalancing Hybrid Storage SAN for boot images, VMs, other workloads Local disk for Hadoop & HDFS Scalable Bandwidth, Lower Cost/GB Host Hadoop Other VM Host Hadoop Other VM Host Hadoop Other VM Host Hadoop Other VM Host Hadoop Other VM Host Hadoop Other VM