Analysis of microarray data

Slides:



Advertisements
Similar presentations
海盈丰人力资源出品 HYF HUMAN RESOURCE PRODUCE 时间管理 时间管理就是自我管理 Time Management.
Advertisements

Hu Junfeng 向量空间模型及 k-means 聚类算法 胡俊峰 2016/04/19. Hu Junfeng 在 Trie 树上合并同词干的词集 — 问题分析 词干 + 后缀 词干 - 词尾变形 + 后缀 后缀表生成 结果评价? 2.
1 第 10 章 品牌定位分析 授課教師:. 學習目標 2 瞭解並挑選定位基礎 學習建立評分表 學習使用因素分析建立知覺圖 瞭解知覺定位分析的內容 學習使用多元尺度法建立知覺圖.
审核评估释义 余国江 教学质量监控与评估处.
中国旅游研究院武汉分院成果展示 ——2011年武汉市旅游市场调研成果简报 华中师范大学 中国旅游研究院武汉分院 二〇一一年十二月.
生存分析 survival analysis
張偉豪 三星統計服務有限公司 執行長 Amos 亞洲一哥
105學年度第一學期 選課作業說明 教務處 課務組.
第2章 数据处理基础 2.1数据及数据类型 2.2 数据统计特性 2.3 数据预处理 2.4 相似性度量 据的中心度量
How to Use SPSS in Biomedical Data analysis
十五條佛規 後學:張慈幸
原发灶切除对骨转移Ⅳ期乳腺癌患者生存期的影响
第五讲 国家公务员制度 主要内容: 一、当代中国公务员制度的建立、发展 二、中国公务员制度建设的内涵与特色 三、中西公务员制度改革比较
道路交通管理 授课教师:于远亮.
捷運綠線先到公車 GR線「桃園航空城捷運線先導公車」
程蓓 吕卫国 万小云 陈亚侠 谢幸 浙江大学医学院附属妇产科医院肿瘤科
医学统计学 8 主讲人 陶育纯 医学统计学 8 主讲人 陶育纯
五至七年級數理創意營教材之研發與教學實驗 期末報告
GR前列腺多维汇聚超声治疗术.
第 13 章 兩個母體比較的推論.
结直肠癌肝转移负相关基因:SPARCL1的发现与功能研究
第十九章 聯合分析、多元尺度方法 和集群分析
金字塔原理 Pyramid Principle 职场能力差距的本质 海盈丰人力资源出品 HYF HUMAN RESOURCE PRODUCE.
第6章 問卷統計分析軟體 操作(SPSS,Excel)
第一章 统计学及其基本概念 南京财经大学统计学系.
第一章.
兒 童 營 養 高雄長庚醫院營養治療科 營養師 洪凱殷.
徐志摩与 四大美女.
平均数检定 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2012/7/6.
第九章 方差分析 讲授内容 方差分析的基本思想及应用条件 完全随机设计资料的方差分析 随机区组设计资料的方差分析 重复测量资料的方差分析
Manifold Learning Kai Yang
SAS  統計程序實作 CONTENTS By DR. Yang , Yi-Chiang /11/11.
項目分析與探索式因素分析 李茂能, 2007,成大 Fred Li, 2007.
平均数检定 庄文忠 副教授 世新大学行政管理学系 计量分析一(庄文忠副教授) 2011/7/12.
第 3 章 敘述統計:數值方法.
相關分析 Correlation Analysis
用于计算智能研究 和人类主观测试的 统计检验 Hideyuki TAKAGI 日本 九州大学
第9章 因子分析 factor analysis
第十六章 集群分析.
統計方法的概念與應用 一、認識統計(statistics)、測驗(test)、 測量(measurement)與評價(evaluation)
4 統計分析程序的選擇.
基于基因集富集分析的畜禽复杂性状GWAS分析平台及其应用
論文計畫書 國軍人員對廢軍品管理現況之研究─以空軍 後勤單位為例 指導教授:胡子陵博士 研究生:劉俊德.
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法.
聚类分析 电子工业出版社.
Cross-Selling Strategies in e-Marketing
谈模式识别方法在林业管理问题中的应用 报告人:管理工程系 马宁 报告地点:学研B107
學生:蕭允菡 巫胤漪 吳旻芬 許雅婷 黃鈺晴 藍珮文
探討口腔衛生教育方案 對5-6歲幼兒口腔保健知識和行為之影響
数据分析的统计方法选择小结.
Vector Quantization(VQ)
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法
第十章 線上行銷研究.
16 複迴歸分析與相關分析  學習目的.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
聚类分析法预测(Cluster Analysis)
Interactome data and databases: different types of protein interaction
研究所生物統計課程整合說明 課程規劃及修課建議 楊奕馨 高雄醫學大學 藥學系 研究所生統課程授課教師
第八章 均值比较与检验 2019/5/10.
Cross-Selling Strategies in e-Marketing
Chapter 10 集群分析. Chapter 10 集群分析 概念及應用 集群分析(cluster analysis)是一種用來將屬量的觀測點分群或分類的分析方法 經過集群分析分群之後,在同一群內的觀測點針對某些特性而言,會具有一致性;而分屬不同群的觀測點,針對同樣的特性則會有顯著的不同.
An Quick Introduction to R and its Application for Bioinformatics
集群分析(Cluster) 根據觀察值在一群變項上的測量值進行分類的多變量分析方法。 在不同專業領域也稱為
參考書籍:林惠玲與陳正倉(2002),應用統計學(第二版)。台北:雙葉書廊有限公司。
第四章 多组资料均数的比较 七年制医疗口腔《医学统计学》
统计工具的使用方法 主讲人 陶育纯 统计工具的使用方法 主讲人 陶育纯
群聚分析操作介紹 -以SOM和K-means為例
97學年度第二學期水保系碩專班專題報告 農生再生試辦區之分析探討 報告人:簡榮杰.
生存分析 survival analysis
SAS 統計程序實作 PROC NPAR1WAY 無母數檢定
Presentation transcript:

Analysis of microarray data Cui Qinghua 2009-03-06

Outline Introduction Databases Detection of differentially expressed genes Clustering Classification Principal component analysis (PCA) Pathway and Ontology analysis Survival analysis

Introduction 我只强调一点,基因芯片数值反应的是mRNA的丰度(abundancy),因此,可以在一定程度上反应基因的表达水平。

Microarray总流程 Biological Question Data Analysis & Modelling Sample Preparation MicroarrayDetection Microarray Reaction Taken from Schena & Davis

应用 差异表达基因检测(不同组织、不同时间、不同条件等) 基因联合调控 疾病诊断 基因功能鉴定 药物筛选和新药开发

应用:以人类疾病为例 神经系统:肿瘤、aging, CNS炎症、多发性硬化、老年痴呆、精神分裂症、癫痫、帕金森病等; 呼吸系统:肺癌、支气管哮喘、原发性肺动脉高压、肺间质纤维化、结节病等; 消化系统:肿瘤,肠炎等 其他:造血系统疾病、传染性疾病、生殖系统疾病以及泌尿系统疾病等

s1 s2 s3• • • • • • • • sj • • • • • sM g1 g2 • gi gN gene profile Gi Mi,j array profile Aj Microarray data matrix

Databases-三大基因表达数据库 美国国立生物信息中心NCBI的Gene Expression Omnibus数据库 (GEO, http://www.ncbi.nlm.nih.gov/geo/)

Databases-三大基因表达数据库 欧洲生物信息学研究所EBI的ArrayExpress数据库 (http://www.ebi.ac.uk/microarray-as/ae/)

Databases-三大基因表达数据库 美国斯坦福大学的SMD数据库 (http://genome-www5.stanford.edu/)

数据预处理 数据缺失 标准化 原因 缺失数据的处理方法 Log变换 线性回归 伸缩+平移 舍弃该数据(同时丢掉了有用信息!) 图像受到污染 图像分辨率不足 片上灰尘或刮痕 缺失数据的处理方法 舍弃该数据(同时丢掉了有用信息!) 再做一次实验 (太昂贵了!) 用某个数取代,比如样本均值 K-nearest neighbors估计 奇异值分解(SVD) 估计 标准化 Log变换 线性回归 伸缩+平移

Detection of differentially expressed genes 两类样本 t test Wilcoxon test …… 多类样本 anova 多重检验校正 Bonferoni FDR

软件-SAM Significance Analysis of Microarrays (Tusher et al. 2001) Excel嵌入式函数

Clustering

Clustering三要素 相似性度量 聚类准则 聚类算法 Pearson’s correlation Spearman’s correlation Euclidian distance City block distance 聚类准则 聚类算法

聚类算法 层次聚类:假设有N个样本,第一级,每个样本为1类,即有N类,依次合并,直到样本只有一类。 非层次聚类 K-means Fuzzy c-means 自组织映射 。。。。。。

Clustering软件-Cluster Michael Eisen et al. 步骤: 打开软件 装入数据(格式解释) 选择聚类办法 设置参数 运行

层次聚类法的基本步骤 层次聚类法的基本步骤 对数据进行变换; 定义样本间的距离(如欧氏距离)、类别之间的距离(如最短距离); 首先将t个样本各自视为一类:得到初始的分类G(1) (含有t类),计算t个样本两两之间的距离,它们等价于初始的类间距离,得到初始的距离矩阵D(1) ; 将距离最近的两类合并为一新类,得到新的分类G(2)(含有t-1类),并计算新类与其它类的类间距离,得到新的类间距离矩阵D(2) ,再按照最小距离准则并类,得到G(3)(含有t-2类)、D(3),… 。直到所有样本都并成一类 ; 画出谱系聚类图,决定分类的个数及各类的成员。

X1 X6 X2 X4 X4 X5 X3 X2 X3 X1 X5 X6

层次聚类法举例 已知:根据5种灵长类动物朊粒蛋白的氨基酸序列比较,得到它们之间的距离矩阵(经过数据变换处理)。 X(1):Gibbon(长臂猿); X(2):Symphalangus; X(3) :Human(人); X(4) :Gorilla(大猩猩); X(5) :Chimpanzee(黑猩猩) 构造: 样本间距离——欧氏距离; 类间距离——最短距离; X(1) X(2) X(3) X(4) X(5) 1 3.5 5 7 2.5 4 6 1.5 2

D(1) 步骤 1 5个物种各自构成1类,得到5类,有: 初始分类G (1)={X(i)}(i=1, 2, 3, 4, 5) 初始类别数目m=5 初始类间距离矩阵D(1) D(1) X(1) X(2) X(3) X(4) X(5) 1 3.5 5 7 2.5 4 6 1.5 2

D(2) 步骤2 由D(1)知,合并X(1)和X(2)为一新类C(4)={X(1), X(2)},有: 新的G (2)={X(3) , X(4) , X(5) , C(4)} 新的类别数目m=4 新的类间距离矩阵D(2) D(2) X(3) X(4) X(5) C(4) 1.5 3.5 2.5 2 4 6

D(3) 步骤3 由D(2)知,合并X(3)和X(4)为一新类C(3)={X(3), X(4)},有: 新的G (3)={ X(5) , C(4) , C(3)} 新的类别数目m=3 新的类间距离矩阵D(3) D(3) X(5) C(4) C(3) 6 2 2.5

D(4) 步骤4 由D(3)知,合并X(5)和C(3)为一新类C(2)={X(5), C(3)},有: 新的G (4)={C(4) , C(2)} 新的类别数目m=2 新的类间距离矩阵D(4) D(4) C(4) C(2) 2.5

D(5) 步骤5 由D(4)知,最后合并C(4)和C(2)为一新类C(1)={C(4), C(2)},有: 新的G (5)={C(4) , C(2)} 新的类别数目m=1 新的类间距离矩阵D(5) D(5) C(1)

步骤6 画谱系聚类图 X(1) X(2) X(3) X(4) X(5) Gibbon Human Gorilla Chimpanzee 1 Symphalangus X(2) Human X(3) Gorilla X(4) X(5) Chimpanzee 1 2 3

影响聚类结果的主要因素 样本间距离的定义dij 类间距离的定义Dij

层次聚类linkage方法 Linkage方法直接影响了聚类结果,它取决于类间距离如何定义。关于类间距离有如下几种: Centroid linkage:几何中心距离。仅适用于欧氏距离。The distance between two clusters is the Euclidean distance between their centroids Single linkage:最短距离 Complete linkage:最长距离 Average linkage:平均距离

centroid linkage 几何中心距离 用Gp和Gq表示两个类,它们所包含的样本数目分别为tp和tq,类Gp和Gq之间的距离用Dpq表示。 centroid linkage 几何中心距离 定义:用Gp和Gq两类几何中心的距离为两个类之间的距离。 讨论(递推公式):设Gr是由Gp和Gq合并得到的新类,考虑Gr与Gs(s  p, q)的类间距离(几何中心距离) Drs ,有:

single linkage 最短距离 定义: Gp和Gq中最邻近的两个样本的距离为这两个类之间的距离。 讨论(递推公式):设Gr是由Gp和Gq合并得到的新类,考虑Gr与Gs(s  p, q)的类间距离(最短距离) Drs ,有:

complete linkage 最长距离 定义: Gp和Gq中相距最远的两个样本的距离为这两个类之间的距离。 讨论(递推公式):设Gr是由Gp和Gq合并得到的新类,考虑Gr与Gs(s  p, q)的类间距离(最长距离) Drs ,有:

average linkage 类平均距离 定义:用Gp和Gq中每两两样本间距离的平均值作为两个类之间的距离。 讨论(递推公式):设Gr是由Gp和Gq合并得到的新类,考虑Gr与Gs(s  p, q)的类间距离(类平均距离) Drs ,有:

类别数目的确定 X(1) X(2) X(3) X(4) X(5) 1 2 Dcr1 Dcr2 Dcr3 Dcr4 Dcr5

层次聚类结果的可视化-TreeView

非层次聚类 分类是否 合理? 是 选取 聚类种子点 (Cluster seeds) 否 初始分类 最终分类 修改分类

Microarray数据模式分类 X F(X) Y 训练样本 预处理 特征提取 机器学习 决策 新样本 分类器 决策

x1 x2 L: c1x1+c2x2-c=0 G1 G2

模式分类算法 线性分类器 神经网络 最近邻 贝叶斯分类器 隐马尔科夫模型分类器 决策树 支持向量机

Principal component analysis (PCA, 主成分分析) 基因芯片数据维数高,难以可视化 基因芯片数据噪音比较强 PCA主要的应用 降维 去噪

PCA 数学基础:统计和线性代数 均值(mean): 标准差(standard deviation): 方差

PCA 数学基础:统计和线性代数 协方差(covariance):以上测量都是针对一维变量的,然而,实际数据很多都包含2维以上的数据,统计分析的一个重要目标是检查这些维之间是否有某种关系。

PCA 数学基础:统计和线性代数 协方差(covariance)例子:样本:一个班里抽取12个学生。2维:一是每个学生的期末成绩,另一是每个学生花费在学习上的时间

PCA 数学基础:统计和线性代数 协方差距阵(covariance matrix) 矩阵代数(线性代数):这方面知识不介绍了,感兴趣的同学可以课下自学。

PCA:举例说明

PCA软件 Too many! Excel SPSS Matlab R Cluster

Pathway and Ontology analysis Gene set enrichment analysis (GSEA)

BiNGO: Gene Ontology analysis of gene cluster 二项分布 如果进行n次独立试验,用X记成功次数,则有: 超几何分布 对N件产品(其中有M件次品)进行不放回抽样检查,在n件样品中的次品数X显然是随机变量,它的分布是超几何分布

“Survival” analysis Biomarker! PIB5PA 27124 1.9e-6 Miz1 9063 0.08 GROUCHO 7088 0.004 CBLB 868 0.08 HBO1 11143 0.008 UBE3A 7337 0.01 RASGAP 25780 0.04 SKP1 6500 0.03 SODD 9530 0.03 Biomarker!

Survival analysis Survival curve estimate and test Survival curve: the fraction of patients who survive for at least one month, at least three months, etc Survival curve estimate Survival curve test (comparison, standard therapy compared to a newer therapy?)

Survival curve estimates: Kaplan-Meier

Survival curve estimating

Survival curve estimating

Survival curve estimating

Survival curve estimating

Comparison of survival curves Log-rank test (more standard) Mantel-Haenszel test Gehan-Wilcoxon test

Survival analysis using R survfit survdiff