1.转录组 2.高通量测序 3.转录组数据分析 4.差异表达基因分析 5.趋势性上调和下调基因分析 6.基因集功能富集分析.

Slides:



Advertisements
Similar presentations
大家族的生存秘密 付俊 北京师范大学生命科学学院 03 级 学号: 大家族的生存秘密 节肢动物门昆虫纲的物种从数量和种类 来说都占了地球上物种数量和种类的绝大 多数。但教材上并没有给出具体的介绍。 这篇论文将从昆虫的生存特性和生理特 点来介绍地球上昆虫繁盛的原因。
Advertisements

因数与倍数 2 、 5 的倍数的特征
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
冀教版四年级数学上册 本节课我们主要来学习 2 、 3 、 5 的倍数特征,同学们要注意观察 和总结规律,掌握 2 、 3 、 5 的倍 数分别有什么特点,并且能够按 要求找出符合条件的数。
第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
分子生物学部分开发实验 植物遗传亲缘关系研究.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
DNA测序技术 DNA Sequencing
龙星课程—肿瘤生物信息学上机课程 曹莎
完全随机设计多样本资料秩和检验.
问 题 探 讨 1.DNA的中文全名是什么? 2.为什么DNA能够进行亲子鉴定? 3.你还能说出DNA鉴定技术在其他方面的应用吗?
第十一讲 生物测序技术概述 转录组测序.
基因的表达 凌通课件.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
学 院 生命科学学院 专业班级 2007级生物技术4班 学生姓名 徐 志 超 指导教师 高 玉 千
生物芯片原理初探 黄思宇 生物芯片原理初探 HSY.
辅导课程六.
Windows网络操作系统管理 ——Windows Server 2008 R2.
高通量测序 高通量测序的应用 朱伟珊 高通量测序 朱伟珊 东盛生物.
第十章 方差分析.
数据挖掘工具性能比较.
第8章 静电场 图为1930年E.O.劳伦斯制成的世界上第一台回旋加速器.
胚胎原位杂交检测基因的时空表达模式.
Metabolic biomarker signature to differentiate pancreatic ductal adenocarcinoma from chronic pancreatitis Gut, 2017, Jan (IF=14.921) 汇报人:王宁 IMI CONFIDENTIAL.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
过程自发变化的判据 能否用下列判据来判断? DU≤0 或 DH≤0 DS≥0.
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
模型分类问题 Presented by 刘婷婷 苏琬琳.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
VisComposer 2019/4/17.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
第二节 DNA分子的结构.
超越自然还是带来毁灭 “人造生命”令全世界不安
实体描述呈现方法的研究 实验评估 2019/5/1.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
遗传物质--核酸 核酸分子组成 核酸分子结构.
代谢组学技术及应用新策略简介 代谢组学平台 刘慧颖.
iSIGHT 基本培训 使用 Excel的栅栏问题
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
光合作用的过程 主讲:尹冬静.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
物理化学 复旦大学化学系 范康年教授 等 2019/5/9.
第八章 总线技术 8.1 概述 8.2 局部总线 8.3 系统总线 8.4 通信总线.
第4课时 绝对值.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
H基因库(重链基因连锁群): --- 第14号染色体 κ基因库(κ链基因连锁群): --- 第2号染色体 λ基因库(λ链基因连锁群):
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
利用DSC进行比热容的测定 比 热 容 测 量 案 例 2010.02 TA No.036 热分析・粘弹性测量定 ・何为比热容
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
基于列存储的RDF数据管理 朱敏
基因信息的传递.
BAFF在活动性SLE患者T细胞中的表达:
基因组学及相关组学 基因组学 后基因组学 蛋白质组学 组学 ---- 研究细胞、组织或整个生物体内某种分子(核酸、
第三节 转录后修饰.
第十七讲 密码执行(1).
第十二讲 密码执行(上).
入侵检测技术 大连理工大学软件学院 毕玲.
实验十八 图谱解析实验 根据谱图,推定未知苯系物的结构
病理生理学教研室 细胞信号通路检测(一) 总蛋白提取.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

1.转录组 2.高通量测序 3.转录组数据分析 4.差异表达基因分析 5.趋势性上调和下调基因分析 6.基因集功能富集分析

1.1transcriptome 转录组(transcriptome)是指特定生物体在某种状态或某一生理条件下,细胞内所有基因转录产物的总和,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。 从RNA层次研究基因表达的情况,即为转录组学(transcriptomics),是研究细胞表型和功能的一个重要手段。

1.2转录组研究的重要性 转录组是连接基因组遗传信息与生物功能的蛋白质组的纽带,转录水平的调控是最重要也是目前研究最广泛的生物体调控方式。 转录组的研究比基因组的研究能给出更高效的有用信息。 与基因组不同,转录组更有时间空间性。除了异常的mRNA降解现象(如转录衰减)以外,转录组反映的是特定条件下活跃表达的基因

转录组的研究可以提供什么条件下什么基因表达什么信息,从而推断相应未知基因的功能,揭示特定调节基因的作用机制 对转录本的定量可以了解特定基因的活性和表达量,用于疾病的诊断和治疗 通过对转录组的研究,也让个性化医疗的目标,从共性转移到个性,成为可能

1.3转录组研究的技术 主要包括如下三种: 1)基于杂交技术的微阵列技术; 2)基于Sanger测序法的SAGE (serial analysis of gene expression) 和 MPSS(multiple parallel signature sequencing); 3)基于新一代高通量测序技术的转录组测序。

几种转录组研究所用技术的比较 转录组所用技术 Microarray SAGE和MPSS RNA-seq 原理 寡核苷酸杂交 Sanger测序 高通量测序 信号 荧光信号 数字化信号 分辨率 数个-上百个 单碱基 高 低 背景 成本 相对较低 起始RNA用量 多 少

DNA芯片技术:只适用于检测已知序列,却无法捕获新的mRNA。杂交技术灵敏度有限,对于低丰度的mRNA,微阵列技术难以检测,也无法捕获到目的基因mRNA表达水平的微小变化。

SAGE(基因表达系列分析): 可以全面了解特定组织或细胞类型中基因群体表达状态,它的显著特点是能够大量获取基因组范围基因表达的类别与丰度,该技术成功地应用于特异组织或细胞的转录组研究和mRNA群体间差异表达基因鉴定。 缺点是需要大量的mRNA

MPSS(多重性平行定序): 对于功能基因组研究非常有效,能在短时间内捕获细胞或组织内全部基因的表达特征;对于鉴定致病基因并揭示该基因在疾病中的作用机制等发挥了重要作用。 可以侦测到极为罕见的基因表现

1.4转录组测序 (1)RNA聚合酶I和III负责种类稀少、功能重要的看家非编码RNA基因的转录,包括rRNA,tRNA,snoRNA,snRNA等。由这两类RNA聚合酶转录的非编码RNA属于看家RNA,在各种生理和病理状态下都被高水平转录,转录产物占细胞内RNA总量的95%以上,不是生命科学研究前沿领域的主要关注对象

(2)RNA 聚合酶II负责蛋白质编码基因和调控非编码RNA的转录,在真核生物的不同生理和病理状态下表达量被严格调控,一直吸引着各生命科学研究领域的重点关注,无比幸运的是,由RNA聚合酶II生成的转录的末端均含有3’端多聚腺苷尾【3’poly(A)tail】。 转录组测序一般是对用多聚胸腺嘧啶(oligo-dT)进行亲和纯化的RNA聚合酶II转录生成的成熟mRNA和ncRNA进行高通量测序。这样的数据有效排除了看家非编码RNA的干扰,可以通过一次测序获得一种细胞内几乎所有重要基因的表达参数。

转录组高通量测序的优势? 高通量、更精确的数字信号、无需已知序列、能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能够发现未知转录本和稀有转录本,精确的识别可变剪接位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。

转录组前沿研究简介 单细胞转录组分析 转录组测序确定RNA结构 转录组测序在疾病中的应用

2.高通量测序 测序技术的发展 高通量测序技术(High-throughput sequencing)又称“第二代”测序技术(“Next-generation” sequencing technology),高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)

2.1高通量测序优势? 价格比第一代大幅度降低 可扩展的高通量 需要样品量少 新颖的测序化学技术 单个或配对末端支持

2.2高通量测序技术的应用 重头测序(de novo sequencing) 重测序(resequencing) 全转录组测序(whole transcriptome resequencing) 小分子RNA测序(small RNA sequencing) 染色质免疫共沉淀测序(ChIP-seq)

2.3三种常见的测序平台

Illumina Genome Analyzer 专利核心技术“DNA 簇”和“可逆性末端终结”,达成自动化样本制备及基因组数百万个碱基大规模平行测序。具有高准确性,高通量,高灵敏度,和低运行成本等突出优势,可以同时完成传统基因组学研究(测序和注释)以及功能基因组学(基因表达及调控,基因功能,蛋白/核酸相互作用)研究。 Genome Analyzer IIx测序技术原理 1)文库制备:将基因组DNA打成几百个碱基(或更短)的小片段,并在两个末端加上接头(adapter)。 2) 桥式PCR产生DNA簇

a、Solexa 测序专用的测序芯片(flow cell)表面连接有一层单链引物(Primer),单链状态的 DNA片断与芯片表面的引物通过碱基互补被一端固定在芯片上; b、通过扩增反应使得单链 DNA成为双链 DNA;

c、双链再次变性后成为单链,其一端固定在测序芯片上,另外一端(5’或 3’)随机和附近的另外一个引物互补,被固定住,形成“桥“(bridge); d、在测序芯片上同时有上千万 DNA 单分子发生以上的反应; e、c 中形成的单链桥,以周围的引物为扩增引物,在测序芯片表面再次进行扩增,形成双链;

f、双链经变性成单链,再次形成桥,成为下一轮扩增的模板继续扩增反应; g、在反复进行 30 多轮扩增,每个单分子得到了 1000 倍扩增,成为单克隆“DNA簇群”; h、“DNA簇群”在Genome Analyzer IIx测序仪上进行序列分析;

3)测序反应 Illumina Genome AnalyzerIIx是一种基于单分子簇的边合成边测序技术,基于专有的可逆终止化学反应原理。测序时加入带有4种荧光标记的dNTP,每个碱基末端被保护基团封闭,每个循环只允许单个碱基合成,经过扫描,读取该次反应后的荧光信号结果,该保护基团被除去,下一个反应可继续进行,如此反复,得出碱基的精确序列。

illumina测序平台的特点 1)可控制的高通量:一次实验可读取量大于 15 亿个碱基/芯片 2)上样需求低:上样量只在pmol级(ng级) 3)简单、快速、自动化 4)低错误测序比例 利用新颖的可逆荧光标记终止子,可以在DNA链延伸的过程中检测单个碱基掺入。由于四个可逆终止子dNTP在每个测序循环都存在,自然的竞争减少了掺入的错配。

454/ GS-FLX 系统的测序技术 1)技术原理:GS FLX System是一种基于焦磷酸测序原理而建立起来的高通量基因组测序系统。焦磷酸测序的原理如下: (1)1个特异性的测序引物和单链DNA模板结合,然后加入酶混合物(包括DNA Polymerase、ATP Sulfurylase、Luciferase和Apyrase)和底物混合物(包括APS和Luciferin)。 (2)向反应体系中加入1种dNTP,如果它刚好能和DNA模板的下一个碱基配对,则会在DNA 聚合酶的作用下,添加到测序引物的3’末端,同时释放出一个分子的焦磷酸(PPi)。

(3)在ATP硫酸化酶的作用下,生成的PPi可以和APS结合形成ATP;在荧光素酶的催化下,生成的ATP又可以和荧光素结合形成氧化荧光素,同时产生可见光。通过CCD光学系统即可获得一个特异的检测峰,峰值的高低则和相匹配的碱基数成正比。 (4)反应体系中剩余的dNTP和残留的少量ATP在Apyrase的作用下发生降解。 (5)加入另一种dNTP,使第2-4步反应重复进行,根据获得的峰值图即可读取准确的DNA序列信息。

2)工作流程: 3. GS FLX系统的技术优势和限制 1)读长优势:单个序列的读长平均可达到450个碱基左右;2)操作简便高效,不需建库、 克隆挑取、质粒提取等工作;3)分析结果快速、信息高通量,10小时的运行当中可获得 100多万个读长,读取超过4-6亿个碱基信息;4)应用广泛且稳定,测序结果一致性较高;5) 同聚物的限制,即相同碱基的连续掺入,如AAA或GGG,由于没有终止元件来阻止单个循 环的连续掺入,同聚物的长度就需要从信号强度中推断出来。此处可能产生误差。因此,主 要错误类型是插入-缺失,而不是替换。

ABI SOLID3 system SOLID平台技术原理: SOLID是基于寡核苷酸连接和检测进行测序的技术。它以4色荧光标记寡核苷酸的连续连接反应为基础,以双碱基编码技术为检测技术,对单拷贝的DNA片段进行大规模扩增和高通量测序。 基本过程如下: (1)文库制备:根据实际情况制备文库:片段文库或末端配对文库 (2)乳液PCR (3)磁珠富集技术制备单分子模板:含有DNA模板的磁珠共价结合在SOLiD玻片表面。 (4)连接测序:上机测序,边连接边测序,获得SOLiD原始颜色序列。

SOLiD系统特点 1)高准确度:双碱基编码检测技术在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。 2)高通量:单次运行可产生50GB的序列数据。 3)可扩展性 4)灵活性 5)运行时间较长,测序片段相对较小:单次运行时间长达7天,最短3.5天。最长2*50bp。

测序技术的比较

Illumina Genome Analyzer

3.转录组数据分析

4.差异表达基因分析 统计学分析: 1. Fold change, 一般2-fold increase or decrease (平行实验的样本较少) 2. p-value (平行实验的样本较多) under-expressed over-expressed /2

4.1差异倍数法 Fold change= log2(A/B) A:sampleA表达值 Fold change = log2(A/B) B:sampleB表达值 Fold change = log2(A/B) 通常以1和-1为作为差异表达的阈值,判断基因是否差异表达

倍数法是比较常用的一种方法,因为比较简单和直接。 但是,这种方法也是有其重大缺陷的。比如,在某个实验中,基因表达水平的变化不大,如果选择判别阈值为2倍,则有可能找不到几个差异表达的基因,假阴性率比较高。但如果是主观缩小判断阈值,又有可能增大假阳性率。 这一方法没有考虑到差异表达的统计显著性。

4.2卡方检验 条件:a.所有单元频数都不能等于零,b.要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。 ᵡ2=[(ad-bc)2(a+b+c+d)]/[(a+b)(c+d)(a+c)(b+d)] df=1 sampleA sampleB Genei a b Sum(genei) c d

根据ᵡ2求出p值,对于p<=0.05或0.01的,拒绝原假设,存在显著的统计学意义。 统计学家已证明,当自由度比较大时,误差较小;自由度等于1时,特别n比较小,或理论频数<5时,误差较大,使得所得概率值偏小,因此需要校正。

4.2.Fisher 精确检验 英国统计学家Fisher提出的2*2表的确切概率计算法,它基于四格表的边际和固定。当ᵡ2检验的条件不满足时,这个检验非常有用。 在样本比较小时(单元的频数小于4),需要用Fisher精确检验来做独立检验。 Fisher检验是建立在超几何分布的基础上的,对于单元频数小的表来说, 特别适合。 对于2*2列联表,原假设“两变量无关”。

sampleA sampleB Genei ai1 bi2 Sum(genei) Sum(a1) Sum(b2) 计算步骤: 1.确定统计量,如ᵡ2,计算ᵡ2记为ᵡ02; 2.对于每个可能的四格表计算ᵡ2和P; 3.符合ᵡ2 >= ᵡ02的那些四格表的P值之和,即为确切概率P值

假设检验问题 Ⅰ型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。 Ⅱ型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。 在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(False Discovery Rate)值等。

False Discovery Rate (FDR) 错误发现率是评估检验统计显著性的最有力工具。统计学家都想用更符合统计学的手段得到差异基因,具体说来就是想用假设检验后赋予每个基因统计显著性或者P值,使得每个基因的判别更有统计学上的意义。为了达到这个目的,统计学家们常常用控制错误发现率(False Discovery Rate)的方法来判断差异基因。

其他方法 t检验法 运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性

方差分析 方差分析可用于基因在两种或多种条件间的表达量的比较 它将基因在样本之间的总变异分解为组间变异和组内变异两部分。 通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。

5.趋势性上调或下调基因分析 1)foldchange值foldchange(CB)foldchange(BA),阈值为1和 -1 2)相关系数 cor(c(A,B,C),c(10,20,30)),阈值为0.8和-0.8

数据的聚类分析 聚类的目的:基于物体的相似性将物体分成不同的组

系统聚类法:用于对小样本的样品间聚类及对指标聚类 。 逐步聚类法或称快速聚类法:用于对大样本的样品间聚类 。 有序样品聚类法:用于对有排列次序的样本的样品间聚类, 要求必须是次序相邻的样品才能聚在一类。 模糊聚类法:建立在模糊数学基础上的对样品间聚类的方法, 适用于小样本。 分割聚类法:适用于对指标聚类

定义:在聚类分析中反映样品或变量间关系亲疏程度的统计量称为聚类统计量,常用的聚类统计量分为距离和相似系数两种。 距 离: 用于对样品的聚类。常用欧氏距离, 在求距离前,需把指标进行标准化 。 相似系数: 常用于对变量的聚类。 一般采用相关系数 。

聚类分析对于预测基因新功能及调控网络的构建具有重要意义。 它用于探索未知的数据特征,属于无监督的聚类,也称无监督模式识别,这类训练样本没有标签,主要用于确定两个特征向量间的相似度及合适的测度,并选择一个算法方案,基于选定的相似性测度对向量进行聚类。

Diffuse large B-cell lymphoma (DLBCL) 1. 通过聚类发现各种亚型之间的关系 2. 根据基因表达模式,能够预测新的基因表达样本

6.基因集功能富集分析 进行基因集功能富集分析的原因: 一组基因直接注释的结果是得到大量的功能结点。这些功能具有概念上的交叠现象,导致分析结果冗余,不利于进一步的精细分析,所以研究人员希望对得到的功能结点加以过滤和筛选,以便获得更有意义的功能信息。 GO分析和Pathway分析

富集分析的算法: 富集分析方法通常是分析一组基因在某个功能结点上是否过出现(over-presentation)。这个原理可以由单个基因的注释分析发展到大基因集合的成组分析。 由于分析的结论是基于一组相关的基因,而不是根据单个基因,所以富集分析方法增加了研究的可靠性,同时也能够识别出与生物现象最相关的生物过程。

富集分析中常用的统计方法: 超几何分布: Fisher精确检验

GO(Gene Ontology)富集分析 基因本体数据库是GO组织(Gene Ontology Consortium)在2000年构建的一个结构化的标准生物学模型,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的细胞组分(cellular component)、分子功能(molecular function)、生物学过程(biological process)。 一套本体实际上是一套词汇表,一套基因本体(Gene Ontology,GO)也就是一套与基因有关的树状词汇表。 GO术语在多个合作数据库中的统一使用,促进了各类数据库对基因描述的一致性。

GO注释体系特点 GO通过控制注释词汇的层次结构使得研究人员能够从不同层面查询和使用基因注释信息。 从整体上来看GO注释系统是一个有向无环图(Directed Acyclic Graphs),包含三个分支,即: 生物学过程(biological process),分子功能(molecular function)和细胞组分(cellular component)。 注释系统中每一个结点(node)都是基因或蛋白的一种描述,结点之间保持严格的关系,即“is a”或“part of”。

差异基因GO分析 差异基因GO分析的关键是用统计学方法进行基因富集,分析这些基因参与了何种生物学功能、生物进程以及亚细胞定位,目前常用的基因富集分析法是基于超几何分布,用Fisher精确检验或卡方检验完成。 蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对应到Term,即功能类别或者细胞定位。 功能富集分析: 功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显著富集的GO Term。

GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以柱状图或者饼图表示。 以差异基因作为前景基因,全部基因作为背景基因(参考基因),找出差异基因相关的GO分类,计算这些差异基因同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异基因存在的GO 返回一个p-value,小的p 值表示差异基因在该GO 中出现了富集。 N:经过GO注释的全部基因数;n:GO分类中某个分支的基因数 m:经过GO注释的差异基因数;x:GO分类中某个分支的差异基因数 一般取n大于3,校正值(corrected p value)<0.05的条目作为显著性结果

超几何分布: Fisher精确检验: GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。

P值的生物学意义决定于所提交的基因列表,例如,如果列表中均为上调基因而某功能条目显著,则认为此实验因素作用可能使这个功能激活;相反如果为下调基因并且条目显著,则认为实验因素作用可能使这个功能抑制。

Pathway分析 目前较为全面的通路数据库包括KEGG,Biocarta等。KEGG(Kyoto encyclopedia of genes and genomes)是日本京都大学生物信息中心维护的开放的生物通路数据库,以新陈代谢通路为主,biocarta主要是信号转导通路,它的一个主要特点是研究者可以任意提交自行绘制的所涉及的通路,没有对其准确性分析验证。

京都基因与基因组百科全书(KEGG) KEGG是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。 KEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包含其氨基酸序列、到PDB数据库的链接等。此外,KEGG还提供基于Java的图形工具访问基因组图谱、比较基因组图谱和操作表达图谱,以及其他序列比较、图形比较和通路计算的工具。因此,KEGG数据库是进行生物体内代谢分析、代谢网络分析等研究的强有力工具之一。

柠檬酸循环(citrate cycle )

KEGG富集分析 根据挑选出的差异基因,计算这些差异基因同Pathway 的超几何分布关系,Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value,小的p 值表示差异基因在该pathway 中出现了富集。 N:经过KEGG注释的全部基因数;n:KEGG分类中某个分支的基因数 m:经过KEGG注释的差异基因数;x:KEGG分类中某个分支的差异基因数 一般取n大于3,校正值(corrected p value)<0.05的条目作为显著性结果

超几何分布: Fisher精确检验:

Pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。 与GO 分析不同,pathway 分析的结果更显得间接,这是因为,pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。而通过测序结果得到的是编码这些蛋白质的mRNA 表达量的变化。

从mRNA 到蛋白表达还要经过microRNA 调控,翻译调控,翻译后修饰(如糖基化,磷酸化),蛋白运输等一系列的调控过程,mRNA 表达量和蛋白表达量之间往往不具有线性关系,因此mRNA 的改变不一定意味着蛋白表达量的改变。同时也应注意到,在某些pathway 中,如EGF/EGFR 通路,细胞可以在维持蛋白量不变的情况下,通过蛋白磷酸化程度的改变(调节蛋白的活性)来调节这条通路。所以pathway 分析的结果需要有后期蛋白质功能实验的支持,如Western blot/ELISA,IHC(免疫组化),over expression(过表达),RNAi(RNA 干扰),knockout(基因敲除),trans gene(转基因)等。