1.转录组 2.高通量测序 3.转录组数据分析 4.差异表达基因分析 5.趋势性上调和下调基因分析 6.基因集功能富集分析
1.1transcriptome 转录组(transcriptome)是指特定生物体在某种状态或某一生理条件下,细胞内所有基因转录产物的总和,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。 从RNA层次研究基因表达的情况,即为转录组学(transcriptomics),是研究细胞表型和功能的一个重要手段。
1.2转录组研究的重要性 转录组是连接基因组遗传信息与生物功能的蛋白质组的纽带,转录水平的调控是最重要也是目前研究最广泛的生物体调控方式。 转录组的研究比基因组的研究能给出更高效的有用信息。 与基因组不同,转录组更有时间空间性。除了异常的mRNA降解现象(如转录衰减)以外,转录组反映的是特定条件下活跃表达的基因
转录组的研究可以提供什么条件下什么基因表达什么信息,从而推断相应未知基因的功能,揭示特定调节基因的作用机制 对转录本的定量可以了解特定基因的活性和表达量,用于疾病的诊断和治疗 通过对转录组的研究,也让个性化医疗的目标,从共性转移到个性,成为可能
1.3转录组研究的技术 主要包括如下三种: 1)基于杂交技术的微阵列技术; 2)基于Sanger测序法的SAGE (serial analysis of gene expression) 和 MPSS(multiple parallel signature sequencing); 3)基于新一代高通量测序技术的转录组测序。
几种转录组研究所用技术的比较 转录组所用技术 Microarray SAGE和MPSS RNA-seq 原理 寡核苷酸杂交 Sanger测序 高通量测序 信号 荧光信号 数字化信号 分辨率 数个-上百个 单碱基 高 低 背景 成本 相对较低 起始RNA用量 多 少
DNA芯片技术:只适用于检测已知序列,却无法捕获新的mRNA。杂交技术灵敏度有限,对于低丰度的mRNA,微阵列技术难以检测,也无法捕获到目的基因mRNA表达水平的微小变化。
SAGE(基因表达系列分析): 可以全面了解特定组织或细胞类型中基因群体表达状态,它的显著特点是能够大量获取基因组范围基因表达的类别与丰度,该技术成功地应用于特异组织或细胞的转录组研究和mRNA群体间差异表达基因鉴定。 缺点是需要大量的mRNA
MPSS(多重性平行定序): 对于功能基因组研究非常有效,能在短时间内捕获细胞或组织内全部基因的表达特征;对于鉴定致病基因并揭示该基因在疾病中的作用机制等发挥了重要作用。 可以侦测到极为罕见的基因表现
1.4转录组测序 (1)RNA聚合酶I和III负责种类稀少、功能重要的看家非编码RNA基因的转录,包括rRNA,tRNA,snoRNA,snRNA等。由这两类RNA聚合酶转录的非编码RNA属于看家RNA,在各种生理和病理状态下都被高水平转录,转录产物占细胞内RNA总量的95%以上,不是生命科学研究前沿领域的主要关注对象
(2)RNA 聚合酶II负责蛋白质编码基因和调控非编码RNA的转录,在真核生物的不同生理和病理状态下表达量被严格调控,一直吸引着各生命科学研究领域的重点关注,无比幸运的是,由RNA聚合酶II生成的转录的末端均含有3’端多聚腺苷尾【3’poly(A)tail】。 转录组测序一般是对用多聚胸腺嘧啶(oligo-dT)进行亲和纯化的RNA聚合酶II转录生成的成熟mRNA和ncRNA进行高通量测序。这样的数据有效排除了看家非编码RNA的干扰,可以通过一次测序获得一种细胞内几乎所有重要基因的表达参数。
转录组高通量测序的优势? 高通量、更精确的数字信号、无需已知序列、能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能够发现未知转录本和稀有转录本,精确的识别可变剪接位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。
转录组前沿研究简介 单细胞转录组分析 转录组测序确定RNA结构 转录组测序在疾病中的应用
2.高通量测序 测序技术的发展 高通量测序技术(High-throughput sequencing)又称“第二代”测序技术(“Next-generation” sequencing technology),高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)
2.1高通量测序优势? 价格比第一代大幅度降低 可扩展的高通量 需要样品量少 新颖的测序化学技术 单个或配对末端支持
2.2高通量测序技术的应用 重头测序(de novo sequencing) 重测序(resequencing) 全转录组测序(whole transcriptome resequencing) 小分子RNA测序(small RNA sequencing) 染色质免疫共沉淀测序(ChIP-seq)
2.3三种常见的测序平台
Illumina Genome Analyzer 专利核心技术“DNA 簇”和“可逆性末端终结”,达成自动化样本制备及基因组数百万个碱基大规模平行测序。具有高准确性,高通量,高灵敏度,和低运行成本等突出优势,可以同时完成传统基因组学研究(测序和注释)以及功能基因组学(基因表达及调控,基因功能,蛋白/核酸相互作用)研究。 Genome Analyzer IIx测序技术原理 1)文库制备:将基因组DNA打成几百个碱基(或更短)的小片段,并在两个末端加上接头(adapter)。 2) 桥式PCR产生DNA簇
a、Solexa 测序专用的测序芯片(flow cell)表面连接有一层单链引物(Primer),单链状态的 DNA片断与芯片表面的引物通过碱基互补被一端固定在芯片上; b、通过扩增反应使得单链 DNA成为双链 DNA;
c、双链再次变性后成为单链,其一端固定在测序芯片上,另外一端(5’或 3’)随机和附近的另外一个引物互补,被固定住,形成“桥“(bridge); d、在测序芯片上同时有上千万 DNA 单分子发生以上的反应; e、c 中形成的单链桥,以周围的引物为扩增引物,在测序芯片表面再次进行扩增,形成双链;
f、双链经变性成单链,再次形成桥,成为下一轮扩增的模板继续扩增反应; g、在反复进行 30 多轮扩增,每个单分子得到了 1000 倍扩增,成为单克隆“DNA簇群”; h、“DNA簇群”在Genome Analyzer IIx测序仪上进行序列分析;
3)测序反应 Illumina Genome AnalyzerIIx是一种基于单分子簇的边合成边测序技术,基于专有的可逆终止化学反应原理。测序时加入带有4种荧光标记的dNTP,每个碱基末端被保护基团封闭,每个循环只允许单个碱基合成,经过扫描,读取该次反应后的荧光信号结果,该保护基团被除去,下一个反应可继续进行,如此反复,得出碱基的精确序列。
illumina测序平台的特点 1)可控制的高通量:一次实验可读取量大于 15 亿个碱基/芯片 2)上样需求低:上样量只在pmol级(ng级) 3)简单、快速、自动化 4)低错误测序比例 利用新颖的可逆荧光标记终止子,可以在DNA链延伸的过程中检测单个碱基掺入。由于四个可逆终止子dNTP在每个测序循环都存在,自然的竞争减少了掺入的错配。
454/ GS-FLX 系统的测序技术 1)技术原理:GS FLX System是一种基于焦磷酸测序原理而建立起来的高通量基因组测序系统。焦磷酸测序的原理如下: (1)1个特异性的测序引物和单链DNA模板结合,然后加入酶混合物(包括DNA Polymerase、ATP Sulfurylase、Luciferase和Apyrase)和底物混合物(包括APS和Luciferin)。 (2)向反应体系中加入1种dNTP,如果它刚好能和DNA模板的下一个碱基配对,则会在DNA 聚合酶的作用下,添加到测序引物的3’末端,同时释放出一个分子的焦磷酸(PPi)。
(3)在ATP硫酸化酶的作用下,生成的PPi可以和APS结合形成ATP;在荧光素酶的催化下,生成的ATP又可以和荧光素结合形成氧化荧光素,同时产生可见光。通过CCD光学系统即可获得一个特异的检测峰,峰值的高低则和相匹配的碱基数成正比。 (4)反应体系中剩余的dNTP和残留的少量ATP在Apyrase的作用下发生降解。 (5)加入另一种dNTP,使第2-4步反应重复进行,根据获得的峰值图即可读取准确的DNA序列信息。
2)工作流程: 3. GS FLX系统的技术优势和限制 1)读长优势:单个序列的读长平均可达到450个碱基左右;2)操作简便高效,不需建库、 克隆挑取、质粒提取等工作;3)分析结果快速、信息高通量,10小时的运行当中可获得 100多万个读长,读取超过4-6亿个碱基信息;4)应用广泛且稳定,测序结果一致性较高;5) 同聚物的限制,即相同碱基的连续掺入,如AAA或GGG,由于没有终止元件来阻止单个循 环的连续掺入,同聚物的长度就需要从信号强度中推断出来。此处可能产生误差。因此,主 要错误类型是插入-缺失,而不是替换。
ABI SOLID3 system SOLID平台技术原理: SOLID是基于寡核苷酸连接和检测进行测序的技术。它以4色荧光标记寡核苷酸的连续连接反应为基础,以双碱基编码技术为检测技术,对单拷贝的DNA片段进行大规模扩增和高通量测序。 基本过程如下: (1)文库制备:根据实际情况制备文库:片段文库或末端配对文库 (2)乳液PCR (3)磁珠富集技术制备单分子模板:含有DNA模板的磁珠共价结合在SOLiD玻片表面。 (4)连接测序:上机测序,边连接边测序,获得SOLiD原始颜色序列。
SOLiD系统特点 1)高准确度:双碱基编码检测技术在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。 2)高通量:单次运行可产生50GB的序列数据。 3)可扩展性 4)灵活性 5)运行时间较长,测序片段相对较小:单次运行时间长达7天,最短3.5天。最长2*50bp。
测序技术的比较
Illumina Genome Analyzer
3.转录组数据分析
4.差异表达基因分析 统计学分析: 1. Fold change, 一般2-fold increase or decrease (平行实验的样本较少) 2. p-value (平行实验的样本较多) under-expressed over-expressed /2
4.1差异倍数法 Fold change= log2(A/B) A:sampleA表达值 Fold change = log2(A/B) B:sampleB表达值 Fold change = log2(A/B) 通常以1和-1为作为差异表达的阈值,判断基因是否差异表达
倍数法是比较常用的一种方法,因为比较简单和直接。 但是,这种方法也是有其重大缺陷的。比如,在某个实验中,基因表达水平的变化不大,如果选择判别阈值为2倍,则有可能找不到几个差异表达的基因,假阴性率比较高。但如果是主观缩小判断阈值,又有可能增大假阳性率。 这一方法没有考虑到差异表达的统计显著性。
4.2卡方检验 条件:a.所有单元频数都不能等于零,b.要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。 ᵡ2=[(ad-bc)2(a+b+c+d)]/[(a+b)(c+d)(a+c)(b+d)] df=1 sampleA sampleB Genei a b Sum(genei) c d
根据ᵡ2求出p值,对于p<=0.05或0.01的,拒绝原假设,存在显著的统计学意义。 统计学家已证明,当自由度比较大时,误差较小;自由度等于1时,特别n比较小,或理论频数<5时,误差较大,使得所得概率值偏小,因此需要校正。
4.2.Fisher 精确检验 英国统计学家Fisher提出的2*2表的确切概率计算法,它基于四格表的边际和固定。当ᵡ2检验的条件不满足时,这个检验非常有用。 在样本比较小时(单元的频数小于4),需要用Fisher精确检验来做独立检验。 Fisher检验是建立在超几何分布的基础上的,对于单元频数小的表来说, 特别适合。 对于2*2列联表,原假设“两变量无关”。
sampleA sampleB Genei ai1 bi2 Sum(genei) Sum(a1) Sum(b2) 计算步骤: 1.确定统计量,如ᵡ2,计算ᵡ2记为ᵡ02; 2.对于每个可能的四格表计算ᵡ2和P; 3.符合ᵡ2 >= ᵡ02的那些四格表的P值之和,即为确切概率P值
假设检验问题 Ⅰ型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。 Ⅱ型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。 在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(False Discovery Rate)值等。
False Discovery Rate (FDR) 错误发现率是评估检验统计显著性的最有力工具。统计学家都想用更符合统计学的手段得到差异基因,具体说来就是想用假设检验后赋予每个基因统计显著性或者P值,使得每个基因的判别更有统计学上的意义。为了达到这个目的,统计学家们常常用控制错误发现率(False Discovery Rate)的方法来判断差异基因。
其他方法 t检验法 运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性
方差分析 方差分析可用于基因在两种或多种条件间的表达量的比较 它将基因在样本之间的总变异分解为组间变异和组内变异两部分。 通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。
5.趋势性上调或下调基因分析 1)foldchange值foldchange(CB)foldchange(BA),阈值为1和 -1 2)相关系数 cor(c(A,B,C),c(10,20,30)),阈值为0.8和-0.8
数据的聚类分析 聚类的目的:基于物体的相似性将物体分成不同的组
系统聚类法:用于对小样本的样品间聚类及对指标聚类 。 逐步聚类法或称快速聚类法:用于对大样本的样品间聚类 。 有序样品聚类法:用于对有排列次序的样本的样品间聚类, 要求必须是次序相邻的样品才能聚在一类。 模糊聚类法:建立在模糊数学基础上的对样品间聚类的方法, 适用于小样本。 分割聚类法:适用于对指标聚类
定义:在聚类分析中反映样品或变量间关系亲疏程度的统计量称为聚类统计量,常用的聚类统计量分为距离和相似系数两种。 距 离: 用于对样品的聚类。常用欧氏距离, 在求距离前,需把指标进行标准化 。 相似系数: 常用于对变量的聚类。 一般采用相关系数 。
聚类分析对于预测基因新功能及调控网络的构建具有重要意义。 它用于探索未知的数据特征,属于无监督的聚类,也称无监督模式识别,这类训练样本没有标签,主要用于确定两个特征向量间的相似度及合适的测度,并选择一个算法方案,基于选定的相似性测度对向量进行聚类。
Diffuse large B-cell lymphoma (DLBCL) 1. 通过聚类发现各种亚型之间的关系 2. 根据基因表达模式,能够预测新的基因表达样本
6.基因集功能富集分析 进行基因集功能富集分析的原因: 一组基因直接注释的结果是得到大量的功能结点。这些功能具有概念上的交叠现象,导致分析结果冗余,不利于进一步的精细分析,所以研究人员希望对得到的功能结点加以过滤和筛选,以便获得更有意义的功能信息。 GO分析和Pathway分析
富集分析的算法: 富集分析方法通常是分析一组基因在某个功能结点上是否过出现(over-presentation)。这个原理可以由单个基因的注释分析发展到大基因集合的成组分析。 由于分析的结论是基于一组相关的基因,而不是根据单个基因,所以富集分析方法增加了研究的可靠性,同时也能够识别出与生物现象最相关的生物过程。
富集分析中常用的统计方法: 超几何分布: Fisher精确检验
GO(Gene Ontology)富集分析 基因本体数据库是GO组织(Gene Ontology Consortium)在2000年构建的一个结构化的标准生物学模型,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的细胞组分(cellular component)、分子功能(molecular function)、生物学过程(biological process)。 一套本体实际上是一套词汇表,一套基因本体(Gene Ontology,GO)也就是一套与基因有关的树状词汇表。 GO术语在多个合作数据库中的统一使用,促进了各类数据库对基因描述的一致性。
GO注释体系特点 GO通过控制注释词汇的层次结构使得研究人员能够从不同层面查询和使用基因注释信息。 从整体上来看GO注释系统是一个有向无环图(Directed Acyclic Graphs),包含三个分支,即: 生物学过程(biological process),分子功能(molecular function)和细胞组分(cellular component)。 注释系统中每一个结点(node)都是基因或蛋白的一种描述,结点之间保持严格的关系,即“is a”或“part of”。
差异基因GO分析 差异基因GO分析的关键是用统计学方法进行基因富集,分析这些基因参与了何种生物学功能、生物进程以及亚细胞定位,目前常用的基因富集分析法是基于超几何分布,用Fisher精确检验或卡方检验完成。 蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对应到Term,即功能类别或者细胞定位。 功能富集分析: 功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显著富集的GO Term。
GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以柱状图或者饼图表示。 以差异基因作为前景基因,全部基因作为背景基因(参考基因),找出差异基因相关的GO分类,计算这些差异基因同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异基因存在的GO 返回一个p-value,小的p 值表示差异基因在该GO 中出现了富集。 N:经过GO注释的全部基因数;n:GO分类中某个分支的基因数 m:经过GO注释的差异基因数;x:GO分类中某个分支的差异基因数 一般取n大于3,校正值(corrected p value)<0.05的条目作为显著性结果
超几何分布: Fisher精确检验: GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。
P值的生物学意义决定于所提交的基因列表,例如,如果列表中均为上调基因而某功能条目显著,则认为此实验因素作用可能使这个功能激活;相反如果为下调基因并且条目显著,则认为实验因素作用可能使这个功能抑制。
Pathway分析 目前较为全面的通路数据库包括KEGG,Biocarta等。KEGG(Kyoto encyclopedia of genes and genomes)是日本京都大学生物信息中心维护的开放的生物通路数据库,以新陈代谢通路为主,biocarta主要是信号转导通路,它的一个主要特点是研究者可以任意提交自行绘制的所涉及的通路,没有对其准确性分析验证。
京都基因与基因组百科全书(KEGG) KEGG是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。 KEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包含其氨基酸序列、到PDB数据库的链接等。此外,KEGG还提供基于Java的图形工具访问基因组图谱、比较基因组图谱和操作表达图谱,以及其他序列比较、图形比较和通路计算的工具。因此,KEGG数据库是进行生物体内代谢分析、代谢网络分析等研究的强有力工具之一。
柠檬酸循环(citrate cycle )
KEGG富集分析 根据挑选出的差异基因,计算这些差异基因同Pathway 的超几何分布关系,Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value,小的p 值表示差异基因在该pathway 中出现了富集。 N:经过KEGG注释的全部基因数;n:KEGG分类中某个分支的基因数 m:经过KEGG注释的差异基因数;x:KEGG分类中某个分支的差异基因数 一般取n大于3,校正值(corrected p value)<0.05的条目作为显著性结果
超几何分布: Fisher精确检验:
Pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。 与GO 分析不同,pathway 分析的结果更显得间接,这是因为,pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。而通过测序结果得到的是编码这些蛋白质的mRNA 表达量的变化。
从mRNA 到蛋白表达还要经过microRNA 调控,翻译调控,翻译后修饰(如糖基化,磷酸化),蛋白运输等一系列的调控过程,mRNA 表达量和蛋白表达量之间往往不具有线性关系,因此mRNA 的改变不一定意味着蛋白表达量的改变。同时也应注意到,在某些pathway 中,如EGF/EGFR 通路,细胞可以在维持蛋白量不变的情况下,通过蛋白磷酸化程度的改变(调节蛋白的活性)来调节这条通路。所以pathway 分析的结果需要有后期蛋白质功能实验的支持,如Western blot/ELISA,IHC(免疫组化),over expression(过表达),RNAi(RNA 干扰),knockout(基因敲除),trans gene(转基因)等。