普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics 第五章:真核生物基因组的注释
第一节 蛋白质编码基因的注释 注释策略: (一)、基于证据的注释,即根据已有的实验证据(如cDNA)、表达序列标签(EST)和蛋白质序列进行蛋白质编码基因的注释。 (二)、从头开始(ab initio)的基因预测,即只根据基因组的DNA序列对蛋白质编码基因进行预测。 (三)、重新(de novo)基因预测,即通过与其他物种的基因组进行比较,从而预测一个新基因组中的蛋白质编码基因。
一、基于证据的基因注释 (一)顺式比对 顺式比对是使用被注释基因组的cDNA或者蛋白质序列与基因组序列进行比对后得到的最好的比对位点,而这个位点常常被认为就是转录或者翻译形成cDNA或者蛋白质的基因。 常用的顺式比对程序如AAT、SIM4、Splign等。
(二)反式比对 反式比对是使用cDNA或者蛋白质序列与基因组进行比对得到同源位点(比对所用的cDNA或者蛋白质并不来自于这个位点,往往属于同一个基因家族)。 常用的反式比对工具有BLAT、Exonerate和GeneWise 。
二、从头开始的基因预测 从基因组测序一开始,一个明确的目标就是能够准确地进行从头开始(ab initio)的基因预测,即只依赖蕴含在DNA序列内部的信息来确定基因结构。 从头开始的基因预测包括两个主要步骤,即蛋白质编码基因特征的识别和基因结构的生成。 从头预测基因软件:GENSCAN
三、重新基因预测 重新预测软件:Twinscan、SGP2、SLAM 四、整合信息 (一)人工整合 (二)自动整合
五、蛋白质编码基因的功能注释 常用的数据库主要包括NCBI的NT、NR(非荣冗余蛋白质序列数据库)、UniProt、InterPro、KEGG、KOG等。
第二节 RNA基因的注释 RNA基因是指不编码蛋白质的基因,又称为非编码基因(non-coding gene,ncRNA),其编码产物为一条功能RNA分子。
根据是否需要依赖基因组序列以外的信息RNA基因的预测方法分为两类,一类是基于相似性的预测方法,一类是从头开始的预测方法。 最全面的RNA家族序列和比对信息的数据库之一是Rfam数据库。
第三节 重复序列的注释 串联重复序列(tandem repeat) 分为:microsatellite、minisatellite、satellite 软件:Tandem Repeats Finder 散布的重复序列(dispersed repeat) 大多是转座元件(transposable element,TE),是指可以通过转座(transposition)过程在基因组内不同位置间移动的DNA片段。 转座机制:剪切和粘贴、复制和粘贴 软件:RepeatMasker
第四节 假基因的注释 non-processed pseudogene processed pseudogene 假基因是基因组中与真基因序列相似但缺乏功能的DNA序列。 non-processed pseudogene 又称为复制型假基因,是通过基因组DNA复制或者不平衡交换产生的,多位于其同源功能基因的附近。 processed pseudogene 又称反转座假基因,来源于反转座事件,由mRNA反转录成cDNA,然后整合到基因组中。
第五节 案例分析:黄瓜基因组的注释 一、蛋白质编码基因的注释
黄瓜基因组使用的转录物数据库有:黄瓜EST和mRNA(NCBI下载)、甜瓜EST(MELOGEN数据库)和TIGR植物转录数据库。 (一)基于证据的基因注释 1、转录物比对 黄瓜基因组使用的转录物数据库有:黄瓜EST和mRNA(NCBI下载)、甜瓜EST(MELOGEN数据库)和TIGR植物转录数据库。 cDNA、EST比对软件PASA和AAT-gap2 2、蛋白质比对 蛋白质数据来自UniProt数据库 比对软件:AAT-nap和Genewise
(二)构建基因预测训练集 (三)从头开始的基因预测 基因预测训练集的构建对于从头开始基因预测及EVM 中权重的训练都是至关重要的。 从头开始基因预测软件——BGF、GlimmerHMM、SNAP和GENSCAN (四)EVM基因预测自动整合系统
(五)基因功能注释 1、寻找同源基因 使用BLASTp在UniProt数据库中进行相似性搜索同源基因。
2、结构域和GO注释 结构域预测软件:InterPro数据库的InterproScan程序 GO注释:由InterPro的结构域提供
3、代谢通路注释 KEGG(Kyoto encyclopedia of genes and genomes)
二、RNA基因的注释
三、重复序列的注释 (一)串联重复序列的注释 Tandem Rpeats Finder
(二)转座元件的注释 1、构建黄瓜特意的de novo TE库 TE预测软件:ReAS、RepeatScout、PILER和LTR_FINDER 2、黄瓜的de novo TE库的分类
3、基因组水平上的转座元件的注释
四、假基因的注释