生物序列的信息检索 多序列比对及进化树的构建 生物信息学 上机练习 生物序列的信息检索 多序列比对及进化树的构建 1
1,序列的数据库信息检索示例: 待查询序列: CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC
问题 1,这是什么基因?基因的标识符是什么?在基因组上的定位是怎样的? 2,编码的蛋白质多少个氨基酸?序列标识符为?序列是? 3,该蛋白没有保守的功能结构域 ? 4,该蛋白亚细胞定位是?它的功能是怎样的? 5,该蛋白在真核生物中是否保守? 6,该蛋白有没有三级结构信息?
答案 1. 该基因为人的BIRC5基因;基因标识符:NM_001168.2;染色体定位:17号染色体,76214196..76225635; 2. 人的BIRC5蛋白质包含142个氨基酸,序列标识符为:NP_001159.2; 序列为:MGAPTLPPAWQPFLKDHRISTFKNWPFLEGCACP… 3. BIRC5具有保守的功能结构域BIR; 4. BIRC5的细胞亚定位:胞质,核;其功能有: (1) 在瘤形成过程中可能起一定作用; (2) 阻碍G2/M期的细胞编程性凋亡; (3) Chromosomal passenger complex (CPC)的成员之一。等等。 5. 该基因在真核生物中其中一个保守蛋白是来自苏门答腊猩猩Pongo abelii的BIRC5蛋白:Q5RAH9; 6. 该蛋白的三级结构已知,在PDB中的标识符为1E31等。
2,多序列比对及进化树构建 构建Cytochrome C1家族进化树 在Uniprot数据库中搜索Cytochrome C1在不同物种中的氨基酸序列,下载fasta文件 使用MEGA软件对结果进行分析: 1)多序列比对(MSA multiple sequence alignment) 2)构建进化树
Cytochrome C1家族序列获取 工具网站 http://www.uniprot.org/
选择搜索结果中Entry name 以“CY1_”开头的序列(选十几个物种序列,每一个种属只选一个序列,即entry name一样的只选择一个即可) 下载fasta文件(批量下载勾选的文件,点download)
创建Fasta 可直接下载或复制粘贴创建Fasta文件: 以>为开头,后接序列名称,重启一行,输入序列 >CY1_BOVIN MAAAAATLRGAMVGPRG… >CY1_YEAST MFSNLSKRWAQRTLSKS… >CY1_HUMAN MAAAAASLRGVVLGPRG… >…
Fasta文件要求 每个序列的Title仅保留蛋白/基因名称+种属来源,如:CY1_YEAST 序列名称中不含有 ‘=’ 字符 氨基酸序列可以分成多行,但内部不要有空格
MEGA 5软件使用 打开MEGA 5,拉开Align菜单,选择Edit/Build Alignment
MEGA 5软件使用 Creat a new Alignment 选择Protein
MEGA 5软件使用 在新弹出的窗口中,选择Data->Open->Retrieve Sequences from File,然后导入刚才保存的fasta文件
多序列比对 Ctrl+A选择全部序列,Aligment->Align by ClustalW
多序列比对 可以修改各补偿值等参数,点OK
多序列比对 多序列比对完成 Dateexport alignment, 导出MEGE format和 Fasta format两份结果,
进化树构建 关闭Alignment窗口,回到MEGA软件主窗口,File -> Open A File/Session,打开之前保存的*.meg文件
进化树构建 选择Phylogeny->Construct/Test Neighbor-Joining Tree 点yes
Bootstrap method 验证进化树,选择 点击compute开始 Bootstrap method 验证进化树,选择 bootstrap
调整树的形状
作业: 自主选择你所感兴趣的问题,利用生物信息学信息检索途径,回答你的问题。 格式: 已知:… 待查询问题: … 解答途径: 方法、数据库… 结果:… 鼓励使用新途径解决新问题! 本科已修生物信息课的同学可以不用上机练习课,但需要完成此项作业。
作业要求 作业保存为.txt或.doc文件,发送至sntt@ustc.edu.cn 邮件名称:学号+姓名