生 物 信 息 学 Bioinformatics 0233301510 巩晶 癌症研究中心 山东大学 医学院 2015.10.23.

Slides:



Advertisements
Similar presentations
第四章 核苷酸和蛋白质序列为 基础的数据库检索 (I) 生物信息学. 检索数据库的方法  用关键词或词组进行数据库检索 (Text-based database searching)  用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching) Gene.
Advertisements


2014 年 10 月. 学生入学考试 15 位编号 号工号 ****** 北科 MBA 网址: 如: 初试密码为身份证 后六位,登录成功 后可进行修改。
第四单元 100 以内数的认识
第四单元 100 以内数的认识
第6章 Photoshop 的浮动面板 本章节学生应熟练掌握Photoshop的浮动面板的组成和使用。 教学重点:
概述 6.1 导航器面板 6.2 信息面板 6.3 调色板面板 6.4 色板面板 6.5 样式面板 6.6 历史记录面板
第六 章数据库访问页 6.1 数据访问页视图 6.2 创建数据访问页 6.3 编辑数据访问页 6.4 查看数据访问页 退出.
SEWM2006 Web检索 山东大学 陈竹敏.
第二章 中药总论 ----中兽药的基本知识.
和码汉字字形技术 和码汉字字形学习法 和码汉字字形输入法.
第10章 生物信息学基础.
多序列比对.
13-14学年度生物学科教研室总结计划 2014年2月.
必修1 分子与细胞 第二章 第三节 细 细胞溶胶 内质网 胞 核糖体 质 高尔基体 线粒体 第一课时 浙江省定海第一中学 黄晓芬.
在PHP和MYSQL中实现完美的中文显示
3.2细胞器的结构与功能.
基因组数据注释和功能分析 陈启昀 陈 辰 丁文超 张增明 浙江加州国际纳米技术研究院(ZCNI)
生物資訊 bioinformatics 林育慶.
Hadoop I/O By ShiChaojie.
ACD/ChemSketch软件在有机化学教学中的简单应用
第二讲 搭建Java Web开发环境 主讲人:孙娜
计算机科学与生命科学(11) 生物信息学基础 2013年秋季学期通选课程 上课时间:周一 18:30点 上课地点:软件园4区502d
大学计算机基础 典型案例之一 构建FPT服务器.
元素替换法 ——行列式按行(列)展开(推论)
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
第一讲: 基本流程(1).
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
生物序列的信息检索 多序列比对及进化树的构建
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
第17章 网站发布.
数据挖掘工具性能比较.
生物序列的信息检索 多序列比对及进化树的构建
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
序列分析(一) 一一序列比对.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
直接扫描保存成TIF格式, 其他图片格式用Windows XP自带的 Windows图片与传真查看器打开
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
第二节 DNA分子的结构.
姚金宇 MIT SCHEME 使用说明 姚金宇
用计算器开方.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
Web安全基础教程
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
文档创建与发布操作要点 青海省教育信息中心 2018年12月18日.
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
第六章 素材的加工与处理 第13讲 用GoldWave进行音频的截取、合并、淡入淡出操作
LOGIX500软件入门 西安华光信息技术有限公司 2008年7月11日.
第4课时 绝对值.
Visual Basic程序设计 第13章 访问数据库
Touch Github = Touch the World
第七、八次实验要求.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Python 环境搭建 基于Anaconda和VSCode.
实验目的:掌握数据的顺序存储结构及它们在计算机中的操作。 实验内容:
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
请严格按下列文件命名:矿物学人简介-姓名-模板-年月日。务请 回复至:
基因信息的传递.
YOUR SUBTITLE GOES HERE
数据表示 第 2 讲.
第四章 UNIX文件系统.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
创建、启动和关闭Activity 本讲大纲: 1、创建Activity 2、配置Activity 3、启动和关闭Activity
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
学习目标 1、什么是列类型 2、列类型之数值类型.
百万行、千万行数据查询教程 老黄牛.
Presentation transcript:

生 物 信 息 学 Bioinformatics 0233301510 巩晶 癌症研究中心 山东大学 医学院 2015.10.23

第四章 序列比较 

复习 双序列比对 Needleman-Wunsch算法,1970年,Saul Needleman和Christian Wunsch两人首先将动态规划算法应用于两条序列的全局比对,这个算法后称为Needleman-Wunsch算法。 对于: 序列p:ACGTC 序列q:AATC : 字符对字符 : 字符对空位 箭头指着的序列为空位 0 1 2 3 4 5 序列 p A C G T -5 -10 -15 -20 -25 10 5 7 4 -1 -6 12 9 21 1 2 3 序列 q 4 得分矩阵 序列p: A C G T C 序列q: A - A T C 全局序列比对结果

复习 双序列比对 无论两个序列长度是否相同,都要先做双序列全局比对,然后根据比对结果及比对长度计算它们的一致度和相似度。 如果两个序列长度相同: 一致度(identity)= (一致字符的个数 / 全局比对长度)×100% 相似度(similarity)= (一致及相似的字符的个数 / 全局比对长度)×100% 序列1:CVHK-LA identity = (4/7)*100% = 57% 序列2:C-HKTIA similarity = ((4+1)/7)*100% = 71% 如果两个序列长度不相同: 一致度(identity)=(一致字符的个数 / 全局比对长度)×100% 相似度(similarity)=(一致及相似的字符的个数 / 全局比对长度)×100% 序列1:CVHKAT identity = (4/6)*100% = 67% 序列2:CIHK-T similarity = ((4+1)/6)*100% = 83% 无论两个序列长度是否相同,都要先做双序列全局比对,然后根据比对结果及比对长度计算它们的一致度和相似度。

4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 http://www.ebi.ac.uk/Tools/psa

4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具

4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具

4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具

4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 小的 Gap Open + 大的 Gap Extend

4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 小的 Gap Open + 大的 Gap Extend = 分散的空位

4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 大的 Gap Open + 小的 Gap Extend = 集中的空位

4.5.3 双序列比对:在线比对工具 EMBL在线全局比对工具 调整 gap open 和gap extend以达到期望的比对结果

4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具

4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具

4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具 黑色是相似的部分,红色是完全不相似的部分 >Seq1 MHHHHHHSSGVDLGTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEKEDGSILICLYESYFDPGKSISENIVSFIEKSYKSIFVLSPNFVQNEWCHYEFYFAHHNLFHENSDHIILILLEPIPFYCIPTRYHKLKALLEKKAYLEWPKDRRKCGLFWANLRAAIN >Seq2 GTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEKEDGSILICLYESYFDPGKEWCHYEFYFAHHNLFHENSDHIILILLEPIPFYCIPTRAAAAAAAAAAA

4.5.3 双序列比对:在线比对工具 全局与局部比对比较 局部比对 全局比对

4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具

4.5.3 双序列比对:在线比对工具 EMBL在线局部比对工具 黑色是相似的部分,红色是不相似的部分 >Seq3 TTLDDPLGHMPERFDAFICYCPSDIQFVQEMIRQLEQTNYRLKLCVSDRDVLPGTCVWSI ASELIEKRCRRMVVVVSDDYLQAKECDVQSKFALSLSPGAHQKRLIPIKYKAMKKEFPSI LRFITVCDYTNPCTKSWFWTRLAKALSLP >Seq4 MHHHHHHSSGVDLGTENLYFQSMKTTQEQLKRNVRFHAFISYSEHDSLWVKNELIPNLEK EDGSILICLYESYFDPGKSISENIVSYLQSKECDLQTKFATSNQNEWCHYEFYFAHHNLF HENSDHIILILLEPIPFYCIPTRYHKLKALLEKKAYLEWPKDRRKCGLFWANLRAAIN

4.5.3 双序列比对:在线比对工具 全局与局部比对比较 局部比对 全局比对

5.3 双序列比对:在线比对工具 免费的在线双序列比对工具 软件名 比对类型 网址链接 EMBL Global/Local PIR http://www.ebi.ac.uk/Tools/psa PIR Global http://pir.georgetown.edu/pirwww/search/pairwise.shtml Lalign http://www.ch.embnet.org/software/LALIGN_form.html LAGAN http://lagan.stanford.edu/lagan_web/index.shtml AlignMe Alignment of Membrane Proteins http://www.bioinfo.mpg.de/AlignMe/AlignMe.html MCALIGN Alignment of non-coding DNA sequences http://homepages.ed.ac.uk/eang33/mcalign/mcinstructions.html

4.6 多序列比对 多序列比对(multiple alignment),对两条以上的生物序列进行全局比对。

4.6.1 多序列比对:应该知道的几点 多序列比对的主要用途: 确认:一个未知的序列是否属于某个家族 建立:系统发生树,查看物种间或者序列间的关系 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守片段 已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列 片段是否也具有该功能。 预测蛋白质/RNA二级结构 等等。

4.6.1 多序列比对:应该知道的几点 对要进行多序列比对的序列的几点要求: 太多的序列受不了。一般10-15条序列,最好别超过50条。 关系太远的序列受不了。两两之间序列相似度低于30%的一组序列,作多序列比对会有麻烦。 关系太近的序列受不了。两两之间序列相似度大于90%的序列,有再多条都等于只有一条。 局部的短序列受不了。多序列比对支持一组差不多长的序列,个别很短的序列属于捣乱分子。 有重复域的序列受不了。如果序列里包含重复域, 大多数多序列比对的程序都会出错,甚至崩溃。

4.6.1 多序列比对:应该知道的几点 序列的名字有几点建议: 名字里不要有“空格”,用“_”代替“空格” 。 不要用特殊字符,(比如中文, @, #, &, ^ 等) 。 名字的长度不要超过15个字符。 一组序列里,不要有重名的序列。 如果不按上述几点建议命名的话,多序列比对程序会在不告知你的情况下修改你的序列名称。 e.g. My Seq 1 My_Seq_1 e.g. 我的序列壹 Seq1@li.com e.g. This_is_my_favorite_sequence_about_mouse

4.6.2 多序列比对:算法 多序列比对的算法 目前所有的多序列比对工具都不是完美的,它们都使用一种近似的算法。 seq1 seq3 P Y M N V I -1 -2 -3 -4 -5 -6 7 6 5 4 3 2 14 13 12 11 10 E L 15 F seq2 seq1 seq2 2条序列 = 2D 3条序列 = 3D N条序列 = nD

4.6.3 多序列比对:在线比对工具 多序列比对的工具 Clustal – 最常用的多序列比对工具 Tcoffee – 最新的多序列比对工具之一 MUSCLE – 最快的多序列比对工具之一 提供多序列比对在线使用的网站(部分) 网站名称 服务器位置 网址链接 EBI Clustal-Omiga http://www.ebi.ac.uk/Tools/msa/clustalo/ Expasy Clustal W http://www.ch.embnet.org/software/ClustalW.html Sfi-Clustal Clustal O/W2 http://www.clustal.org/ (仅下载) Tcoffee http://www.ebi.ac.uk/Tools/msa/tcoffee/ http://www.tcoffee.org/ Muscle http://www.ebi.ac.uk/Tools/msa/muscle/ MUSCLE http://www.drive5.com/muscle/(仅下载)

4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的ClustalW工具 http://www.ebi.ac.uk/Tools/msa

4.6.3.1 多序列比对:在线比对工具-Clustal 人Toll样受体1-10胞内域 EMBL网站的Clustal工具

4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具

4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具 多序列比对中各个序列的排列顺序: aligned-比对过程中自动创建的顺序 input-输入序列的原始顺序 比对输出格式

4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具 默认情况下,结果中的序列顺序是按照Guide Tree排列的,而非输入时的排列顺序。 保存比对结果

4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具 先记住这里有个按钮,一会儿再来研究它!

4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具 这个树 不是 真正的进化树!

4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具 转入另一个程序去进一步做真正的系统发生树。

4.6.3.1 多序列比对:在线比对工具-Clustal EMBL网站的Clustal工具 Red: 疏水的 Blue: 酸性的 Magenta: 碱性的 Green: 羟基+胺+碱性 Gray: 其他

4.6.3 多序列比对:在线比对工具 EMBL网站的ClustalW工具 * 完全保守的一列,即,这一列的残基完全相同。 * 完全保守的一列,即,这一列的残基完全相同。 : 这一列的残基有大致相似的分子大小及相同亲疏水性,即这 一列残基或相同或相似。 . 在进化过程中,残基的分子大小及亲疏水性被一定程度上保 留了,但是有替换发生在不相似的残基间。 完全不保守的一列。

4.6.3.2 多序列比对:在线比对工具-TCOFFEE Tcoffee :多序列比对工具,算法上与Clastal系列类似,准确度上比Clustal系列高,但计算耗时比Clustal系列略高。 http://www.tcoffee.org http://tcoffee.crg.cat T-Coffee 镜像网站 SIB http://tcoffee.vital-it.ch EBI http://www.ebi.ac.uk/Tools/msa/tcoffee CNRS http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/ index.cgi Max-Planck http://toolkit.tuebingen.mpg.de/t_coffee CBSU http://cbsuapps.tc.cornell.edu/t_coffee.aspx EMBnet http://www.es.embnet.org/Services/MolBio/t-coffee

http://tcoffee.crg.cat

给序列加入结构信息的多序列比对。 把多个比对工具的结果整合成一个。 专为穿膜蛋白打造的多序列比对。 专为远源序列打造的多序列比对。 http://tcoffee.crg.cat

http://tcoffee.crg.cat

http://tcoffee.crg.cat

http://tcoffee.crg.cat

4.6.3.2 多序列比对:在线比对工具-TCOFFEE

4.6.3.2 多序列比对:在线比对工具-TCOFFEE 如果要做比对的序列有结构信息的话(包括 未发表的非PDB里的结构),可以把这些结构的PDB文件上传。

4.6.3.2 多序列比对:在线比对工具-TCOFFEE 从这里指定哪个序列对应哪个PDB结构。已上传的结构会根据序列信息自动匹配是哪个序列,不需要列出。 或者偷个懒,自动给每条序列通过BLAST搜索自动到数据库中找序列水平上相似的结构。 要算很久,留个email很必要!

4.6.3.2 多序列比对:在线比对工具-TCOFFEE

4.6.3.2 多序列比对:在线比对工具-TCOFFEE

4.6.3.2 多序列比对:在线比对工具-TCOFFEE 110

4.6.3.2 多序列比对:在线比对工具-TCOFFEE fasta_aln file score_html file phylip file clustalw_aln file

4.6.3.2 多序列比对:在线比对工具-TCOFFEE 到底保存哪个格式呢? 在选择保存格式之前,需要问自己几个问题: 大多数软件都支持我要选的这个格式吗? 我的同事们能使用我选的这个格式吗? 这个格式能保存我所需要的所有信息吗? 这个格式适合我进一步加工吗? 如果比对工具输出的格式里没有我想要的哪种, 可以通过第三方软件进行格式转换,比如: fmtseq : http://evol.mcmaster.ca/Pise/5.a/fmtseq.html or http://www.bioinformatics.org/JaMBW/1/2

4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 为了能对多序列比对的结果进行彩色显示和手工编辑,人们开发了多序列比对结果编辑器。 Jalview是一个十分常用的编辑器。http://www.jalview.org

4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 从EMBL ClustalW 多序列比对结果中快速启动JalView

4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 http://www.jalview.org/

4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 http://www.jalview.org/ 从主页上启动在线版

4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 http://www.jalview.org/

4.6.4 多序列比对:编辑和发布 编辑和发布多序列比对 下载到本地安装

软件打开后,会自动展示许多示例。

4.6.4 多序列比对:编辑和发布 刚刚做的多序列比对

4.6.4 多序列比对:编辑和发布 保守度 比对质量 共有序列

4.6.4 多序列比对:编辑和发布

4.6.4 多序列比对:编辑和发布

4.6.4 多序列比对:编辑和发布 Colour -> Clustalx 140

4.6.4 多序列比对:编辑和发布 Colour -> Clustalx

4.6.4 多序列比对:编辑和发布 将前四条序列的第51列移至第49列: 首先要选中前四条序列:持续按住 Ctrl 键,同时用鼠标点中前四条序列的名字。选中后,序列名字的底色由白变灰。

4.6.4 多序列比对:编辑和发布 然后,再次按住 Ctrl 键,把鼠标放在第51列的字母上,向左拖动到第49列。再用同样的方法,把原来的第52列向右拖动回原位。 如果只想移动选中的这一组序列中的一条序列,则按住 Shift 键再拖动即可。

4.6.4 多序列比对:编辑和发布 调整格式 各种排序 为任意一对序列做双序列比对

4.6.4 多序列比对:编辑和发布 计算各种系统发生树

4.6.4 多序列比对:编辑和发布 预测一条蛋白质序列的二级结构

4.6.4 多序列比对:编辑和发布 二级结构预测结果

4.6.4 多序列比对:编辑和发布 把序列比对保存成文本或图片

4.6.4 多序列比对:编辑和发布 终于可以发布漂亮的序列比对了!

4.6.4 多序列比对:编辑和发布 多序列比对美化工具 JalView JAVA Boxshade 擅长黑白作图 ESPript 名称 网址 特点 JalView http://www.jalview.org JAVA Boxshade http://www.ch.embnet.org/software/BOX_form.html 擅长黑白作图 ESPript http://espript.ibcp.fr/ESPript/ESPript 功能强大,很牛 MView http://bio-mview.sourceforge.net 擅长转换成HTML源码