双序列比对.

Slides:

Advertisements

Similar presentations

行政院原住民族委員會法規暨訴願審議委員會 102 年度原住民身分法實例演練講習：原住民身分認定及救濟程序.

Advertisements

本校自民國 78 年於顏前校長世錫任內創設本系設立鑑識科學學系大學部，專責鑑識人才之培養，為目前國內唯一專門培育鑑識科學人才、研究鑑識科學學術之大學學系，設系剛滿 20 年。自 85 年於姚前校長高橋任內，設立鑑識科學研究所招收碩士生，民國 88 年於謝前校長瑞智任內先後獲內政部、教.

第二节基因在亲子代间的传递. 1. 什么叫做遗传？ 2. 什么叫做性状？ 3. 性状是由什么决定的？

新个体新个体？受精卵受精卵何种分裂有丝分裂卵细胞何种作用受精作用精子何种分裂减数分裂父方母方从细胞水平上来看，人是怎样诞生的？思考： 1 、你从双亲继承了什么物质？ 2 、上图中的数字代表什么？

年輕駕駛交通工具考上駕照的 18 歲，正好是高中畢業，離家工作、上大學的時候。年輕人對新環境的好奇及生疏，以及尚未養成良好駕駛習慣，造成意外的產生。

第二章：生物科學與食品第三節：基因改造食品.

第二章中药药性理论的现代研究掌握中药四性的现代研究掌握中药五味的现代研究掌握中药毒性的现代研究了解中药归经的现代研究.

嬰幼兒健康評估.

第三章现代教育与人的发展.

第八章互换的运用.

这是一个数字的乐园这里埋藏着丰富的宝藏请跟我一起走进数学的殿堂.

神创造万物及人类.

第二章　中药总论 ----中兽药的基本知识.

政府採購法規概要報告人：杜國正行政院公共工程委員會企劃處.

第1節動物的生殖第2節人類的生殖和胚胎發育第3節基因與遺傳第4節人類的遺傳第5節討論

手太阳小肠经.

第21课时　生物圈中的微生物考点聚焦专项突破 1.

國民中學自然與生活科技第二冊第３章　生殖 3-1 細胞分裂 3-2 無性生殖 3-3 有性生殖.

生命科学发展趋势、优先发展领域与资助思考

第2章基因和染色体的关系第1节减数分裂和受精作用.

之魔析妖鬼解怪大沈家仪小组出品.

游泳四式技術分析暨初級教法.

学校核心发展力上海市建平中学程红兵.

必修二生物（人教版）.

高二生物绪论制作人：李绒.

想一想议一议 P74 我们常吃的蘑菇有根、茎、叶吗？它们的生长是否需要光？为什么说它们是真菌而不是植物呢？

三次科技革命学习目标： 1.知道三次科技革命的时间、标志、发源地、理论基础、主要成就、主要特点及影响。 2.培养归纳历史知识的能力

管理: 浸大中醫藥研究所有限公司實驗室: 中藥材標準實驗室, 中醫藥學院 ISO實驗室, 研究及開發部, 中醫藥學院

一轮复习细胞的增值.

王永慶遺產分配第三組民法報告 4970T011 劉昭妤 4970T037 吳品怡 4970T090 袁如意

台南在地美食文化介紹台南市鳳凰城文史協會理事長歐財榮.

第四节地域文化与人口有儿无女不称心，有女无儿就伤心；一儿一女不放心，多子多女才舒心。有权的顶着生，有钱的买着生；

推行使用散装预拌砂浆全面贯彻落实禁现政策

技师专业论文与答辩技师专业论文与答辩辅导 2016年3月.

一、作者概說：　　王壽來，民國三十八年生，山西省五臺縣人，中興大學法律系畢業，美國喬治城大學碩士、臺灣師範大學美術研究所碩博士。長期從事文化與外交工作，現任文建會文化資產總管理處籌備處主任。　　王壽來靈感多取自生活經驗，善用中外名言，描繪人生百態。著有《公務員快意人生》、《藝術‧收藏‧我》、《公務員DNA》、《和世界偉人面對面》等書。

学生培养的过程性评价.

导入新课波能绕过障碍物产生衍射。既然光也是一种波，为什么在日常生活中难以观察到光的衍射现象呢？.

高中生物学必修Ⅰ 分子与细胞前言.

第九章长期资产及摊销 2017/3/21.

1.1.2 四种命题.

13-14学年度生物学科教研室总结计划 2014年2月.

第六章科学观察与科学实验.

必修1 分子与细胞第二章第三节细细胞溶胶内质网胞核糖体质高尔基体线粒体第一课时浙江省定海第一中学黄晓芬.

关注生物技术的伦理问题.

2015年高考历史质量分析报告兰州市外国语高级中学杨彩玲.

肝功能正常的小三阳注意事项.

突變突變是指遺傳物質發生改變，而影響到性狀的表現例：白化症.

课标教材下教研工作的实践与思考山东临沂市教育科学研究中心郭允远.

第八章二元一次方程组 8.3实际问题与二元一次方程组.

第八章二元一次方程组 8.3实际问题与二元一次方程组 (第3课时）.

大河與文明兩河、印度與中國文明.

第五章中耕机械一、除草技术与中耕机械 ○ 化学除草剂：易于污染环境、有些草难以除尽 ○ 中耕机械：适于行间除草

基因组数据注释和功能分析陈启昀陈辰丁文超张增明浙江加州国际纳米技术研究院（ZCNI）

生物資訊 bioinformatics 林育慶.

生物五界的分類方式.

Basic Local Alignment Search Tool

第二章数据搜索与两两比对本章描述了如何比对两条或多条相关核苷酸或多肽序列，如何搜索存储序列信息的数据库。

Authors: Saumil Mehta and Deendayal Dinakarpandian

序列分析（一）一一序列比对.

Chapter 8 Model Inference and Averaging

人是由什么发育而来的？一个受精卵.

第3节细胞核——系统的控制中心本节聚集： 1.细胞核有什么功能？ 2. 细胞核的形态结构是怎样的？

第二节核酸与细胞核.

复习：蛋白质的形成几条肽链盘曲折叠形成的蛋白质氨基酸 …….

遗传信息的携带者——核酸授课教师：王建友.

基因突变第一节基因突变的基本概念第二节基因突变的分类第三节随机突变第四节 DNA的定位诱变及点突变技术.

非同源染色体：不是同源染色体的两条染色体

成本會計在決策中的功能第四課 1.

证据运用第八章证据的运用第一节证据体系的结构及运用规则.

Presentation transcript:

双序列比对

什么是序列比对？序列比对(Sequence Alignment)是通过在序列中搜索一系列单个性状或性状模式来比较2个（双序列比对）或更多（多重序列比对）序列的方法序列比对分类双序列比对：两条序列的比对多序列比对：三条或以上序列的比对

我们为什么关注序列比对结构与功能预测:相似的序列可能具有相同的结构与功能发现保守与易变区域发现生物进化方面的信息同源性(Homologous Genes) ：序列来自共同的祖先，或具有共同的进化史，相似的序列往往具有同源性(如图) 相似性(Similarity)：两序列根据某种参数相近，但相似的序列不一定具有同源性。相似性≠同源性，两基因只有同源与非同源关系

我们为什么关注序列比对（续）直系同源(Orthologs)：具有共同祖先与相似功能的同源基因（无基因复制事件）旁系同源(Paralogs)：两个物种A和B的同源基因，分别是共同祖先基因组中由复制事件而产生的不同拷贝的后代趋同进化(Convergent evolution):序列中的相似区域可能不具有共同的祖先，而是通过两条进化路径独立获得相同的功能（如图）

同源序列与祖先序列关系进化距离：一个序列变成另一个序列所需的步骤数。如A变为B的进化距离为：x+y

基因进化 AB：物种I与物种II中的a1是直系同源，a1与a2为旁系同源 C：趋同进化，物种I与物种II经历不同的进化途径，产生相同的功能 D：基因转移，称为水平转移基因

序列比对两种类型 Global Alignment Local L G P S S K Q T G K G S - S R I W D N 全局序列比对定义：在全局范围内对两条序列进行比对打分的方法适合于非常相似且长度近似相等的序列局部序列比对定义：一种寻找匹配子序列的序列比对方法适合于一些片段相似而另一些片段相异的序列　Global Alignment 　Local L G P S S K Q T G K G S - S R I W D N | | | | | | | L N - I T K S A G K G A I M R L G D A – – – – – – – T G K G – – – – – – – – | | | – – – – – – – A G K G – – – – – – – –

记分矩阵与空位罚分 DNA 计分矩阵蛋白质计分矩阵广泛使用的两种矩阵 PAM BLOSUM 空位罚分

DNA 计分矩阵 Sequence 1 Sequence 2 匹配: 1 错配: 0 分值：5 actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact A G C T A 1 0 0 0 G 0 1 0 0 C 0 0 1 0 T 0 0 0 1 匹配: 1 错配: 0 分值：5

转换和颠换 C T A G  表示转换(transition)，表示颠换(transversions)  转换比颠换更容易发生嘧啶嘌呤   表示转换(transition)，表示颠换(transversions) 转换比颠换更容易发生

转换和颠换 A G T C 0.99 0.006 0.002 转换速率是颠换3倍时的模型

蛋白质计分矩阵记分矩阵 T:G = -2 T:T = 5 Score = 48 Sequence 1 PTHPLASKTQILPEDLASEDLTI PTHPLAGERAIGLARLAEEDFGM 记分矩阵 C S T P A G N D . . C 9 S -1 4 T -1 1 5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2 0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1 1 6 . C S T P A G N D . . C 9 S -1 4 T -1 1 5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2 0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1 1 6 . T:G = -2 T:T = 5 Score = 48

PAM( Accepted Point Mutation)矩阵氨基酸记分系统需要替换的模式来提高灵敏度以检测弱的相似性氨基酸容易被其它生化、物理特性相似的氨基酸替换 PAM矩阵给出了进化过程中同源蛋白质从一个氨基酸变到另一个氨基酸的似然率(Likelihood) PAM1(1个PAM单位）被定义为每100个残基出现一个被接受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化） PAMn是PAM1自乘n次 PAM250、PAM120、PAM80和PAM60矩阵可用于相似性分别为20%、40%、50%和60%的序列比对

PAM 250 C W W -8 17 A R N D C Q E G H I L K M F P S T W Y V B Z

BLOSUM矩阵 (Blocks Substitution Matrix) 在模块比对的每一列中，分别计算两两氨基酸的变化情况,来自所有模块的数值被用来计算BLOSUM矩阵矩阵后面的数字表示构建此矩阵所用的序列的相似程度，如BLOSUM62表示由相似度为62%的序列构建 A C E A C E A - C = 4 A - E = 2 C - E = 2 A - A = 1 C - C = 1

BLOSUM62

如何选择合适的评分矩阵？一般来说,在局部相似性搜索上， BLOSUM 矩阵较PAM要好当比较距离相近的蛋白时，应选择低的PAM或高的BLOSUM矩阵；当比较距离较远的蛋白时，应选择高的PAM或低的BLOSUM矩阵　对于数据库搜索来说一般选择BLOSUM62矩阵 PAM矩阵可用于寻找蛋白质的进化起源，BLOSUM矩阵用于发现蛋白质的保守域

空位罚分(Gap Penalties) 空位为了获得两个序列最佳比对，必须使用空位和空位罚分空位罚分分为：空位开放罚分(Gap opening penalty)和空位扩展罚分(Gap extension penalty) 最优的序列比对通常具有以下两下特征：尽可能多的匹配尽可能少的空位插入任意多的空位会产生较高的分数，但找到的并不一定是真正相似序列

空位罚分 ? 不允许有空位 Score: -21 匹配 = 5 错配 = -4 允许空位但不罚分 Score: 55 1 GTGATAGACAC ||| 1 GTGCATAGACAC　匹配 = 5 错配 = -4 允许空位但不罚分 Score: 55 ? 1 GTG-ATAGACAC ||| |||||||| 1 GTGCATAGACAC　 1 GTG--ATAGACAC ||| |||||||| 1 GTGC-ATAGACAC　

Wx=g+r(x-1) 空位罚分公式 Wx 为总空位记分，g为空位开放罚分，r为空位扩展罚分，x为空位长度 A T G T T A T A C T A T G T G C G T A T A 总分：4 匹配= 1 错配= 0 T A T G T G C G T A T A insertion / deletion A T G T - - - T A T A C 空位参数: g= 3 (空位开放罚分) r = 0.1 (空位扩展罚分) x = 3 (空位长度) Wx= -3 - (3 -1) 0.1 = -3.2 总分：8 - 3.2 = 4.8

双序列比对方法点阵序列比较(Dot Matrix Sequence Comparison) 动态规划算法(Dynamic Programming Algorithm) 词或K串方法(Word or K-tuple Methods) 贝叶斯统计方法(Bayesian Statistical Methods)

点阵序列比较(Dot Matrix Sequence Comparison) 点阵分析是一种简单的图形显示序列相似性的方法,Gibbs&McIntyre(1970) 沿X轴上序列1中的每一个单元（核苷酸或氨基酸）与沿Y轴的第二个序列中的每一个单元进行比较，相同的区域在点阵图中显示为由点组成的对角线，对角线之外零散的点为背景噪音

I O N Z A T

点阵分析中的插入或删除 T A C G T A C T G T T C A T T A C T G - T C A T Sequence 2 T A C G T A C T G T T C A T 插入空位 Sequence 1 T A C T G - T C A T | | | | | | | | | T A C T G T T C A T

点阵分析的应用自身比对对两条序列的相似性作整体的估计寻找序列中的正向或反向重复序列蛋白质的重复结构域(domain) 相同残基重复出现的低复杂区(Low Complexity) RNA二级结构中的互补区域等对两条序列的相似性作整体的估计

点阵分析的应用正向重复自身比对发现正向重复序列具有连续相似区域的两条 DNA序列的简单点阵图

点阵分析实例编码噬菌体λcⅠ（水平轴）和噬菌体P22 c2（垂直轴）的氨基酸序列间的点阵分析相同的点全部打印，很难找到有用的信息

使用滑动窗口技术降低噪声 T A C G G T A T G Window=3 Word Size = 3 A C A G T A T C C T A T  G A C A T A C G G T A T G T A C G G T A T G A C A G T A T C T A C G G T A T G A C A G T A T C T A C G G T A T G A C A G T A T C 

使用滑动窗口技术降低噪声 a b （a）对人类（Homo sapiens）与黑猩猩（Pongo pygmaeus）的β球蛋白基因序列进行比较的完整点阵图（b）利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图，其中窗口大小为10个核苷酸，　　相似度阈值为8，即10个核苷酸中有8个相同时就打一个点

点阵分析的优缺点优点直观性，整体性点阵分析不依赖空位(gap)参数，可寻找两序列间所有可能的残基匹配不依赖任何先决条件，是一种可用于初步分析的理想工具点阵分析允许随时动态地改变最高和最低界限值，可以用来摸索区分信号和背景标准的严格程度

点阵分析的优缺点缺点不能很好地兼容距离矩阵滑动窗口和阈值的选择过于经验化信噪比较低不适合进行高通量的数据分析

点阵分析程序 DNA Strider (Macintosh) http://www.cellbiol.com/soft.htm Dotter (Unix/Linux, X-Windows) COMPARE, DOTPLOT in GCG PLALIGN (FASTA) Dotlet http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html

动态规划算法动态规划算法(Dynamic Programming Algorithm)是综合运用分级决策方法和最优化原理而形成的数学方法。主要思路是把一个复杂问题分成若干个关联的子问题，找出子问题的最优解，进而得出原来复杂问题的最优解。

动态规划算法在序列比对尤其是双序列比对中非常重要。将比对过程分为若干步，每一步增加一个位置。可提供序列间最优的对位排列。应用最多的两种动态规划算法： Needleman-Wunsch（全局比对） Smith-Waterman（局部比对）

动态规划算法确定递归计算方法构建矩阵填充矩阵矩阵回溯

动态规划算法的简单描述序列a 序列 b

动态规划算法的正式表述 Si,j这个位置的分数为图中箭头所示三个方向值中最大的一个 i -x i -1 j -1 i -y j i Si - x,j - wx Si –1, j- 1 + s(ai , bj) Si, j - y - wy Si, j Si,j这个位置的分数为图中箭头所示三个方向值中最大的一个

动态规划算法的数学形式公式一的简化 Sij=max{Si-1,j-1,+s(aibj)} , max x≥1 (Si-x,j-wx), max y ≥ 1 (Si,j-y-wy) Sij=max{Si-1,j-1,+s(aibj)} , max x≥1 (Si-1,j-w), max y ≥ 1 (Si,j-1-w) 公式一公式二说明：Sij是序列a在位置i和序列b在位置j的分值，s(aibj)是位置i和j上比对分值，wx是在序列a 中长度为x的空位罚分，wy是序列b中长度为y的空位罚分。

动态规划算法举例 (Needleman-Wunsch算法) 例:用动态规划算法比对以下两条序列序列a: ACTTCG 序列b: ACTAG 记分规则: 匹配＝3 错配＝-2 空位＝-2

Scoring Matrix A C T G

Scoring Matrix A C T G

Scoring Matrix A C T G -2

Scoring Matrix A C T G -2 -4 -6 -8 -10 -12

Scoring Matrix A C T G -2 -4 -6 -8 -10 -12

Scoring Matrix A C T G -2 -4 -6 -8 -10 -12 3

Scoring Matrix A C T G A C T - T C A G 回溯 -2 -4 -6 -8 -10 -12 3 1 -1 -2 -4 -6 -8 -10 -12 3 1 -1 -3 -5 -7 6 4 2 9 7 5 8 A C T - T 回溯 C A G

回溯(backtracking) 当完成所有矩阵单元的分值计算后，接下来就是从高分值单元开始找出最大分值路径，也就是找出最佳匹配。这个过程被称为回溯(backtracking)。由于在计算过程中到达每一个矩阵单元的最优路径都被储存在回溯矩阵中，所以就可以方便地找出最优路径（红色箭头表示最优路径）。

Scoring Matrix A C T G A C T T - C A G 什么是第三种可能？ -2 -4 -6 -8 -10 -12 3 -2 -4 -6 -8 -10 -12 3 1 -1 -3 -5 -7 6 4 2 9 7 5 8 A C 什么是第三种可能？ T T - C A G

Scoring Matrix A C T G A C T T A C - G -2 -4 -6 -8 -10 -12 3 1 -1 -3 -2 -4 -6 -8 -10 -12 3 1 -1 -3 -5 -7 6 4 2 9 7 5 8 A C T T A C - G

Smith-Waterman算法 Needleman－Wunsch算法适用于整体水平上相似性程度较高的两个序列。如果两个序列的亲缘关系较远，它们在整体上可能不具有相似性，但在一些较小的区域上却可能存在局部相似性。 1981年Smith和Waterman提出了一种用来寻找并比较这些具有局部相似性区域的方法，即常用的Smith-Waterman算法同样是基于矩阵的方法，而且也同样是运用回溯法建立允许空位插入的比对，不同之处在于Smith-Waterman算法要从任何可能导致最大分值的地方才开始计分，矩阵中的每个单元均可以是比对结果序列片段的终点

Smith-Waterman算法 Smith-Waterman算法记分矩阵的两个关键点: 1.记分系统必须包括错配的负分值 2.当记分为负时,此值设为0,其作用是使任何比对都在那一点终止从这一算法的本身可以看出，它属于局部相似性比对，而不是整体相似性比对。

Smith-Waterman算法 Sij=max{Si-1,j-1,+s(aibj)} , max x≥1 (Si-1,j-w), max y ≥ 1 (Si,j-1-w) max 0

谢谢！