Presentation is loading. Please wait.

Presentation is loading. Please wait.

生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院 2015.12.11.

Similar presentations


Presentation on theme: "生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院 2015.12.11."— Presentation transcript:

1 生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院

2 第八章 基本序列算法

3 8.1 后缀树 序列:SDSDFSDFG => SDSDFSDFG$ 1: SDSDFSDFG$ 2: DSDFSDFG$

4 8.1 后缀树 字符串S:SDSDFSDFG 功能:1. 查找字符串s是否在字符串S中: 从树根开始,与s的字符逐一比对。s1: DFSD(在); s2: SDFD (不在)

5 8.1 后缀树 字符串S:SDSDFSDFG 功能:2. 找指定字符串s在字符串S中的重复次数:从树根开始,按照功能1的办法找到s,然后看s之后有几片树叶。s1: SD(3次); s2: DF(2次) S D S D F S D F G 位置

6 8.1 后缀树 字符串S:SDSDFSDFG 功能:3. 找字符串S中的最长重复子串:找到从树根到所有节点(非叶片)的子字符串,从中找到最长的。SDF

7 8.1 后缀树 字符串S:SDSDFSDFG $的作用:如果某一个后缀是另一个后缀的前缀,那么需要用$标识出一个独立的叶片。
8: $

8 8.2 最高分子序列问题 Input: 一个序列(a1,…,an)∈Rn
Output: 一个子序列(ai,…,aj),使得函数f(i, j)最大, f(i, j) = ∑ ah j h=i 最短原则:在几个子序列同时拥有最高分时,如果某一个完全包含在另一之内,则只返回被包含的那一个。

9 8.2 最高分子序列问题 生物学应用:(1)预测蛋白质序列跨膜区域。疏水氨基酸[0, 3],亲水氨基酸[-5,0]。

10 8.2 最高分子序列问题 生物学应用: (2)预测DNA序列中富含GC区域。G, C给正分;A,T给负分。

11 8.2 最高分子序列问题 Input: 一个序列(a1,…,an)∈Rn
Output: 一个子序列(ai,…,aj),使得函数f(i, j)最大, f(i, j) = ∑ ah j h=i Naïve算法:对于所有i≤j ∈ [1, n],计算f(i, j) ,再找出最大值对应的(i, j)。 所有可能的(i, j)组合的数量,即计算f(i, j)的次数: n+(n-1)+(n-2)+…+1 = n*(n+1)/2 = O(n2) 计算一次f(i, j)所需的步骤:O(n) => Naïve算法的总运算步骤为O(n3) 最高分子序列问题的运算步骤: Naïve算法:O(n3) 动态算法:O(n2) 分而治之算法:O(n*log(n)) 聪明算法:O(n)


Download ppt "生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院 2015.12.11."

Similar presentations


Ads by Google