Download presentation
Presentation is loading. Please wait.
1
Sequence analysis
2
資料格式 (Data format)
3
資料格式 (Text) MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHKQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQLTVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
4
資料格式 (FASTA) >SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL >SEQUENCE_2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
5
資料格式 (GenBank)
6
資料格式 (Swissport)
7
資料庫比對搜尋 Database Search
8
資料庫種類 文獻資料庫(Reference database) 序列資料庫(Sequence Database) 其他資料庫(Others)
PubMed, Books, OMIN, SeqAnalRef 序列資料庫(Sequence Database) Nucleotide, protein 其他資料庫(Others) Signaling pathway, metabolic pathway……
9
Reference database
10
Reference database
11
Reference database
12
Reference database
13
Reference database
14
Sequence Databases Nucleotide database -DNA Protein Database
-mRNA/cDNA -Alternative spicing -SNP -UniGene Protein Database - Sequences - Domain and family - Structure - Swiss-2D %3D Image - ENZYME - PDB
15
International DNA data banks
16
Data Bank
17
Data Bank
18
Data Bank
19
Genome Brower
20
Genome Brower
21
Genome Brower
22
Expression Sequence Tag
23
mRNA/cDNA Database
24
mRNA/cDNA Database
25
mRNA/cDNA Database
26
Alternative splicing
27
Alternative Splicing Annotation Project II
28
BIPASS
29
Single Nucleotide Polymorphism (SNP)
30
SNP database
31
SNP database
32
Protein database
33
http://tw.expasy.org/prosite/ 這是一個以蛋白質功能為分類基準的資料庫, 資料庫內的 資料包括了蛋白質的生化功能
、來源、活性區域、胺基酸序列的一致性模式 (consensus pattern)
34
收集蛋白質在二維電泳膠片上特定位置的資料庫
36
http://tw.expasy.org/enzyme/ ENZYME這個資料庫的資料有,酵素所催化的生化反應方程式、
酵素所需要的輔助因子(cofactor)、酵素在Boehringer Mannheim 所提供的生化新 陳代謝圖中的位置
38
OTHER-TYPE DATABASES Signaling Pathway Database Reference ………..
39
GeneCards
40
BIOCARTA
41
Kyoto Encyclopedia of Genes and Genomes
(KEGG)
42
Signaling Pathway Database
43
2007
44
Database search Text search (Key word) Sequence search
NCBI (Entrez; EBI (SRS; ) 由於目前的Entrez 介面提供整個Entrez 資料庫的搜尋結果,所以使用者不需定義特定資料庫。在使用SRS 時就需注意定義特定資料庫,再進行搜尋。 Sequence search NCBI (BLAST; ) EBI (Fasta; )
45
練習一 試以 Fibroblast growth factor 9 “ FGF9” 為keyword,練習由NCBI提供的Entrez 或由EBI 提供的 SRS 來搜尋文獻、核酸及蛋白質資料庫。
46
作業一 Tryptophan hydroxylase 2(TPH2)是大腦製造血清素的速率限制脢,請試著找出:
1. 人類TPH2 gene 位於那一條chromosome上?其physical map 的位置 約在多少Megabase(Mb)處? 2.找出一篇描述 TPH2 function有關的paper ,寫下作者、期刊名、卷號、頁數和出版年份。 3.利用NCBI上現有的電子書,找出那一本書上的那個章節有講述TPH2的相關資訊。 4.利用NCBI (Entrez 及 BLAST) 或 EBI (SRS 及 FASTA)的系統,找出人類 TPH2 mRNA or cDNA 序列並利用此序列進行蛋白質資料庫搜尋。顯示最好的50筆資料 。
47
序列分析比對 Sequence comparison
48
為什麼需要序列分析比對? 比較序列間相似程度 找出一些基因規則 找出親緣基因的同緣區域
序列比對指將兩個或多個序列排列在一起,標明其相似之處。序列中可以插入間隔(通常用短橫線「-」表示)。對應的相同或相似的符號(在核酸中是A, T(或U), C, G,在蛋白質中是胺基酸殘基的單字母表示)排列在同一列上。 比較序列間相似程度 找出一些基因規則 找出親緣基因的同緣區域
49
為什麼需要序列分析比對? 比較序列間相似程度 找出一些基因規則 找出親緣基因的同緣區域
序列比對指將兩個或多個序列排列在一起,標明其相似之處。序列中可以插入間隔(通常用短橫線「-」表示)。對應的相同或相似的符號(在核酸中是A, T(或U), C, G,在蛋白質中是胺基酸殘基的單字母表示)排列在同一列上。 比較序列間相似程度 找出一些基因規則 找出親緣基因的同緣區域
50
序列並列比對的種類 Global vs. Local alignment
51
序列並列比對的種類
52
常用的序列比對方法 一般 Global Alignment 採用Needleman-Wunsch algorithm的演算法,是一種利用動態規劃法則(dynamic programming)所開發出來的方法。 一般Local Alignment採用Smith-Waterman 的演算法, 也是利用dynamic programming所開發出來的方法。 在相似度高的片段, Global和Local Alignment得到的結果差不多。 資料庫搜尋多利用Local Alignment, Smith-Waterman最先發展出來, 靈敏度最高但因計算量大, 故最耗時間。FASTA發展較晚,計算速度就比Smith-Waterman快,精細程度也不差。而BLAST出現最晚,計算上比其他方式快了許多。它的計算速度使得它在生物序列資料庫的搜尋上有很大的優勢,也因此它可說是目前最受歡迎的序列分析工具。
53
序列分析比對工具 一、雙序列並列分析 二、多序列並列分析 三、序列搜尋資料庫
54
Pairwise comparisons 雙序列並列分析
Pairwise sequence alignment methods are used to find the best-matching piecewise (local) or global alignments of two query sequences Dot-matrix methods Dynamic programming Word methods
55
Multiple sequences comparisons 多序列並列分析
Multiple sequence alignment (MSA) is an extension of pairwise alignment to incorporate more than two sequences at a time. MSA are often used in identifying conserved sequence regions across a group of sequences Dynamic programming Progressive methods The methods begin by aligning the two most closely related sequences first and then successively aligning the next most closely related sequence in the query set to the alignment produced in the previous step 3. Iterative methods the work similarly to progressive methods but repeatedly realign the initial sequences as well as adding new sequences to the growing MSA 4. Motif finding
56
Online Software Tools Pairwise Sequence Alignment
- LALIGN (global & local) - Align (global & local) - BLAST2 (local) - DNADot (global) Multiple Sequence Alignments - BCM Multiple Sequence Alignments - MAP (DNA to Protein) - CHAOS/DIALIGN (Iterative alignment) - Kalign List of sequence alignment tools
57
練習二 利用課堂提供的序列, 進行序列比對分析。討論這兩條序列間的相似性如何?
Sequences: sequence1, sequence2
58
作業二 一、利用課堂提供的序列1-3, 進行雙序列比對分析. 討論這三條序列間的相似性如何?
二、再進行多序列比對分析. 討論結果顯示這三條序列的相似性如何? Sequence 1, 2, 3
Similar presentations