Sequence analysis.

Slides:



Advertisements
Similar presentations
第七章 -2 蛋白质结构预测 主讲人:孙 啸 制作人: 刘志华 东南大学 吴健雄实验室. 结构预测流程 Protein sequence Database similarity search Does sequence align with protein of known 3D structure?
Advertisements

應收帳款承購業務 FACTORING 台灣銀行製作.
第十七章 基因组学与医学 GENOMICS AND MEDICINE 刘新文 北京大学医学部生化与分子生物学系.
一次数据库的查寻.
药学与化学专业英语 学习指南 SciFinder
第一章 绪论 本章我们讨论5个问题: 一、现代科学技术发展的基本特点。 二、现代医学面临的挑战和机遇。 三、分子生物学和医学的关系 四、分子生物学回顾、发展现状与展望 五、医学分子生物学理论课和实验课的主要内容.
愛的書庫 智慧循環 愛與分享 謝志誠 財團法人九二一震災重建基金會
愛的書庫 智慧循環 愛與分享 謝志誠 財團法人九二一震災重建基金會
有效學習計劃簡介 (學前).
WWW Resources for Biotechnology Research
PubMed 检索教程.
分子生物学软件介绍 刘吉平讲师
第10章 生物信息学基础.
人类基因组学 朱德裕.
生物信息学数据库.
人类科学史上 三大工程 曼哈顿计划(原子弹) 阿波罗计划(登月) 人类基因组计划 了解人类自身,操纵生命 其意义比以上两个计划更为深远.
遗 传 生命与繁衍的保证.
生物信息学 艾对元: QQ:
臺中市梧棲區衛生所 無菸環境最健康 阮淑惠 護士.
上皮生長因子接受器-1, -2基因多形性與泌尿道上皮癌之相關研究
第十四章 基因诊断和基因治疗 表型的改变是由基因异常造成的 表型的改变是由基因异常造成的.
生物信息学 Bioinformatics.
酵母双杂交系统 Yeast Two-hybrid System(interaction trap)
基因组数据注释和功能分析 陈启昀 陈 辰 丁文超 张增明 浙江加州国际纳米技术研究院(ZCNI)
生物資訊 bioinformatics 林育慶.
生物信息学 第三章 基因组学与序列分析 张高川 生物信息学教研室 (Department of Bioinformatics)
Lots of tools for cloning:
生物資訊 (Bioinformatics)
基本概念介紹 生命是什麼? 生命的密碼~DNA 解讀生命的執行者~RNA 生命舞台的主演者~蛋白質 DNA、RNA、蛋白質的三角關係
生物信息学常用软件 李蔚 Co-head, Bioinformatics Department
金珊資訊有限公司 EndNote 金珊資訊有限公司
真核生物基因结构的预测分析.
电 子 克 隆.
功能基因组学 中英联合实验室.
Basic Local Alignment Search Tool
EndNote 大林慈濟醫院圖書館
Microattribution&Nanopublication
第二章 数据搜索与两两比对 本章描述了 如何比对两条或多条相关核苷酸或多肽序列, 如何搜索存储序列信息的数据库。
双序列比对.
Authors: Saumil Mehta and Deendayal Dinakarpandian
人类基因组计划(human genome project,HGP)是由美国科学家、诺贝尔奖获得者Renato dulbecco于1986年在杂志《Science》上发表的文章中率先提出的,旨在阐明人类基因组脱氧核糖核酸(DNA)3×109核苷酸的序列,阐明所有人类基因并确定其在染色体的位置,从而破译人类全部遗传信息。美国于1990年正式启动人类基因组计划,估计到2003年完成人类基因组全部序列测定。欧共体、日本、加拿大、巴西、印度、中国也相继提出了各自的基因组研究计划。由于各国政府和科学家的共同努力,HG
程式設計專題.
EGF与细胞信号传导 Signal Transduction
行銷與流通管理系 招生策略與管考簡報 簡 報 人:李國良 簡報時間:106 年 3 月 21 日 歡迎委員蒞臨僑光科技大學會計資訊係指導
服務於中國研究的網絡基礎設施 A Cyberinfrastructure for Historical China Studies
Philosopher‘s Index 哲學資料庫
第十一章 动物基因组学 (Animal Genomics).
網頁程式設計 本章投影片錄自HTML5、CSS3、RWD、jQuery Mobile跨裝網頁設計 陳惠貞 著 碁峰資訊股份有限公司出版
序列分析(一) 一一序列比对.
研究技巧與論文撰寫方法 中央大學資管系 陳彥良.
第一次Labview就上手 參考書籍: LabVIEW for Everyone (Jeffrey Travis/Jim Kring)
NSC D 蔣依吾 中山大學資訊工程系 紅外線點目標的檢知法則 Automatic detection of small targets in infrared image sequences containing evolving cloud clutter NSC D
NoeClone 诺京生物信息.
计算机问题求解 – 论题 算法方法 2016年11月28日.
GUI Title and GUI Status
兒少保護通報處理流程介紹 臺中市家庭暴力及性侵害防治中心 陳秀婷/張美慧 社工督導員 2012/10/19.
Interactome data and databases: different types of protein interaction
NCBI Blastn 安裝程序.
電子期刊使用統計 CONCERT 2002 meeting November 13-14, 2002 羅宙康 Springer-Verlag
OVID Medline vs. PubMed 邱子恒
MiRanda Java Interface v1.0的使用方法
第九章 人類基因體學與展望.
Machine Learning & Bioinformatics
105學年度第2學期 會計室業務重點宣導 106年3月8日.
第四組 停車場搜尋系統 第四組 溫允中 陳欣暉 蕭積遠 李雅俐.
Bayesian Joint Prediction of Associated Transcription Factors in Bacillus subtilis 陳冠廷 陳靜儀 謝仁傑 林敬恆.
生物結構期末報告 學生:葉雅如 M 老師: 鄒文雄 教授.
科研必备技能 许忠平.
Solution for Post-genomic Era
Pattle Pun. Professor of Biology emeritus, Wheaton College, IL
Presentation transcript:

Sequence analysis

資料格式 (Data format)

資料格式 (Text) MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHKQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQLTVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

資料格式 (FASTA) >SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL >SEQUENCE_2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

資料格式 (GenBank)

資料格式 (Swissport)

資料庫比對搜尋 Database Search

資料庫種類 文獻資料庫(Reference database) 序列資料庫(Sequence Database) 其他資料庫(Others) PubMed, Books, OMIN, SeqAnalRef 序列資料庫(Sequence Database) Nucleotide, protein 其他資料庫(Others) Signaling pathway, metabolic pathway……

Reference database http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed

Reference database http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Books

Reference database http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM

Reference database http://tw.expasy.org/seqanalref/

Reference database http://scholar.google.com.tw/

Sequence Databases Nucleotide database -DNA Protein Database -mRNA/cDNA -Alternative spicing -SNP -UniGene Protein Database - Sequences - Domain and family - Structure - Swiss-2D %3D Image - ENZYME - PDB

International DNA data banks

Data Bank http://www.ncbi.nlm.nih.gov/

Data Bank http://www.ebi.ac.uk/Databases/

Data Bank http://www.ddbj.nig.ac.jp/

Genome Brower http://www.ncbi.nlm.nih.gov/mapview/

Genome Brower http://genome.ucsc.edu/cgi-bin/hgGateway

Genome Brower http://www.ensembl.org/

Expression Sequence Tag

mRNA/cDNA Database http://cdna.ims.u-tokyo.ac.jp/

mRNA/cDNA Database http://www.ncbi.nlm.nih.gov/dbEST/index.html

mRNA/cDNA Database http://www.ncbi.nlm.nih.gov/UniGene/

Alternative splicing

Alternative Splicing Annotation Project II http://bioinformatics.ucla.edu/ASAP2/

BIPASS http://bip.umiacs.umd.edu:8080/

Single Nucleotide Polymorphism (SNP)

SNP database http://www.ncbi.nlm.nih.gov/SNP/

SNP database http://www.binfo.ncku.edu.tw/snp/

Protein database http://tw.expasy.org/sprot/

http://tw.expasy.org/prosite/ 這是一個以蛋白質功能為分類基準的資料庫, 資料庫內的 資料包括了蛋白質的生化功能 、來源、活性區域、胺基酸序列的一致性模式 (consensus pattern)

http://tw.expasy.org/ch2d/ 收集蛋白質在二維電泳膠片上特定位置的資料庫

http://tw.expasy.org/enzyme/ ENZYME這個資料庫的資料有,酵素所催化的生化反應方程式、 酵素所需要的輔助因子(cofactor)、酵素在Boehringer Mannheim 所提供的生化新 陳代謝圖中的位置

http://www.pdb.org/pdb/home/home.do

OTHER-TYPE DATABASES Signaling Pathway Database Reference ………..

GeneCards http://bioinformatics.weizmann.ac.il/cards/

BIOCARTA http://www.biocarta.com/genes/allPathways.asp

Kyoto Encyclopedia of Genes and Genomes (KEGG) http://www.genome.jp/kegg/

Signaling Pathway Database http://www.grt.kyushu-u.ac.jp/spad/

2007 http://nar.oxfordjournals.org/cgi/content/full/35/suppl_1/D3/DC1

Database search Text search (Key word) Sequence search NCBI (Entrez; http://www.ncbi.nlm.nih.gov/sites/gquery) EBI (SRS; http://srs6.ebi.ac.uk/ ) 由於目前的Entrez 介面提供整個Entrez 資料庫的搜尋結果,所以使用者不需定義特定資料庫。在使用SRS 時就需注意定義特定資料庫,再進行搜尋。 Sequence search NCBI (BLAST; http://www.ncbi.nlm.nih.gov/blast/ ) EBI (Fasta; http://www.ebi.ac.uk/fasta33/index.html )

練習一 試以 Fibroblast growth factor 9 “ FGF9” 為keyword,練習由NCBI提供的Entrez 或由EBI 提供的 SRS 來搜尋文獻、核酸及蛋白質資料庫。

作業一 Tryptophan hydroxylase 2(TPH2)是大腦製造血清素的速率限制脢,請試著找出: 1. 人類TPH2 gene 位於那一條chromosome上?其physical map 的位置 約在多少Megabase(Mb)處? 2.找出一篇描述 TPH2 function有關的paper ,寫下作者、期刊名、卷號、頁數和出版年份。 3.利用NCBI上現有的電子書,找出那一本書上的那個章節有講述TPH2的相關資訊。 4.利用NCBI (Entrez 及 BLAST) 或 EBI (SRS 及 FASTA)的系統,找出人類 TPH2 mRNA or cDNA 序列並利用此序列進行蛋白質資料庫搜尋。顯示最好的50筆資料 。

序列分析比對 Sequence comparison

為什麼需要序列分析比對? 比較序列間相似程度 找出一些基因規則 找出親緣基因的同緣區域 序列比對指將兩個或多個序列排列在一起,標明其相似之處。序列中可以插入間隔(通常用短橫線「-」表示)。對應的相同或相似的符號(在核酸中是A, T(或U), C, G,在蛋白質中是胺基酸殘基的單字母表示)排列在同一列上。 比較序列間相似程度 找出一些基因規則 找出親緣基因的同緣區域

為什麼需要序列分析比對? 比較序列間相似程度 找出一些基因規則 找出親緣基因的同緣區域 序列比對指將兩個或多個序列排列在一起,標明其相似之處。序列中可以插入間隔(通常用短橫線「-」表示)。對應的相同或相似的符號(在核酸中是A, T(或U), C, G,在蛋白質中是胺基酸殘基的單字母表示)排列在同一列上。 比較序列間相似程度 找出一些基因規則 找出親緣基因的同緣區域

序列並列比對的種類 Global vs. Local alignment

序列並列比對的種類

常用的序列比對方法 一般 Global Alignment 採用Needleman-Wunsch algorithm的演算法,是一種利用動態規劃法則(dynamic programming)所開發出來的方法。 一般Local Alignment採用Smith-Waterman 的演算法, 也是利用dynamic programming所開發出來的方法。 在相似度高的片段, Global和Local Alignment得到的結果差不多。 資料庫搜尋多利用Local Alignment, Smith-Waterman最先發展出來, 靈敏度最高但因計算量大, 故最耗時間。FASTA發展較晚,計算速度就比Smith-Waterman快,精細程度也不差。而BLAST出現最晚,計算上比其他方式快了許多。它的計算速度使得它在生物序列資料庫的搜尋上有很大的優勢,也因此它可說是目前最受歡迎的序列分析工具。

序列分析比對工具 一、雙序列並列分析 二、多序列並列分析 三、序列搜尋資料庫

Pairwise comparisons 雙序列並列分析 Pairwise sequence alignment methods are used to find the best-matching piecewise (local) or global alignments of two query sequences Dot-matrix methods Dynamic programming Word methods

Multiple sequences comparisons 多序列並列分析 Multiple sequence alignment (MSA) is an extension of pairwise alignment to incorporate more than two sequences at a time. MSA are often used in identifying conserved sequence regions across a group of sequences Dynamic programming Progressive methods The methods begin by aligning the two most closely related sequences first and then successively aligning the next most closely related sequence in the query set to the alignment produced in the previous step 3. Iterative methods the work similarly to progressive methods but repeatedly realign the initial sequences as well as adding new sequences to the growing MSA 4. Motif finding

Online Software Tools Pairwise Sequence Alignment - LALIGN (global & local) - Align (global & local) - BLAST2 (local) - DNADot (global) Multiple Sequence Alignments - BCM Multiple Sequence Alignments - MAP (DNA to Protein) - CHAOS/DIALIGN (Iterative alignment) - Kalign List of sequence alignment tools

練習二 利用課堂提供的序列, 進行序列比對分析。討論這兩條序列間的相似性如何? Sequences: sequence1, sequence2

作業二 一、利用課堂提供的序列1-3, 進行雙序列比對分析. 討論這三條序列間的相似性如何? 二、再進行多序列比對分析. 討論結果顯示這三條序列的相似性如何? Sequence 1, 2, 3