生 物 信 息 学 Bioinformatics 0233301510 巩晶 癌症研究中心 山东大学 医学院 2015.10.09.

Slides:



Advertisements
Similar presentations
第一章 生命的物质基础 生物体中的有机化合物 上南中学 张正国. 胰岛素 C 3032 H 4816 O 872 N 780 S 8 F e 4 血红蛋白 C 1642 H 2652 O 492 N 420 S 12 牛 奶 乳蛋白 C 6 H.
Advertisements

第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
植物生理 植物细胞生理基础 同工酶. 学习目标 Click to add title in here Click to add title n here  掌握同工酶的概念。  了解同工酶的意义。
分子生物学部分开发实验 植物遗传亲缘关系研究.
DNA测序技术 DNA Sequencing
龙星课程—肿瘤生物信息学上机课程 曹莎
Protein Biosynthesis (Translation)
2012年高考说明要求 考纲解读 遗传信息的转录和翻译 Ⅱ 掌握DNA与RNA组成、结构和功能的异同点 理解遗传信息转录、翻译过程的区别和联系以及学会有关图形的识别 学会基因表达过程中有关碱基和氨基酸数量关系的计算、推导.
彻底搞清楚promoter, exon, intron, and UTR
蛋白质工程的崛起.
第七节 维生素与辅因子.
生命的物质基础.
细胞核是遗传信息库.
C 1.关于生物体内的遗传物质 下列说法正确的是( ) A.细菌的遗传物质主要是DNA B.病毒的遗传物质主要是RNA
问 题 探 讨 1.DNA的中文全名是什么? 2.为什么DNA能够进行亲子鉴定? 3.你还能说出DNA鉴定技术在其他方面的应用吗?
教学目标 1. 掌握基因的含义,以及基因、DNA、染色体之间的关系 2. 理解基因控制蛋白质合成(转录、翻译的含义、过程)
第4章 基因的表达 第1节 基因指导蛋白质的合成.
第20讲 基因的表达 长阳一中 黄家国.
基因的表达 凌通课件.
1、环境中直接影响生物生活的各种因素叫做 。它可以分为 和 两类 。
复习——基因的表达 遗传信息的转录和翻译 高中生物必修2《遗传与进化》 第4章 第1节 平冈中学 余 琼.
不确定度的传递与合成 间接测量结果不确定度的评估
Geophysical Laboratory
基本概念介紹 生命是什麼? 生命的密碼~DNA 解讀生命的執行者~RNA 生命舞台的主演者~蛋白質 DNA、RNA、蛋白質的三角關係
学 院 生命科学学院 专业班级 2007级生物技术4班 学生姓名 徐 志 超 指导教师 高 玉 千
真核生物基因结构的预测分析.
普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics 第五章:真核生物基因组的注释.
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
高通量测序 高通量测序的应用 朱伟珊 高通量测序 朱伟珊 东盛生物.
普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics 第六章:蛋白质组学.
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
第十章 方差分析.
生物信息学 第六章 基因预测和基因结构分析 (II).
生物信息学 第六章 基因预测和基因结构分析 (I).
中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
第8章 遗传密码 8.1 遗传密码的基本特性.
胚胎原位杂交检测基因的时空表达模式.
Metabolic biomarker signature to differentiate pancreatic ductal adenocarcinoma from chronic pancreatitis Gut, 2017, Jan (IF=14.921) 汇报人:王宁 IMI CONFIDENTIAL.
第二节、真核生物基因结构及功能 一、基因的概念 基因的概念随着分子遗传学、分子生物学、生物化学领域的进展而不断完善。 从遗传学角度看:
专项考能集训(四)  碱基含量及DNA复制有关的计算.
第二章 细胞的基本功能 第一节 细胞膜的结构和物质转运功能 第二节 细胞的信号转导 第三节 细胞的电活动 第四节 肌细胞的收缩.
Three stability circuits analysis with TINA-TI
第四章 基因的表达 第1节 基因指导蛋白质的合成.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
第二节 DNA分子的结构.
细胞的结构和功能 细胞是生物体结构和生命活动的基本单位,其结构包括细胞膜、细胞质、细胞核,细胞必须保持完整性,才能完成正常的各项生命活动.
超越自然还是带来毁灭 “人造生命”令全世界不安
用计算器开方.
Carbohydrate Metabolism
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
遗传物质--核酸 核酸分子组成 核酸分子结构.
代谢组学技术及应用新策略简介 代谢组学平台 刘慧颖.
有关“ATP结构” 的会考复习.
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
H核磁共振谱图解析举例 解析NMR谱: 共振信号的数目,位置,强度和裂分情况 信号的数目: 分子中有多少种不同类型的质子
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
基于列存储的RDF数据管理 朱敏
基因信息的传递.
BAFF在活动性SLE患者T细胞中的表达:
第三节 转录后修饰.
电影《侏罗纪公园》中恐龙复活的场景 在现实生活中,我们能不能像电影《侏罗纪公园》中描述的那样,利用恐龙的DNA,使恐龙复活呢?
细胞分裂 有丝分裂.
第十七讲 密码执行(1).
第十一章 RNA的生物合成 (转录).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
入侵检测技术 大连理工大学软件学院 毕玲.
讨论:利用已经灭绝的生物DNA分子,真的能够使灭绝的生物复活吗?
第二章 组成细胞的分子 第3节 遗传信息的携带者——核酸 (第二课时).
Presentation transcript:

生 物 信 息 学 Bioinformatics 0233301510 巩晶 癌症研究中心 山东大学 医学院 2015.10.09

第三章 测序与序列分析

3.0 认识序列 序列(sequence)就是个字符串(string)。 s=abcdefghijklmnopqrstuvwxyz si代表序列s的第i个字符,比如s4=d s’=abcde,序列s’是序列s的子序列 (substring)

3.0 认识序列 核酸序列:由4个不同的字母(碱基)排列组合而成。 (DNA序列,RNA序列) FASTA格式: >name CTCCTGACCTCAGGCGATTCGCCCGCCTCGGCCTCCCAAAGTGCTAGGATTACAGGCGTG AGCCACCACGCCCGGCCACACTAACTTTTTAAGAGCCAAGAGTTCGATCGGTAGCGGGAG CGGAGAGCGGACCCCAGAGAGCCCTGAGCAGCCCCACCACCACCGCTGGCCTAGCTACCA TCACACCCCGGGAGGAGCCGCAGCTGCCGCAGCCGGCCCCAGTCACCATCACCACAACCT TGAGCAGCGAGGCCGAGACCCAGCAGCCGCCCGCCGCTTGCCGCTCGCCGCCCCCCGCCC TCAGCGCCGGTGACACCACGCCCGGCACTACGGGCAGCGGCACAGGAAACGGTGGCCCGG GAGGCTTCACATCAGCAGCACCTGCCGGCGGGGACAAGAAGGTCATCGCAACGAAGGT 核酸序列:由4个不同的字母(碱基)排列组合而成。 (DNA序列,RNA序列) FASTA格式: 第一行:大于号加名称或其它注释 第二行以后:每行60个字母(也有80的,不一定)

3.0 认识序列 蛋白质序列:由20个不同的字母(氨基酸)排列组合而成。 FASTA格式: 第一行:大于号加名称或其它注释 >name MHHHHHHSSGRENLYFQGKLPEPQFYAEPHTYEEPGRAGRSFTREIEASRIHIEKIIGSG DSGEVCYGRLRVPGQRDVPVAIKALKAGYTERQRRDFLSEASIMGQFDHPNIIRLEGVVT RGRLAMIVTEYMENGSLDTFLRTHDGQFTIMQLVGMLRGVGAGMRYLSDLGYVHRDLAAR NVLVDSNLVCKVSDFGLSRVLEDDPDAAXTTTGGKIPIRWTAPEAIAFRTFSSASDVWSF GVVMWEVLAYGERPYWNMTNRDVISSVEEGYRLPAPMGCPHALHQLMLDCWHKDRAQRPR FSQIVSVLDALIRSPESLRATATVS 蛋白质序列:由20个不同的字母(氨基酸)排列组合而成。 FASTA格式: 第一行:大于号加名称或其它注释 第二行以后:每行60个字母(也有80的,不一定)

3.1 测序 1977年,桑格及其同事们完成了第一个基因组的测序工作--- 噬菌体ΦX174基因组。这标志着测序时代的开始。经过近半个世纪的发展,测序技术取得了革命性的进展,不断引领生物学的发展。 1987,ABI370自动测序仪 人类基因组计划重要依靠桑格测序法完成 1000bp的DNA片段 读取准确率99.999% 致命缺陷:测序速度相当慢 噬菌体ΦX174 的基因组是由5386个碱基组成的环状单链DNA基因组,编码11个蛋白质。GC含量为44%,且95%的碱基为编码基因。

3.1.1 第一代测序技术:传统的桑格测序 双脱氧终止法(桑格法) ddNTP-双脱氧核苷三磷酸,它与普通单脱氧核苷三磷酸dNTP不同,在3’位置缺少一个羟基,故不能同后续的dNTP形成磷酸二酯键,从而终止DNA合成反应。 Frederick Sanger (1918-2013) Nobel prize 1980

3.1.1 第一代测序技术:传统的桑格测序 大规模基因组测序的策略:全基因组鸟枪法(Whole Gemome Shut-gun)

3.1.2 第二代测序技术:高通量微整列芯片测序 下一代测序技术(next generation sequencing,NGS;也叫第二代测序技术、高通量测序技术)是近几年建立的一种测序技术,是对传统测序技术的革命性改变。第二代测序技术利用大量并行处理的能力,一次读上千万个短DNA片段。 Roche 454 采用微乳滴扩增单链文库片段,采用焦磷酸法测序 Illumina Solexa 通过固相扩增来来扩增单链文库,采用合成法进行测序 Life/APG SOLiD 通过与玻璃微球结合的微乳滴来扩增模版文库,采用连接测序

3.1.2 第二代测序技术:高通量微整列芯片测序 Illumina Solexa测序原理: 1. 模板制备:将基因组DNA打成几百个碱基的小片段,在片短的两个末端加上不对称接头。

3.1.2 第二代测序技术:高通量微整列芯片测序 Illumina Solexa测序原理: 2. 表面固定:将DNA片段附着到光学透明的玻璃表面(Flow Cell)。玻璃表面上有与DNA片段上的接头互补配对的核苷酸片段。

3.1.2 第二代测序技术:高通量微整列芯片测序 Illumina Solexa测序原理: 3. “桥”的形成:将DNA片段的另一端的接头与玻璃表面上临近的互补配对的核苷酸片段结合,这样就形成了“桥”。

3.1.2 第二代测序技术:高通量微整列芯片测序 Illumina Solexa测序原理: 4. “桥”扩增:进行PCR扩增,扩增后的产物依然固定在玻璃表面。

3.1.2 第二代测序技术:高通量微整列芯片测序 Illumina Solexa测序原理: 5. “桥”变性:双链解链

3.1.2 第二代测序技术:高通量微整列芯片测序 Illumina Solexa测序原理: 6. 聚合酶族群生成

3.1.2 第二代测序技术:高通量微整列芯片测序 Illumina Solexa测序原理: 7. 同步链合成反应

3.1.2 第二代测序技术:高通量微整列芯片测序 Illumina Solexa测序原理: 8. 荧光成像: 加入的dNTP都是可逆的终止子(reversible terminator)。这些核苷酸的3’羟基端都有一个可被化学法切除的基团,这样每一次反应都只会掺入一个核苷酸。

3.1.2 第二代测序技术:高通量微整列芯片测序 Illumina Solexa测序原理: 9. 第二轮合成

3.1.2 第二代测序技术:高通量微整列芯片测序 Illumina Solexa测序原理: 10. 第二轮成像

3.1.2 第二代测序技术:高通量微整列芯片测序 Illumina Solexa测序原理: 11. 循环重复

3.1.2 第二代测序技术:高通量微整列芯片测序 Roche 454 测序原理: 2.单链DNA文库被固定在DNA捕获磁珠上,每个磁珠结合了一个独立的单链DNA片断 3.磁珠结合的文库被扩增试剂乳化,形成油包水的混合物,在此中扩增几百万倍。 4. 乳液混合物被打破,扩增后的磁珠被纯化用于测序。 1.文库制备:将基因组DNA处理成300-800bp的片段,与特异性接头连接 6.在DNA聚合酶、ATP硫酸化酶、荧光素酶和双膦酸酶的协同作用下,将引物上第一个dNTP聚合,并释放一次荧光信号。 5.携带DNA片段的磁珠被放入PTP板中

3.1.2 第二代测序技术:高通量微整列芯片测序 2000年,荧光自动测序仪 当前,高通量测序仪 (第一代) (第二代)

3.1.2 第二代测序技术:高通量微整列芯片测序 深圳 上海 北京 AB SOLiDTM 4.0 System x 27 Illumina HiSeq 2000 x 137 上海 北京

3.1.2 第二代测序技术:高通量微整列芯片测序

3.1.3 第四代测序技术:直接测序技术 第四代测序技术主要采用单分子测序技术和纳米测序技术,不在需要PCR扩增,真正做到了读取单个分子的能力。 2012年2月英国牛津纳米孔公司发布公告称,年内将推出U盘测序仪产品MinION,且价格在900美元以下。个人基因组的测序将在15分钟内完成。

3.1.3 第四代测序技术:直接测序技术 2013年11月25日,MinION试用计划启动。参与者须支付1000美元的押金以及运费,而后将收到一台MinION测序仪,包括测序USB装置、流动槽和软件。2014年2月18日,牛津纳米孔公司公布了首批测序数据。文库制备的基本步骤是从高分子量DNA开始的,片段化DNA,无需大小选择,再连接接头。纳米孔中的酶使其变成单链DNA,再通过纳米孔。随着单链DNA 通过纳米孔(直径1.5纳米),测序系统根据电流变化确定DNA序列。

3.2 DNA序列特征分析 DNA序列是遗传信息的源泉,对DNA序列进行序列特征分析,能够从分子层面上解读基因的结构特点,了解与基因表达调控相关的信息,明确DNA序列与蛋白质序列之间的编码关系。 真核生物与原核生物基因结构的区别:

3.2.1 DNA序列特征分析:GC含量计算 DNA分子中鸟嘌呤( guanine ,G)和胞嘧啶( cytosine ,C)所占的比率称为GC含量。在DNA序列中有基因密集的“城市中心”(GC含量高),也有基因稀少的“沙漠区”(GC含量低)。GC含量愈高,DNA的密度也愈高,同时热及碱不易使之变性 ,因此在PCR实验中,高的GC含量对应高的解链温度。 ORIGIN cagagaaaat caaaaagcag gccacgcagg accccgatat cgtcgcaggc gttgccgcac ttgccgccga aacaaataat gtggaagaat acgcccggca aaaacgtatc cgtaaaaacc ttgatctgat ctgcgcgaac gatgtttccc //

3.2.1 DNA序列特征分析:GC含量计算 http://www.endmemo.com/bio/gc.php

3.2.1 DNA序列特征分析:GC含量计算 http://www.sciencelauncher.com/oligocalc.html

3.2.2 DNA序列特征分析:数单词 wordcount 确定那些出人意料的以高频率出现的六核苷酸( 6-tuples,hexamer)往往是发现调控序列的第一步。 4 种不同的 核苷酸 (nucleotides) 16 种不同的 二核苷酸 (dinucleotides) 64 种不同的 三核苷酸 (trinucleotides,3-tuples) 256 种不同的 四核苷酸 (4-tuples) 1024 种不同的 五核苷酸 (5-tuples) 4096 种不同的 六核苷酸 (6-tuples,hexamer)

3.2.2 DNA序列特征分析:数单词 wordcount http://emboss.bioinformatics.nl/ 查找热键 EMBOSS(European Molecular Biology Open Software Suite)软件包是一个开源的序列分析软件包,整合了目前可以获得的大部分序列分析软件。EMBOSS主页网址:http://emboss.open-bio.org/

3.2.2 DNA序列特征分析:数单词 wordcount 单词长度 至少出现的次数 可选,但只能是非商业邮箱

3.2.2 DNA序列特征分析:数单词 wordcount

3.2.3 DNA序列特征分析:基因预测 基于证据的基因注释 从头开始的基因预测 比较基因组法 基于证据的基因注释系统,是将已有的cDNA序列或者蛋白质序列与基因组进行比对,从而得到基因结构的一种注释策略。 根据cDNA或者蛋白质序列是否由一个基因自身转录或者翻译而来,可以将比对分为顺式比对(cis-alignment)和反式比对(trans-alignment)两种方法。 顺式比对:使用被注释基因组的cDNA或者蛋白质序列与基因组序列进行比对 反式比对:比对所用的cDNA或者蛋白质序列来自于本物种内的同一基因家族的其他成员,也可以来自于近缘物种。 人基因组包含大约32亿个碱基,其中大约编码2万多个蛋白,占全部序列大约1.5%。

3.2.3 DNA序列特征分析:基因预测 基于证据的基因注释 从头开始的基因预测 比较基因组法 不与其他核酸序列进行比较,根据不同物种基因本身的序列特征进行基因预测。

3.2.3 DNA序列特征分析:基因预测 基于证据的基因注释 从头开始的基因预测 比较基因组法 根据自然选择的原理,基因区域的变异率应该远低于其他区域。很多物种的基因组已被完全测序,这样,比较相关物种基因组,保守区也就是潜在的基因区。

3.2.3.1 基因预测:ORF Finder 开放阅读框( Open Reading Frame ,ORF)是指从5’端开始翻译起始密码子(ATG)到终止密码子(TAA、TAG、TGA)的蛋白质编码碱基序列。每个序列都有6个可能的ORF,其中3个开始于第1、2、3个碱基位点并沿着给定序列的5’ 3’方向进行延伸,另外3个开始于第1、2、3个碱基位点但沿着互补序列的5’ 3’方向进行延伸。 ORF x 3 6 个可能的ORF x 3 程序识别ORF时,将从这6个可能的延伸方向,找出中间没有被终止密码子隔开的最大读码框作为最终结果。 ATG Met (M) TAA TAG TGA

3.2.3.1 基因预测:ORF Finder 识别原核生物的ORF http://www.ncbi.nlm.nih.gov

3.2.3.1 基因预测:ORF Finder 识别原核生物的ORF

3.2.3.1 基因预测:ORF Finder 识别原核生物的ORF

3.2.3.1 基因预测:ORF Finder 识别原核生物的ORF http://www.ncbi.nlm.nih.gov/gorf/gorf.html 1 3 AE008569 AE008569 :在人类身上引起地中海热的虱媒介病原体Rickettsia conorii (细菌)的基因组 2 1 5000

3.2.3.1 基因预测:ORF Finder 识别原核生物的ORF 2 1

3.2.3.1 基因预测:ORF Finder 识别原核生物的ORF 或

3.2.3.1 基因预测:ORF Finder 识别原核生物的ORF

3.2.3.2 基因预测:GENSCAN 识别真核生物的基因 http://genes.mit.edu/GENSCAN.html 这个参数用于定义非确定外显子阈值,一般情况,0.1为一个合适的设置值。 人cosmid序列

3.2.3.2 基因预测:GENSCAN 识别真核生物的基因 各个参数的含义: 共识别出2个基因。提交序列长度限制,所 (1) Gn.Ex: gene number.exon number (2) Type: Init=Initial exon (ATG to 5’ splice site) Intr=Internal exon (5’splice site to 3’ splite site) Term=Terminal exon (3’splite site to stop codon) Sngl=Single-exon gene (ATG to stop condon) Prom=Promoter (TATAbox/initation stie) PlyA=polyA signal (consensus:AATAAA) (3) S: DNA strand (+input strand, -opposite strand) (4) Begin: beginning of exon or signal (5) End: end of exon or signal (6) Len: length of exon or signal (7) Fr: reading frame (8) Ph: net phase of exon (9) I/Ac: initiation signal or 3’ splice site score (10) Do/T: 5’splice site score or termination signal score (11) CodRg: coding region score (12) P: probability of exon (13) Tscr: exon score 共识别出2个基因。提交序列长度限制,所 以第二个基因的结构预测并不完整。 GENSCAN是基因预测的首选工具。 缺陷:过分估计了基因数目(人4.5万基因)。

3.2.3.3 基因预测:Gen Finder 识别真核生物的基因 http://rulai.cshl.org/tools/genefinder/

3.2.3.3 基因预测:Gen Finder 识别真核生物的基因 人DUT基因的exon1 exon2

3.2.3.3 基因预测:Gen Finder 识别真核生物的基因 两个外显子,只预测出了一个,且起始位置不是十分准确。所以别死心塌地的相信某个预测软件,多试几个!

3.2.3.4 基因预测:更多预测软件 Beijing Gene Finder (BGF) - http://tlife.fudan.edu.cn/bgf GeneFinder - http://cgap.nci.nih.gov/Genes/GeneFinder GeneMark - http://exon.gatech.edu/GeneMark/ GENEID - http://genome.crg.es/software/geneid Genlang - http://arete.ibb.waw.pl/PL/html/gene_lang.html Glimmer - http://ccb.jhu.edu/software/glimmer/index.shtml(原核) GlimmerM - http://www.cbcb.umd.edu/software/glimmerm (真核) GrailEXP - http://compbio.ornl.gov/grailexp ……

3.2.4 DNA序列特征分析:转录终止信号预测 真核生物与原核生物基因结构的区别: PolyA信号序列,也称转录终止信号,主要标志为AATAAA或ATTAAA两种序列。在3’UTR区存在多个潜在PolyA位点,因此对PolyA位点的准确识别,对于预测基因结构、理解mRNA的形成机制及某些疾病的分子机制具有巨大作用。

3.2.4 DNA序列特征分析:转录终止信号预测 SoftBerry网站的POLYAH预测PolyA尾巴 http://linux1.softberry.com/

3.2.4 DNA序列特征分析:转录终止信号预测 SoftBerry网站的POLYAH预测PolyA尾巴

3.2.4 DNA序列特征分析:转录终止信号预测 SoftBerry网站的POLYAH预测PolyA尾巴 不需要设置任何参数 人cosmid序列

3.2.4 DNA序列特征分析:转录终止信号预测 SoftBerry网站的POLYAH预测PolyA尾巴 结果中列出了该序列所有可能的50个PolyA位点的位置(Pos.)和权重(LDF-)。 真核生物基因组序列本身存在大量的重复序列,所以当以PolyA位点预测基因终止信号位点时会出现比较大的假阳性。

3.2.5 DNA序列特征分析:启动子区域预测 真核生物与原核生物基因结构的区别:

3.2.5 DNA序列特征分析:启动子区域预测 Promoter Scan预测启动子 不需要设置任何参数 http://www-bimas.cit.nih.gov/molbio/proscan/ 不需要设置任何参数 人cosmid序列

3.2.5 DNA序列特征分析:启动子区域预测 Promoter Scan预测启动子 所有可能的启动子区域以单元的形式列出。结果中给出了可能的转录因子名称、在Ghosh TFD数据库里编号、序列所处的正负链、位置及权重。 如果在启动子区域发现TATA盒,将给出转录起始位点(transcription start site,TSS)位置的预测。

3.2.6 DNA序列特征分析:查找CpG岛 CpG岛(CpG islands)是指DNA上一个区域,此区域含有大量相连的胞嘧啶(C)、鸟嘌呤(G),以及使两者相连的磷酸酯键(p)。哺乳类基因中的启动子上,含有约40%的CpG岛(人类约70%)。一般CpG岛的长度约300bp到3000bp,其中二核苷酸GC所占比例超过50% 。 CpG岛主要位于基因的启动子和第一外显子区域,约有60%以上基因的启动子含有CpG岛。 因此,在大规模测序中每发现一个CpG岛,则预示着在此可能有基因的存在。 癌症发生过程中,基因组范围内会出现CpG岛甲基化模式的改变。肿瘤 细胞中基因启动子CpG岛的高度甲基化,可导致其调控的基因发生基因 沉默,从而直接参与及影响肿瘤的发生发展过程。

3.2.6 DNA序列特征分析:查找CpG岛 EMBOSS Cpgplot预测CpG岛 http://www.ebi.ac.uk/Tools/seqstats/emboss_cpgplot/ EMBOSS Cpgplot预测CpG岛 人cosmid序列

3.2.6 DNA序列特征分析:查找CpG岛 共找到两个CpG岛,位于GENSCAN找到的两个基因的5’端。

3.3 蛋白质序列特征分析 蛋白质是组成生物体的基本物质,是生命活动的主要承担者。对蛋白质序列进行序列特征分析,能够从分子层面上阐明蛋白质序列与蛋白质空间结构之间的关系的规律,为进一步研究蛋白质功能与蛋白质结构之间的关系提供理论依据。

3.3.1 蛋白质序列特征分析:分析理化性质 蛋白质是由氨基酸组成的大分子化合物,对组成蛋白质的氨基酸进行理化性质统计分析是对未知蛋白质进行分析的基础。蛋白质的理化性质包括蛋白质的分子量、氨基酸的组成、等电点、消光系数、亲/疏水性、跨膜区、信号肽、翻译后修饰位点等。 ExPASy(Expert Protein Analysis System)是由瑞士生物信息学中心 维护,并与欧洲生物信息学中心 及蛋白质信息资源 组成Universal Protein Knowledgebase 联盟。ExPASy数据库提供了一系列蛋白质理化分析工具,为后续实验提供帮助。 http://www.expasy.org/

3.3.1 蛋白质序列特征分析:分析理化性质 ProtParam(Physical chemical parameters of a protein sequence)是计算氨基酸理化参数常用的在线工具。

3.3.1 蛋白质序列特征分析:分析理化性质 ProtParam:计算氨基酸理化参数常用的在线工具 http://web.expasy.org/protparam/ 果蝇的蛋白激酶C(PKC),细胞信号传导途径中一种重要的酶 。

3.3.1 蛋白质序列特征分析:分析理化性质 ProtParam:计算氨基酸理化参数常用的在线工具 根据数据库记录发现该蛋白质可以分成几个部分。可以只分析某一部分。 或者分析指定区域 或者分析全部序列,直接点“SUBMIT”

3.3.1 蛋白质序列特征分析:分析理化性质 ProtParam:计算氨基酸理化参数常用的在线工具

3.3.2 蛋白质序列特征分析:分析亲疏水性 ProtScale:计算蛋白质亲疏水性分析的在线工具 氨基酸的亲疏水性是构成蛋白质折叠的主要驱动力。蛋白质折叠时会形成疏水内核和亲水表面,同时在潜在跨膜区出现高疏水值区域,据此可以测定跨膜螺旋等二级结构和蛋白质表面氨基酸分布。 带电氨基酸( charged amino acid),这类氨基酸在生物pH环境中带有 正电或负电。 疏水氨基酸(hydrophobic amino acid),其侧链大部分或全部由碳原子和氢原子组成,因此这类氨基酸不太可能与水分子形成氢键 极性氨基酸(polar amino acid),其侧链通常由氧原子或氮原子组成,它们比较容易与水分子形成氢键,因此也称为亲水氨基酸

3.3.2 蛋白质序列特征分析:分析亲疏水性 Bioinformatics ProtScale:计算蛋白质亲疏水性分析的在线工具 Undergraduate 2014-2015 3.3.2 蛋白质序列特征分析:分析亲疏水性 ProtScale:计算蛋白质亲疏水性分析的在线工具 http://web.expasy.org/protscale/ 1 牛的视紫红质蛋白(bovine rhodopsin) 该蛋白是视网膜中杆状细胞的视色素,由视黄醛与杆细胞中视蛋白结合而成,对弱光敏感。其合成与分解涉及到视觉过程机理,与一些眼科疾病有关,比如夜盲症。

3.3.2 蛋白质序列特征分析:分析亲疏水性 ProtScale:计算蛋白质亲疏水性分析的在线工具 氨基酸标度为指派给每种氨基酸类型的一种数值,最常用的标度是氨基酸的亲疏水性和二级结构构象参数。其他参数依赖于氨基酸的不同理化性质。 2 可以直接点击某标度,以了解其作者、参考文献及标度值。

3.3.2 蛋白质序列特征分析:分析亲疏水性 ProtScale:计算蛋白质亲疏水性分析的在线工具 ①计算窗口大小:规定了每次计算得分时所截取的序列中氨基酸的个数 ②计算窗口内最边缘氨基酸的标度权值,其大小决定了计算窗口内相邻氨基酸之间的权值变化比例 ③权值变化模型,线性和指数型 ④是否将标度值标准化,如果要对不同标度的计算结果进行比较,则选“yes” ① ② 3 ③ ④ 4

3.3.2 蛋白质序列特征分析:分析亲疏水性 ProtScale:计算蛋白质亲疏水性分析的在线工具 选择分析区域: 全长,直接点“SUBMIT”

3.3.2 蛋白质序列特征分析:分析亲疏水性 7个高疏水性区域 4个高亲水性区域 ⑥ ⑤ 7个高疏水性区域 4个高亲水性区域 在进行蛋白质亲疏水性分析时,可以选择不同类型的氨基酸标度来增强结果信号,还可以通过调节计算窗口大小来去除“噪声峰谷”。 ① ③ ② ④ ⑦ ② ① ④ ③

① ② ⑤ ② ⑦ ④ ③ ③ ⑥ ① ④

3.3.3 蛋白质序列特征分析:分析跨膜区 生物膜所含的蛋白叫膜蛋白,是生物膜功能的主要承担者。根据蛋白质分离的难易及在膜中分布的位置,膜蛋白基本可分为两大类: 内在膜蛋白:约占膜蛋白的70%~80%,可不同程度的嵌入脂双层分子中。有的贯穿整个脂双层,两端暴露于膜的内外表面,这种类型的蛋白又称跨膜蛋白。 外在膜蛋白:约占膜蛋白的20%~ 30%,分布在膜的内外表面,主要在内表面,为水溶性蛋白。

3.3.3 蛋白质序列特征分析:分析跨膜区 TMpred:分析蛋白质跨膜区的在线工具 http://www.ch.embnet.org/software/TMPRED_form.html 人趋化因子受体6 (human chemokine receptor 6,CCR6) 。趋化因子受体及其配体在肿瘤特异性转移中发挥重要作用。

3.3.3 蛋白质序列特征分析:分析跨膜区 TMpred:分析蛋白质跨膜区的在线工具 得到的7个可能的跨膜螺旋区: 由膜内到膜外(Inside to outside helices) 由膜外到膜内(Outside to inside helices) 除了位置,还给出了每个跨膜螺旋的得分及中心位点。只有得分大于500的跨膜螺旋才有意义。

3.3.3 蛋白质序列特征分析:分析跨膜区 TMpred:分析蛋白质跨膜区的在线工具 7个可能的跨膜螺旋区的相关性列表,给出了这7个跨膜螺旋在某个方向上的偏好性。 + 表示有偏好性 ++ 表示有很强的偏好性

3.3.3 蛋白质序列特征分析:分析跨膜区 TMpred:分析蛋白质跨膜区的在线工具 7个可能的跨膜螺旋区建议跨膜拓扑模型,结果中给出了两个可能的跨膜拓扑模型。 分数为各个跨膜螺旋分数之和。

3.3.3 蛋白质序列特征分析:分析跨膜区 TMpred:分析蛋白质跨膜区的在线工具 7个可能的跨膜螺旋区的图形显示结果

3.3.4 蛋白质序列特征分析:亚细胞定位 成熟蛋白质必须在特定的细胞部位才能发挥其生物学功能,蛋白质在细胞内不同组分中的定位即为蛋白质的亚细胞定位(subcellular localization)它对其生理功能有着直接的影响。处于合适的亚细胞定位的蛋白质才能行使其功能。 12类亚细胞定位: 叶绿体 Chloroplast 细胞质基质 Cytoplasm 内质网 Endoplasmic reticulum 高尔基体 Golgi apparatus 溶酶体 Lysosome 线粒体 Mitochondrion 细胞核 Nucleus 过氧化物酶体 Peroxisome 细胞膜 Plasma membrane 液泡 Vacuole 细胞壁 Cell wall 分泌途径(细胞外基质) Secretion

3.3.4 蛋白质序列特征分析:亚细胞定位 蛋白质在核糖体中合成后经过蛋白质分选信号引导后被转运到特定的细胞器中,部分蛋白质则被分泌到细胞外或留在细胞质中。真核细胞中的蛋白质在细胞内的转运机制主要有两种: (1)翻译后转运(post-translational translocation):翻译后蛋白质靠各自不同的前导肽信号转运到不同的细胞器,如进入线粒体转运肽(mTP)、叶绿体转运肽(cTP)、细胞核定位序列(NLS)、过氧化物酶体信号等。此外,还有一部分直接存在于细胞质溶液中。 (2)共翻译转运(co-tanslational translocation): 进行翻译的同时就开始转运,主要通过定位信 号即信号肽(SP),一边翻译一遍进入内质网,部分 蛋白还会穿出内质网,经过高尔基体,接着跨 过细胞膜进行定位与分泌。 Nobel prize 1999 Günter Blobel “proteins have intrinsic signals that govern their transport and localization in the cell”

3.3.4 蛋白质序列特征分析:亚细胞定位 SwissProt数据中收录了蛋白质的亚细胞定位。目前,研究亚细胞定位的数据基本都来自于该数据库。

3.3.4 蛋白质序列特征分析:亚细胞定位 基于氨基酸组分 基于相似序列搜索 基于氨基酸分选信号 混合方法 自动让诸多软件同时进行预测,并将结果进行统计学分析后返回最终预测定位。 基于相似序列搜索 基于氨基酸分选信号 Johannes Aßfalg, Jing Gong, et.al. JBCB, 2009 PMID: 19340915 混合方法 预测亚细胞定位的软件:已发表的有几十个

http://www.dbs.ifi.lmu.de/research/locpred/ensemble/

3.3.4 蛋白质序列特征分析:亚细胞定位 软件 物种 预测内容 网址链接 SignalP 全部 识别SP ChloroP 植物 识别cTP http://www.cbs.dtu.dk/services/SignalP/ ChloroP 植物 识别cTP http://www.cbs.dtu.dk/services/ChloroP/ TargetP 真核 识别mTP cTP SP http://www.phosphosite.org/homeAction.do Cell-PLoc 预测多种定位 http://www.csbio.sjtu.edu.cn/bioinf/Cell-PLoc-2/ BaCelLo http://gpcr.biocomp.unibo.it/bacello/ CELLO http://cello.life.nctu.edu.tw/ MultiLoc2 http://abi.inf.uni-tuebingen.de/Services/MultiLoc2 PSORTb 细菌 http://www.psort.org/psortb/index.html Euk-mPLoc2 http://www.csbio.sjtu.edu.cn/bioinf/euk-multi-2/ LOCTREE3 https://www.rostlab.org/services/loctree2/ SCLpred http://distill.ucd.ie/distill/ HSLPred 人 http://www.imtech.res.in/raghava/hslpred/

3.4 蛋白质组学 20世纪90年代中期,一门新兴学科---蛋白质组学(proteomics)应运而生。 蛋白质组(proteome)一词由澳大利亚学者Willians和Wilkins于1994年首先提出,源于蛋白质(protein)与基因组(genome)两个字的结合,意指“一种基因组所表达的全套蛋白质”。 蛋白质组学是以细胞内全部蛋白质的存在及其活动方式作为研究对象,注重研究参与特定生理或病理状态的所有蛋白质种类及其与周围环境(分子)的关系。 蛋白质组学研究的策略: “竭泽法”:即采用高通量的蛋白质组研究技术分析生物体内尽可能多乃至接近所有的蛋白质。 “功能法”:即研究不同时期细胞蛋白质组成的变化,如蛋白质在不同环境下的差异表达,以发现有差异的蛋白质种类为主要目标。

3.4 蛋白质组学 2015年5月,《Nature》上公布了一个德国的团队和一个美国印度联合团队绘制的第一张人类蛋白质组图谱,这些在大部分非患病人体组织和器官中表达的精选蛋白,为更好的理解疾病状态下发生的机体变化,奠定了坚实的基础。研究共报道了约18,000种蛋白质。其中一些来自曾经认为是非编码的DNA片段。 基因组学研究的局限 mRNA的表达水平不能完全反映蛋白质的表达水平,原因有三: 1. 基因与蛋白质之间并非一一对应关系,一个基因并不只存在一个相应的蛋白质,可能会有几个,甚至几十个。 2. 组织中mRNA的表达丰度与蛋白质的表达丰度的相关性并不好。 3. 基因组是静态的,而蛋白质是动态的,与生物系统所处的状态有关。

3.4.1 蛋白质组学数据的获取与分析 1. 二维凝胶电泳分析技术(2-D electrophoresis, 2-DE) 2-DE是将样品进行电泳后在它的直角方向再进行一次电泳,又称双向电泳。第一向是等电聚焦(isoelectric focusing,IEF),蛋白质沿pH梯度分离至各自的等电点。第二向是SDS聚丙烯酰胺凝胶电泳(SDS-PAGE),蛋白质进行分子量的分离。

3.4.1 蛋白质组学数据的获取与分析 2. 质谱分析技术 质谱(mass spectrometry,MS):是按照物质的质量与电荷的比值(质荷比)顺序排列成的图谱。 质谱分析法是按照离子的质荷比(mass-to-charge ratio, m/z)大小对离子进行分离和测定从而对样品进行定性和定量分析的一种方法。 质谱仪(mass spectrometer)是利用电磁学原理使离子按照质荷比进行分离,从而测定物质的质量与含量的科学实验仪器。 质量分析器是质谱仪的核心,有四种分析器对应不同的质谱仪,分别是:飞行时间(time-of-flight,TOF)、离子阱(ion trap,IT)、四级杆(quadrupole,Q)、傅立叶变换离子回旋共振(Fourier transform ion cyclotron resonance,FT-ICR)分析器。这些质量分析器可单独使用,也可串联起来构成串联质谱仪(Tandem-MS)。

3.4.1 蛋白质组学数据的获取与分析 质谱的应用: 1. 分子量的测定 2. 肽质量指纹谱(peptide mass fingerprint,PMF)的测定。由于每种蛋白质的氨基酸序列不同,蛋白质被特异性酶切位点的蛋白质酶水解后,产生的肽片段序列也不同,它们的质量数也就具有了特征性,称为PMT。 山东大学癌症研究中心 LTQ OrbitrapVelos Elite 组合式质 3. 肽段序列的测定。即蛋白质的从头测序,需要串联质谱技术。 4. 巯基和二硫键快速定位 5. 蛋白质翻译后修饰

3.4.2 蛋白质翻译后修饰分析方法 蛋白质翻译后修饰分析方法: (1)质谱分析 (2)数据库搜索 (3)基于序列测序 蛋白质翻译后修饰(post-translational modification, PTM)是指蛋白质在翻译中或翻译后会在个别氨基酸链上共价结合各种非肽类基团,形成翻译后修饰。常见的有磷酸化、糖基化、甲基化、乙基化、羟基化、泛素化、脂基化、焦谷氨酸化等二十多种。 质谱分析主要是通过质量偏移(mass shift)来识别PTM。一种特定的PTM通常会作用于一定的氨基酸,经修饰后的氨基酸会增加相应的分子量,如磷酸化肽段会因为加入了磷酸化修饰而产生+80的质量偏移。质谱通过测定多肽离子片段的质量鉴定肽段,可检测出PTM所导致的质量偏移,并据偏移数值识别PTM种类及位置。

3.4.2 蛋白质翻译后修饰分析方法 蛋白质翻译后修饰分析方法: (1)质谱分析 (2)数据库搜索 (3)基于序列测序 目前,蛋白质PTM的研究仍面临着很多困难,尽管质谱等技术不断完善,但是从整体上了解PTM仍面临着巨大的挑战。随着生物信息方法的介入,能够从序列和质谱两个角度帮助大规模鉴定PTM。 数据库 数据类型 网址链接 SwissProt 实验验证的各种PTM http://www.uniprot.org/ PhosphoELM 实验验证的磷酸化蛋白 http://phospho.elm.eu.org/about.html Phosphosite 文献中确证的磷酸化位点 http://www.phosphosite.org/homeAction.do Phosida 质谱鉴定的磷酸化位点 http://www.phosida.com/ PhosphoPep 4个物种的质谱磷酸化位点 http://www.phosphopep.org/ O-glycbase 实验验证的糖基化位点 http://www.cbs.dtu.dk/databases/OGLYCBASE/ Dbptm 文献中的和预测的PTM http://dbptm.mbc.nctu.edu.tw/

3.4.2 蛋白质翻译后修饰分析方法 蛋白质翻译后修饰分析方法: (1)质谱分析 (2)数据库搜索 (3)基于序列测序 蛋白质的PTM需要相应酶的催化作用,发生在特定氨基酸或者多肽的特殊位置上,因此同类PTM位点周围的片段往往都具有很强的序列保守性,通过对常见PTM数据的收集,及对发生同类修饰的蛋白序列特征的研究,使得基于序列预测PTM成为可能。 预测工具 内容 网址链接 NetPhos 磷酸化位点 http://www.cbs.dtu.dk/services/NetPhos/ Scansite http://scansite.mit.edu/ Disphos http://www.dabi.temple.edu/disphos/ Netoglyc 糖基化位点 (真核) http://www.cbs.dtu.dk/services/NetOGlyc/ Netacet 乙酰化位点 http://www.cbs.dtu.dk/services/NetAcet Sufinator 酪氨酸硫酸化位点 http://www.expasy.ch/tools/sulfinator

3.4.3 蛋白质翻译后修饰数据库 Dbptm数据库搜索/预测PTM http://dbptm.mbc.nctu.edu.tw/

3.4.3 蛋白质翻译后修饰数据库 Dbptm数据库搜索/预测PTM

3.4.3 蛋白质翻译后修饰数据库 Dbptm数据库搜索/预测PTM

3.4.3 蛋白质翻译后修饰数据库 Dbptm数据库搜索/预测PTM

3.4.3 蛋白质翻译后修饰数据库 Dbptm数据库搜索/预测PTM

3.4.3 蛋白质翻译后修饰数据库 Dbptm数据库搜索/预测PTM

3.4.3 蛋白质翻译后修饰数据库 Dbptm数据库搜索/预测PTM

3.4.3 蛋白质翻译后修饰数据库 Dbptm数据库搜索/预测PTM

3.4.3 蛋白质翻译后修饰数据库 Dbptm数据库搜索/预测PTM

3.4.3 蛋白质翻译后修饰数据库 Dbptm数据库搜索/预测PTM

3.4.3 蛋白质翻译后修饰数据库 Dbptm数据库搜索/预测PTM

没关系!记 住我的讲义放哪了就行。随 用随学! 老师,你讲 的我都没记住, 留个电话吧! 这只是序列分析 的冰山一角!师 傅领进门修 行靠个人!