第二章 生物信息学的生物学基础 主讲人:孙 啸 制作人:刘志华 东南大学 吴健雄实验室
普通生物学 细胞 遗传 进化 分子生物学 —— 研究核酸、蛋白质等生物大分子的结构、功能和相互关系 —— 研究生物大分子在生命活动中的重要性、规律性,从分子水平上真正揭开生物世界的奥秘
关于生物大分子构成的三条基本原则: (1)构成生物体各类有机大分子的单体在不同的生物中都相同; (2)生物体内一切有机大分子的构成都遵循共同的规则; (3)某一特定生物体所拥有的核酸及蛋白质分子决定了它的属性。
第一节 细胞 生命活动的基本单位 是生命存在的最基本形式,是一切生命 活动的基础。 (1)一切生物都离不开细胞这一生命的基本形态结构 第一节 细胞 生命活动的基本单位 是生命存在的最基本形式,是一切生命 活动的基础。 (1)一切生物都离不开细胞这一生命的基本形态结构 (2)细胞是生命活动赖以进行的基础 代谢、生长、分裂、凋亡 生命活动建立在细胞活动的基础上
1、大肠杆菌 2、念珠藻 3、小球藻 4、酵母菌 5、火丝菌 6、眼虫 7、分生组织细胞 8、栅栏组织薄壁细胞 9、驴蹄草叶表皮细胞和保卫细胞 10、大鼠肝细胞 11、肾近曲小管上皮细胞 12、成纤维细胞 13、人红细胞 14、人精子 15、哺乳动物的横纹肌细胞 16、平滑肌细胞 17、神经细胞体
两类细胞 原核细胞:细菌、蓝细菌、原绿藻 真核细胞:如真菌 细胞的主要构成部分: 细胞膜 细胞壁 细胞核 细胞质
细胞膜
细胞壁
细胞质 细胞液 细胞骨架 细胞器 线粒体 (功能:能量转换,细胞复制,生存) 叶绿体 (功能:光合作用) 内质网(功能:细胞复制,生存) 线粒体 (功能:能量转换,细胞复制,生存) 叶绿体 (功能:光合作用) 内质网(功能:细胞复制,生存) 高尔基体 溶酶体 细胞骨架 核糖体
细胞核 真核细胞中的细胞控制中心 包含遗传信息(染色质) 与细胞质中的其它细胞器通讯
动物细胞模式图
植物细胞模式图
细 胞 分 裂 有丝分裂 单细胞生物繁殖 多细胞生物生长 减数分裂 形成单倍体 有性繁殖
有丝分裂
细胞的有丝分裂
减 数 分 裂 第一阶段(1) 第一阶段(2)
遗传物质交换
细胞的减数分裂
原 核 生 物 主要特点: 代表生物: 1.遗传物质仅一个环状DNA 2.无核膜 3.无细胞器,无细胞骨架 4.以无丝分裂或出芽繁殖 支原体,细菌,兰藻,螺旋藻(人类未来的蛋白质 食物新来源)
真 核 生 物 三大结构体系: 膜系统: 质膜,内膜系统,细胞器 细胞核系统: 遗传信息表达系统 骨架系统: 细胞质, 细胞核等的骨架系统
第二节 蛋白质的结构和功能 1、蛋白质的功能 酶的催化作用 物质运载和贮存作用 营养存贮作用 运动协调作用 机械支持作用 免疫保护作用 第二节 蛋白质的结构和功能 1、蛋白质的功能 酶的催化作用 物质运载和贮存作用 营养存贮作用 运动协调作用 机械支持作用 免疫保护作用 信号接受与传导作用 生长和分化控制作用
2、蛋白质的分子组成 组成蛋白质的主要元素有: 碳(50%-55%) 氢(6%-8%) 氧(19%-24%) 氮(13%-19%)和硫 某些蛋白质还含有少量磷、铁、铜、碘、锌等
氨基酸 氨基酸(amino acid)是蛋白质的基本结构单位 NH2 H — C — COOH R 氨基酸通式
20种标准氨基酸的英文简写 氨基酸名称 英文缩写 简 写 甘氨酸 Gly G 丝氨酸 Ser S 丙氨酸 Ala A 苏氨酸 Thr T 缬氨酸 Val V 天冬酰胺 Asn N 异亮氨酸 Ile I 谷酰胺 Gln Q 亮氨酸 Leu L 酪氨酸 Tyr Y 苯丙氨酸 Phe F 组氨酸 His H 脯氨酸 Pro P 天冬氨酸 Asp D 甲硫氨酸 Met M 谷氨酸 Glu E 色氨酸 Trp W 赖氨酸 Lys K 半胱氨酸 Cys C 精氨酸 Arg R 20种标准氨基酸的英文简写
对于20种标准的氨基酸,按照侧链化学性质的不同,可以分为以下三组: 极性氨基酸(容易与水分子形成氢键 ) Ser、Thr、Cys、Asn、Gln、His、Tyr、Trp 带电氨基酸 Arg、Lys(+)和Asp、Glu(-) 疏水性的氨基酸 Ala、Val、Leu、Ile、Phe、Pro和Met
甘氨酸(Gly)的侧链只有一个氢原子,是最简单的氨基酸,具有独特的性质,可以单作为第四类,也可以归于第一类。 含有芳香性侧链 Phe、Tyr、Trp、His 侧链为醇或酚的氨基酸有 Ser、Thr、Tyr 可以形成氢键 Arg、Lys、Asp、Glu、Ser、Thr、Asn、Gln、His、Tyr及Trp
3、蛋白质的结构层次 (1)蛋白质的一级结构 (primary structure) 蛋白质的一级结构是指多肽链中氨基酸的序列
肽键的形成
H H O H H O —N—C—C— —N—C—C— CH2 CH2 SH S 半胱氨酸 CH2 CH2 —N—C—C— —N—C—C— H H O H H O 二硫键的形成
(2)蛋白质的二级结构 (secondary structure) 二级结构主要有以下几种形式: (i)螺旋 (ii)折叠 – 平行折叠 反平行折叠 (iii)—转角 – 连接作用 (iv)无规卷曲-没有确定规律性的肽链构象,但仍然是紧密有序的稳定结构 (v)无序结构
蛋白质的螺旋结构
蛋白质的折叠结构
平行β-折叠 反平行β-折叠
(3)蛋白质的超二级结构 (i)—环—花样 (ii)发夹花样 (—环—花样) (iii)希腊图案花样 (iv)——花样 由四条反平行片组成 (iv)——花样 -环- -环-
(4)蛋白质的三级结构 蛋白质的三级结构
三级结构(tertiary structure) 在二级结构基础上的肽链再折叠形成的构象。
结构域(structure domain). - 结构域也是功能单位. - 不同的结构域是与不同的功能相关联的
(5) 蛋白质的四级结构 (quaternary structure) 组成蛋白质的多条肽链在天然构象空间上的排列方式,多以弱键互相连接。疏水力、氢键、盐键 每条肽链本身具有一定的三级结构,就是蛋白质分子的亚基。
蛋白质的各级结构 一级结构 氨基酸 二级结构 三级结构 血红蛋白 四级结构
蛋白质的空间作用力 氢键 盐键(离子键) 疏水键 范德华力 二硫键 脂键
维系和稳定蛋白质结构的作用力 盐键 (离子键) 二硫键 疏水键 氢键 疏水键 氢键 氢键
4、蛋白质结构与功能的关系 (1)蛋白质一级结构与功能的关系 序列分析 (2)蛋白质空间构象与功能的关系 结构分析 一级结构 即氨基酸顺序 高级结构 生物学功能 (1)蛋白质一级结构与功能的关系 序列分析 (2)蛋白质空间构象与功能的关系 结构分析
第三节 遗传信息载体—DNA 1、核苷酸 (1)碱基 (2)核苷 (3)核苷酸
核酸的化学结构 碱基+戊糖 核苷 + 磷酸 核苷酸 聚合 核酸 (核苷酸之间通过3.’5’磷酸二脂键连接) 碱基 磷酸 戊糖
碱 基 腺嘌呤A 鸟嘌呤G 尿嘧啶U 胸腺嘧啶T 胞嘧啶C
DNA RNA 碱基 腺嘌呤(adennine,A) 鸟嘌呤(guanine,G) 胞嘧啶(cytosine,C) 胸腺嘧啶(thymine,T) 腺嘌呤 鸟嘌呤 胞嘧啶 尿嘧啶(Uracil,U) 戊糖 脱氧核糖 核糖 磷酸 核苷酸的化学组成
扩展的遗传学字母表或IUPAC编码 符 号 含 义 说 明 G Guanine A Adenine T Thymine C Cytosine 说 明 G Guanine A Adenine T Thymine C Cytosine R G or A Purine Y T or C Pyrimidine M A or C Amino K G or T Keto S G or C Strong interaction (3 H bonds) W A or T Weak interaction (2 H bonds) H A or C or T Not-G B G or T or C not-A V G or C or A not-T(not-U) D G or A or T not-C N G or A or T or C Any 扩展的遗传学字母表或IUPAC编码
2、DNA 的一级结构 (1)DNA的碱基组成 (2)DNA的一级结构 (i) A=T , G=C (ii) A+G=C+T 由A、T、C、G四种脱氧核苷酸通过3‘、5’-磷酸二酯键连接而成的长链高分子多聚体为DNA分子的一级结构
碱 基 配 对
3、DNA的空间结构 DNA分子双螺旋结构模型
4、RNA和核糖体 RNA是单链分子,RNA主要有三种 : 核糖体是蛋白质合成的场所,核糖体主要由蛋白质分子和rRNA组成 信使RNA(mRNA)- 转录遗传信息 核糖体RNA(rRNA)- 蛋白质合成 转移RNA(tRNA)- 运载氨基酸 核糖体是蛋白质合成的场所,核糖体主要由蛋白质分子和rRNA组成
rRNA mRNA tRNA 核糖体 mRNA 反密码子 氨基酸 新生肽链
第四节 基因组结构 1、染色体 遗传物质 组成:DNA和蛋白质 特征: (1)分子结构相对稳定; (2)能够自我复制; (3)能够指导蛋白质合成; (4)能够产生可遗传的变异。
染 色 体 短臂 着丝粒 DNA 长臂 染色单体
真核细胞染色体上的蛋白质主要包括组蛋白和非组蛋白。 组蛋白是一类较小而带有正电荷的核蛋白,与DNA有很高的亲和力。组蛋白是染色体的结构蛋白,它与DNA组成核小体。 非组蛋白的种类较多,包括酶类,如RNA聚合酶、包装蛋白、加工蛋白、与细胞分裂有关的收缩蛋白、骨架蛋白、核孔复合物蛋白以及与基因表达有关的蛋白等。 在DNA方面,真核细胞基因组的最大特点是它含有大量的重复序列,而且功能DNA序列大多被不编码蛋白质的非功能DNA序列隔开。
染色质的基本结构单位
多级螺线管模型 螺线管 核小体
2、基因 基因具有几个重要的特征: 基因是一种相对独立的遗传信息单位,这些信息单位可以通过各种方式在生物个体之间进行重新组合,并向后代传递; 基因是一段DNA分子,遗传信息贮存在DNA序列之中; 基因的信息内容通过相应的形式表现出来,即指导合成蛋白质或RNA,进而产生生理功能,或影响其他基因的表达。
基因组 —— 是一种生物所有遗传信息的总和,或载有遗传信息的全体核酸。 —— 基因组控制着生物体结构的建造,控制着生命活动。 要想认识生物的本质,就必须首先将生物基因组的全部遗传信息破译出来,即分析出全部DNA的碱基序列。
3、原核生物基因组 特点: (1)原核生物的基因组比较小,DNA量低; (3)原核生物DNA序列中与功能相关的RNA和蛋白质基因往往聚集在基因组的一个或几个特定部位,形成一功能单位或转录单元,它们可以被一起转录为含多个mRNA的分子,形成多顺反子mRNA。 操纵子(operator)学说
调节基因 操纵位点 结构基因 i p o Z Y A 操纵子 操纵子模型
4、真核生物基因组 (1)真核细胞的基因结构 外显子 内含子 完整的基因结构 (2)单拷贝基因和基因家族 (3)重复序列
真核基因的一般结构 加poly(A)信号 植物C/GAANNATGG 植物 G/AATAA1-3 动物A/GNNATGG 动物 AATAAA 翻译起始 植物C/GAANNATGG 动物A/GNNATGG 加poly(A)信号 植物 G/AATAA1-3 动物 AATAAA TATA盒 各内含子 5'端 AGGA或 CAAT盒 加帽位点 5'm7GpppNp 各个外显子 终止密码子 真核基因的一般结构
一个完整的基因,不但包括编码区域(coding region),还包括5‘端和3’端长度不等的特异性序列,虽然它们不编码氨基酸,却在基因表达的过程中起着重要的作用。 严格的“基因”分子生物学定义是:产生一条多肽链或功能RNA所必需的全部核苷酸序列。 启动子 TATA盒(box):T82A97T93A85A63 增强子 沉默子
RNA polymerase II (pol II):约10个不同蛋白质组成的复合物。 Transcription Factor IID (TFIID) 也是一种蛋白复合物。
Enhancers 可以在基因的上游或者下游,甚至在内含子中。 一种可能的作用方式: 增强子结合蛋白还与转录因子结合。
蛋白质与DNA 的结合
5、遗传和进化 遗传是生物的一个普遍特征,正因为有了遗传,物种才能稳定下来,才能得以延续。 生物界又普遍存在着变异,每一代都有变异,没有两个生物个体是完全相同的。 可遗传的变异 基因突变 基因重组 染色体畸变 6、人类基因组
人类基因组组成: 一半以上是重复序列; 1% - 1.5% 是编码序列; 其他部分与调控有关
第五节 中心法则 复制 DNA 转录 调控 逆转录 RNA 蛋白质 翻译 复制
1、DNA的复制 2、转录 3、翻译 4、mRNA的反转录与cDNA 5、对遗传信息流的再认识 以DNA分子为模板,合成出与其核苷酸顺序相对应的RNA的过程 3、翻译 以mRNA为模板的蛋白质合成过程 4、mRNA的反转录与cDNA 反转录酶可以将mRNA反转录为DNA,即互补DNA,或cDNA。 5、对遗传信息流的再认识
DNA的复制
为蛋白质编码的基因
基因转录与翻译
转 录
翻 译
遗传密码表 第一个核苷酸 (5’端) 第二个核苷酸 第三个核苷酸 (3’端) U C A G UUU 苯丙 UUC 苯丙 UUA 亮 UUG 亮 UCU 丝 UCC 丝 UCA 丝 UCG 丝 UAU 酪 UAC 酪 UAA 终止 UAG 终止 UGU 半胱 UGC 半胱 UGA 终止 UGG 色 CUU 亮 CUC 亮 CUA 亮 CUG 亮 CCU 脯 CCC 脯 CCA 脯 CCG 脯 CAU 组 CAC 组 CAA 谷酰 CAG 谷酰 CGU 精 CGC 精 CGA 精 CGG 精 AUU 异亮 AUC 异亮 AUA 异亮 AUG 甲硫 ACU 苏 ACC 苏 ACA 苏 ACG 苏 AAU 天酰 AAC 天酰 AAA 赖 AAG 赖 AGU 丝 AGC 丝 AGA 精 AGG 精 GUU 缬 GUC 缬 GUA 缬 GUG 缬 GCU 丙 GCC 丙 GCA 丙 GCG 丙 GAU 天冬 GAC 天冬 GAA 谷 GAG 谷 GGU 甘 GGC 甘 GGA 甘 GGG 甘 遗传密码表
遗传密码的基本特征 密码无标点符号 密码的简并性(degeneracy) 线性、不重叠 特殊密码子 密码的通用性
第六节 基因表达调控 1、基因表达调控的层次 染色质水平上的调控 转录水平上的表达调控 转录后调控 翻译水平上的调控 蛋白质合成后加工
通过转录调控,以开启或关闭某些基因的表达来适应自然环境的变化 例如:大肠杆菌利用营养物质。 2、原核基因调控 —— 转录和翻译在同一时间和空间内发生 —— 基因表达的调控主要发生在转录水平上 通过转录调控,以开启或关闭某些基因的表达来适应自然环境的变化 例如:大肠杆菌利用营养物质。 葡萄糖——正常情况下 乳糖—— 需要-半乳糖苷酶分解乳糖,形成葡萄糖和半乳糖。如果环境中只有乳糖可以利用,则-半乳糖苷酶的基因就必须表达,从而合成这种酶。如果环境中有葡萄糖可利用,则-半乳糖苷酶的基因就应该关闭。
3、真核基因调控 转录和翻译过程在时间和空间上彼此分开 转录和翻译后都有复杂的信息加工过程 基因表达的调控可以发生在各种不同的水平上 瞬时调控(可逆性调控 ) 对环境条件变化所作出的反应 发育调控(不可逆调控 ) 真核基因调控的关键部分 决定真核细胞的生长、分化、发育的全部进程
基因调控网络
基因调控网络
第七节 新生肽链的折叠 1、肽链加工 2、新生肽链的折叠 3、蛋白质折叠的一般规律 4、帮助新生肽链折叠的生物大分子 5、蛋白质构象病问题 天然蛋白(N)和变性蛋白(U)之间的平衡反应 4、帮助新生肽链折叠的生物大分子 5、蛋白质构象病问题
去折叠 N U 重折叠
第八节 生物大分子结构的测定 1、 X射线衍射结构分析 2、核磁共振结构分析
第九节 分子生物学工具 1、限制性酶消化 2、凝胶电泳 3、印迹和杂交(DNA 微阵列) 4、DNA测序 5、克隆 6、聚合酶链式反应
限制性酶消化
凝胶电泳
DNA 微阵列(基因芯片)
分子生物学研究的活跃领域 1、基因组学 2、基因表达调控研究 3、生物大分子的结构研究 4、信号跨膜转导 5、基因工程 6、蛋白质工程 7、基因诊断与基因治疗
The end