生物信息学 Bioinformatics
第一章:绪 论 第一节 引言 ——从人类基因组计划说起 第二节 生物信息学及其发展历史 第三节 生物信息学主要研究内容 第一章:绪 论 第一节 引言 ——从人类基因组计划说起 第二节 生物信息学及其发展历史 第三节 生物信息学主要研究内容 第四节 生物信息学当前的主要任务 第五节 生物信息学所用的方法和技术
第一节 从人类基因组计划(HGP)说起
曼哈顿原子弹计划 阿波罗登月计划 人类基因组计划
(HGP,Human Genome Project) 60年代初,美国总统Kennedy提出两个科学计划: 登月计划 攻克肿瘤计划 人类遗传信息的复杂性 人类基因组计划 (HGP,Human Genome Project) 目标:整体上破解人类遗传信息的奥秘
DNA、基因、基因组 生命活动三要素:物质、能量、信息 DNA: 遗传物质(遗传信息的载体) 双螺旋结构 A, C, G, T四种基本字符的复杂文本 基因(Gene):具有遗传效应的DNA分子片段
基因组(Genome):包含细胞或生物体全套的遗传信息的全部 遗传物质。原核生物(细菌、病毒等) 真核生物(真菌、植物、动物等) 人类基因组: 3.2×109 bp
基因组 ——一个物种中所有基因的整体组成 back
人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息
back
HGP的 历史回顾 1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基 因组DNA序列的意义 1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基 因组DNA序列的意义 1985 Dulbecco在《Science》撰文 “肿瘤研究的转折点:人 类基因组的测序” 美国能源部(DOE)提出“人类基因组计划”草案 1987 美国能源部和国家卫生研究院(NIH)联合为“人类 基因组计划”下拨启动经费约550万美元 1989 美国成立“国家人类基因组研究中心”,Watson担任 第一任主任 1990.10 经美国国会批准,人类基因组计划正式启动 HGP的 历史回顾 James Watson Walter Gilbert
Saccharomyces cerevisiae Caenorhabditis elegans 第一个自由生物体流感嗜血菌(H. inf)的全基因组测序完成 1996 完成人类基因组计划的遗传作图 启动模式生物基因组计划 H.inf全基因组 Saccharomyces cerevisiae 酿酒酵母 Caenorhabditis elegans 秀丽线虫
1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度 1997 大肠杆菌(E.coli)全基因组测序完成 1998 完成人类基因组计划的物理作图 开始人类基因组的大规模测序 Celera公司加入,与公共领域竞争 启动水稻基因组计划 1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度 水稻基因组计划 大肠杆菌及其全基因组
2001年2月15日《Nature》封面 2001年2月16日《Science》封面
At the White House on June 26, Francis Collins (r), Director of the National Human Genome Research Institute, President Clinton, and J. Craig Venter, President of Celara Genomics, lauded the thousands of scientists who contributed to the genome sequence.
Drosophila melanogaster 1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度 2000 Celera公司宣布完成果蝇基因组测序 国际公共领域宣布完成第一个植物基因组——拟南芥全基 因组的测序工作 2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图 2001.2.15 《Nature》刊文发表国际公共领域结果 2001.2.16 《Science》刊文发表Celera公司及其合作者结果 Drosophila melanogaster 果蝇 Arabidopsis thaliana 拟南芥
HGP的最初目标通过国际合作,用15年时间(1990~2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图 ,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。 4张图: HGP的终极目标 阐明人类基因组全部DNA序列; 识别基因; 建立储存这些信息的数据库; 开发数据分析工具; 研究HGP实施所带来的伦理、法律和社会问题。 遗传图 物理图 序列图 转录图
遗传图谱 遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。
遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组 频率为1%) 表示。 back
物理图谱 物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。
敲碎基因组,分析研究内容所处的染色体位置 一对紧密 一对相邻 中心粒 染色体图 细菌人工染色体 ( 80 ~ 300 kb ) 酵母人工染色体 (数百~ 2000 kb ) 1998 年完成了具有52,000个序列标签位点(STS),并覆盖人类基因组大部分区域的连续克隆系的物理图谱。 back
转录图谱 转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
通过定位克隆技术寻找疾病基因的过程 back
序列图谱 随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱
大规模基因组测序
大规模测序基本策略 逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划) 全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司)
运用计算机软件进行序列拼接 back
人类基因组的组成 人类基因组 Coding DNA 线粒体基因组(16.6kb) 细胞核基因组(3200Mb) 约10% 约90% 基因和基因有关序列 基因外序列 rRNA 基因 tRNA 基因 蛋白编码 基因 专一或中等重复序列 70~80% 20~30% 专一的或低 拷贝数序列 中度至高度重复序列 <10% >90% Coding DNA Non-coding DNA 约60% 约40% 串联重复序列/ 成簇重复序列 分散重复序列 假基因 基因片段 内含子
人类基因组构成——24条染色体和线粒体
基因识别 基因识别(gene identification)是HGP的重要内容之一,其目的是识别全部人类的基因。 基因识别包括: 识别基因组编码区 识别基因结构 基因识别目前常采用的有二种方法: 从基因组序列中识别那些转录表达的DNA片段 从cDNA文库中挑取并克隆。
人类基因组计划的实施意义 人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。 人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易得多。 研究多种模式生物基因组将有助于研究地球生物的进化史。
基因变异与疾病
基因组多态性
我国对人类基因组计划的贡献
又一次成功! ——水稻基因研究
面对堆积如山的生物学数据……
HGP带来的科学挑战 随着实验数据和可利用信息急剧增加,信息的管理和分析成为HGP的一项重要的工作 利用数学模型 和人工智能技术 研究基因组数据 之间的关系 分析现有的 基因组数据 认识生命的本质 发现生物学 规律, 解读生物 遗传密码
各学科参与、协作:生命科学、数学、物理学、化学、计算机 科学、材料科学以及伦理、法律等社会科学…… 首要科学问题 如何找到记载在基因组DNA一维结构上控制生命时间、空间 的调控信息的编码方式和调节规律。 应用数学、复杂系统理论、信息论、非线性科学…… 催生生物信息学、计算生物学 DNA芯片技术 交叉性技术领域:物理学、微电子信息技术、生化技术、信 息技术…… 结构生物学 前沿领域之一:生物物理学、生物化学、晶体学、波谱学、 光谱学以及X射线晶体衍射技术、核磁共振技术……
化学 分子 生物学 物理 生命信息的组织、 传递、表达 信息技术 遗传学
功能基因组学 HGP即将完成,我们即将进入“后基因组学”(post-genomics)时代 基因组学研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平对功能的研究上,即功能基因组学(functional genomics) 功能基因组的任务是 进行基因组功能注释(Genome annotation) 认识基因与疾病的关系 掌握基因的产物及其在生命活动中的作用
功能基因组学的研究内容 进一步识别基因,识别基因转录调控信息,分析遗传语言。 注释所有基因产物的功能,这是目前基因组功能注释的主要层次。 研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。 比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。
人类基因组与其它生物基因组比较
例:人与鼠染色体的差别
后基因组时代 Structure & Function Pathways & Physiology Populations& Evolution Ecosystems Genomes Gene Products
未来的药物研究过程将是基于生物信息知识挖掘的过程 生物信息学与新药研制 未来的药物研究过程将是基于生物信息知识挖掘的过程 数据处理和 关联分析 针对靶目标 进行合理的 药物设计 发现药物 作用对象 确定靶目标 分子
生物信息学与疾病检测 基因组计划产生的基因及基因多态性数据与临床医学检验结果之间的关系需要利用生物信息学的方法去分析、去揭示 根据这样的分析结果,科学家能够更准确地了解疾病产生的根本原因,更精确地预测某个人患癌症、糖尿病或者心脏病的可能性,从而彻底改变我们诊断、治疗和预防疾病的方式
蛋白质结构与功能关系的研究 蛋白质序列 蛋白质结构 蛋白质功能关系
基因组计划的不断推进,其结果不仅导致DNA序列数据的迅速增长,也导致蛋白质序列数据的迅速增长。 生物信息学在蛋白组学研究中的主要任务是产生和分析蛋白质的结构,并将结构知识应用于生物学、医学、药学等生命科学领域。 蛋白质空间结构预测。 蛋白质结构是合理药物分子设计的基础。 蛋白质结构是蛋白质工程的基础。
基于生物信息学的新药设计
研究蛋白质结构及功能关系 生物信息学 研究蛋白质的进化问题, 研究不同蛋白质之间的进化关系 研究蛋白质的性质
……新的生物学研究模式的出发点应该是理论的。科学家将从理论推测出发,然后再返回到实验中去,追踪或验证这些理论假设。……生物学家不仅必须成为计算机学者,而且也要改变他们研究生命现象的途径。 ——W. Gilbert, Towards A Paradigm Shift in Biology, Nature, 349(1991)99
传统生物学:实验科学 现代生物学的发展: 1、高通量数据获取日益实现自动化、半工业化 从数据库中实现数据挖掘、知识发现 2、海量数据 难以完全依赖实验手段对新数据进行分析,必须借助计算机实现分析和筛选 3、更复杂层次的生物学问题 复杂的基因调控网络、代谢网络;细胞间信号转导过程;生物个体全部基因表达变化…… 理论生物学 分析、筛选大量新数据 生物中的复杂网络、复杂过程、复杂现象 计算生物学
计算/理论生物学的发展离不开实验生物学的贡献 实验永远起着决定作用 计算/理论生物学的发展离不开实验生物学的贡献 实验生物学日益依赖计算/理论生物学的指导 21世纪生命科学 理论 计算 实验 数学与物理科学