第六章 蛋白质工程 PROTEIN ENGINEERING 6.1 概述 6.2 蛋白质结构分析 6.3 蛋白质结构测定与预测 6.4 蛋白质工程的研究方法 6.5 蛋白质工程的应用
第一节 概述 诞生于20世纪80年代初; 1983年,美国加州基因公司Ulmer在SCIENCE(VOL.219)上发表以“Protein Engineering”为题的专论,一般将此视为蛋白质工程诞生的标志. 北大张龙翔等在对胰蛋白酶结构与功能研究的基础上, 在国内最早提出蛋白质工程研究的设计与构想。 2000年6月26日,人类基因组的工作草图宣告完成,标志着生命科学迎来了后基因组时代(post-genome era)。 在后基因组时代,生物学的中心任务是揭示基因组及其所包含的全部基因的功能。 而研究蛋白质的结构和功能,并在此项研究基础上人工改造蛋白质的结构,并获得我们所需要的活性蛋白质,正是蛋白质工程的主要任务和目标。
蛋白质工程 通过对蛋白质已知结构和功能的了解,借助计算机辅助设计,利用基因定位诱变等技术,特异性地对蛋白质结构基因进行改造,产生具有新的特性的蛋白质的技术,并由此深入研究蛋白质的结构与功能的关系,并使蛋白质更好地造福于人类。 蛋白质工程首先是以蛋白质的结构为基础,通过蛋白质一级结构、晶体结构和溶液构象的研究,积累成千上万蛋白质一级结构和高级结构的数据资料,然后按照蛋白质形成的规律,经周密的分子设计,改造蛋白质或构建新的蛋白质。并在此基础上阐明生命体的遗传、进化、发育、生长、衰老、死亡的基本生物学规律,以及与人类健康和疾病相关的生物学问题. 蛋白质工程是在重组DNA技术应用于蛋白质结构与功能研究之后发展起来的一门新兴学科。蛋白质工程是在基因工程取得的成就的基础上,通过对蛋白质已知结构和功能的了解,融合蛋白质结晶学、蛋白质动力学、计算机辅助设计和蛋白质化学等学科,特异性地对蛋白质结构基因进行改造,产生具有新的特性的蛋白质的技术。 它开创了按照人类意愿设计制造符合人类需要的蛋白质的新时期,因此,被誉为第二代基因工程。蛋白质工程的出现,为认识和改造蛋白质分子提供了强有力的手段。 蛋白质工程是在基因重组技术、生物化学、分子生物学、分子遗传学等学科的基础之上,融合了蛋白质晶体学、蛋白质动力学、蛋白质化学和计算机辅助设计等多学科而发展起来的新兴研究领域。目前,蛋白质工程尚未有统一的定义。
基本步骤 分离纯化目的蛋白 氨基酸测序、X-射线衍射分析、NMR等测试,目的蛋白的结构与功能的分析 目的基因的获得及预测 改造基因序列(定点突变等) 改造后的基因序列进行表达 分离纯化表达产物,检测 一般认为蛋白质工程就是通过基因重组技术改变或设计合成具有特定生物功能的蛋白质。实际上蛋白质工程包括蛋白质的分离纯化,蛋白质结构和功能的分析、设计和预测,通过基因重组或其它手段改造或创造蛋白质。 这个步骤实际上是对现有蛋白的改造。
蛋白质工程的方向 基因水平上的蛋白质改造:即在基因水平上改变蛋白质一级结构,以调节蛋白质的二、三、四级结构和功能;DNA合成技术用于蛋白质功能片段多肽基因的合成,可创造结构和功能全新的蛋白质。 蛋白质水平上的修饰(即基因翻译后的蛋白质修饰):对蛋白质分子进行化学修饰和生物修饰,延长蛋白质的稳定性。
研究的核心内容 蛋白质结构分析(X-射线衍射、NMR) 高级结构的预测和分子设计 蛋白质的修饰与表达
第二节 蛋白质结构分析 上图左:肌红蛋白,上图右:血红蛋白b亚基。 Heme:血红素
蛋白质分子的结构有4个严格的层次,即蛋白质的一级至四级结构。 蛋白质的一级结构(primary structure)是指多肽链的氨基酸残基的排列顺序。 线性多肽链在空间折叠成特定的三维空间结构,称为蛋白质的空间结构或构象。蛋白质的空间结构包括:二级结构、超二级结构、结构域、三级结构和四级结构。
蛋白质结构的四个层次 三级结构 四级结构 一级结构 二级结构 蛋白质的四级结构区分,不只是在结构上的一种组织单位,在生理功能上有其重要意义。 由左至右说明如何一级一级组成血红蛋白的最后构形,而形成一个有活性的分子。有很多蛋白质在三级构造上就具有完整性,但有些需要再组成四级结构,以利于更复杂的生理功能。 蛋白质的四级结构区分,不只是在结构上的一种组织单位,在生理功能上有其重要意义。 单独看其一级结构,它只是一条氨基酸残基的连续排列,没人能说它是有生命的。当此氨基酸序列逐渐卷成二级结构,生成a helix 及 b sheet 等固定结构再集合成三级的独立单位时,蛋白质因为有了固定的构形,产生了催化或别的生理活性。而当几个这样的三级结构进一步组成四级结构后,分子则似乎有了辨别的能力,知道何时该有较大的活性,何时该休息。具有活性的蛋白质大分子,是生命细胞的基础;而具有辨别能力的四级结构,则可以称为有智慧了。 三级结构 四级结构 一级结构 二级结构
第三节 蛋白质结构测定与预测 肌红蛋白的三维结构图 绿色荧光蛋白(GFP) http://www.ebiotrade.com/newsf/2008-10/2008109173851.htm 肌红蛋白的三维结构图
一级结构测定 基本方法:(1)应用化学裂解法和蛋白酶水解法将多肽链专一性裂解;(2)逐一测定每个纯化的小肽段的顺序;(3)根据肽段氨基酸顺序中的重叠区确定小肽段的排列次序;(4)完成整条多肽链的顺序分析。 尽管蛋白质顺序分析已经自动化,但仍然耗时、复杂并且昂贵。重组DNA技术出现后,人们可以从cDNA或基因序列直接推导出蛋白质的氨基酸顺序,速度快且经济,已成为最常用的测定蛋白质一级结构的方法。
3.1蛋白质三维结构测定 根据蛋白质的状态,测定蛋白质三维结构的方法分为两大类: X射线晶体衍射法(X-ray crystallography)和中子衍射法测定晶体中的蛋白质分子构象 是验证蛋白质设计的假设即证明是新结构改变了原有生物功能的必需手段。 核磁共振法(nuclear magnetic resonance,NMR)、园二色性光谱法、激光拉曼光谱法、荧光光谱法、紫外差光谱法和氢同位素交换法等测定溶液中的蛋白质构象。
3.1.1X射线晶体衍射法 用X射线轰击待分析的混合物的结晶,并用照相底片将其拍摄下来。这样,就可以得到一张结晶分子的侧视影象照片。通过各种角度的影象照片,就可以建立起一个该混合物分子结构的三维影象。
衍射现象的产生是X射线与组成晶体的原子核外电子相互作用的结果。 X-射线是1895年德国物理学家伦琴发现的。其波长范围大约在0.01-10nm之间。晶体结构分析所使用的X-射线波长大多在0.1nm左右。 衍射现象的产生是X射线与组成晶体的原子核外电子相互作用的结果。
Kendrew(1917 - 1997 ), Perutz(1914 - 2002 )。( 1962年) 1957年Kendrew用这种方法给出第一张三维蛋白质结构——肌红蛋白的0.6nm的真实图像; 1959年Perutz完成血红蛋白0.55nm分辨率的晶体结构; 在NMR法出现之前及其以后的若干年,x—射线衍射晶体分析法是唯一能够用于测定蛋白质分子三维结构的方法。 化学家们对此并不满足,希望找到一种方法作为x—射线法的扩大或补充,使生物分子能在天然或近似天然环境的条件下进行测定。
X-射线晶体衍射分析的缺点 测定结果可靠,但需分离出足够量的纯蛋白质(几毫克-几十毫克),并制备出单晶体,然后再进行繁杂的数据收集、计算和分析。而多数蛋白质很难结晶,或者很难得到用于结构分析的足够大的单晶。 与溶液中的构象相比,蛋白质分子在晶体中的构象是静态的。所以,利用这种方法不能测定不稳定的过渡态的构象。蛋白质的晶体状态与自然状态也不尽相同,在分析的时候要考虑到这个问题。 工作流程较长。 X-射线晶体衍射仪
3.1.2核磁共振(NMR) 科学家在1945年发现磁场中的原子核会吸收一定频率的电磁波,这就是核磁共振现象。由于不同的原子核吸收不同的电磁波,因而通过测定和分析受测物质对电磁波的吸收情况就可以判定它含有哪种原子,原子之间的距离多大,并据此分析出它的三维结构。 不过,最初科学家只能将这种方法用于分析小分子的结构,因为生物大分子非常复杂,分析起来难度很大。 现代核磁共振技术已经从一维发展到三维。从某种意义上讲,核磁共振可以更有效地分析蛋白质的突变。国外有许多研究机构正在致力于研究蛋白质与核酸、酶抑制剂与蛋白质的结合情况,以开发具有高度专一性的药用蛋白质。 后基因组时代的重点课题是破译基因的功能,破译蛋白质的结构和功能,破译基因怎样控制合成蛋白质,蛋白质又是怎样发挥生理作用等。在这些课题中,判定生物大分子的身份,“看清”它们的结构非常重要。
1983年瑞士苏黎世瑞士联邦技术学院的库特-乌特里希(Kurt Wuthrich)教授首次运用NMR法解析了胰高血糖素 从左至右库特-乌特里希(64岁)、田中耕一(43岁)、约翰-B-芬恩(85岁) (2000年) 1983年瑞士苏黎世瑞士联邦技术学院的库特-乌特里希(Kurt Wuthrich)教授首次运用NMR法解析了胰高血糖素 选择生物大分子中的质子(氢原子核)作为测量对象,连续测定所有相邻的两个质子之间的距离和方位,这些数据经计算机处理后就可形成生物大分子的三维结构图。 这种方法的原理可以用测绘房屋的结构来比喻:我们首先选定一座房屋的所有拐角作为测量对象,然后测量所有相邻拐角间的距离和方位,据此就可以推知房屋的结构。 乌特里希及其同事还把NMR法用于疾病的诊断上,他们测定了健康型的Prion蛋白,这种蛋白质如果发生变异,可能产生包括疯牛病在内的多种危险疾病。 NMR法还被用于DNA和RNA的结构测定及跟踪它的动态变化上。 在制药工业中,研究药物分子和作为靶分子的蛋白质及其它生物大分子作用时是否符合“钥匙和锁”的关系,这为新药设计提供了重要信息,它可以极大地简化药物筛选过程。
NMR法最大的优点: 可分析溶液中的肽链的三维结构,进而可对活细胞中的蛋白质进行分析,这意味着可以测得接近生理状态下的样品,也能测出如蛋白质链中极易活动、改变部分的动态的结构。这种方法绕过了结晶、X-射线衍射成像分析等难点,直接分析自然状态下的蛋白质的结构。 能获得“活”蛋白质的结构,其意义非常重大。 现代核磁共振技术可以有效地分析并直接模拟出蛋白质的空间结构、蛋白质与辅基和底物结合的情况以及酶催化的动态机理。
3.2相关数据库 多维NMR是目前唯一能够用于测定蛋白质或核酸溶液三维结构的方法,但受分子量的限制(<150aa)。 目前,科学家已经利用这一方法绘制出15-20%的已知蛋白质的结构。 http://www.rcsb.org/pdb/ (美国) 其它方法可以测定溶液中蛋白质分子的局部构象,但很难获得蛋白质分子完整的三维结构,在应用上存在较大的局限性。
蛋白质三维结构数据库(PDB) 是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。 PDB收集的数据主要来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。 http://www.rcsb.org/pdb/home/home.do(美国) 例如:1HUY(GFP)
网址:http://www.rcsb.org/pdb(美国)
PDB数据库中当前的数据总量
PDB Content Growth http://www. rcsb
常用的蛋白质一级结构数据库 网址:http://www.uniprot.org/ 高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过计算分析结果。有质量保证的数据才被加入该数据库! 在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列。 网址:http://www.uniprot.org/ 是 Universal Protein 的英文缩写,是信息最丰富、资源最广的蛋白质数据库。它由整合Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据而成。
常用蛋白结构二级数据库 蛋白质二级结构构象参数数据库 DSSP (Definition of Secondary Structure of Proteins) DSSP的网址:http://www.cmbi.kun.nl/gv/dssp/ 蛋白质家族数据库 FSSP (Families of Structural Similar Proteins) FSSP的网址:http://www2.embl-bi.ac.uk/dall/fssp/ 同源蛋白质数据库 HSSP(Homology Derived Secondary Structure of Proteins) HSSP的网址: http://www.cmbi.kun.nl/gv/hssp/
3.3蛋白质结构预测 首先应该查询蛋白质数据库 PDB,即查询是否已经有人做过该蛋白质的空间结构测定。 如果已经拥有蛋白质一级结构序列,则可以利用蛋白质结构预测软件(服务)对该蛋白质的三维结构进行预测。 每种预测方法都是根据特定的规则进行合理的预测 ,具有一定的可信度。 PDB上的X-ray和NMR的结构数据,目前有38000个,X-ray有32500,NMR有5500个。相比核酸序列,确实是少了很多。 目前为止,基于一级结构进行蛋白质二级结构预测已经得到了充分研究。而三级结构的预测则较为困难。预测三级结构的较为理想的方法是对具有已知蛋白质结构进行同源性检测。 蛋白质结构与功能的预测 http://hpdb.hbu.edu.cn/prediction/prediction.asp
蛋白质结构预测
预测蛋白质结构的方法 同源建模——目标序列与模板序列比较,按照模板序列的空间结构,经过优化,产生目标序列三维结构; 折叠识别——预测二级结构,预测折叠方式,参考其它蛋白的空间结构,产生目标序列三维结构; 从无到有——单个氨基酸形成二级结构的倾向,加上各种作用力力场信息,直接产生目标序列三维结构。 。 同源建模方法目前被认为是最精确的方法。 同源性大于50%时,结果比较可靠;30~50%之间, 其结果需要参考其它蛋白的信息。同源性小于30%时,人们一般采用折叠识别方法。同源性更小时,从无到有法更有效。
同源建模法的步骤 从待测蛋白质序列出发,搜索蛋白质结构数据库(如PDB,SWISS-PROT等), 得到许多相似序列(同源序列),选定其中一个(或几个)作为待测蛋白质序列的模板; 待测蛋白质序列与选定的模板进行再次比对,插入各种可能的空位使两者的保守位置尽量对齐; 建模:调整待测蛋白序列中主链各个原子的位置,产生与模板相同或相似的空间结构——待测蛋白质空间结构模型; 利用能量最小化原理,使待测蛋白质侧链基团处于能量最小的位置。 最后提供给用户的是经过如上四步(或重复其中某几步)后得到的蛋白质三级结构。
同源建模法预测蛋白质三级结构 同源建模比较复杂,Swiss-Model可提供自动化的同源模建分析任务 http://www.expasy.ch/swissmod/SM_TOPPAGE.html
输入个人邮箱及邮件名称 本文本框中输入蛋白质序列 点击提交,即可。
第四节 蛋白质工程的研究方法 为有目的的蛋白质工程提供设计方案。 天然蛋白质只能在自然条件下才能达到最佳效果,而在工业化生产上往往是高温高压。因此需要对蛋白质进行一定的改造使之在特定条件下能起特定的功能。 根据对天然蛋白质结构与功能分析建立起来的数据库里的数据,可以预测一定氨基酸序列肽链空间结构和生物功能;反之也可以根据特定的生物功能,设计蛋白质的氨基酸序列和空间结构。 通过基因重组等实验可以直接考察分析结构与功能之间的关系;也可以通过分子动力学、分子热力学等,根据能量最低、同一位置不能同时存在两个原子等基本原则分析计算蛋白质分子的立体结构和生物功能。 虽然这方面的工作尚在起步阶段,但可预见将来能建立一套完整的理论来解释结构与功能之间的关系.用以设计、预测蛋白质的结构和功能。 分子设计已在酶的改性、免疫球蛋白及药物受体研究等方面取得了一系列的成功。但由于复杂的蛋白质结构与功能关系至今尚未找到类似于DNA与氨基酸序列对应关系的密码子,因此分子设计仍是蛋白质工程的薄弱点。
按改动部位的多寡分为三类 小改(特定残基的替换):通过定位突变或化学修饰完成;目前最常用 中改(肽段或结构域的替换):对来源于不同蛋白质的结构域进行组装拼接 大改(从头设计):完全从头设计蛋白质(全新蛋白)
现有蛋白质的改造 步骤如下: 1、分离纯化需要改造的目的蛋白; 2、对目的蛋白进行氨基酸序列分析、X射线晶体衍射分析、核磁共振分析等分析; 3、获取编码目的蛋白的基因序列; 4、设计改造方案; 5、对基因序列进行改造(定点突变(M13、PCR法)等) ; 6、将改造的基因片段连入合适的载体表达; 7、分离、纯化表达产物并对其进行功能检测。 目前研究主要集中在改造现有的蛋白质领域。
第一个成功的GFP突变体 GFP的首个重大改变是钱永健在1995年完成。GFP的单点突变(S65T)显著提高了GFP的光谱性质,荧光强度和光稳定性也大大增强。突变后的GFP激发峰转移至488 nm,而发射峰仍保持在509 nm,这和常用的FITC滤光片匹配,提高了GFP的应用潜力。 Heim, R., Cubitt, A.B., &Tsien R.Y.Improved green fluorescence.Nature. 1995 Feb 23; 373(6516): 663-4.
定点突变 改变蛋白质结构的核心技术是基因的人工突变,目前常用的方法有:M13载体法和PCR扩增法。 M13载体法原理:利用人工合成带突变位点的寡聚核苷酸作为引物,利用M13噬菌体载体系统合成突变基因。 PCR扩增法原理:利用人工合成带突变位点的诱变引物,通过PCR扩增而获得定点突变的基因。 体外定点突变技术是研究蛋白质结构和功能之间的复杂关系的有力工具,也是我们在实验室中改造/优化基因常用的手段。蛋白质的结构决定其功能,二者之间的关系是蛋白质组研究的重点之一。对某个已知基因的特定碱基进行定点改变、缺失或者插入,可以改变对应的氨基酸序列和蛋白质结构,对突变基因的表达产物进行研究有助于我们了解蛋白质结构和功能的关系,探讨蛋白质的结构/结构域。 M13载体法具体做法:将待诱变的基因克隆在M13噬菌体载体上,人工合成一段改变了碱基顺序的寡核苷酸片段作为引物,在体外合成互补链,再经体内扩增基因,其中有1/2是突变了的基因,经一定的筛选便可获得突变基因。
第五节 蛋白质工程的应用 (一)研究蛋白质结构与功能的关系 (二)改变蛋白质的特性 (三)生产蛋白质和多肽类活性物质 (四)设计合成全新蛋白质
要点 蛋白质工程的主要内容?定点突变的方法?原理? 试着在NCBI或者ExPaSy上查到某一个蛋白质(如:溶菌酶、血红蛋白、血清白蛋白、拓扑异构酶、分子伴侣、DNA聚合酶等)的一级结构序列,分析其二级结构特征,再用SwissModel对其进行三级结构的预测,看看会有什么样的收获。
Further Reading: 张成岗,贺福初编著。生物信息学方法与实践。科学出版社。2002年。 王大成主编。蛋白质工程。化学工业出版社,2002。