蛋白质组学
背 景 基因数量有限性和基因结构的相对稳定性 VS 生命现象的复杂性和多变性 从genomic到proteome
对蛋白质的数量、结构、性质、相互关系和生物学功能进行全面深入的研究已成为生命科学研究的迫切需要和重要任务。
The era of ‘omics’-based science Genomics (基因组学) Post-genomic science (后基因组时代) Functional genomics (功能基因组学) Transcriptomics( 转录组学) Proteomics (蛋白质组学) Metabolomics (代谢组学) Structural genomics (结构基因组学) Aim - 3D structures of all protein folds !
主要内容 第一节 蛋白质组学的概念及发展进展 第二节 蛋白质组表达模式的研究方法 第三节 蛋白质组功能模式的研究方法
第一节 蛋白质组学的概念及发展进展
蛋白质组和蛋白质组学的概念 蛋白质组(proteome):PROTEins + genOME,意思是Proteins expressed by a genome(基因组表达的所有蛋白质)。 1994年由Williams和Wilkins提出,是一个动态的概念,指的是不同细胞在不同时相表达不同的蛋白质。
蛋白质组: 对应于基因组的所有蛋白质构成的整体,不是局限于一个或几个蛋白质。 同一基因组在不同细胞、不同组织中的表达情况各不相同 。 在空间和时间上动态变化着的整体。
蛋白质组学(proteomics) 指应用各种技术手段来研究蛋白质组的一门新兴科学,其目的是从整体的角度分析细胞内动态变化的蛋白质组成成份、表达水平与修饰状态,了解蛋白质之间的相互作用与联系,揭示蛋白质功能与细胞生命活动规律。
主要研究内容 了解某种特定的细胞、组织或器官制造的蛋白质种类; 明确各种蛋白质分子是如何形成类似于电路的网络的; 描绘蛋白质的精确三维结构,揭示其结构上的关键部位,如与药物结合并且决定其活性的部位。
Proteomics 蛋白质组研究包括两个方面: 表达蛋白组学 蛋白质组功能模式 The study of global changes in protein expression 蛋白质组功能模式 The systematic study of protein-protein interactions through the isolation of protein complexes
The study of proteins expressed by genomes 基因组 转录组 蛋白组 The study of proteins expressed by genomes Completion of the sequencing of the 1st draft of human genome indicates there are approximately 250,000 proteins in the human genome Only 2-5% of proteins in human genome have been identified
功能蛋白质组学 (functional proteomics)的提出 功能蛋白质组:细胞在一定阶段或与某一生理现象相关的所有蛋白质。 介于对个别蛋白质的传统蛋白质化学研究和以全部蛋白质为研究对象的蛋白质组学之间。
从局部入手研究蛋白质组的各个功能亚群体。 将多个亚群体组合起来,逐步描绘出接近于生命细胞的“全部蛋白质”的蛋白质组图谱。
发展进展 各国政府支持,国际著名研究和商业机构加盟: 1996年澳大利亚建立了世界上第一个蛋白质组研究中心(Australia Proteome Analysis Facility,APAF)
美国国立癌症研究院(NCI)投资1 000万美元建立肺、直肠、乳腺、卵巢肿瘤的蛋白质组数据库。 NCI和FDA共同投资数百万美元建立癌症不同阶段的蛋白质组数据库。 英国建立三个蛋白质组研究中心对已完成或即将完成全基因组测序的生物体进行蛋白质组研究。
Celera公司投资上亿美元独自启动了全面鉴定和分类汇总人类组织、细胞和体液中的蛋白质及其异构体,构建新一代的蛋白质表达数据库的工作。
1998年在美国旧金山召开了第二届国际蛋白质组学会议 1997年召开了第一次国际“蛋白质组学”会议 1998年在美国旧金山召开了第二届国际蛋白质组学会议 1999年1月在英国伦敦举行了应用蛋白质组会议
我国也于1998年启动了蛋白质组学研究,在中科院上海生物化学研究所举办了两次全国性的蛋白质组学研讨会
2003成立了中国人类蛋白质组组织(CHHUPO),并分别于2003年9月、2004年8月以及2005年8月召开了中国蛋白质组学首届、第二届及第三届学术大会,2004年10月在中国北京召开了第三届国际蛋白质组学会议。
科技部已将疾病蛋白质组研究列入我国“973”计划项目和“863”计划项目;国家自然科学基金委员会也将“蛋白质组研究”列为重点项目。 我国在鼻咽癌、白血病、肝癌和肺癌蛋白质组研究方面取得了较大的进展。
第二节 蛋白质组表达模式的研究方法
主要研究目标 研究蛋白质组组成成分、差异和功能
(一)蛋白质组研究中的样品制备 通常可采用细胞或组织中的全蛋白质组分进行蛋白质组分析。 也可以进行样品预分级,即将细胞或组织中的全体蛋白质分成不同部分,分别进行研究。
样品预分级的主要方法 蛋白质溶解性:可溶性蛋白、非溶性蛋白等 蛋白质定位:膜蛋白、核蛋白等 蛋白质细胞器定位:线粒体、高尔基体、叶绿体等
样品预分级主要作用在于提高低丰度蛋白质的上样量和检测灵敏度。
组织水平上的蛋白质组样品制备 临床样本都是各种细胞或组织混杂,而且状态不一,如肿瘤中癌变的上皮类细胞总是与血管、基质细胞等混杂。
激光捕获显微切割(laser capture microdissection,LCM) 可直接在显微镜下从组织切片中精确分离特定的细胞或细胞群。
(二)蛋白质组研究中的样品分离 双向凝胶电泳two-dimensional electrophoresis,2-DE):利用蛋白质的等电点和分子量,结合凝胶化学特性,分离各种蛋白质的方法。
特 点 可分离10~100 kD分子量的蛋白质 高灵敏度和高分辨率 便于计算机进行图像分析处理 与质谱分析匹配
2-DE技术的缺点 胶内酶解过程费时、费力,难于与质谱联用实现自动化。 极酸、极碱性蛋白质,疏水性蛋白质,极大蛋白质、极小蛋白质以及低丰度蛋白质用此种技术难于有效分离。 胶内酶解过程费时、费力,难于与质谱联用实现自动化。
新型非凝胶技术 液相色谱法 liquid chromatography,LC 毛细管电泳 capillary electrophoresis,CE
(三)常见蛋白质显色技术 考马斯亮蓝染色
常见显色方法比较
考染和银染的比较
有机染料和银染 考染灵敏度为30~100ng,线性范围是20倍;银染的线性范围是40倍,灵敏度是考染的100倍。 胶体考马斯亮蓝染色技术可实现PAGE的无背景染色,其极限灵敏度为8~10ng,但这种染液会对蛋白质进行修饰而影响质谱分析的结果。 胺基黑常用于转印至聚偏二氟乙烯(PVDF)和/或硝酸纤维素膜上的蛋白质的染色。 银染的缺点是:对某些种类的蛋白质染色效果差,对其后的蛋白质测序和质谱分析造成影响。 这两种染色技术都可减少胶内蛋白质产量。
负 染 能专门提高PAGE胶上蛋白质的回收率,但不能用于膜上染色。 结果表现为胶面着色而蛋白质点透明。 负 染 能专门提高PAGE胶上蛋白质的回收率,但不能用于膜上染色。 结果表现为胶面着色而蛋白质点透明。 速度快(5~15min),蛋白质的生物活性能保持:一旦用络合剂如EDTA或Tris/甘氨酸转移缓冲液来络合金属离子就可进行提取来转移蛋白质。 它主要适用于蛋白质显色、完整蛋白质的胶上被动提取以及质谱分析。 该技术主要包括金属盐染料、锌-咪唑染料等的使用。
胶体扩散染料 主要用于高灵敏度检出电转印至硝酸纤维素和PVDF膜上的蛋白质,不用于胶内染色。 最好的胶体金染色的灵敏度与PAGE胶内的银染类似。 这种技术主要包括印度墨水染料、胶体金属染料等。
有机荧光团染料 包括共价结合和非共价结合的荧光团染料两类。后者最为常用,其典型代表是已经商品化的SYPRO Red、 Orange、 Ruby等荧光染料。 这三种染料可对SDS-PAGE胶内蛋白质进行一步染色,约30~60min完成,灵敏度为2~10ng。染色后的凝胶用标准的实验室300nm紫外透射仪进行照像保存,其线性范围为3个数量级。 这三种染料的电泳染色结果与在酵母中通过SAGE所获得的基因表达水平的动态范围相匹配。 在Tris/甘氨酸转印缓冲液中染色后,蛋白质可被转印至膜上并进行免疫染色或Edman测序来鉴定蛋白质。
金属螯合染料 这是一类与现代蛋白质组学研究相兼容的、相对较新的蛋白质显色试剂,其设计专门与常用微量化学表征过程兼容。它们不包含戊二醛、甲醛或Tween-20等,很容易和集成化蛋白质组学平台(包括自动化凝胶染色仪、图像分析工作站、机器人剪切仪器、蛋白质酶解工作站和质谱仪等)相结合。 其中SYPRO Ruby也是一种基于钌的金属发光染料。
(四)凝胶的图像处理分析和胶内酶切 凝胶图像的扫描: 图像加工: 斑点检测和定量: 凝胶配比: 数据分析: 数据呈递和解释: 2-DE数据库的建立:
目前有多种图像分析软件可用于胶的图像分析: MelanieII (BioRad), PD Quest (BioRad), Phoretix 2D Full, (Amersham Pharmacia Biotech) ImageMaster 2d Platinum 这些软件可以完成蛋白质点的识别、匹配等,具有很强的分析功能,但其缺点是需要很多的图像手工校对,
正常肝细胞和肝癌细胞的蛋白质组双向电泳差异表达谱 园点标记的点为两者的差异蛋白 数字号码为蛋白质点在参考胶中的索引号
蛋白质的胶内酶切 包括感兴趣蛋白点的挖取、含蛋白质凝胶的脱色、胶内蛋白质的酶切等过程
(五)质谱分析 样品分子离子化后,根据不同离子间质核比(m/z)的差异来分离并确定分子量 定性 定量 质谱 m/z 离子化
原理 质谱分析是先将物质离子化,按离子的质荷比分离,然后测量各种离子谱峰的强度而实现分析目的的一种分析方法。
质谱技术发展过程 20世纪初 20世纪40年代 20世纪60年代 20世纪80年代 J.J. Thomson制成第一台质谱仪 主要是用来进行同位素测定和无机元素分析 20世纪初 20世纪40年代 开始用于有机物分析 出现了气相色谱-质谱联用仪 成为有机物分析的重要仪器 20世纪60年代 质谱新技术:电喷雾电离源,大气压化学电离源 液相色谱-质谱联用仪 感应耦合等离子体质谱仪 20世纪80年代
Sir Joseph John Thomson - 1906年诺贝尔物理奖 主要贡献:气态下离子导电的理论和实验探索 Frederick Soddy - 1921年诺贝尔化学奖 主要贡献:使我们对放射活性物质的认识大大提高,另外他对同位素的起源和性质也作了出色工作。 Francis William Aston - 1922年诺贝尔化学奖 主要贡献:使用质谱方法大规模的研究非放射性元素的同位素;提出整数规则。 Hans G. Dehmelt and Wolfgang Paul - 1989年同获诺贝尔物理奖 主要贡献:开发了离子阱质谱技术。 Robert F. Curl Jr. & Sir Harold W. Kroto & Richard E. Smalley - 1996年分享诺贝尔化学奖 主要贡献:使用质谱发现富洛伦尼斯(C60-C80,足球烯) John Fenn and Koichi Tanaka with Kurt Wuthrich - 2002年分享诺贝尔化学奖 主要贡献:发展了可用于分析生物大分子的软电离方法。 质谱相关工作的成就
离子源(Ion source) 质谱仪的离子源种类主要有: 基质辅助的激光解吸电离源( MALDI-TOF ) 电子电离源(Electron Ionization EI) 化学电离源(Chemical Ionization , CI ) 快原子轰击源(Fast Atomic bombardment, FAB) 电喷雾源(Electron spray Ionization,ESI) 大气压化学电离源(Atmospheric pressure chemical Ionization, APCI) 大气压光学电离源( Atmospheric pressure photoionization, APPI) 基质辅助的激光解吸电离源( MALDI-TOF )
每一种电离方法都有一定的分子量检测范围 ESI/FAB APPI APCI EI/CI MW 100,000 10,000 1000 100 Polarity Very Polar Nonpolar
电喷雾质谱技术和基质辅助激光解吸附质谱技术是诞生于80年代末期的两项轨电离技术。这两项技术的出现使传统的主要用于小分子物质研究的质谱技术发生了革命性的变革。它们具有高灵敏度和高质量检测范围,使得在pmol的水平上准确地分析分子量高达几万到几十万的生物大分子成为可能,并得到迅速的发展。 被称做是“软”电离技术,因为: 他们在离子化过程中不会破坏分子结构,能实现分子量大于10,000质量单位的生物大分子的质量分析
质谱图 横坐标为离子的质核比,纵坐标为离子相对强度或相对丰度。 乙醇的如下:
(六)蛋白质序列测定 主要有两种方法: 数据库搜索(Sequence database search): 从头算法 (De novo interpretation)
两种方法各自的特点 数据库搜索算法将实验质谱与由数据库中的肽序列得到的理论质谱相关联, 得到候选肽序列, 它对质谱质量 要求不高, 能够鉴定复杂的蛋白质样品, 前提是待鉴定蛋白质样品的序列存在于数据库中. 从头算法利用实验质谱中谱峰之间的质量差直接计算出肽序列, 不需要数据库的辅助, 能够鉴定数据库中不存在的新序列, 但是它需要相对高质量的质谱数据
蛋白质组数据库是蛋白质组研究水平的标志和基础 瑞士的SWISS-PROT数据库拥有目前世界上最大、种类最多 的蛋白质组数据 SWISS-PROT/TrEMBL数据库是经注释的蛋白质数据库,与其他30多个数据库建立了交叉引用,方便数据的查找、比较和整合。
Mascot Search Engine
Mascot MS/MS Ions Search
第三节 蛋白质组功能模式的研究方法
主要研究目标 揭示蛋白质组成员间的相互作用、相互协调的关系,并深入了解蛋白质的结构与功能的相互关系,以及基因结构与蛋白质结构功能的关系。
(一)蛋白质翻译后修饰的研究 翻译后修饰 糖基化 乙酰化 甲基化 羧基化 二硫键
(二)蛋白质相互作用研究技术 生命的基本过程是不同功能蛋白质在时空上有序和协同作用 新陈代谢以蛋白质复合体或多蛋白质网络协同作用实现 细胞信号转导及病原体感染和免疫反应
1.酵母双杂交系统(yeast two-hybrid system) 1989年Field 和Song等人在酵母细胞中设计的分析蛋白质相互作用的方法。 以真核细胞转录激活因子的结构和活性特点为基础的。
转录激活因子GAL4的特点 N端含NLS和与酵母GAL1基因启动子上游激活序列(UASG)结合的结构域 C端含GAL1转录激活结构域
功能上相互独立又互相依赖,只有通过某种方式结合在一起才具有完整的转录因子活性
系 统 构 建 分别构建含GAL4 BD 和AD 的两个酵母融合蛋白表达载体; 建立含特殊基因型、适用于双杂交体分析的酵母菌株
酵母双杂交技术的基本原理
主要特点和优势 使蛋白质表现型和基因型相联系 筛选cDNA文库 真实反应体内蛋白质间相互作用情况 不需分离靶蛋白 敏感性高
缺 点 1.假阳性结果 2.假阳性结果 3.限于核内表达的蛋白质的相互作用
2.基于质谱的蛋白质相互作用研究方法 基本步骤: 靶蛋白制备 蛋白质复合体的纯化 蛋白质复合体的质谱鉴定
(1)亲和层析耦联质谱技术 基本原理:将某种蛋白质以共价键固定在基质(如琼脂糖)上,含有与之相互作用的蛋白质的细胞裂解液过柱,先用低盐溶液洗脱下未结合的蛋白质,然后用高盐溶液或SDS溶液洗脱结合在柱子上的蛋白质,最后用多维液相色谱耦联质谱技术(MDLC-ESI-MS/MS)鉴定靶蛋白的结合蛋白。
先决条件 得到足够多的保持生物活性的重组靶蛋白作为诱饵(bait) 获得足够量、纯度高的与诱饵相互作用的蛋白质
主要优点 灵敏度高:高浓度靶蛋白 候选蛋白质与靶蛋白的结合机会均等 检测多亚基蛋白质之间的相互作用
(2)免疫共沉淀耦联质谱技术 原理:以细胞内源性靶蛋白为诱饵,用抗靶蛋白抗体与细胞总蛋白进行免疫共沉淀(immuno-precipitation,IP)纯化靶蛋白免疫复合物,凝胶电泳分离后,质谱鉴定靶蛋白的结合蛋白。
研究鼻咽癌细胞系中的p53 相互作用蛋白 抗p53抗体与HNE1和HNE2总蛋白进行免疫共沉淀 SDS-PAGE分离免疫沉淀复合物 切取p53结合蛋白条带,酶解后进行电喷雾串联质谱(LC-ESI-MS/MS)分析,得到相应的肽序列标签 搜索数据库
特 点 生理条件下蛋白质之间的相互作用 所有蛋白质与靶蛋白的相互作用 可检测依赖于修饰的蛋白质相互作用
局 限 性 A. 灵敏性不高 B. 假阳性 C. 受免疫球蛋白的干扰较大
(3)串联亲和纯化耦联质谱技术 基本原理:在靶蛋白一端或中部嵌入蛋白质标记(TAP Tag),经过特异性的两步亲和纯化,在生理条件下与靶蛋白相互作用的蛋白质便可洗脱下来,然后用质谱技术对得到的蛋白质复合体进行鉴定。
主要流程 双重分子标签构建到靶蛋白 ↓ 表达融合蛋白 制备细胞裂解液 IgG柱纯化 TEV蛋白酶的洗脱液洗脱蛋白质复合体
续: ↓ 耦联钙调素的亲和柱纯化 洗脱 含EGTA的洗脱液洗脱 质谱鉴定结合蛋白质
特 点 获得生理条件下与靶蛋白相互作用的蛋白质 鉴定出在空间上非直接物理相互作用的蛋白质 适用于大规模蛋白质相互作用研究
3. 蛋白质芯片(protein chips,protein array)技术 基本原理:将高度密集排列的蛋白分子作为探针点阵固定在固相支持物上,当与待测蛋白样品反应时,可捕获样品中的靶蛋白,再经检测系统对靶蛋白进行定性和定量分析。
依据的杂交反应原理: 抗原-抗体反应 配体-受体反应 蛋白质-蛋白质相互作用