CDNA测序和表达谱研究.

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

1 计算机软件考试命题模式 计算机软件考试命题模式 张 淑 平 张 淑 平. 2  命题模式内容  组织管理模式 − 命题机构和人员组成 − 命题程序  试卷组成模式.
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
植物生理 植物细胞生理基础 同工酶. 学习目标 Click to add title in here Click to add title n here  掌握同工酶的概念。  了解同工酶的意义。
分子生物学部分开发实验 植物遗传亲缘关系研究.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
计算机网络教程 任课教师:孙颖楷.
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
龙星课程—肿瘤生物信息学上机课程 曹莎
《高等数学》(理学) 常数项级数的概念 袁安锋
生命的物质基础.
细胞核是遗传信息库.
问 题 探 讨 1.DNA的中文全名是什么? 2.为什么DNA能够进行亲子鉴定? 3.你还能说出DNA鉴定技术在其他方面的应用吗?
第4章 基因的表达 第1节 基因指导蛋白质的合成.
基因的表达 凌通课件.
Mechanism of RNAi (shRNA/miRNA))
会计学专业基础课堂之 基础会计(初级会计) 安徽财经大学会计学院.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三篇 组织工作.
全国计算机等级考试 二级基础知识 第二章 程序设计基础.
                                                                                                                                                                
骨质疏松症的遗传学研究(part 2) Hong-Wen Deng, Ph.D. Osteoporosis Research Center
Geophysical Laboratory
电 子 克 隆.
功能基因组学 中英联合实验室.
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
数 控 技 术 华中科技大学机械科学与工程学院.
高通量测序 高通量测序的应用 朱伟珊 高通量测序 朱伟珊 东盛生物.
数据挖掘工具性能比较.
第8章 遗传密码 8.1 遗传密码的基本特性.
绿色圃中小学教育网 比例 比例的意义 绿色圃中小学教育网
胚胎原位杂交检测基因的时空表达模式.
Metabolic biomarker signature to differentiate pancreatic ductal adenocarcinoma from chronic pancreatitis Gut, 2017, Jan (IF=14.921) 汇报人:王宁 IMI CONFIDENTIAL.
第四节 基因差异表达获得目的基因 差异显示PCR(DDRT-PCR) DDRT-PCR:基于PCR的mRNA差异显示技术
第二节 免疫球蛋白的类型 双重特性: 抗体活性 免疫原性(抗原物质).
第三章 基因工程制药.
C语言程序设计 主讲教师:陆幼利.
模型分类问题 Presented by 刘婷婷 苏琬琳.
2019/4/16 关注NE官方微信,获取更多服务.
VisComposer 2019/4/17.
第五章 目的基因的获得 第一节 PCR扩增获得目的基因或cDNA 第二节 基因组文库的构建与基因分离 第三节 cDNA文库的构建与筛选
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
第二节 DNA分子的结构.
超越自然还是带来毁灭 “人造生命”令全世界不安
Home Work 现代科学中的化学键能及其广泛应用 罗渝然(Yu-Ran Luo)
Carbohydrate Metabolism
实体描述呈现方法的研究 实验评估 2019/5/1.
遗传物质--核酸 核酸分子组成 核酸分子结构.
代谢组学技术及应用新策略简介 代谢组学平台 刘慧颖.
iSIGHT 基本培训 使用 Excel的栅栏问题
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
第4课时 绝对值.
H基因库(重链基因连锁群): --- 第14号染色体 κ基因库(κ链基因连锁群): --- 第2号染色体 λ基因库(λ链基因连锁群):
计算机绘图 AutoCAD2016.
蔡世民 合作者:禚钊,傅忠谦,张捷 电子科学与技术系 中国科学技术大学 2011/4/29
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
基于列存储的RDF数据管理 朱敏
基因信息的传递.
BAFF在活动性SLE患者T细胞中的表达:
基因组学及相关组学 基因组学 后基因组学 蛋白质组学 组学 ---- 研究细胞、组织或整个生物体内某种分子(核酸、
第三节 转录后修饰.
本底对汞原子第一激发能测量的影响 钱振宇
细胞分裂 有丝分裂.
入侵检测技术 大连理工大学软件学院 毕玲.
病理生理学教研室 细胞信号通路检测(一) 总蛋白提取.
质量控制(QC)模式 BrookFIELD.
讨论:利用已经灭绝的生物DNA分子,真的能够使灭绝的生物复活吗?
Presentation transcript:

cDNA测序和表达谱研究

一、cDNA测序 cDNA:与信使RNA互补的DNA,代表了基因的生物学信息。 基因:约占总序列的3%-5% 1991年,Venter等: 建立了表达序列标签(expressed sequence tag,EST)技术。 EST: 长度为300~500bp的部分cDNA 对人类基因转录图的制作、全长基因的克隆、基因表达谱的研究等有重要作用。 公共数据库GenBank(http://www.ncbi.nlm.nih.gov/dbEST)

当前cDNA测序的趋势: 由对EST的随机测序, 转向全长cDNA的克隆和测序。 UniGene: 为了弄清EST间的关系,美国国立生物技术信息中心(NCBl)根据EST相似性比较进行聚类分析,形成数据库UniGene (http://www.ncbi.nlm.nih.gov/UniGene) 当前cDNA测序的趋势: 由对EST的随机测序, 转向全长cDNA的克隆和测序。

全长cDNA 是功能基因组学和比较基因组学研究的基础, 有功能意义的全长cDNA可以申请专利, 因此,除研究部门外,大药厂和生物技术公司也投入重金进行研究和抢占专利。 目前大部分的全长基因有待于克隆。 随着人类基因组DNA测序的快速进展,众多EST可供利用,生物信息学手段的增多和cDNA文库构建技术的完善,使得能够获得转录物较长的全长cDNA和低转录基因。

目前,美国NIH启动了全长cDNA计划—哺乳动物基因采集计划(Mammalian Gene Collection Project) ,加之其他国家的加入,大大加快了全长cDNA的识别和克隆工作。 中国的人类基因组计划起步较晚,但坚持“有所为,有所不为”的原则,充分利用自己的资源优势和研究基础,提出对特殊组织如造血细胞、神经内分泌细胞、树突状细胞、胚胎器官等,或疾病如白血病、肝癌等进行大规模EST测序,进行基因表达谱分析,同时完成1%人类全长cDNA的识别和克隆任务。

(一)大规模EST测序流程 并非简单个别cDNA测序的累加, 是现代生物技术和现代管理方法的结合, 是生物学与计算机科学的结合。 多采用流水线作业及计算机辅助管理系统。 主要步骤: 1)cDNA文库构建 2)DNA测序 3)信息处理和管理 4)生物信息学分析

1. cDNA文库构建 研究目的不同—采用不同的cDNA文库构建方法。 ①表达谱分析:常规的cDNA文库,如:oligo-dT引物定向克隆cDNA文库或随机引物法构建cDNA文库; ②获得更多的全长cDNA:构建全长cDNA文库,如:smart-PCR和oligo-PCR; ③增加EST种类:均一化(normalized)cDNA文库; ④克隆不同状态(药物处理的不同时相、不同病理及疾病的不同发展阶段等)的相关基因:减式cDNA文库构建方法。

(1)oligo-dT引物定向克隆cDNA文库 多数EST来自该文库。 主要步骤: RNA和mRNA抽提, 以mRNA为模板用oligo-dT作反转录引物合成 cDNA第一链, 在DNA聚合酶I作用下合成第二链, 加上接头后定向装入λ噬菌体。

(2)CapFinder-PCR/oligo-PCR文库 主要特点: 利用mRNA 5’帽状结构设计引物, 该引物含有oligo(G)以对应于帽状结构的脱氧胞嘧啶,反转录反应时易于合成含有全长的第一链cDNA, 用5’和3’引物(oligo-dT)进行PCR扩增获得双链DNA, 装入λ噬菌体。 该种文库含有较高比例的全长cDNA, 也适于样本量较少的组织构建cDNA文库。

(3)均一化cDNA文库 特点:将低丰度表达基因识别和克隆出来 各个实验室所采取的具体方法不同,效果也不一致。 主要目的: 减少测序量,尽可能识别更多的基因尤其是低转录基因。 构建文库时: 通过控制PCR反应减少高丰度基因扩增, 或采用自身mRNA乳胶吸附方法减少高丰度mRNA; 构建cDNA后, 也可以通过杂交的方法去除部分高表达的基因, 或者通过循环杂交、吸附的方法去除已经测序基因。

(4)减式cDNA文库 根据研究目的,可采用不同的减式方法。 如要获得药物处理后上调的基因, 采用前向(forward)减式方法,即用药物处理前mRNA杂 交或吸附药物处理后的mRNA; 反之,要获得药物处理后下调的基因, 则采用后向(backward)减式方法。 缺点:该方法尚不完善和不稳定, 所获得的结果需Northern印迹法证实, 并且插入子的片段较短,缺少5’或3’端, 对低丰度mRNA效果不佳。 目前,多主张将减式方法和均一化方法合起来,对相关的低丰度表达基因可能效果更好。

2.EST测序 cDNA测序: 也采用双脱氧核糖核酸法。 过程主要包括: 模板制备、测序反应、电泳和识别(在测序仪上进行)。 测序模板制备可采用质粒抽提法或PCR扩增产物。 ①质粒抽提法: 技术较为完善, 步骤:挑取菌落、细菌(质粒)增殖、 质粒DNA抽提及鉴定等环节。

②PCR扩增产物测序: 已为多数基因中心所接受, PCR模板:cDNA文库所转化的菌落、细菌裂解液或抽提的质粒; PCR扩增产物:经适当处理如纯化或酶处理等,即可进行测序。 ②与①比较:费用较为便宜,使用人员也较少,但由于文库中插入子大小不一,可能会导致PCR结果不稳定。 模板制备的质量控制: 极其重要,影响测序成功率的重要因素,各个环节均要质控。 大规模EST测序所用模板制备多采取流水线作业方式,有条件者,可实现自动化。

大规模EST测序 采用cDNA 3’端或5‘端测序。 3’端测序的优点: ①cDNA有显著的标识poly(dT),有利于cDNA识别和去除载体; ②公共数据库主要是3’EST,从3’端测序所获得的结果便于与公共数据库比较。 3‘端测序缺点: ①所获序列多在3’端非编码区,而个体间或群体间在非编码区变异可能较大; ②公共数据库中有些已知基因仅提供可读框(ORF)的核苷酸和氨基酸顺序,不易判断是否新基因。

优点: 常规cDNA文库所获克隆较少含有5’端非编码区,而多在ORF内,5‘端测序的结果较容易判断是否新基因。 5‘端测序。 优点: 常规cDNA文库所获克隆较少含有5’端非编码区,而多在ORF内,5‘端测序的结果较容易判断是否新基因。 缺点: 不便于与UniGene比较,会过高估计所获得的新EST。 要求:所测EST顺序的长度应大于100bp,错误率或不能识别的碱基小于3%

ORF 一个由能翻译成氨基酸序列的三联体构成的阅读框称为开放读框(Open reading frame)。 一段翻译成蛋白质的序列有一个阅读框架,它有一个特殊的起始密码子(AUG),从此延伸出一系列代表氨基酸的三联体,一直到终止密码子结束。

3.信息传输、处理和管理 很重要 要有本地(in-house)的工作站 、局域网络, 建立实验室信息管理系统(LIMS)及数据库系统,以传输、加工、处理和储存测序结果。 整个流水线的各个环节包括试剂购买、配制、操作步骤、序列分析、菌种及质粒储存等都要有严格的管理制度和质量控制标准。 实现操作规范化、信息传递和处理自动化, 充分利用数据库技术和生物信息学分析工具,尽可能阐明所获得信息的生物学意义,为进一步开发和利用创造条件。

4.生物信息学分析 生物信息学已经成为当代生命科学的重要组成成分, 可用于大量生物信息资源的收集、储存、处理、搜索、共享、研究和开发。 由数据库、计算机网络和应用软件三大部分组成,在基因组计划中发挥了不可取代的作用。

用生物信息学分析所获得的EST测序结果是最重要的环节。 要求:研究者要有渊博的生物学知识、计算机技术和应用互联网资源的能力。 本地的数据库不仅储存、加工自己的EST数据,更重要的是要收集、储存并定期更新来自国际权威机构的核苷酸及蛋白质数据库信息。 要有一些应用软件能进行比较、排列、检索、结构预测。 国际上常用软件系统:GCG(genetics computer group)软件包,有定期更新的核苷酸及蛋白质数据库及二百多个应用软件构成,可基本满足EST序列分析的需要。

EST分类 ①代表已知基因的EST (顺序超过100bp,与已知基因的同源性大于95%); ②已知的EST 低于95%或没有同源性)。

在组织基因表达谱分析时,要进行统计学分析: ① EST测序过程中,基因克隆数符合Poisson分布 ②利用定量基因表达谱分析软件,通过聚类分析,将所测EST大部分可归于不同的UniGene。 UniGene: ①多个EST组成,能相互重叠,可以形成较长的重叠序列。 ②按理论,每一个UniGene可能代表一个基因,即聚类分析的目的是将所测EST归于不同基因。

(二)全长cDNA的克隆 全长cDNA的识别和克隆是人类基因组计划的主要目的之一,是进行功能研究的前提。 尽管EST可能仅是基因的片段,但对基因的鉴定很重要。 EST数量的大量增加,人们可以利用EST资源获得全长cDNA。

为电脑克隆全长cDNA提供了便利的条件。 ②通过IMAGE协会 该协会由美国和法国的4个研究机构组成, EST的利用: ① UniGene数据库 为电脑克隆全长cDNA提供了便利的条件。 ②通过IMAGE协会 (the Integrated Molecular Analysis of Genomes and their Expression) 该协会由美国和法国的4个研究机构组成, 目的是收集所有的EST克隆和顺序,并且这些克隆可以提供给研究人员。

大量获得全长cDNA的策略 构建富含全长cDNA的文库和电脑克隆 ①构建富含全长cDNA的文库。 如何获得低丰度、长的以及含有特殊结构的转录物成为难题。 cDNA的文库构建方面有了较大的进展: A. 文库构建所用的反转录酶和Taq酶,其忠实性能和延伸性能有了很大改善,所构建的cDNA的文库含有全长cDNA的克隆超过50%,其长度超过3kb,甚至7kb。 。

B. 根据5’转录帽状结构所设计的特殊cDNA构建策略,其全长cDNA的比例较高。 C.针对低丰度的转录物,除对来自各种组织、细胞的cDNA文库测序外,采取步骤去除已知的或已测过的顺序,如用已知的序列去杂交或吸附等方法处理cDNA文库,以增加低丰度的转录物被测序机会。 也可以先用寡核苷酸指纹印迹法对欲测文库进行均一化处理

大规模全长cDNA测序方法 要求: ① cDNA文库质量更高,插入子大小最好在3~4kb以上。 ②测序质量高,精度在99.99%。 ③测序从5’和3’同时进行。 若不能贯通, A.可采取引物步移(primer-walking)法解决 但引物步移对工作人员素质要求较高,并要求有DNA合成仪合成大量引物。 B. 用鸟枪法(shotgun)或转座子法测序,测序后通过计算机拼接。该方法,易于流水线操作,不增加新的平台技术。

②电脑克隆全长cDNA 与UniGene的构成非常类似, 也是应用序列相似性进行排列组合。 不同之处: 除充分利用EST数据外, 电脑克隆时,需要与上述核苷酸及蛋白质数据库进行同源性比较分析以确定是否可能含有全长的ORF。 若同源性较高,则易判断; 若同源性较低或没有同源性,则较难确定。此时,在保证顺序正确的同时,对翻译的顺序进行结构功能域和比较基因组分析,可帮助确定是否含有ORF。

cDNA末端快速扩增法(RACE) 快速克隆全长cDNA方法的有效补充 原理: 利用PCR方法对cDNA所缺少的5’或3’端进行延伸和扩增。 设计与部分cDNA互补或一致的引物,在可能高表达的cDNA库中进行5’或3’端延伸、扩增。 组合后,可能获得全长cDNA。 电脑克隆和RACE的方法并不能直接获得克隆,可能有错误。 必须进行高保真的RT-PCR扩增并亚克隆至质粒,再次测序以验证克隆的正确。

生物信息学分析 全长cDNA在克隆过程中和克隆后,尤其重要。 互联网上可以利用的信息: 软件:比较基因组软件COG,基因组库GDB和遗传病表型库OMIM等。 与核苷酸和蛋白质数据库进行同源性比较: ①可以提示所获顺序是否新基因,是否一个基因家族的新成员,是否在生物进化过程中保守。

②利用结构功能域(domain)、基序(motif)及二级和三级结构预测,可以提供新基因是否有功能相关的特殊结构,是否分泌蛋白、受体、信号传导分子、酶及转录因子等有关信息,为进一步研究提示方向。 ③电子组织表达谱是利用与新基因相匹配的EST来源,推测新基因组织表达分布,具有一定意义。 ④利用UniGene和序列标志位点(sequence tag site,STS)对新基因进行染色体定位,为克隆疾病相关基因提供了资源。

二、基因表达谱 (一)基因表达谱的概念 结构基因组:基因组的结构特征和序列信息。 但:人体细胞、组织,在不同的发育、分化阶段,不同的生理条件和病理状态下,其表达的基因种类以及每一基因的表达丰度都是各不相同的,且此差别存在严格调控的时空特异性。 生命过程的精确机制很大程度上正是基于基因的精细调控,许多生命现象的深层次问题都集中于此。

基因表达谱(gene expression profile) 概念: 通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段,定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。 即:特定状态; 分析所有的基因表达; 得到基因表达种类和丰度表。

表达谱的意义和作用 ①从mRNA水平反映细胞或组织特异性表型和表达模式。 ②如果收集各类组织和细胞的基因表达谱,将每一个表达的基因标记到其表达的组织,就能组成一张人体基因图; ③对基因表达谱作两两或多重比较,就能筛选出细胞特异性或发育阶段特异性的基因。 ④系统、全面地了解发育、分化、进化和衰老等基本生命现象,以及肿瘤、心血管疾病等危害人类健康的重大疾病发生机制的认识。

大规模基因表达检测技术 ①微阵列法(microarray) ② DNA芯片 ③ SAGF(serial analysis of gene expression) 。 优点:定性、定量、大规模地检测基因的表达产物mRNA,并绘制基因表达谱。

(二)基因表达谱的编制 1.文库的构建及其特殊要求 建库方法不同直接影响到获得的序列适合于什么样的分析。 cDNA文库分两大类。 ①为综览人体全部基因种类而设计,以发现新基因为目的。 如:去除高丰度表达基因mRNA后建立而成的“ 均 一化” (normalized)文库; 为增加文库组成的复杂性,将许多来源于不同组织的亚文库混合在一起形成的混合文库。

两个缺陷: A. 插入片段全长常常缺乏5’端序列,尤其是mRNA长度>2kb者。若从5’端测序,获得的EST并不与基因有一对一的对应关系。EST可以来源于两条基因,也可以来源于一条基因的不同区段; B. 没有考虑到由于mRNA的大小和碱基组成差异对克隆效率的影响,从而使文库组成产生“偏性”,不能真实地代表原始mRNA群体的基因组成。 因此,该类文库收集到的序列不适于作mRNA的定量分析。

②3’端方向的cDNA文库,专为编制基因表达谱而设计,以定性、定量分析细胞或组织的mRNA群体为目的。 采用两个办法: A. “缩短”策略(shorten strategy),即用内切酶Mbo I切割cDNA分子,用由此产生的平均长度为270bp的3’端cDNA片段构建文库,从而使由于mRNA大小不一而产生的克隆效率差异降至最小程度,也使文库的“偏性”尽量得以消除; B. 从3’端测序,获得mRNA的3’端序列(称为基因标识,GS;实际上就是3’端EST)。该段序列位于polyA位点上游的非编码区(3’UTR),不如编码区保守,更易区分不同基因和同一基因家族的不同成员,因此对于鉴定基因更有特异性。

尽管由②类文库收集到的序列不一定含有完整的可读框,但它确实能真实地代表特定细胞或组织在特定状态下的基因表达情况,使我们不仅获得一套完整的序列数据,而且知道了它的基因表达模式。 编制表达谱的cDNA文库应是 “非偏性cDNA文库”,至少满足下列基本条件: ①该文库来自处于某一特定生理或病理状态的细胞或组织(如脑、肝脏、中性粒细胞、CD34+干/祖细胞等)。 ②该文库cDNA组成能真实地代表细胞或组织中原始mRNA群体各基因的表达丰度和种类。

随机挑取克隆,大规模测序,收集EST或GS序列。 2.序列的收集和编辑 随机挑取克隆,大规模测序,收集EST或GS序列。 1. 软件包对原始序列编辑和校正,去除载体序列、两末端错误率高的序列部分以及poly(A)尾。 如果序列长度<20bp(长度为20bp的序列对库检索时足以“钓取”它真正对应的基因序列), 或序列中N(代表不能确定的碱基)的比例>5%,则这些序列被视作“垃圾序列”而弃去。 剩下的序列被视作“好序列”。

2. 借助程序或软件对序列作相互间的重复比对,构建重叠群。 重叠区100bp以上,同源性>95%,视作同一序列,来自同一基因转录物。 重叠群中序列的拷贝数 (或称表达频率)代表该基因的表达丰度。

3.表达谱的编制和描述 据估计: 约1/3基因与蛋白质合成有关, 1/3基因是特定组织(或细胞系)特异表达的基因, 另外1/3有其他功能。 因此,收集和分析1,000个序列片段(EST或GS)就基本能获得该组织中的主要表达基因(主要是中和高丰度)及其丰度信息。 基因表达丰度和基因种类数据获得后,根据丰度大小,以降序排列列表,即某一特定细胞的基因表达谱。 既有公共数据库中已公布的已知基因,也有大量目前尚未鉴定的未知基因。

根据不同目的,可以继续细分,以符合不同的分析要求。 根据同源性对基因分类 根据不同目的,可以继续细分,以符合不同的分析要求。 根据EST或GS序列与公共数据库序列的同源性程度大小,分为以下几类: ①已知基因:重叠区>70bp,同源程度>95%; ②与同物种部分同源基因:重叠区>70bp,同源程度60%-95%; ③与不同物种部分同源基因:重叠区>70bp,同源程度>60%; ④全新基因:除前三者外的所有基因。 其中第②、③类基因提示有重要的功能线索,常是进一步深入研究的首要对象。上述标准纯粹是经验性的,不同学者有不同分类标准。

根据基因的丰度对表达基因分类 分为高、中、低丰度三类基因。 平均一个细胞有15万~30万条mRNA,表达丰度差异大。 高丰度表达的基因常常是细胞特异性基因,大多数“持家基因”呈中低表达状态。 经典生化研究表明: 大多数分化的哺乳动物细胞只有10,000~30, 000种基因表达, 高丰度基因仅少数几种,约占总mRNA的0~20%, 中等丰度基因约有几百种,约占总mRNA的30~40%, 剩下的低丰度基因约占总mRNA的50%。

按照功能和亚细胞定位对基因分类 蛋白质合成相关蛋白、细胞骨架蛋白、细胞浆蛋白、核蛋白、膜蛋白、分泌蛋白和未知功能者; 随研究的需要,每一类可细分成若干亚类。如细胞浆蛋白还可细分为与能量代谢相关的蛋白、溶酶体酶类、信号转导相关蛋白等。 Kita等(1996):角质化细胞的3’端方向cDNA文库的770个GS序列,代表606个基因,其中242个是已知基因。 分类后,与蛋白质合成相关的基因和细胞骨架蛋白基因的表达最为活跃,其丰度分别占22%和20%,表明角质化细胞正处于快速增殖阶段。

Itoh等(1998) : 外周血静息期粒细胞cDNA文库1,142个GS序列,代表748个基因。 将其中216个已知基因分类,结果显示: 细胞表面膜蛋白表达最为活跃(总mRNA10%强); 核蛋白、分泌蛋白和信号转导相关蛋白表达次之; 能量代谢相关蛋白、溶酶体蛋白、蛋白质合成相关蛋白和细胞骨架蛋白表达较低。

作者由此得出结论: ①细胞表面膜蛋白的高表达说明了粒细胞易受颗粒性和可溶性物质的刺激而激活的防御属性; ②蛋白质合成相关蛋白和细胞骨架蛋白的低表达说明了粒细胞的静息期属性及其形态的柔变性。

(三)比较基因表达谱-发现组织或状态特异的基因 各种细胞或组织的基因表达谱做两两或多重比较,能较轻易地全方位了解这些细胞或组织之间(或多种状态之间)的基因表达差异,鉴定上调或下调表达的基因,这种新的手段称为“电子消减杂交”,或称“数据库消减杂交”。 细胞或组织中普遍表达的基因(nonunique genes)主要行使“持家”(house keeping)功能; 特异表达的基因(unique genes)可能是行使该类组织或细胞的特异性功能。

Nishida等(1996) 构建了源自角膜上皮细胞的3’端方向cDNA文库,测序获得1,062个GS序列,按上法将它们编制成基因表达谱。 随后以此表达谱中丰度≥3的GS序列为基准,与已公布的HepG2细胞、HL60细胞、中性粒细胞、单核细胞、肺细胞、结肠黏膜细胞和角质上皮细胞的基因表达谱作多重比较,鉴定了12个候选的角膜上皮细胞特异性基因。 其中6个是已知基因:角蛋白-3、载脂蛋白J、热休克蛋白-27、肌钙蛋白-I快速抽搐异分体、心脏缝隙连接蛋白和醛脱氢酶-3;其余6种是全新基因。 6个已知基因中,有典型的哺乳动物中2个角膜特异性角蛋白之一。 当用于比较的表达谱种类不多(本例7种)、每一种类表达谱中收集的GS序列尚不够庞大时(本例1,062个),表达谱的比较容易产生假阳性结果。

4种措施改善结果: ①尽量收集更多种类的基因表达谱用于比较; ②扩大收集每一基因表达谱中GS序列的数量; ③对初筛的候选细胞特异性基因进一步作多细胞、多组织的定量RT-PCR或RNA印迹法实验; ④检索公共EST数据库(dbEST)。 第①、②种措施的实现尚待时日; 第③种措施是行之有效的实验手段; 随着dbEST中EST数量的增长,第④种措施的应用潜力更大。

虽然dbEST中的EST绝大多数源自“归一化”文库,缺乏表达活跃程度的定量信息,但它确实可以告诉我们某一EST所代表的基因在何种细胞或组织中表达。

(四)基因表达谱比较研究的应用 筛选和鉴定候选的细胞或组织特异性表达基因。 如:比较肿瘤组织与其他组织基因表达谱,找到一些与肿瘤发生、迁移等相关的基因。 Yokoyama等(1996) 神经母细胞瘤细胞系(CHPl34)基因表达谱与HepG2、结肠黏膜细胞等6种基因表达谱比较,并结合RNA印迹,鉴定了2个全新的候选CHPl34特异性基因。

1. 比较多个处于不同发育阶段的同种细胞或组织的基因表达谱,可以鉴定与发育或分化相关的基因。 如:将22周孕龄人胎肝基因表达谱与19周、40周孕龄人胎肝、肝储脂细胞及成人肝基因表达谱比较,总结出肝脏发育相关基因群: 只在肝脏早期发育时期表达、成体不表达; 只在肝脏成体表达而早期发育时期不表达;

2. 比较不同物种之间同类细胞的基因表达谱,了解种属差异。 如:Kawamoto等(1996)比较了人肝脏和小鼠肝脏的基因表达谱,描述了人和小鼠之间器官特异性功能的相似性与不同之处。 有助于更为客观地解释以小鼠为动物模型的医学实验结果,甚至重新评价百年来小鼠作为医学实验动物模型的可行性与科学性。

3. 复杂器官的亚区域基因表达谱研究。 如,Okubo等(1994)已获得了人结肠黏膜的基因表达谱,若再能获得十二指肠、空肠、回肠、盲肠和直肠的基因表达谱,必然能在分子水平上丰富我们对肠道不同区域生理功能差异的认识。

(五)人体基因图:各类基因表达谱的整合 收集各类组织和细胞的基因表达谱,最终可整合成一张人体基因图(body map),每一个表达的基因均被标记到其表达的组织。 任务艰巨:人体由6× 1013个细胞组成,人体基本组织或细胞类型大约只有200种。 随着全球各实验室的专家提供越来越多的数据,这项工作的可行性也越来越大。

(六)小结 基因表达谱研究作为“cDNA计划”的一个组成部分,是结构基因组学研究的重要补充,功能基因组研究的重要内容。 它以一个细胞、一种组织或一个器官为单位,提供基因表达类型和表达丰度的信息,使人们第一次能系统、全面地从mRNA水平定性、定量了解某一特定细胞、组织或器官的基因表达模式,并描述和解释其生理属性。

通过各类基因表达谱的比较,能了解各类细胞和组织之间(或多种状态之间),以及某些复杂器官(如肾脏、脑、肠等)不同亚区域之间的基因表达差异,并鉴定差异表达的基因。 对这些差异表达基因进行深入研究,将使人们对基因表达调控机制有一更高层次的认识。与此同时,对发育、分化、进化和衰老等基本生命现象,以及严重危害人类健康的重大疾病发生机制的认识也会得到深入。