牛全基因组预测转录因子 数据库构建及分析 导 师: 张勤教授 研究生: 王志鹏 August, 2008
概要 研究背景 材料与方法 数据库构建与网页 结果与讨论
转录因子 定义: 结构特点: 顺式作用元件与反式作用因子 能够结合在某基因上游特异核苷酸序列上从而调控其基因转录的一类蛋白质。 存在结构域和功能域 结构域(DBD) :与DNA结合的具有特异性 结构模式:锌指,亮氨酸拉链, 螺旋-转角-螺旋, 螺旋-环-螺旋 … … 顺式作用元件与反式作用因子
真核生物转录因子 物种 #转录因子 物种 #转录因子 人 1790 拟南芥 1953 猩猩 242 水稻 400 鼠 1305 小麦 97 物种 #转录因子 物种 #转录因子 人 1790 拟南芥 1953 猩猩 242 水稻 400 鼠 1305 小麦 97 鸭嘴兽 139 玉米 37 鸡 585 番茄 29 斑马鱼 874 绿藻 90 果蝇 586 红藻 10 线虫 635 酵母 322 --收集于NCBI
原核生物转录因子 古细菌物种 #转录因子 细菌物种 #转录因子 暖枝菌 8 紫色光合细菌 20 热变形菌 9 具核梭杆菌 2 暖枝菌 8 紫色光合细菌 20 热变形菌 9 具核梭杆菌 2 常温泉古菌 15 乳酸球菌 1 嗜热菌 7 发光杆菌 7 超嗜熱菌 6 双叉杆菌 7 嗜盐杆菌 39 抗辐射细菌 17 古细菌 503 细菌 332 古细菌物种 #转录因子 细菌物种 #转录因子 --收集于NCBI
转录因子所占比例 --J. L. Riechmann 2000 science.
生物进化历史 --J. L. Riechmann 2000 science.
转录因子存在的特性 1. 转录因子存在的普适性 2. 物种间的差异性 3. 与进化历史有一定关系
转录因子的作用 基因调控特别针对真核生物的多级调控结构 基因调控网络 辅助基因网络的推断
已有转录因子数据库
http://www. gene-regulation. com/cgi-bin/pub/databases/transfac/search http://www.gene-regulation.com/cgi-bin/pub/databases/transfac/search.cgi
http://dbd.mrc-lmb.cam.ac.uk/DBD/index.cgi?About
http://bioinformatics.zj.cn/archaeatf/Homepage.php
http://planttfdb.cbi.pku.edu.cn/
http://dbtbs.hgc.jp/
http://regulondb.ccg.unam.mx/
http://flybase.bio.indiana.edu/
http://genome.gsc.riken.jp/TFdb/
http://arabidopsis.med.ohio-state.edu/
http://drtf.cbi.pku.edu.cn/
已有转录因子数据库
农场生物转录因子 物种 #转录因子 猪 94 马 156 牛 634 羊 17 鸡 585 狗 215 猫 5 水稻 400 小麦 97 猪 94 马 156 牛 634 羊 17 鸡 585 狗 215 猫 5 水稻 400 小麦 97 玉米 37 物种 #转录因子 --收集于NCBI
牛转录因子 关注于模式生物 NCBI~634 编码转录因子的基因 TRANSFAC ~10 编码转录因子的基因 ~ 16 转录因子调控的基因 DBD ~ 2333 预测转录因子 (无注释)
目 的 全基因组范围完整注释的 牛转录因子库
概要 背景知识 材料与方法 数据库构建与网页 结果与讨论
实现步骤 数据的收集 转录因子的识别 预测转录因子的注释 预测转录因子的展示
技术路线 注 释 本地 BLAST 转录因子功能注释 QTL区域信息 信息整合 基因注释 转录因子物理位置注释 基本信息 生物功能信息 注 释 基因组,蛋白质组数据 蛋白质二级结构 模型集 ( Pfam &SuperFamily) 预测转录因子集 HMMER 程序 已知转录因子集合
数据收集 牛全基因组序列3.1版本 。( ENSEMBLE ) 收集牛已知蛋白质序列2.7万条。(ENSEMBLE) 获得由GENESCAN 预测蛋白质5.6万条。 与转录因子相关的基因信息4357条, 转录信息4933条。 (NCBI) PDB数据3.6万条 。 (SWISS-MODEL ) 收集涉及91个性状的QTL共846条。(QTLdb)
转录因子识别 识别蛋白质是否含有DBD结构 与DNA结合的结构域(DBD)具有特异性 HMMER程序 (hmmpscan,hmmsearch) 66个家族231个HMM模型(SCOP) 参数为默认值,取E-value=0.01
预测转录因子的注释 转录因子基本信息物理位置 转录因子家族信息 DBD信息 基因与转录本信息 基因结构与3D结构信息 GO信息 表型性状与QTL信息 序列信息
概要 背景知识 材料与方法 数据库构建与网页 结果与讨论
预测转录因子的展示 C \S构架 动态网站 数据存储 ~ Mysql (5.0.18) 服务 ~ Apache (2.2.4) 界面 ~ Perl (5.8.7) perl :: DBI 、perl :: CGI perl :: GD
数据表结构 TF 基本信息 TF_family 信息 Motif 信息 转录和外显子信息 基因信息 序列信息 QTL 信息 PDB 信息 注释信息
概要 背景知识 材料与方法 数据库构建与网页 结果与讨论
结 果 (I) 共计 5479 个转录因子,4357个基因 由已知蛋白集合预测 3810个基因4932个转录因子 由预测蛋白集合预测 由已知蛋白集合预测 3810个基因4932个转录因子 由预测蛋白集合预测 4260个基因5487个转录因子
结 果 (I) 已知蛋白集合 547~547 3810~4932 预测蛋白集合 4357个基因~5479 个转录因子 占全基因组~14%
转录因子的可变剪切 有886个基因产生2个或2个以上的转录蛋白 1 个基因产生 7个不同的转录因子 3 个基因每个产生 6个转录因子 1 个基因产生 7个不同的转录因子 3 个基因每个产生 6个转录因子 9 个基因每个产生 5个转录因子 712 个基因每个产生 2个转录因子
可变剪切的影响 可变剪切不影响转录因子绑定形式 可变剪切影响转录因子绑定形式 ENSBTAG00000005251产生了7个转录因子 每个转录因子只包含RING/U-box结构。 可变剪切影响转录因子绑定形式 ENSBTAG00000000054产生了4个转录因子 3个含Homeodomain-like和 DEATH domain 1个只含有Homeodomain-like结构 这4个因子的Homeodomain-like均为四联体重复
结 果 (II) 在各条染色体上的分布不均 chr. 19 18 5 3 7 .. 1(146Mb) 367 333 307 287 279 .. 242
结 果 (II) 每条染色体上分布呈非随机性 Chromosome 1
结 果 (III) 3174转录因子分到47个性状中 MY PP PY FP FY SCS SCC 187 274 253 184 180 384 122 合计:1584
产奶量~ 转录因子分布
乳脂量~ 转录因子分布
结 果 (IV) 2967个转录因子只存在一个DBD结构,其余的存在多个DBD结构。 存在结构洗牌现象 同一DBD结构重复
结构洗牌 HTH_11 HTH_1 HTH_10 Basic T_Box Myc_N HLH Com_HTH HLH –T_box HLH – Basic HLH –Myc_N HLH
结构洗牌 Homeobox CUT Pou Zf_C2H2 PAX Fork_head bZip_1 Hom– CUT Hom –Pou Hom –ZF PAX Hom –PAX Fork_head Fork –ZF bZip_1 Zip –ZF
结 果 (IV) 按照DBD结构将转录因子分为64个家族 每个家族所含转录因子数目差异较大,5个家族的成员超过300个,大部分家族含有少许转录因子(幂率分布)。
结 果 (IV) 部分家族具有种属特异性 部分家族成员数目具有种属特异性(与鸡作比) 牛特有家族 ZF-C2H2_DDE GATA_Atrophin-1 哺乳动物特有家族 ZF-C2H2_KRAB_SCAN ZF-C2H2_SCAN 温血动物特有家族 ZF-C2H2_KRAB14 动物特有家族 Fez1 ; Ets 真核生物特有家族 bHLH 部分家族成员数目具有种属特异性(与鸡作比) 牛含量高的家族 ZF-C2H2-3 牛含量低的家族 T-box
结 果 (V) --典型家族进化树分析 bHLH (生物中共有家族) HomeoBox (牛最多成员数家族) Ets (动物中共有家族)
bHLH 此树涉及 33个物种 108条数据
牛 bHLH 家族进化关系图
牛 HomeoBox 进化树包含 128 条数据
牛Ets家族进化树 --14个成员
串联重复 定义:两个或多个同家族成员基因出现在同一条染色体,且距离相差小于200kb。 牛 18号染色体 ENSBTAG00000000332 ~185 ENSBTAG00000007466 ~190 ENSBTAG00000013444 ~193 130Kb 50Kb 定义:两个或多个同家族成员基因出现在同一条染色体,且距离相差小于200kb。
基因重复 X 5 16 187 188 194 17 12 195 197 189
转录因子家族进化树分析结果 存在重复序列和串联重复片段。 有些基因直接来源与祖先基因,一些基因具有直系同源性,一些基因具有并系同源性。 根据进化树可将同一基因家族内的成员进一步细化。
结 论 (I) 在基因组范围内存在一定比例的基因表达转录因子,且在基因组的分布具有非随机性,存在富集区。 与QTL关联的转录因子可作为候选基因考虑,需要进一步实验验证
结 论 (II) 所涉及的结构结合域较多,且组合丰富;推测丰富的结构组合性与生物进化复杂度相关。 部分转录因子家族具有种属特异性 转录因子具有丰富的起源和进化形式。
推论 由于可变剪切,结构洗牌,基因重复和串联重复等特点辅助实现了高等生物特有的复杂性。
致 谢 导师张勤教授 国家基础研究项目2006CB102104 自然基金重点项目30430500 实验室的每一位成员
谢谢!