中科院生物物理所 中科院数学与系统科学研究院应用数学所 北京科技大学 2010/07/30 miRNA的预测及其功能的研究 陈润生 巩馥洲 刘秀芹等 中科院生物物理所 中科院数学与系统科学研究院应用数学所 北京科技大学 2010/07/30
报告内容 研究背景 主要研究内容 总结 pre-miRNA的预测方法-Mirindent。 microRNA对pathway调控作用的 初步研究。 总结
研究背景 生物体遗传信息传递 ——中心法则 染色体
DNA: the cell’s program TCCAACGGTGCTGAGGTGCAC Genome = sequence 2003年人类基因组测序项目完成。
TCCAACGGTGCTGAGGTGCAC DNA, Gene, and Protein DNA TCCAACGGTGCTGAGGTGCAC Protein Gene Gene: part of DNA that encodes a protein Protein: execute cell processes
蛋白基因 ncRNA基因 DNA序列 Protein Gene ncRNA gene 转录 转录 mRNA ncRNA 翻译 Protein 行使功能
多年来,人们对基因组的研究主要集中在编码蛋白质的基因上面(人类约20,000–25,000 个蛋白基因,占基因组1.5%)。 超过97%的转录产物是功能多样的RNA 分子,统称为非编码RNA (non-coding RNAs, ncRNAs)。
非编码RNA的种类有:microRNA(miRNA),tRNA,rRNA,mRNA-like ncRNA,小核仁RNA,细胞核内miRNA,小干扰RNA,与PIWI复合体相互作用的RNA(piRNA)等。 我们将主要工作放在近年来备受关注的一类非编码RNA——microRNA上面。
microRNA的产生
microRNA介绍 Pri-miRNA: >500 nt Pre-miRNA: ~70 nt Mature miRNA: ~22nt
microRNA的发现 实验克隆方法 计算方法发现microRNA 机器学习方法 ( SVM, 随机树,朴素贝叶斯, 线性规划,隐马氏模型)
研究内容 miRNA前体预测的新方法——Mirindent SVM的方法的关键之一是选取合适的特征。 常用特征: 序列特征(如,保守性,G C含量,) 结构特征(臂的长度,loop长度)
常用特征描述 ref:MicroRNA-encoding long non-coding RNAs, Shunmin He, 2007
已有方法的局限性: 我们的思路: 充分挖掘序列和结构耦合的特征, 受对miRNA认识的限制 大多没有充分考虑序列和结构之间的相互关系 用耦合特征辨别pre-miRNA和茎环状非pre-miRNA.
Mirident方法流程(四个步骤) 准备序列结构 寻找耦合特征 用线性SVM对特征进行排序 用支持向量机训练分类器,进行预测 结果分析 与其它方法比较
ss-sequence ss-motif Sort motifs SVM-train-predict
准备序列结构 sequence-structure string (ss-string). >hsa-mi-320-1 MI0008190 Homo sapiens mi-320-1 stem-loop CAGUUCUUCCCAAAGUUGAGAAAAGCU RNAfold (((((.(((.((....)).))).))))) 耦合 C(A(G(U(U(C.U(U(C(C.C(A(A.A.G.U.U)G)A.G)A)A)A.A)G)C)U) L代表’(‘ R代表’)’ D表示’.’ ss-string CLALGLULULCDULULCLCDCLALADADGDUDURGRADGRARARADARGRCRUR
寻找耦合特征senqence-structure motif(ss-motif) 用Teiresias 算法寻找变长motif (L=4,W=12,K=457) CLALGLULULCDULULCLCDCLALADADGDUDURGRADGRARARADARGRCRUR URGLULALCLALADADGDUDURGRADARGRCRUR ………………………………. LUL..C A..R.RU R.....R.R.R.D....R.R.R ‘.’ 表示所有可能性中的一个 LULNSC ASNRNRU RNSNSNRNRNRNDNSNSNRNRNR (‘N’表示nucleotides, ‘S’表示stucture ) 在608条pre-miRNA的ss-string中共有的ss-motifs(27496个) 在608条茎环状非pre-miRNA的ss-string中共有的ss-motifs(5954多) 共计29734个ss-motifs
用线性SVM对ss-motifs进行排序 提取特征向量 CLALGLULULCDULULCLCDCLALADADGDUDURGRADGRARARAD URGLULALCLALADADGDUDURGRADARGRCRUR 1216条 ss-string GLULULCDULULCLCDCLALADADGDUDU …………………. LULNSC 的特征向量为:(2, 1, 2,………) 所有特征的特征向量形成特征矩阵。
用线性SVM对ss-motifs进行排序 支持向量 用线性SVM对ss-motifs进行排序 把特征矩阵写成标准的输 入文件,用线性核SVM训 练,求出分类超平面。 分类超平面 SVM示意图
分类超平面 其中 用 表示第 个特征的权重, 按照权重从大到小对特征进行排序。
表格 3. 2 前面特征及其权重 特征 特征的权重 LUL..C 0.0785 d.d.d......U.G 0.0721 R.R..G.U 0.0718 LGLA 0.0693 R.RUR..C 0.0671 R..GRU 0.0624 d.dC.....C 0.0614 LCL....U 0.0609 R....GRU 0.0601 ………… ………
用支持向量机训练分类器,进行预测 特征: 前 K个ss-motifs(K=100, 200,……) 训练集:在608个阳性集合中随机选取4/5,在608个 阴性集合中随机选取4 /5放在一起作为训练集, 测试集: 去除训练集剩下的样本。 用训练集基于线性核SVM训练分类超平面,用分类超平面进行预测。
性能指标 阴性样本中预测 正确的比例 阳性样本中预测 正确的比例 性能的衡量指标 分类器的分类结果会把所有个体分为四类: 假阳性(FP)个体,真阳性个体(TP), 假阴性个体(FN),真阴性个体(TN) 准确率(Accuracy),特异性( specificity )和敏感性( sensitivity ) 阴性样本中预测 正确的比例 阳性样本中预测 正确的比例
结果: 表格 3. 5不同特征情况下训练和预测结果 91.129 93.5485 96.371 94.3548 K 100 200 300 400 500 600 700 五折交叉 验证的ACC 91.219 91.6322 93.2851 93.905 94.8347 95.0413 95.9711 c 512 8 2 128 g 0.000122 0703125 0.0078125 0.03125 0.0001220703125 0.00048828125 检验ACC (高斯核) 90.3226 93.1452 94.7581 93.9516 95.1613 (线性核) 91.129 93.5485 96.371 94.3548
不同数量特征分类器的预测效果(续上表) 98.3871 K 800 900 1000 1100 1200 1300 1400 五折交叉验证的ACC 96.3843 95.9711 96.281 96.4876 96.5909 c 512 32 2048 128 g 0.0001220703125 0.00048828125 0.000030517578125 检验ACC(高斯核) 95.1613 95.9677 97.5806 97.9839 96.371 检验ACC(线性核) 95.5645 97.1774 98.3871
不同数量特征分类器的预测效果(续上表) 96.7742 94.3548 91.129 87.0968 K 1500 2000 2500 5000 10000 20000 29734 五折交叉验证的ACC 96.3843 96.281 96.1777 95.1446 92.5625 90.3926 89.876 c 2048 128 8 2 g 0.000030512578125 0.0001220703125 0.000030517578125 检验ACC(高斯核) 97.9839 97.5806 96.371 93.9516 91.5323 87.5 检验ACC(线性核) 96.7742 94.3548 91.129 87.0968
结论:选取前面的1300个ss-motifs做线性核svm得到最好的预测效果。 ACC=99.39%, Sp=99.2%, Se=97.58% 为了进一步验证该结果,我们用每组特征基于高斯核SVM 训练分类超平面,预测结果和线性核SVM预测结果一致 。
1300
可推广性 Mirident 用于人以外的其它物种pre-miRNA的预测,ACC=92.8%。
与已有的方法比较: ACC SP SE AUC Mirident 98.39% 99.1935% 97.58% 99.11% 3SVM 83.87% 89.516% 78.226% 3SVM(same training data) 80.24% 84.67% 75.8% Mir-albra Threshold= 0 80.242% 1 60.48387% Threshold= -1 89.5% 95.968% 83.645% Threshold=-2 81.45% 69.354% 93.55% PriMir Score=7 79.84% 100% 54.84% 92% Score=0 84.68% 87.2% 82.26%
microRNA调控人类基因功能模块
研究背景 后基因组时代对功能理解的本质变化 A 序列 结构 功能 S P B C 相互作用 网络 功能 A Y X V Z
信号通路,调控通路,结构模块和代谢通路(pathway)是细胞内非常重要的行使特定功能的基因(蛋白)相互作用网络,通路内的基因(或蛋白)通过协同作用,完成生命过程。
colorectal cancer (CRC)(结肠癌)pathway Ref:pathway data base KEGG
思路: 把microRNA的目标基因看成相互作用的网络(行使某一特定功能的通路或模块),通过建立数学模型,研究microRNA对人类信号和代谢通路的调节作用,预测和发现microRNA的新功能。
超几何分布模型 调控示意图: 超几何分布模型: N——162个miRNA家族的靶基因和185个人类疾病通路中所有的基因的数目(N=10194), M——一个人类疾病通路所包含的基因的数目, n——一个miRNA家族在基因组中靶基因的数目, k——一个miRNA家族的靶基因落在一个人类通路中的个数
对每个miRNA家族,求它在一个人类疾病通 路中的靶基因数目大于或等于k的可能性和: 取显著水平a=0.1 (或a=0.05),超几何分布模型对162个microRNA家族对KEGG数据库中185个 pathway的调控关系作出了评价。
表格 4. 1超几何分布模型的预测结果 ‘1’表示显著调控 a=0.05 (P-value<0.05为1) let-7/98 miR-1/206 miR-10 miR-101 p53 signaling pathway Glioma 1 Axon guidance Heparan sulfate biosynthesis Colorectal cancer beta-Alanine metabolism Arginine and proline metabolism 3-Chloroacrylic acid degradation N-Glycan degradation Toll-like receptor signaling pathway Hematopoietic cell lineage mTOR signaling pathway Ethylbenzene degradation Thiamine metabolism ‘1’表示显著调控
结果的初步探讨: 已有研究表明:癌症的发生伴随着多种miRNA表达水平的变化,这些miRNA可能起到肿瘤抑制基因或是癌基因作用。
搜集已有的miRNA与肿瘤的关系(实际调控数据) 结肠癌 colorectal cancer 胰腺癌 pancreatic cancer 前列腺癌prostate cancer 甲状腺癌thyroid cancer 非小细胞肺癌non-small cell lung cancer let-7/98 1 miR-1/206 miR-10 miR-101 miR-103/107 miR-122 miR-124.1 miR-124/506 miR-125/351 miR-126 /126-3p
置换(permutation)检验: 对每个疾病通路,保留超几何分布预测的调控它的microRNA的个数不变,随机取出相同数目的microRNA家族,计算与实际数据的一致的个数,重复10000次,得到一个样本。
拟合概率密度函数如下: x = 超几何分布模型预测和实际数据一致个数
表格 4. 2超几何分布模型验证 超几何分布预测 调控它的 miRNA的数目 α=0.1 资料中显著调控它 的miRNA的数目 资料和预测公有 数目α=0.1 随机10000(α=0.1) P(正态分布) 结肠癌(colorectal cancer) 53 23 12 0.01610336737932 胰腺癌(pancreatic cancer) 43 19 8 0.04860505900367 前列腺癌(prostate cancer) 48 17 9 0.01295674034443 甲状腺癌(thyroid cancer) 37 13 4 0.23795516348622 非小细胞肺癌(non- small cell lung cancer) 39 26 0.08243888688475 平均 44 19.6 8.4 23
意义:我们首次把miRNA的靶标基因作为一个或多个 行使某种特定功能的模块(通路)来研究,并且对大 供了一些有力的依据。
总结: pre-miRNA的预测方法。 采用系统生物学的方法,研究microRNA对 pathway调控作用。 把序列和二级结构耦合在一起,用软件Teiresias挖掘pre-miRNAs的特征, 用线性支持向量机选取分类特征, 用耦合特征预测pre-miRNA 。 采用系统生物学的方法,研究microRNA对 pathway调控作用。
欢迎批评指正! 谢谢!