Download presentation
Presentation is loading. Please wait.
1
中科院生物物理所 中科院数学与系统科学研究院应用数学所 北京科技大学 2010/07/30
miRNA的预测及其功能的研究 陈润生 巩馥洲 刘秀芹等 中科院生物物理所 中科院数学与系统科学研究院应用数学所 北京科技大学 2010/07/30
2
报告内容 研究背景 主要研究内容 总结 pre-miRNA的预测方法-Mirindent。 microRNA对pathway调控作用的
初步研究。 总结
3
研究背景 生物体遗传信息传递 ——中心法则 染色体
4
DNA: the cell’s program
TCCAACGGTGCTGAGGTGCAC Genome = sequence 2003年人类基因组测序项目完成。
5
TCCAACGGTGCTGAGGTGCAC
DNA, Gene, and Protein DNA TCCAACGGTGCTGAGGTGCAC Protein Gene Gene: part of DNA that encodes a protein Protein: execute cell processes
6
蛋白基因 ncRNA基因 DNA序列 Protein Gene ncRNA gene 转录 转录 mRNA ncRNA 翻译 Protein
行使功能
7
多年来,人们对基因组的研究主要集中在编码蛋白质的基因上面(人类约20,000–25,000 个蛋白基因,占基因组1.5%)。
超过97%的转录产物是功能多样的RNA 分子,统称为非编码RNA (non-coding RNAs, ncRNAs)。
8
非编码RNA的种类有:microRNA(miRNA),tRNA,rRNA,mRNA-like ncRNA,小核仁RNA,细胞核内miRNA,小干扰RNA,与PIWI复合体相互作用的RNA(piRNA)等。 我们将主要工作放在近年来备受关注的一类非编码RNA——microRNA上面。
9
microRNA的产生
10
microRNA介绍 Pri-miRNA: >500 nt Pre-miRNA: ~70 nt Mature miRNA: ~22nt
11
microRNA的发现 实验克隆方法 计算方法发现microRNA 机器学习方法 ( SVM, 随机树,朴素贝叶斯, 线性规划,隐马氏模型)
12
研究内容 miRNA前体预测的新方法——Mirindent SVM的方法的关键之一是选取合适的特征。 常用特征:
序列特征(如,保守性,G C含量,) 结构特征(臂的长度,loop长度)
13
常用特征描述 ref:MicroRNA-encoding long non-coding RNAs, Shunmin He, 2007
14
已有方法的局限性: 我们的思路: 充分挖掘序列和结构耦合的特征, 受对miRNA认识的限制 大多没有充分考虑序列和结构之间的相互关系
用耦合特征辨别pre-miRNA和茎环状非pre-miRNA.
15
Mirident方法流程(四个步骤) 准备序列结构 寻找耦合特征 用线性SVM对特征进行排序 用支持向量机训练分类器,进行预测 结果分析
与其它方法比较
16
ss-sequence ss-motif Sort motifs SVM-train-predict
17
准备序列结构 sequence-structure string (ss-string).
>hsa-mi MI Homo sapiens mi stem-loop CAGUUCUUCCCAAAGUUGAGAAAAGCU RNAfold (((((.(((.((....)).))).))))) 耦合 C(A(G(U(U(C.U(U(C(C.C(A(A.A.G.U.U)G)A.G)A)A)A.A)G)C)U) L代表’(‘ R代表’)’ D表示’.’ ss-string CLALGLULULCDULULCLCDCLALADADGDUDURGRADGRARARADARGRCRUR
18
寻找耦合特征senqence-structure motif(ss-motif)
用Teiresias 算法寻找变长motif (L=4,W=12,K=457) CLALGLULULCDULULCLCDCLALADADGDUDURGRADGRARARADARGRCRUR URGLULALCLALADADGDUDURGRADARGRCRUR ………………………………. LUL..C A..R.RU R.....R.R.R.D....R.R.R ‘.’ 表示所有可能性中的一个 LULNSC ASNRNRU RNSNSNRNRNRNDNSNSNRNRNR (‘N’表示nucleotides, ‘S’表示stucture ) 在608条pre-miRNA的ss-string中共有的ss-motifs(27496个) 在608条茎环状非pre-miRNA的ss-string中共有的ss-motifs(5954多) 共计29734个ss-motifs
19
用线性SVM对ss-motifs进行排序
提取特征向量 CLALGLULULCDULULCLCDCLALADADGDUDURGRADGRARARAD URGLULALCLALADADGDUDURGRADARGRCRUR 1216条 ss-string GLULULCDULULCLCDCLALADADGDUDU …………………. LULNSC 的特征向量为:(2, 1, 2,………) 所有特征的特征向量形成特征矩阵。
20
用线性SVM对ss-motifs进行排序
支持向量 用线性SVM对ss-motifs进行排序 把特征矩阵写成标准的输 入文件,用线性核SVM训 练,求出分类超平面。 分类超平面 SVM示意图
21
分类超平面 其中 用 表示第 个特征的权重, 按照权重从大到小对特征进行排序。
22
表格 3. 2 前面特征及其权重 特征 特征的权重 LUL..C 0.0785 d.d.d......U.G 0.0721 R.R..G.U 0.0718 LGLA 0.0693 R.RUR..C 0.0671 R..GRU 0.0624 d.dC.....C 0.0614 LCL....U 0.0609 R....GRU 0.0601 ………… ………
23
用支持向量机训练分类器,进行预测 特征: 前 K个ss-motifs(K=100, 200,……) 训练集:在608个阳性集合中随机选取4/5,在608个 阴性集合中随机选取4 /5放在一起作为训练集, 测试集: 去除训练集剩下的样本。 用训练集基于线性核SVM训练分类超平面,用分类超平面进行预测。
24
性能指标 阴性样本中预测 正确的比例 阳性样本中预测 正确的比例 性能的衡量指标 分类器的分类结果会把所有个体分为四类:
假阳性(FP)个体,真阳性个体(TP), 假阴性个体(FN),真阴性个体(TN) 准确率(Accuracy),特异性( specificity )和敏感性( sensitivity ) 阴性样本中预测 正确的比例 阳性样本中预测 正确的比例
25
结果: 表格 3. 5不同特征情况下训练和预测结果 91.129 93.5485 96.371 94.3548 K 100 200 300
400 500 600 700 五折交叉 验证的ACC 91.219 93.905 c 512 8 2 128 g 检验ACC (高斯核) (线性核) 91.129 96.371
26
不同数量特征分类器的预测效果(续上表) 98.3871 K 800 900 1000 1100 1200 1300 1400
五折交叉验证的ACC 96.281 c 512 32 2048 128 g 检验ACC(高斯核) 96.371 检验ACC(线性核)
27
不同数量特征分类器的预测效果(续上表) 96.7742 94.3548 91.129 87.0968 K 1500 2000 2500
5000 10000 20000 29734 五折交叉验证的ACC 96.281 89.876 c 2048 128 8 2 g 检验ACC(高斯核) 96.371 87.5 检验ACC(线性核) 91.129
28
结论:选取前面的1300个ss-motifs做线性核svm得到最好的预测效果。
ACC=99.39%, Sp=99.2%, Se=97.58% 为了进一步验证该结果,我们用每组特征基于高斯核SVM 训练分类超平面,预测结果和线性核SVM预测结果一致 。
29
1300
30
可推广性 Mirident 用于人以外的其它物种pre-miRNA的预测,ACC=92.8%。
31
与已有的方法比较: ACC SP SE AUC Mirident 98.39% 99.1935% 97.58% 99.11% 3SVM
83.87% 89.516% 78.226% 3SVM(same training data) 80.24% 84.67% 75.8% Mir-albra Threshold= 0 80.242% 1 % Threshold= -1 89.5% 95.968% 83.645% Threshold=-2 81.45% 69.354% 93.55% PriMir Score=7 79.84% 100% 54.84% 92% Score=0 84.68% 87.2% 82.26%
33
microRNA调控人类基因功能模块
34
研究背景 后基因组时代对功能理解的本质变化 A 序列 结构 功能 S P B C 相互作用 网络 功能 A Y X V Z
35
信号通路,调控通路,结构模块和代谢通路(pathway)是细胞内非常重要的行使特定功能的基因(蛋白)相互作用网络,通路内的基因(或蛋白)通过协同作用,完成生命过程。
36
colorectal cancer (CRC)(结肠癌)pathway
Ref:pathway data base KEGG
37
思路: 把microRNA的目标基因看成相互作用的网络(行使某一特定功能的通路或模块),通过建立数学模型,研究microRNA对人类信号和代谢通路的调节作用,预测和发现microRNA的新功能。
38
超几何分布模型 调控示意图: 超几何分布模型:
N——162个miRNA家族的靶基因和185个人类疾病通路中所有的基因的数目(N=10194), M——一个人类疾病通路所包含的基因的数目, n——一个miRNA家族在基因组中靶基因的数目, k——一个miRNA家族的靶基因落在一个人类通路中的个数
39
对每个miRNA家族,求它在一个人类疾病通
路中的靶基因数目大于或等于k的可能性和: 取显著水平a=0.1 (或a=0.05),超几何分布模型对162个microRNA家族对KEGG数据库中185个 pathway的调控关系作出了评价。
40
表格 4. 1超几何分布模型的预测结果 ‘1’表示显著调控 a=0.05 (P-value<0.05为1)
let-7/98 miR-1/206 miR-10 miR-101 p53 signaling pathway Glioma 1 Axon guidance Heparan sulfate biosynthesis Colorectal cancer beta-Alanine metabolism Arginine and proline metabolism 3-Chloroacrylic acid degradation N-Glycan degradation Toll-like receptor signaling pathway Hematopoietic cell lineage mTOR signaling pathway Ethylbenzene degradation Thiamine metabolism ‘1’表示显著调控
41
结果的初步探讨: 已有研究表明:癌症的发生伴随着多种miRNA表达水平的变化,这些miRNA可能起到肿瘤抑制基因或是癌基因作用。
42
搜集已有的miRNA与肿瘤的关系(实际调控数据)
结肠癌 colorectal cancer 胰腺癌 pancreatic cancer 前列腺癌prostate cancer 甲状腺癌thyroid cancer 非小细胞肺癌non-small cell lung cancer let-7/98 1 miR-1/206 miR-10 miR-101 miR-103/107 miR-122 miR-124.1 miR-124/506 miR-125/351 miR-126 /126-3p
43
置换(permutation)检验: 对每个疾病通路,保留超几何分布预测的调控它的microRNA的个数不变,随机取出相同数目的microRNA家族,计算与实际数据的一致的个数,重复10000次,得到一个样本。
44
拟合概率密度函数如下: x = 超几何分布模型预测和实际数据一致个数
45
表格 4. 2超几何分布模型验证 超几何分布预测 调控它的 miRNA的数目 α=0.1 资料中显著调控它 的miRNA的数目
资料和预测公有 数目α=0.1 随机10000(α=0.1) P(正态分布) 结肠癌(colorectal cancer) 53 23 12 胰腺癌(pancreatic cancer) 43 19 8 前列腺癌(prostate cancer) 48 17 9 甲状腺癌(thyroid cancer) 37 13 4 非小细胞肺癌(non- small cell lung cancer) 39 26 平均 44 19.6 8.4 23
46
意义:我们首次把miRNA的靶标基因作为一个或多个 行使某种特定功能的模块(通路)来研究,并且对大
供了一些有力的依据。
47
总结: pre-miRNA的预测方法。 采用系统生物学的方法,研究microRNA对 pathway调控作用。
把序列和二级结构耦合在一起,用软件Teiresias挖掘pre-miRNAs的特征, 用线性支持向量机选取分类特征, 用耦合特征预测pre-miRNA 。 采用系统生物学的方法,研究microRNA对 pathway调控作用。
48
欢迎批评指正! 谢谢!
Similar presentations