中科院生物物理所 中科院数学与系统科学研究院应用数学所 北京科技大学 2010/07/30

Slides:



Advertisements
Similar presentations
鼻咽癌 一 ﹑ 病因 ( 一 ) 病毒 本病与 EB 病毒感染有关。 ( 二 ) 遗传因素 鼻咽癌患者有家族聚集性和种族易感性, 与遗传因素有关。 ( 三 ) 化学致癌物 一些化学物质(如多环芳烃类、亚硝胺 类、微量元素镍等)与鼻咽癌的发生有一 定的关系。
Advertisements

古田一中 生物教研组 有的细胞受到致癌因子的作用,细胞 中遗传物质发生变化,就变成不受机 体控制的、连续进行分裂的恶性增殖 细胞,这种细胞就是癌细胞。 有的细胞受到致癌因子的作用,细胞 中遗传物质发生变化,就变成不受机 体控制的、连续进行分裂的恶性增殖 细胞,这种细胞就是癌细胞。 有的细胞受到致癌因子的作用,细胞.
主题二 生命的基础 细胞的结构和功能. 细胞壁 细胞膜 细胞质 细胞核 化学组成 功能 成分 结构 基质 细胞器 结构 功能.
第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
第四届口腔颌面头颈肿瘤基础研究及干细胞学术会议
龙星课程—肿瘤生物信息学上机课程 曹莎
第六章 细胞的生命历程 第六章 细胞的生命历程 第3节 细胞的衰老和凋亡. 第六章 细胞的生命历程 第六章 细胞的生命历程 第3节 细胞的衰老和凋亡.
生命科学发展趋势、优先发展领域与资助思考
高二生物 绪论 制作人:李 绒.
一种基于结构序列 藕合模块辨别人类 miRNA前体的新方法
一轮复习 细胞的增值.
完全随机设计多样本资料秩和检验.
MicroRNA预测分类及其特性研究 胡玲玲 指导老师:邹 权 副教授 王其聪 副教授
Regulation of the transcription factor NF-kB1 by microRNA-9 in human gastric adenocarcinoma 汤 华 天津市生命科学中心实验室 天津医科大学.
个人总结及展望 主讲人:胡玲玲.
基因对性状的控制.
mRNA 转录、翻译和DNA复制的区别 细胞核 细胞核 转录 翻译 DNA复制 场所 模板 原料 信息传递 时间 产物 生长发育过程中
妇女心理保健讲座 硕放街道社区教育中心 丁惠芬.
13-14学年度生物学科教研室总结计划 2014年2月.
Mechanism of RNAi (shRNA/miRNA))
必修1 分子与细胞 第二章 第三节 细 细胞溶胶 内质网 胞 核糖体 质 高尔基体 线粒体 第一课时 浙江省定海第一中学 黄晓芬.
HBsAg阳性肝细胞的膜表面HBsAg抗原的检测
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
Geophysical Laboratory
CircularRNA 孙雅静 10化基.
(cell differentiation) 细胞分化 (cell differentiation)
物体识别 3D建图 semantic mapping
SOA – Experiment 3: Web Services Composition Challenge
数 控 技 术 华中科技大学机械科学与工程学院.
Introduction to AI and ML
基于基因集富集分析的畜禽复杂性状GWAS分析平台及其应用
数据挖掘工具性能比较.
基于规则抽取的 时间表达式识别.
Metabolic biomarker signature to differentiate pancreatic ductal adenocarcinoma from chronic pancreatitis Gut, 2017, Jan (IF=14.921) 汇报人:王宁 IMI CONFIDENTIAL.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
第二节、真核生物基因结构及功能 一、基因的概念 基因的概念随着分子遗传学、分子生物学、生物化学领域的进展而不断完善。 从遗传学角度看:
抽样和抽样分布 基本计算 Sampling & Sampling distribution
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
模型分类问题 Presented by 刘婷婷 苏琬琳.
CHAPTER 6 Ribosome and Ribozyme.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
第3节 细胞核——系统的控制中心 本节聚集: 1.细胞核有什么功能? 2. 细胞核的形态结构是怎样的?
第二节 核酸与细胞核.
超越自然还是带来毁灭 “人造生命”令全世界不安
实体描述呈现方法的研究 实验评估 2019/5/1.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
代谢组学技术及应用新策略简介 代谢组学平台 刘慧颖.
北师大版五年级数学下册 分数乘法(一).
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
物理化学 复旦大学化学系 范康年教授 等 2019/5/9.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
基于最大margin的决策树归纳 李 宁.
蔡世民 合作者:禚钊,傅忠谦,张捷 电子科学与技术系 中国科学技术大学 2011/4/29
2019/5/20 第三节 高阶导数 1.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
基因信息的传递.
Volterra-Lotka方程 1925年, A. Lotka(美)和V. Volterra(意)给出了第一个两物种间的捕食模型。
第三节 转录后修饰.
细胞分裂 有丝分裂.
受限超对称模型中Higgs粒子性质研究 曹 俊 杰 河南师范大学 北京大学高能中心 重庆,海峡两岸会议,2012年5月 基于工作:
第十七讲 密码执行(1).
第十二讲 密码执行(上).
数学模型实验课(二) 最小二乘法与直线拟合.
入侵检测技术 大连理工大学软件学院 毕玲.
病理生理学教研室 细胞信号通路检测(一) 总蛋白提取.
伦理审查报告填写 说明会.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

中科院生物物理所 中科院数学与系统科学研究院应用数学所 北京科技大学 2010/07/30 miRNA的预测及其功能的研究 陈润生 巩馥洲 刘秀芹等 中科院生物物理所 中科院数学与系统科学研究院应用数学所 北京科技大学 2010/07/30

报告内容 研究背景 主要研究内容 总结 pre-miRNA的预测方法-Mirindent。 microRNA对pathway调控作用的 初步研究。 总结

研究背景 生物体遗传信息传递 ——中心法则 染色体

DNA: the cell’s program TCCAACGGTGCTGAGGTGCAC Genome = sequence 2003年人类基因组测序项目完成。

TCCAACGGTGCTGAGGTGCAC DNA, Gene, and Protein DNA TCCAACGGTGCTGAGGTGCAC Protein Gene Gene: part of DNA that encodes a protein Protein: execute cell processes

蛋白基因 ncRNA基因 DNA序列 Protein Gene ncRNA gene 转录 转录 mRNA ncRNA 翻译 Protein 行使功能

多年来,人们对基因组的研究主要集中在编码蛋白质的基因上面(人类约20,000–25,000 个蛋白基因,占基因组1.5%)。 超过97%的转录产物是功能多样的RNA 分子,统称为非编码RNA (non-coding RNAs, ncRNAs)。

非编码RNA的种类有:microRNA(miRNA),tRNA,rRNA,mRNA-like ncRNA,小核仁RNA,细胞核内miRNA,小干扰RNA,与PIWI复合体相互作用的RNA(piRNA)等。 我们将主要工作放在近年来备受关注的一类非编码RNA——microRNA上面。

microRNA的产生

microRNA介绍 Pri-miRNA: >500 nt Pre-miRNA: ~70 nt Mature miRNA: ~22nt

microRNA的发现 实验克隆方法 计算方法发现microRNA 机器学习方法 ( SVM, 随机树,朴素贝叶斯, 线性规划,隐马氏模型)

研究内容 miRNA前体预测的新方法——Mirindent SVM的方法的关键之一是选取合适的特征。 常用特征: 序列特征(如,保守性,G C含量,) 结构特征(臂的长度,loop长度)

常用特征描述 ref:MicroRNA-encoding long non-coding RNAs, Shunmin He, 2007

已有方法的局限性: 我们的思路: 充分挖掘序列和结构耦合的特征, 受对miRNA认识的限制 大多没有充分考虑序列和结构之间的相互关系 用耦合特征辨别pre-miRNA和茎环状非pre-miRNA.

Mirident方法流程(四个步骤) 准备序列结构 寻找耦合特征 用线性SVM对特征进行排序 用支持向量机训练分类器,进行预测 结果分析 与其它方法比较

ss-sequence ss-motif Sort motifs SVM-train-predict

准备序列结构 sequence-structure string (ss-string). >hsa-mi-320-1 MI0008190 Homo sapiens mi-320-1 stem-loop CAGUUCUUCCCAAAGUUGAGAAAAGCU RNAfold (((((.(((.((....)).))).))))) 耦合 C(A(G(U(U(C.U(U(C(C.C(A(A.A.G.U.U)G)A.G)A)A)A.A)G)C)U) L代表’(‘ R代表’)’ D表示’.’ ss-string CLALGLULULCDULULCLCDCLALADADGDUDURGRADGRARARADARGRCRUR

寻找耦合特征senqence-structure motif(ss-motif) 用Teiresias 算法寻找变长motif (L=4,W=12,K=457) CLALGLULULCDULULCLCDCLALADADGDUDURGRADGRARARADARGRCRUR URGLULALCLALADADGDUDURGRADARGRCRUR ………………………………. LUL..C A..R.RU R.....R.R.R.D....R.R.R ‘.’ 表示所有可能性中的一个 LULNSC ASNRNRU RNSNSNRNRNRNDNSNSNRNRNR (‘N’表示nucleotides, ‘S’表示stucture ) 在608条pre-miRNA的ss-string中共有的ss-motifs(27496个) 在608条茎环状非pre-miRNA的ss-string中共有的ss-motifs(5954多) 共计29734个ss-motifs

用线性SVM对ss-motifs进行排序 提取特征向量 CLALGLULULCDULULCLCDCLALADADGDUDURGRADGRARARAD URGLULALCLALADADGDUDURGRADARGRCRUR 1216条 ss-string GLULULCDULULCLCDCLALADADGDUDU …………………. LULNSC 的特征向量为:(2, 1, 2,………) 所有特征的特征向量形成特征矩阵。

用线性SVM对ss-motifs进行排序 支持向量 用线性SVM对ss-motifs进行排序 把特征矩阵写成标准的输 入文件,用线性核SVM训 练,求出分类超平面。 分类超平面 SVM示意图

分类超平面 其中 用 表示第 个特征的权重, 按照权重从大到小对特征进行排序。

表格 3. 2 前面特征及其权重 特征 特征的权重 LUL..C 0.0785 d.d.d......U.G 0.0721 R.R..G.U 0.0718 LGLA 0.0693 R.RUR..C 0.0671 R..GRU 0.0624 d.dC.....C 0.0614 LCL....U 0.0609 R....GRU 0.0601 ………… ………

用支持向量机训练分类器,进行预测 特征: 前 K个ss-motifs(K=100, 200,……) 训练集:在608个阳性集合中随机选取4/5,在608个 阴性集合中随机选取4 /5放在一起作为训练集, 测试集: 去除训练集剩下的样本。 用训练集基于线性核SVM训练分类超平面,用分类超平面进行预测。

性能指标 阴性样本中预测 正确的比例 阳性样本中预测 正确的比例 性能的衡量指标 分类器的分类结果会把所有个体分为四类: 假阳性(FP)个体,真阳性个体(TP), 假阴性个体(FN),真阴性个体(TN) 准确率(Accuracy),特异性( specificity )和敏感性( sensitivity ) 阴性样本中预测 正确的比例 阳性样本中预测 正确的比例

结果: 表格 3. 5不同特征情况下训练和预测结果 91.129 93.5485 96.371 94.3548 K 100 200 300 400 500 600 700 五折交叉 验证的ACC 91.219 91.6322 93.2851 93.905 94.8347 95.0413 95.9711 c 512 8 2 128 g 0.000122 0703125 0.0078125 0.03125 0.0001220703125 0.00048828125 检验ACC (高斯核) 90.3226 93.1452 94.7581 93.9516 95.1613 (线性核) 91.129 93.5485 96.371 94.3548

不同数量特征分类器的预测效果(续上表) 98.3871 K 800 900 1000 1100 1200 1300 1400 五折交叉验证的ACC 96.3843 95.9711 96.281 96.4876 96.5909 c 512 32 2048 128 g 0.0001220703125 0.00048828125 0.000030517578125 检验ACC(高斯核) 95.1613 95.9677 97.5806 97.9839 96.371 检验ACC(线性核) 95.5645 97.1774 98.3871

不同数量特征分类器的预测效果(续上表) 96.7742 94.3548 91.129 87.0968 K 1500 2000 2500 5000 10000 20000 29734 五折交叉验证的ACC 96.3843 96.281 96.1777 95.1446 92.5625 90.3926 89.876 c 2048 128 8 2 g 0.000030512578125 0.0001220703125 0.000030517578125 检验ACC(高斯核) 97.9839 97.5806 96.371 93.9516 91.5323 87.5 检验ACC(线性核) 96.7742 94.3548 91.129 87.0968

结论:选取前面的1300个ss-motifs做线性核svm得到最好的预测效果。 ACC=99.39%, Sp=99.2%, Se=97.58% 为了进一步验证该结果,我们用每组特征基于高斯核SVM 训练分类超平面,预测结果和线性核SVM预测结果一致 。

1300

可推广性 Mirident 用于人以外的其它物种pre-miRNA的预测,ACC=92.8%。

与已有的方法比较: ACC SP SE AUC Mirident 98.39% 99.1935% 97.58% 99.11% 3SVM 83.87% 89.516% 78.226%   3SVM(same training data) 80.24% 84.67% 75.8% Mir-albra Threshold= 0 80.242% 1 60.48387% Threshold= -1 89.5% 95.968% 83.645% Threshold=-2 81.45% 69.354% 93.55% PriMir Score=7 79.84% 100% 54.84% 92% Score=0 84.68% 87.2% 82.26%

microRNA调控人类基因功能模块

研究背景 后基因组时代对功能理解的本质变化 A 序列 结构 功能 S P B C 相互作用 网络 功能 A Y X V Z

信号通路,调控通路,结构模块和代谢通路(pathway)是细胞内非常重要的行使特定功能的基因(蛋白)相互作用网络,通路内的基因(或蛋白)通过协同作用,完成生命过程。

colorectal cancer (CRC)(结肠癌)pathway Ref:pathway data base KEGG

思路: 把microRNA的目标基因看成相互作用的网络(行使某一特定功能的通路或模块),通过建立数学模型,研究microRNA对人类信号和代谢通路的调节作用,预测和发现microRNA的新功能。

超几何分布模型 调控示意图: 超几何分布模型: N——162个miRNA家族的靶基因和185个人类疾病通路中所有的基因的数目(N=10194), M——一个人类疾病通路所包含的基因的数目, n——一个miRNA家族在基因组中靶基因的数目, k——一个miRNA家族的靶基因落在一个人类通路中的个数

对每个miRNA家族,求它在一个人类疾病通 路中的靶基因数目大于或等于k的可能性和: 取显著水平a=0.1 (或a=0.05),超几何分布模型对162个microRNA家族对KEGG数据库中185个 pathway的调控关系作出了评价。

表格 4. 1超几何分布模型的预测结果 ‘1’表示显著调控 a=0.05 (P-value<0.05为1) let-7/98 miR-1/206 miR-10 miR-101 p53 signaling pathway Glioma 1 Axon guidance Heparan sulfate biosynthesis Colorectal cancer beta-Alanine metabolism Arginine and proline metabolism 3-Chloroacrylic acid degradation N-Glycan degradation Toll-like receptor signaling pathway Hematopoietic cell lineage mTOR signaling pathway Ethylbenzene degradation Thiamine metabolism ‘1’表示显著调控

结果的初步探讨: 已有研究表明:癌症的发生伴随着多种miRNA表达水平的变化,这些miRNA可能起到肿瘤抑制基因或是癌基因作用。

搜集已有的miRNA与肿瘤的关系(实际调控数据) 结肠癌 colorectal cancer 胰腺癌 pancreatic cancer 前列腺癌prostate cancer 甲状腺癌thyroid cancer 非小细胞肺癌non-small cell lung cancer let-7/98 1 miR-1/206 miR-10 miR-101 miR-103/107 miR-122 miR-124.1 miR-124/506 miR-125/351 miR-126 /126-3p

置换(permutation)检验: 对每个疾病通路,保留超几何分布预测的调控它的microRNA的个数不变,随机取出相同数目的microRNA家族,计算与实际数据的一致的个数,重复10000次,得到一个样本。

拟合概率密度函数如下: x = 超几何分布模型预测和实际数据一致个数

表格 4. 2超几何分布模型验证 超几何分布预测 调控它的 miRNA的数目 α=0.1 资料中显著调控它 的miRNA的数目 资料和预测公有 数目α=0.1 随机10000(α=0.1) P(正态分布) 结肠癌(colorectal cancer) 53 23 12 0.01610336737932 胰腺癌(pancreatic cancer) 43 19 8 0.04860505900367 前列腺癌(prostate cancer) 48 17 9 0.01295674034443 甲状腺癌(thyroid cancer) 37 13 4 0.23795516348622 非小细胞肺癌(non- small cell lung cancer) 39 26 0.08243888688475 平均 44 19.6 8.4 23

意义:我们首次把miRNA的靶标基因作为一个或多个 行使某种特定功能的模块(通路)来研究,并且对大 供了一些有力的依据。

总结: pre-miRNA的预测方法。 采用系统生物学的方法,研究microRNA对 pathway调控作用。 把序列和二级结构耦合在一起,用软件Teiresias挖掘pre-miRNAs的特征, 用线性支持向量机选取分类特征, 用耦合特征预测pre-miRNA 。 采用系统生物学的方法,研究microRNA对 pathway调控作用。

欢迎批评指正! 谢谢!