一种基于结构序列 藕合模块辨别人类 miRNA前体的新方法

Slides:



Advertisements
Similar presentations
细胞圆形或椭圆形,直径 10~18 μm ,胞核大,圆形或椭圆形,稍 偏位或着边,核染色质细致,呈颗 粒状,较原粒稍粗,着色较浅,核 膜浓厚而清楚,核仁多为 1~2 个, 小而清楚,呈淡蓝色或无色,胞质 量少,呈透明天蓝色,不含颗粒。原始淋巴细胞.
Advertisements

行政院原住民族委員會 法規暨訴願審議委員會 102 年度原住民身分法實例演練講習: 原住民身分認定及救濟程序.
足太阴脾经在足大趾与足阳明胃经衔接, 在胸部与手少阴心经相接。 联系的脏腑器官有 咽、舌,属脾,络胃,注心中。 络脉从本经分出,走向足阳明经,进入腹腔,联络肠胃。 经别结于咽,贯舌本。 经筋结于髀,聚于阴器,上腹,结于脐,散于胸中。 第四章 足太阴经络与腧穴 第一节 足太阴经络.
本校自民國 78 年於顏前校長世錫任內創設本系 設立鑑識科學學系大學部,專責鑑識人才之培養, 為目前國內唯一專門培育鑑識科學人才、研究鑑識 科學學術之大學學系,設系剛滿 20 年。自 85 年於姚 前校長高橋任內,設立鑑識科學研究所招收碩士生 ,民國 88 年於謝前校長瑞智任內先後獲內政部、教.
化疗知识讲座 台州博爱肿瘤医院 陈国卿. 一、化疗药物的抗癌机制 1 、抑制细胞增殖和肿瘤的生长是其主要作 用机理。 2 、对于新陈代谢旺盛的正常组织同样具有 毒性,如骨髓细胞,粘膜细胞。 3 、理想的药物 — 最大程度的抑制肿瘤细胞, 最小程度的影响正常细胞。 4 、基因药物是发展方向。
第二节 基因在亲子代间的传递. 1. 什么叫做遗传? 2. 什么叫做性状? 3. 性状是由什么决定的?
单元基础知识排查(一). 第一关:测基础 判正误 第二关:练规范 强素质 第一关:测基础 判正误 1. 病毒是一种生物,但它不是一个独立的生命系统 ( ) 2. 细胞学说揭示了细胞的统一性和多样性 ( ) 3. 原核细胞中只含有核糖体一种细胞器 ( ) 4. 蓝藻细胞不含有叶绿体,不能进行光合作用.
主题二 生命的基础 细胞的结构和功能. 细胞壁 细胞膜 细胞质 细胞核 化学组成 功能 成分 结构 基质 细胞器 结构 功能.
一、人类遗传病概述: 1 、遗传病的概念 由于遗传物质改变引起的人类疾病 1. 单基因遗传病 2. 多基因遗传病 3. 染色体异常遗传病 ( 二 ) 类型 :
第二章:生物科學與食品 第三節:基因改造食品.
第三章 现代教育与人的发展.
103年度學生健康檢查.
神创造万物及人类.
第21课时 生物圈中的微生物 考 点 聚 焦 专 项 突 破 1.
國民中學 自然與生活科技 第二冊 第3章 生殖 3-1 細胞分裂 3-2 無性生殖 3-3 有性生殖.
01 文化知识概述 1.1 如何理解文化 1)大家都很困惑 文化究竟是什么?似乎谁都知道,又似乎谁也说不清楚…… 对“文化”的定义多达两百多种,但没有公认的、令人满意的定义。 多数定义:广义的文化是人类创造的物质财富和精神财富的总和,狭义仅指精神财富。 “文化”一词,似乎能够包罗万象,又似乎很虚,虚到无法理解。
生命科学发展趋势、优先发展领域与资助思考
基因工程及应用.
专题三 生物圈中的绿色植物.
学校核心发展力 上海市建平中学 程红兵.
必修二 生物 (人教版).
高二生物 绪论 制作人:李 绒.
想一想 议一议 P74 我们常吃的蘑菇有根、茎、叶吗? 它们的生长是否需要光? 为什么说它们是真菌而不是植物呢?
三次科技革命 学习目标: 1.知道三次科技革命的时间、标志、发源地、理论基础、主要成就、主要特点及影响。 2.培养归纳历史知识的能力
辽宁省精品资源共享课 药物化学 沈阳药科大学药物化学教研室.
一轮复习 细胞的增值.
王永慶遺產分配 第三組民法報告 4970T011 劉昭妤 4970T037 吳品怡 4970T090 袁如意
台南在地美食文化介紹 台南市鳳凰城文史協會 理事長 歐財榮.
第3节 细胞核——系统的控制中心 肥西中学 蔡林.
一、作者概說:    王壽來,民國三十八年生,山西省 五臺縣人,中興大學 法律系畢業,美國 喬治城大學碩士、臺灣師範大學 美術研究所碩博士。長期從事文化與外交工作,現任文建會 文化資產總管理處籌備處主任。   王壽來靈感多取自生活經驗,善用中外名言,描繪人生百態。著有《公務員快意人生》、《藝術‧收藏‧我》、《公務員DNA》、《和世界偉人面對面》等書。
导入新课 波能绕过障碍物产生衍射。既然光也是一种波,为什么在日常生活中难以观察到光的衍射现象呢?.
高中生物学必修Ⅰ 分子与细胞 前 言.
基因对性状的控制.
mRNA 转录、翻译和DNA复制的区别 细胞核 细胞核 转录 翻译 DNA复制 场所 模板 原料 信息传递 时间 产物 生长发育过程中
第二节 基因对性状的控制.
13-14学年度生物学科教研室总结计划 2014年2月.
第3节 人类遗传病.
必修1 分子与细胞 第二章 第三节 细 细胞溶胶 内质网 胞 核糖体 质 高尔基体 线粒体 第一课时 浙江省定海第一中学 黄晓芬.
关注生物技术的 伦理问题.
2015年高考历史质量分析报告 兰州市外国语高级中学 杨彩玲.
肝功能正常的小三阳注意事项.
突變 突變是指遺傳物質發生改變, 而影響到性狀的表現 例:白化症.
复习课 细胞增殖.
基因突变 授课人:羊金华
第四章 基因的表达 基因指导蛋白质的合成 (第二课时) 高二年级(理) 教师姓名:葛红.
大河與文明 兩河、印度與中國文明.
中科院生物物理所 中科院数学与系统科学研究院应用数学所 北京科技大学 2010/07/30
我国的人民民主专政.
高考复习研讨交流 ——生物 西安:王澜 2014、7、16.
司法机关.
生物五界的分類方式.
现代生物技术 导 论.
第二章 细胞的概念与分子基础 细胞的统一性与多样性 统一性 相似的化学组成、最基本的结构要素 类似的遗传(信息)语言
五、受体蛋白病 家族性高胆固醇血症(FH)
第二节、真核生物基因结构及功能 一、基因的概念 基因的概念随着分子遗传学、分子生物学、生物化学领域的进展而不断完善。 从遗传学角度看:
基因指导蛋白质的合成 淮安市洪泽湖高级中学:王建友. 基因指导蛋白质的合成 淮安市洪泽湖高级中学:王建友.
人是由什么发育而来的? 一个受精卵.
第3节 细胞核——系统的控制中心 本节聚集: 1.细胞核有什么功能? 2. 细胞核的形态结构是怎样的?
生物一轮复习系列课件 必修1 提升能力 夯实基础 新课标专用 2011高考 自动播放 共16套 作者:邵寄璋(生物特级教师) 新人教版
第二节 核酸与细胞核.
复习:蛋白质的形成 几条肽链盘曲折叠形成的蛋白质 氨基酸 …….
遗传信息的携带者——核酸 授课教师:王建友.
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
遗传信息的传递与表达.
非同源染色体:不是同源染色体的两条染色体
自信,是无尽智慧的凝聚 平淡,是成功路上的驿站 走上成功讲台 --从评委视角谈魅力课堂! 温州市第八中学 李先明
习题课 《医学遗传学基础》 (第二版) 王静颖 王懿 主编 科 学 出 版 社.
C型肝炎病毒假想圖:最外層為套膜,內包裝有一單股之RNA分子
证据运用 第八章 证据的运用 第一节 证据体系的结构及运用规则.
00 第3节 细胞核——系统的控制中心.
Presentation transcript:

一种基于结构序列 藕合模块辨别人类 miRNA前体的新方法 刘秀芹 2009.11.15

内容提要 miRNA的产生 miRNA概述 Mirident方法流程结果 与已有的方法的比较 讨论

miRNA的产生——中心法则

miRNA的产生 蛋白基因1 miRNA基因 DNA序列 Protein Gene miRNA gene 转录 转录 mRNA pri-miRNA Protein 翻译 行使功能

miRNA的产生

miRNA概述 长约20~25碱基的单链RNA 功能:在对mRNA进行转录后调控 ——mRNA 降解 ——阻止mRNA翻译成蛋白

miRNA的发现: 试验的方法 计算方法(分类算法) 各种机器学习方法用于预测miRNA. SVM, 随机树,线性规划,隐马氏模型等。 2. 机器学习的方法的关键之一是选取合适的特征。常用的特征: 序列特征(如,保守性,G C含量,) 结构特征(臂的长度,loop长度)

用耦合特征辨别miRNA和假pre-miRNA. 已有方法的局限性: 受对miRNA认识的限制 一般分别考虑序列和结构的性质,大部分没有充分考虑序列和结构之间的相互关系 本文想法: 充分挖掘序列和结构耦合的特征。 用耦合特征辨别miRNA和假pre-miRNA.

Mirident方法流程 准备序列结构(sequence-structure) 寻找耦合特征 用线性SVM对特征进行排序 用支持向量机训练分类器,进行预测

算法步骤 1. 阳性集合准备 (1) hsa.fa是human的678条pre-miRNA序列(hairpin.fa 是所有物种的pre-miRNAs,用hsa.py取出人的)。 (2) 去重复率高于90%的序列,剩638条(quxiangsilian.py)。 (3) 计算二级结构,去多环,剩608条。

(4)把每个位点的二级结构放在相应的位点后面,形成sequence-structure. >hsa-mi-320-1 MI0008190 Homo sapiens mi-320-1 stem-oop UUCUCGUCCCAGUUCUUCCCAAAGUUGAGAAAAGCUGGGUUGAGAGGA ((((((.(((((((.(((.((....)).))).))))))).)))))).. U(U(C(U(C(G(U.C(C(C(A(G(U(U(C.U(U(C(C.C(A(A.A.G.U.U )G)A.G)A)A)A.A)G)C)U)G)G)G)U.U)G)A)G)A)G)G.A. L代表’(‘ R代表’)’ D表示’.’ ULULCLULCLGLUDCLCLCLALGLULULCDULULCLCDCLALADADGDUDURGRADGRARARADARGRCRURGRGRGRUdURGRARGRARGRGDAD (5)用软件 teiresias找457条公共特征(457/608=75%)。

2. 阴性集合准备 (1)、在ucsc下载refseq.fa (2)、过滤剩11426条 (3)、去重复序列,只剩7898条 (4)、随机抽取608条,计算二级结构。 (5)、把每个位点的二级结构放在相应的位点后面,形成sequence-structure. (6)、用teiresias找457条(457/608=75%)共有的motifs(L=4,W=12,K=457)

3. Libsvm分类: (1) 把阴性和阳性集合中得到的特征放到一起形成head.txt. 在阳性阴性集合中提取特征向量。 抽取特征向量的过程: >hsa-mi-320-1 MI0008190 Homo sapiens mi-320-1 stem-oop UUCUCGUCCCAGUUCUUCCCAAAGUUGAGAAAAGCUGGGUUGAGAGGA ((((((.(((((((.(((.((....)).))).))))))).)))))).. U(U(C(U(C(G(U.C(C(C(A(G(U(U(C.U(U(C(C.C(A(A.A.G.U.U )G)A.G)A)A)A.A)G)C)U)G)G)G)U.U)G)A)G)A)G)G.A. L代表’(‘ R代表’)’ D表示’.’ ULULCLULCLGLUdCLCLCLALGLULULCdULULCLCdCLALAdAdGdUdU RGRAdGRARARAdARGRCRURGRGRGRUdURGRARGRARGRGdAd

特征 LUL..C在序列>hsa-mi-320-1 中的特征向量的分量为2. 它的特征向量为: (2,2,4,2,2,1,1,3,2,4,0,3,2,2,2,2,1,3,2,3,2,2,0,0,1,4,3,2,0,0,2,1,2,1,2,3,2,4,2,2,1,0,1,4,3,4,3,1,2,4,1,1,2,3,3,0,2,0,3,0,1,2,2,7,1,1,1,2,2,1,6,2,0,1,1,3,3,0,2,2,2,1,2,1,1,1,2,3,2,1,2,6,3,3,2,1,2,0,2,3,4,0,0,0,1,1,1,1,0,2,3,1,3,1,1,3,2,4,1,0,3,1,3,3,0,3,3,2,2,3,3,2,1,3,0,0,5,1,2,2,2,1,1,0,1,2,2,1,3,1,1,1,2,2,1,1,1,2,3,3,2,0,2,4,4,1,2,1,3,6,3,2,3,1,1,1,0,3,1,0,3,2,2,3,4,1,0,3,1,1,3,4,0,1,0,1,1,2,1,3,2,0,1,2,2,0,1,2,2,1,1,0,1,1,3,3,1,0,2,3,0,1,3,0,1,0,0,1,1,2,1,1,1,1,2,3,3,1,2,0,3,2,1,1,0,1,0,2,2,1,2,0,1,1,0,0,2,4,1,0,3,1,1,2,1,1,1,1,0,0,4,3,0,0,1,0,0,3,3,2,3,2,1,1,2,3,2,1,3,2,1,2,2,4,2,3,1,0,2,0,2,1,1,3,1,0,2,1,2,0,0,2,1,2,2,4,2,0,1,0,1,0,2,0,3,1,0,1,4,4,3,2,5,2,3,2,2,1,2,5,0,4,1,2,1,1,1,2,2,3,2,5,2,0,0,0,2,0,2,2,2,2,2,1,1,2,3,1,2,1,0,4,2,0,0,1,3,2,0,0,0,1,2,2,2,1,1,1,2,3,1,1,2,1,2,3,0,0,1,3,2,0,2,0,2,2,5,0,1,3,0,2,3,1,0,1,5,0,1,4,2,0,0,2,3,1,4,1,2,0,2,0,1,2,2,1,2,1,1,3,0,3,2,3,2,1,0,1,2,1,3,2,2,0,1,1,2,1,2,1,0,1,5,3,0,0,1,2,1,0,0,0,2,3,3,2,1,1,2,1,2,2,2,3,2,1,0,1,0,2,2,1,1,1,0,1,2,1,0,2,1,2,1,0,1,0,1,4,0,1,0,1,0,3,2,1,0,1,2,4,0,3,2,5,0,2,3,1,1,0,0,1,0,1,1,2,1,3,2,1,1,1,1,3,3,0,1,1,2,1,0,1,1,2,1,2,0,3,1,2,1,3,0,4,2,1,2,3,1,1,2,3,0,0,0,2,3,1,1,2,2,2,4,1,2,1,2,0,1,0,0,2,0,0,3,0,2,1,1,1,0,0,1,1,0,0,0,2,2,2,1,0,2,2,1,2,1,1,4,5,2,1,0,1,1,2,1,3,1,0,1,3,0,0,2,0,2,1,1,4,2,0,4,0,0,1,0,1,1,2,2,0,1,0,2,3,2,0,3,4,1,1,1,1,2,0,0,1,0,2,0,1,0,4,3,0,3,1,1,3,2,0,1,0,1,0,1,1,1,2,1,0,0,0,0,0,2,0,2,1,1,2,1,1,2,0,1,3,2,0,3,0,1,2,0,3,1,2,0,0,2,3,2,0,1,1,3,0,5,2,0,1,3,4,1,1,1,2,2,1,1,0,1,0,2,3,5,3,2,0,2,1,4,2,0,0,1,1,2,1,0,1,4,3,4,0,0,1,0,1,0,0,0,2,0,3,2,1,2,4,1,2,5,1,2,0,1,0,2,2,3,0,0,1,2,4,3,2,2,1,6,0,3,1,1,3,3,1,1,0,0,2,2,0,0,1,1,0,1,0,2,0,0,3,1,1,1,2,1,0,1,1,1,1,1,2,2,0,0,1,0,4,0,0,4,0,2,3,1,0,2,1,1,0,2,0,1,3,1,4,0,1,1,2,3,1,2,1,1,1,2,1,0,0,2,1,3,1,2,1,1,1,2,0,1,0,2,0,3,3,0,3,1,3,0,4,1,1,1,0,2,2,0,0,0,0,0,1,2,2,1,2,2,3,0,4,0,0,3,1,2,2,1,1,0,2,0,0,3,1,0,0,3,3,1,0,0,3,3,1,1,1,0,2,0,1,1,0,1,1,0,2,1,0,2,0,2,0,0,1,2,0,3,2,2,1,0,1,1,0,3,1,0,0,0,3,2,0,0,1,0,2,3,4,1,2,0,3,2,0,1,0,1,1,1,0,0,0,1,2,1,1,2,3,3,0,4,2,1,2,1,5,1,1,0,1,0,2,1,2,1,1,4,0,0,0,1,2,3,1,1,1,1,0,1,2,2,1,1,0,0,1,2,0,1,0,0,2,0,0,0,0,2,5,3,2,1,0,1,0,3,4,3,0,0,1,2,1,3,2,0,3,1,2,0,1,3,0,1,2,0,3,1,1,1,0,0,0,0,0,1,2,1,1,2,3,3,1,1,1,1,3,1,2,0,4,1,4,0,1,1,1,3,1,1,1,2,0,2,3,1,1,3,0,4,2,1,1,1,1,1,1,0,2,2,2,1,1,1,0,2,1,0,2,1,0,2,2,1,0,0,0,1,2,1,2,1,0,0,2,0,2,4,0,0,1,0,3,0,0,1,3,1,3,1,5,2,2,2,2,0,0,0,1,1,3,0,0,1,2,1,2,3,2,0,1,3,1,3,2,5,0,3,2,3,1,0,2,2,0,2,4,3,1,2,2)

(2).用特征矩阵作线性libsvm,按 绝对值大小经行排序。 (3).在608个阳性集合中随机选取4/5,在608个阴性集合中随机选取4 /5放在一起作为训练集,剩余的作为测试集。 (4).选取前面的1300特征做高斯核libsvm.(试了选取不同个数的特征个数)。 (5). 结果,ACC=97.9839%, sp=99.1935%, se=96.774% , AUC=0.9929%

与已有的方法的较: ACC SP SE AUC Mirident 98.39% 99.1935% 97.58% 99.11% 3SVM 83.87% 89.516% 78.226%   3SVM(same training data) 80.24% 84.67% 75.8% Mir-albra Threshold= 0 80.242% 1 60.48387% Threshold= -1 89.5% 95.968% 83.645% Threshold=-2 81.45% 69.354% 93.55% PriMir Score=7 79.84% 100% 54.84% 92% Score=0 84.68% 87.2% 82.26%

特征的位置分布:

讨论: 1.本文的新意在于把序列和序列的二级结构耦合在一起,用软件Teiresias找到了一些miRNAs的特征。有序列和结构耦合在一起的特征(以往的特征序列结构都是分开的)。 2.以往的特征都是很简单的容易察觉的或者来源于生物知识的特征,特征数目很有限,一般最多只有几十个,只能片面性的描述miRNA的特性, 本文方法摆脱了现有生物知识的束缚,从结构和序列出发穷举所有的特征,得到了上万个特征。全面的涵盖了miRNA的序列和结构以及它们耦合在一起的特征。 3.该方法得到的特征,可以给生物学家提供线索,更好的探寻miRNA的发生和功能。 4.用线性libSVM对特征进行排序。选取适当的特征数用高斯核训练分类器。对测试集进行预测,得到很高的SP和SE,比目前已有的方法预测效果都要好。

谢谢大家!