MicroRNA预测分类及其特性研究 胡玲玲 指导老师:邹 权 副教授 王其聪 副教授
本文目录结构 目录 1 选题背景及意义 2 miRNA特性及研究预测算法介绍 3 家族分类及其生物医学应用
选题背景及意义
什么是microRNA(miRNA)? microRNA前体 包含 成熟体microRNA AUCGUGCAGAGACUAGACUGAC pre-miRNA为单一发夹结构, pre-miRNA经进一步剪切,形成长度约为22个碱基的单链成熟miRNA AUCGUGCAGAGACUAGACUGAC ~22nt 4
研究意义及现状 生物研究miRNA 生物信息学 生物验证 miRNA作用重大 miRNA挖掘 前体预测 家族预测 其他 发育 病毒防御 造血过程 器官形成 细胞增殖 生物研究miRNA 生物信息学 miRNA挖掘 前体预测 家族预测 其他 生物验证
主要工作 miRNA预测挖掘方法总结对比 miRNA家族预测及生物医学应用 提出一种不平衡分类算法
miRNA预测方法综述
miRNA前体分类方法 Software Positive data Negative data Sensitivity Specificity Accuracy tp fn tn fp microPred 1591 109 260 1440 93.59% 15.29% 37.51% MiPred 73 17 62 28 81.11% 68.89% 75.00% Virgo 931 408 1080 506 69.52% 68.10% 68.75% Triplet-SVM 1007 283 442 307 78.06% 59.01% 71.41%
miRNA提取挖掘方法 Software 预测的数量 已知的数量 预测正确的数量 Precision Recall MirAlign 16 25 14 87.50% 56.00% miRabela 26 15 93.75% 57.69% MIReNA 38 42 27 71.05% 64.29%
家族分类及生物医学应用
一致的二级结构 family 类似的生物学功能 Family:let-7 other m1 m2 目的:让miRNA正确的找到所属家族 m3
miRBase18.0中家族分布图 top19(20类) 大家族包含 未知序列更有可能 top99(100类) 大部分的miRNA all(1314类) 大家族包含 大部分的miRNA 未知序列更有可能 属于大家族
分层的随机森林预测模型
执行流程 使用20类模型预测序列(图1) first layer 图1 second layer 使用100类模型预测序列(图1) 否则 结果类标<=19 second layer 使用100类模型预测序列(图1) 否则 结果类标<=99 全类标预测(图1) third layer 从PubMed查询预测结果家族相关的疾病信息
实验设计 miRClassify 评价标准 输入 [sequence] 输出 [family] 20类文件 训练集大小的影响 [50%,66%,80%,90%] <RF> 10-fold-CV 评价标准 100类文件 不同n-gram的影响 [3-gram,4-gram,5-gram,6gram] <RF> 1314类文件 每层的预测准确度 [1st layer,2nd layer,3rd layer] <RF> 不同分类算法的影响 [RT,RF, Decision Tree,SVM,NN,Boost+RF,Boost+SVM]
结果 Classifiers* Acc of 1st layer Acc of 2nd layer Acc of 3rd layer Random Tree 90.92 75.06 47.04 Random Forest 95.14 85.56 69.59 Decision Tree 95.11 59.20 61.84 Support Vector Machine (SVM) 85.88 61.41 55.59 Nearest Neighbour 93.85 89.63 69.74 Boost+Random Forest 95.36 87.02 72.10 Boost+SVM 84.54 60.14 26.63
网站 我们提供了一个用户友好的wen服务,在预测结果中,用户可以点击detail来查看miRNA家族相关的疾病信息,这些疾病信息均是从PubMed中挖掘出来的
不平衡分类及miRNA上应用
不平衡分类现状和意义 金融欺诈检测 医疗诊断 网络入侵检测 反垃圾邮件 生物信息学等领域
改进算法 基于采样 过抽样 欠抽样 基于集成分类器 基于单个基分类器 Bagging算法 基于多个基分类器 Vote算法 过拟合 易丢失重要信息
单一基分类器与集成分类器 2 1 2 1 2
不平衡分类算法imDC …… …… 5个最优算法C[5] N- / N+决定基分类器个数n 基分类算法:n%5 C[5] J48 RF 不平衡数据集 分类 5个最优算法C[5] other J48 RF 样本 小类样本集 大类样本集 大类样本集(权重) 按权重抽样 按权重抽样 数据集Dn 数据集D1 …… 错分样本 错分样本 N- / N+决定基分类器个数n 基分类算法:n%5 C[5] 基分类器1 …… 基分类器n 加权投票 加权投票 集成分类器
实验设计 说明 数据集 表1 uci数据 对比算法 说明 数据集 对比算法 表2 miRNA数据 cmc,haberman,ionosphere,letter和pima 对比算法 AdaBoost ,随机降采样(UnderSampl),混合采样( HSampl),AsymBoost,BalanceCascade和LibID 表2 miRNA数据 说明 数据集 miRNA前体数据集 对比算法 Triplet-svm,LibID
UCI数据实验对比
miRNA实验对比
总结和展望
总结 主要创新点 提出了一种分层级联的家族分类预测的方法 引入了一种不平衡分类策略:ImDC 对比分析主流的miRNA挖掘预测方法 展望 相关理论研究 不平衡分类时间性能,参数调优
研究成果 Quan Zou*, Yaozong Mao, Lingling Hu, Yunfeng Wu, Zhiliang Ji*. miRClassify: An advanced web server for miRNA family classification and annotation. Computers in Biology and Medicine. 2014, 45:157-160. (SCI 3区, IF2011=1.089) Chunyu Wang, Lingling Hu, Maozu Guo, Quan Zou. An ensemble learning method for identifying imbalanced miRNA data. Genetics and Molecular Research. Accepted (SCI, IF2010=1.013) Lingling Hu, Yong Huang, Qicong Wang,Quan Zou, Yi Jiang. Benchmark comparison of ab initio microRNA identification methods and software. Genetics and Molecular Research. 2012, 11(4):4525-4538. (SCI, IF2010=1.013)
谢 谢 欢迎各位老师同学批评指正