MicroRNA预测分类及其特性研究 胡玲玲 指导老师:邹 权 副教授 王其聪 副教授

Slides:



Advertisements
Similar presentations
课前预习学案 课堂讲练学案 课后活页作业 工具 工具 科学之光 栏目导引. 课前预习学案 课堂讲练学案 课后活页作业 工具 工具 科学之光 栏目导引.
Advertisements

厅直属单位卫生科技工作 座谈会 卫生高级专业技术资格申报评审 政策解读和工作要求
SCI 论文网 SCI论文写作 ——诊断试验类.
2015年工作总结及2016年工作计划 建筑环境与能源应用工程系 2015年1月6日.
古代汉语(上).
肺癌放疗新概念: 瘤根靶向放疗 北京大学临床肿瘤学院 北京肿瘤医院放疗科.
辨析近义词的方法 (一) 词的色彩不同 词语色彩----感情色彩 ----语体色彩.
农学院 学年 工作总结及下学年重点工作.
國立嘉義大學 資訊工程研究所 指導教授:柯建全 博士 研究生:林俊志
「幼兒園教保活動與課程大綱」 的發展與理念
上海第二医科大学校长 ——沈晓明.
目的要求:骨骼肌的形态与结构、功能与分布 重点难点:肌的形态与结构,主要肌的分布、名称
针灸治疗学讲稿 山东中医药大学 高树中.
Some theoretical notes on boosting
第一章 会计信息系统 第一节 计算机会计概述.
企业涉税业务基本知识宣传 郑州航空港区国家税务局机场税务分局 王 磊.
大 播 海 直.
证券交易模拟 第2讲 交易规则与盘面术语.
医知网引文数据库 医知网引文数据库 祖传辉
2013年临床科室述职报告.
一种基于结构序列 藕合模块辨别人类 miRNA前体的新方法
中国博士后科学基金 交流体会.
荆楚理工学院 申请学士学位授权单位 自 评 报 告 荆楚理工学院:吴麟章
資料探勘(Data Mining)及其應用之介紹
专题五 文言文翻译和断句——巧抓文句信息翻译断句
邹 权 厦门大学计算机科学系 生物信息学中的分类学习问题 邹 权 厦门大学计算机科学系
邹 权 (博士、副教授) 厦门大学数据挖掘实验室
职业教育课程改革创新教材 财经法规与会计职业道德.
个人总结及展望 主讲人:胡玲玲.
基本要求:了解隋朝各项制度的历史渊源及其各方面的发展成就的社会基础,力求领会中国封建社会历史发展的基本规律并真正把握隋朝的历史地位。
第三节 细胞外被与细胞外基质 1、胶原 细胞外被(糖萼)指细胞外覆盖的一层粘多糖(糖蛋白或糖脂)
臺北科技大學 新進人員研習  研究發展處 宣導資料.
第四章 时间序列的分析 本章教学目的:①了解从数量方面研究社会经济现象发展变化过程和发展趋势是统计分析的一种重要方法;②掌握时间数列编制的基本要求;③理解和掌握水平速度两方面指标的计算及运用④理解和掌握长期趋势分析和预测的方法。 本章教学重点:现象发展的水平指标和速度指标。 本章教学难点:现象变动的趋势分析。
伟人细胞 秦文君.
选修1-1第3章、2-2第1章 导数及其应用 DAO SHU JI QI YING YONG.
一、古代中国的农业经济 必修二 /专题一 古代中国经济的基本结构与特点 ▲1.农业的主要耕作方式和土地制度
实践 课题 周围环境对当代大学生成长的影响 指导老师:王永章 小组成员:陈荣、刘若楠、张红艳、吕雪丹、樊金芳、李惠芬、黄婧
临床生化方法 的建立选择与评价.
2009届高考专项复习 ——辨析病句.
libD3C: 一种免参数的、支持不平衡分类的二类分类器
文本分类综述 王 斌 中国科学院计算技术研究所 2002年12月.
당신을 향한 노래.
啟示錄 人 子 七 教 會 寶 座 七 印 七 號 龍 與 獸 七 碗 巴 比 倫 千 禧 年 前 後 新 耶 路 撒 冷 第9章(第5號)
VISP+MS 国际高校访问学生 及统计理学硕士项目
LOGO 清爽开题报告PPT模板 姓 名 导 师 搜集整理.
数据挖掘工具性能比较.
义务教育课程标准实验教科书七年级上册第24课
「前世的五百次回眸換得今生的一次擦肩而過」~席慕蓉 有緣千里來相聚 歡迎學弟妹來到經國建研所
近期科研汇报 报告人: 纪爱兵.
研究經驗與趨勢分享 黃悅民 Department of Engineering Science,
Science and technology report service systemUsage method
WSDM见闻 程龚.
谈模式识别方法在林业管理问题中的应用 报告人:管理工程系 马宁 报告地点:学研B107
SOA – Experiment 2: Query Classification Web Service
建国以来,大陆对台政策 金亚丽 周莎 黄运娜.
诗经·蒹葭.
毕业论文答辩 答辩学生:宝藏PPT 指导老师:XXX.
新高中通識教育科教案設計分享會 現代中國: 中國文化與現代生活 朱秀玲老師.
现代教育技术应用 第一章 现代教育技术基础 第6讲 何克抗教授关于多媒体课件的理论研究 单 位: 北京师范大学 作 者: 毛荷&王翠霞.
中国风背景论文答辩模板 某大学某某信息学院 答辩学生:代用名 指导老师:代用名 答辩时间:201X年1月30日
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
静定结构位移计算 ——互等定理 主讲教师:戴萍.
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
基于最大margin的决策树归纳 李 宁.
2.古诗两首 自忠小学 赵镒涓.
推動搖籃的手─製作部門 ﹝西子劇坊﹞ 蔡如歆.
关于口技:杂技的一种。演员运用口腔发声技巧来模仿各种声音。它能同时发出各种音响,这种技艺,清代属“百戏”之一种,表演者多隐身在布幔或屏风的后边,俗称“隔壁戏” 。现代口技表演,演员不必隐身,改为借助扩音器发出各种声响,并且可以借助于动作、手势。
论文题目写在这里 题目太长分两行写也可以哦 - 国际经济与贸易 指导老师
毕业论文答辩模版 北京大学 某某某某专业 2015级本科08班 论文宝 答辩人: 教授 导师: Peking University
《神经网络与深度学习》 第10章 模型独立的学习方式
Presentation transcript:

MicroRNA预测分类及其特性研究 胡玲玲 指导老师:邹 权 副教授 王其聪 副教授

本文目录结构 目录 1 选题背景及意义 2 miRNA特性及研究预测算法介绍 3 家族分类及其生物医学应用

选题背景及意义

什么是microRNA(miRNA)? microRNA前体 包含 成熟体microRNA AUCGUGCAGAGACUAGACUGAC pre-miRNA为单一发夹结构, pre-miRNA经进一步剪切,形成长度约为22个碱基的单链成熟miRNA AUCGUGCAGAGACUAGACUGAC ~22nt 4

研究意义及现状 生物研究miRNA 生物信息学 生物验证 miRNA作用重大 miRNA挖掘 前体预测 家族预测 其他 发育 病毒防御 造血过程 器官形成 细胞增殖 生物研究miRNA 生物信息学 miRNA挖掘 前体预测 家族预测 其他 生物验证

主要工作 miRNA预测挖掘方法总结对比 miRNA家族预测及生物医学应用 提出一种不平衡分类算法

miRNA预测方法综述

miRNA前体分类方法 Software Positive data Negative data Sensitivity Specificity Accuracy tp fn tn fp microPred 1591 109 260 1440 93.59% 15.29% 37.51% MiPred 73 17 62 28 81.11% 68.89% 75.00% Virgo 931 408 1080 506 69.52% 68.10% 68.75% Triplet-SVM 1007 283 442 307 78.06% 59.01% 71.41%

miRNA提取挖掘方法 Software 预测的数量 已知的数量 预测正确的数量 Precision Recall MirAlign 16 25 14 87.50% 56.00% miRabela 26 15 93.75% 57.69% MIReNA 38 42 27 71.05% 64.29%

家族分类及生物医学应用

一致的二级结构 family 类似的生物学功能 Family:let-7 other m1 m2 目的:让miRNA正确的找到所属家族 m3

miRBase18.0中家族分布图 top19(20类) 大家族包含 未知序列更有可能 top99(100类) 大部分的miRNA all(1314类) 大家族包含 大部分的miRNA 未知序列更有可能 属于大家族

分层的随机森林预测模型

执行流程 使用20类模型预测序列(图1) first layer 图1 second layer 使用100类模型预测序列(图1) 否则 结果类标<=19 second layer 使用100类模型预测序列(图1) 否则 结果类标<=99 全类标预测(图1) third layer 从PubMed查询预测结果家族相关的疾病信息

实验设计 miRClassify 评价标准 输入 [sequence] 输出 [family] 20类文件 训练集大小的影响 [50%,66%,80%,90%] <RF> 10-fold-CV 评价标准 100类文件 不同n-gram的影响 [3-gram,4-gram,5-gram,6gram] <RF> 1314类文件 每层的预测准确度 [1st layer,2nd layer,3rd layer] <RF> 不同分类算法的影响 [RT,RF, Decision Tree,SVM,NN,Boost+RF,Boost+SVM]

结果 Classifiers* Acc of 1st layer Acc of 2nd layer Acc of 3rd layer Random Tree 90.92 75.06 47.04 Random Forest 95.14 85.56 69.59 Decision Tree 95.11 59.20 61.84 Support Vector Machine (SVM) 85.88 61.41 55.59 Nearest Neighbour 93.85 89.63 69.74 Boost+Random Forest 95.36 87.02 72.10 Boost+SVM 84.54 60.14 26.63

网站 我们提供了一个用户友好的wen服务,在预测结果中,用户可以点击detail来查看miRNA家族相关的疾病信息,这些疾病信息均是从PubMed中挖掘出来的

不平衡分类及miRNA上应用

不平衡分类现状和意义 金融欺诈检测 医疗诊断 网络入侵检测 反垃圾邮件 生物信息学等领域

改进算法 基于采样 过抽样 欠抽样 基于集成分类器 基于单个基分类器 Bagging算法 基于多个基分类器 Vote算法 过拟合 易丢失重要信息

单一基分类器与集成分类器 2 1 2 1 2

不平衡分类算法imDC …… …… 5个最优算法C[5] N- / N+决定基分类器个数n 基分类算法:n%5 C[5] J48 RF 不平衡数据集 分类 5个最优算法C[5] other J48 RF 样本 小类样本集 大类样本集 大类样本集(权重) 按权重抽样 按权重抽样 数据集Dn 数据集D1 …… 错分样本 错分样本 N- / N+决定基分类器个数n 基分类算法:n%5 C[5] 基分类器1 …… 基分类器n 加权投票 加权投票 集成分类器

实验设计 说明 数据集 表1 uci数据 对比算法 说明 数据集 对比算法 表2 miRNA数据 cmc,haberman,ionosphere,letter和pima 对比算法 AdaBoost ,随机降采样(UnderSampl),混合采样( HSampl),AsymBoost,BalanceCascade和LibID 表2 miRNA数据 说明 数据集 miRNA前体数据集 对比算法 Triplet-svm,LibID

UCI数据实验对比

miRNA实验对比

总结和展望

总结 主要创新点 提出了一种分层级联的家族分类预测的方法 引入了一种不平衡分类策略:ImDC 对比分析主流的miRNA挖掘预测方法 展望 相关理论研究 不平衡分类时间性能,参数调优

研究成果 Quan Zou*, Yaozong Mao, Lingling Hu, Yunfeng Wu, Zhiliang Ji*. miRClassify: An advanced web server for miRNA family classification and annotation. Computers in Biology and Medicine. 2014, 45:157-160. (SCI 3区, IF2011=1.089) Chunyu Wang, Lingling Hu, Maozu Guo, Quan Zou. An ensemble learning method for identifying imbalanced miRNA data. Genetics and Molecular Research. Accepted (SCI, IF2010=1.013) Lingling Hu, Yong Huang, Qicong Wang,Quan Zou, Yi Jiang. Benchmark comparison of ab initio microRNA identification methods and software. Genetics and Molecular Research. 2012, 11(4):4525-4538. (SCI, IF2010=1.013)

谢 谢 欢迎各位老师同学批评指正