邹 权 厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq 生物信息学中的分类学习问题 邹 权 厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq.

Slides:



Advertisements
Similar presentations
陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
Advertisements

蛋白质与人类健康 曹春阳 中国科学院上海有机化学研究所 —— 生命有机化学应用. 报告内容 蛋白质分子结构 蛋白质样品制备 蛋白质结构测定.
班級:四食四甲 學號: 姓名:陳雅欣 日期:101年10月15日
13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎?
第十七章 基因组学与医学 GENOMICS AND MEDICINE 刘新文 北京大学医学部生化与分子生物学系.
Welcome Each of You to My Molecular Biology Class
DNA测序技术 DNA Sequencing
防禦系統 防禦系統: 由一系列特化的分子、細胞、組織、器官所組成,用以保護人體,免受病原體及有毒物質的入侵
文献传递和馆际互借 江南大学图书馆B712 张娣
人类基因组学 朱德裕.
汇报人:李臻 中国海洋大学信息科学与工程学院 计算机科学与技术系
第七章 NP问题选讲 邹权(博士) 计算机科学系.
数学建模实践 与学生科研素质培养 报告人:王文娟.
資料探勘(Data Mining)及其應用之介紹
主讲人:孙 啸 制作人:刘志华 东南大学 吴健雄实验室
邹 权 (博士、副教授) 厦门大学数据挖掘实验室
第一章 蛋白质的结构与功能 Structure and Function of Protein.
个人总结及展望 主讲人:胡玲玲.
一、现状与问题 整体竞争能力不强 服务品质不高 市场秩序失范 管理效率低下 旅游旺季人满为患 资源和环境保护不力 欺客宰客的现象时有发生
生命特殊吗? “生命物质” 特殊吗? 生命活动的物质基础:化学家所知的生命物质.
生物信息学 Bioinformatics.
libD3C: 一种免参数的、支持不平衡分类的二类分类器
生物資訊 bioinformatics 林育慶.
中科院“百人计划”终期评估汇报 卢 克 清 中科院西安光学精密机械研究所.
資訊管理 第九章 資料採礦.
报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理
3.1 胺基酸─通式及三度空間結構 構成蛋白質之胺基酸只有20種,且全部屬於α-型 胺基酸之特性由側鏈(side chain group, R group)決定。→Fig.3.1.
生物資訊 (Bioinformatics)
姓名:何康綸 學號:M 指導教授:楊朝平 博士
당신을 향한 노래.
化学生物信息学 -从进化到药物发现 张红雨 (华中农业大学生物信息中心).
5、利用EST数据库发现新基因 EST (expressed sequence tags),是从基因表达的短的序列,携带着完整基因某些片断的信息,称为表达序列标签 获得一个EST的途径有三种:1 大规模测序;2 比较同源性;3 差异显示或基因芯片法获得与某一性状相关的EST 电脑克隆 第一步,找到与待克隆基因相关的EST;第二步.
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
基本概念介紹 生命是什麼? 生命的密碼~DNA 解讀生命的執行者~RNA 生命舞台的主演者~蛋白質 DNA、RNA、蛋白質的三角關係
第二章:生物学基础 主讲教师: 钱 骏 教授 Tel: / / Homepage:
第二章:生物学基础 主讲教师: 钱 骏 副教授 Tel: / / Homepage:
國立陽明大學 臨床醫學研究所 簡報 2005 報告人 臨床醫學研究所所長 吳肇卿 教授.
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
黎建辉 INF方面阶段性总结.
Authors: Saumil Mehta and Deendayal Dinakarpandian
基于基因集富集分析的畜禽复杂性状GWAS分析平台及其应用
高职申请 申 请 人:孟增 竞聘岗位:副教授 研究方向:结构优化设计及可靠性分析 设岗学科:工程力学 土木与水利工程学院
天線工程期中報告 “Low-SAR Hexa-Band Antenna for Mobile
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
103學年度「教學獎」申請理念說明 黃慧玲 生物科技學系 04/27/2015.
基于类关联规则的分类 Classification Based on Class-Association Rules
近期科研汇报 报告人: 纪爱兵.
谈模式识别方法在林业管理问题中的应用 报告人:管理工程系 马宁 报告地点:学研B107
数据摘要现状调研报告 上下文摘要初步思考 徐丹云.
資料結構 Data Structures Fall 2006, 95學年第一學期 Instructor : 陳宗正.
模式识别与智能系统研究中心介绍 2017年8月.
第十四章 氨基酸、多肽与蛋白质 第一节 氨基酸 一、氨基酸的结构和分类 除甘氨酸和脯氨酸外,其他均具有如下结构通式。 不变部分 -氨基酸
DNA, 核酸, 雙螺旋, 基因, 染色體 A T G C T C G A A T T G G C 組合單位 核苷酸
第十章 線上行銷研究.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
第二节 核酸与细胞核.
系统科学与复杂网络初探 刘建国 上海理工大学管理学院
Interactome data and databases: different types of protein interaction
有时挂在天边, 有时落在树梢, 有时像个圆盘, 有时像把镰刀。.
Research Focus 研究方向為探討癌症因子機制及治療抗性之分子病理機制,並找尋癌症標誌並研發治療標誌與藥物。研究方向包含
An Quick Introduction to R and its Application for Bioinformatics
缅怀植物学家钟 扬:一个心怀家国的“善梦者”
(Unit I: Protein Structure and Function)
蛋白質交互作用資料庫、 網路拓樸分析與藥物標的搜尋 Protein Interactome, Topological Analysis on Complex Network for Identification of Drug Target
有时落在山腰,有时挂在树梢,有时像个圆盘,有时像把镰刀 。
Bayesian Joint Prediction of Associated Transcription Factors in Bacillus subtilis 陳冠廷 陳靜儀 謝仁傑 林敬恆.
DNA RNA Protein Central Dogma 複 製 轉 錄 逆轉錄 轉 譯 Replication Reverse
申 请 人:李强明 申报职务:副教授 所在单位:食品与生物工程学院
WiFi is a powerful sensing medium
Presentation transcript:

邹 权 厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq 生物信息学中的分类学习问题 邹 权 厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq

提纲 DNA/RNA层面上的分类学习问题 蛋白质层面的分类学习问题 新技术带来的分类学习问题 2/57

几个概念: 基因、基因组、DNA、染色体、细胞 3/57

4/57

5/57

6/57

DNA如何影响生物的性状? 什么叫表达? 7/57

中心法则 8/57

. A T C G I H S G 9/57

是否所有的DNA都转录? 人—仅仅1% 是否所有的RNA都翻译? 10/57

真核生物的基因结构 非编码区 编码区 非编码区 RNA聚合酶 结合位点 外显子 内含子 真核细胞基因结构示意图 11/57

12/57

问题1:识别编码区(ORF) 问题2:辨别外显子、内含子 问题3:识别可变剪切 问题4:识别调控元件 Snyder, E. E., and Stormo, G. D. (1993). Identification of coding regions in genomic DNA sequences: An application of dynamic programming and neural networks. Nucleic Acids Res. 21: 607-613. 问题2:辨别外显子、内含子 T.M. Chen, C.C. Lu, W.H. Li,(2005) Prediction of splice sites with dependency graphs and their expanded Bayesian networks, Bioinformatics, 21:471–482. 问题3:识别可变剪切 Gideon D. et al(2005) Accurate identification of alternatively spliced exons using support vector machine. Bioinformatics, 21:897-901 问题4:识别调控元件 Jiang B, Zhang MQ, Zhang X, (2007) OSCAR: one-class SVM for accurate recognition of cis-elements, Bioinformatics, 23(5): 531-537 13/57

问题1:识别ORF NN(GRAIL: a multi-agent neural network system for gene identification) HMM 决策树(A decision tree system for finding genes in DNA .JCB98) 14/57

15/57

问题2:辨别外显子、内含子 外显子内含子的分界线——剪切位点 也可以称为“识别剪切位点” 特征:三连核苷酸… 分类器:SVM,NB,HMM,BP NN 编码区 外显子 内含子 16/57

问题3:识别可变剪切 17/57

问题4:识别motif EM算法 Gibbs Sampling 18/57

是否所有的DNA都转录? 人—仅仅1% 4个与机器学习有关的问题,还有更多 是否所有的RNA都翻译? 编码RNA与非编码RNA 19/57

20/57

21/57 21

MicroRNA 参与调节的疾病举例 其它疾病 癌 症 - 老年性痴呆 - 糖尿病 - 肺癌 - 心肌肥大 - 直肠癌 - AIDS 癌 症 - 胸腺癌 - 肺癌 - 直肠癌 - 白血病 - 皮肤癌 - 成神经细胞瘤 - 鼻咽癌 - 卵巢癌 22/57 22

23/57

microRNA中的分类问题 挖掘---对前体的真伪辨别 同源比对 ab initio 靶标---对靶标的真伪辨别 24/57

基于同源比对的方法 利用已知的microRNA信息 BLAST 逐步过滤 参考: Wang,X.J. et al (2004) Prediction and identification of Arabidopsis thaliana microRNA genes and their mRNA targets. Genome Biology. 5:R65 25/57

26/57

microRNA的挖掘-- ab initio方法 Chenghai Xue, Fei Li, Tao He, Guo-Ping Liu, Yanda Li, Xuegong Zhang. Classification of real and pseudo microRNA precursors using local structure-sequence features and support vector machine. BMC Bioinformatics. 2005.6:310(他引167次,截至11.12.12) Peng Jiang, Haonan Wu, Wenkai Wang, Wei Ma, Xiao Sun, Zuhong Lu. MiPred: classification of real and pseudo microRNA precursors using random forest prediction model with combined features. Nucleic Acids Research. 2007,35:W339-W344 (他引107次,截至11.12.12) 27/57

28/57

29/57

http://dbgroup.cs.tsinghua.edu.cn/zouquan/libid/ 30/57

microRNA中的分类问题 挖掘---对前体的真伪辨别 同源比对 ab initio 靶标---对靶标的真伪辨别 31/57

靶标预测 参考:Improving the prediction of human microRNA target genes by using ensemble algorithm. FEBS Letters 581 (2007) 1587–1593 32/57

33/57

提纲 DNA/RNA层面上的机器学习问题 蛋白质层面的机器学习问题 分类、鉴别 结构预测 相互作用预测 新技术带来的机器学习问题 34/57

35/57

参考:LY Han, J Cui, HH Lin, ZL Ji, ZW Cao, YS Li, and YZ Chen 参考:LY Han, J Cui, HH Lin, ZL Ji, ZW Cao, YS Li, and YZ Chen. Recent progresses in the application of machine learning approach for predicting protein functional class independent of sequence similarity. Proteomics 2006, 6(14): 4023-4037 36/57

The Protein Folding Problem Secondary structures α-helix Average 10 residues, or three turns Glutamine, methionine, and leucine favor -helix Valine, serine, aspartic acid, and asparagine tend to destabilize helices β-sheet Generally 5~10 residues Valine, isoleucine, and phenylalanine enhance -Sheets Proline doesn’t fit well into -Sheets Loop The sections of the sequence that connect the other two kinds of secondary structure 37/57

蛋白质二级结构预测问题 输入 IRNSSNISPASMIFRNLLILEDDLRRQAHEQKILKWQFTLFLASMAGVGAFTFYELYF 输出 -----------HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH----EEEEEEEE 参考:Fusion of classifiers for protein fold recognition. Neurocomputing 68 (2005) 315–321 38/57

39/57

40/57

相互作用预测 相互作用网络 相互作用位点预测 参考:于建涛, 郭茂祖, 蔡禄. 蛋白质相互作用及其网络预测方法研究进展. 电子学报.2007,35(12A):1-7 Li Minghui, et al. Protein–protein interaction site prediction based on conditional random fields. BIOINFORMATICS. Vol. 23 no. 5 2007, pages 597–604 41/57

提纲 DNA/RNA层面上的机器学习问题 蛋白质层面的机器学习问题 新技术带来的机器学习问题 microArray Assembling SNP 42/57

43/57

44/57

45/57

microArray中的机器学习问题 样本分类(疾病诊断) 基因聚类 高维、小样本 代价敏感 正反例不平衡 属性缺失 层次聚类 参考:时序微阵列数据中的同步和异步共调控基因聚类. 计算机学报. 2007,30:1302-1314 对于基因表达数据的基于类别树和SVM的多类癌症分类算法.计算机研究与发展,2004,41:436-441. Hierarchical clustering of gene expression profiles with graphics hardware acceleration. Pattern Recognition Letters. 2006,27:676-681 A comprehensive evaluation of multicategory classification methods for microarray gene expression cancer diagnosis. Bioinformatics. 2005.21:631-643 46/57

测序技术的发展(1) 已在市场上的下一代平台 GA – Illumina/Solexa SBS 通过可逆荧光终止法(FISSEQ) GS FLX – Roche/454 Life Sciences SBS 通过焦磷酸测序 SOLiD – ABI/Agencourt SBL 通过双碱基编码 47/57 47

三十年来测序的发展 48/57

测序技术的发展(2) 2nd Generation Performance 49/57

50/57

重复区域 51/57

52/57

图模型下的片段组装 参考: Butler, J., Maccallum, I., Kleber, M., Shlyakhter, I.A., Belmonte, M.K., Lander, E.S., Nusbaum, C., and Jaffe, D.B. ALLPATHS: De novo assembly of whole-genome shotgun microreads. Genome Res.2008, 18: 810–820. Zerbino, D. and Birney, E. Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008,18: 821–829. J.T.Simpson et al. ABySS: A parallel assembler for short read sequence data. Genome Res. 2009 53/57

SNP 什么是SNP 为什么研究它 54/57

55/57

SNP中的计算问题 疾病预测/人群分类 nsSNP tagSNP 挖掘SNP 基因组压缩 参考:Haplotype Pattern Mining & Classification for detecting disease associated Site.CSB2003 nsSNP 参考:Finding new structural and sequence attributes to predict possible disease association of single amino acid polymorphism (SAP).Bioinformatics. 2007,23(12):1444–1450 tagSNP 参考: Jun Wang, Mao-zu Guo, Chun-yu Wang. CGTS: a site-clustering graph based tagSNP selection algorithm in genotype data.BMC Bioinformatics. 2009 挖掘SNP 参考:Jun Wang*, Quan Zou*, Maozu Guo. Mining SNPs from EST sequences using filters and ensemble classifiers. Genetics and Molecular Research. 2010,9(2):820-834. 基因组压缩 compress a human genome from 3.2GB to 4.1MB 参考:Human genomes as email attachments. Bioinformatics 25: 274-275 (2009). 56/57

END 欢迎给出任何意见和建议 zouquan@xmu.edu.cn 57/57