Presentation is loading. Please wait.

Presentation is loading. Please wait.

邹 权 厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq 生物信息学中的分类学习问题 邹 权 厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq.

Similar presentations


Presentation on theme: "邹 权 厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq 生物信息学中的分类学习问题 邹 权 厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq."— Presentation transcript:

1 邹 权 厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq
生物信息学中的分类学习问题 邹 权 厦门大学计算机科学系

2 提纲 DNA/RNA层面上的分类学习问题 蛋白质层面的分类学习问题 新技术带来的分类学习问题 2/57

3 几个概念: 基因、基因组、DNA、染色体、细胞 3/57

4 4/57

5 5/57

6 6/57

7 DNA如何影响生物的性状? 什么叫表达? 7/57

8 中心法则 8/57

9 . A T C G I H S G 9/57

10 是否所有的DNA都转录? 人—仅仅1% 是否所有的RNA都翻译? 10/57

11 真核生物的基因结构 非编码区 编码区 非编码区 RNA聚合酶 结合位点 外显子 内含子 真核细胞基因结构示意图 11/57

12 12/57

13 问题1:识别编码区(ORF) 问题2:辨别外显子、内含子 问题3:识别可变剪切 问题4:识别调控元件
Snyder, E. E., and Stormo, G. D. (1993). Identification of coding regions in genomic DNA sequences: An application of dynamic programming and neural networks. Nucleic Acids Res. 21: 问题2:辨别外显子、内含子 T.M. Chen, C.C. Lu, W.H. Li,(2005) Prediction of splice sites with dependency graphs and their expanded Bayesian networks, Bioinformatics, 21:471–482. 问题3:识别可变剪切 Gideon D. et al(2005) Accurate identification of alternatively spliced exons using support vector machine. Bioinformatics, 21: 问题4:识别调控元件 Jiang B, Zhang MQ, Zhang X, (2007) OSCAR: one-class SVM for accurate recognition of cis-elements, Bioinformatics, 23(5): 13/57

14 问题1:识别ORF NN(GRAIL: a multi-agent neural network system for gene identification) HMM 决策树(A decision tree system for finding genes in DNA .JCB98) 14/57

15 15/57

16 问题2:辨别外显子、内含子 外显子内含子的分界线——剪切位点 也可以称为“识别剪切位点” 特征:三连核苷酸…
分类器:SVM,NB,HMM,BP NN 编码区 外显子 内含子 16/57

17 问题3:识别可变剪切 17/57

18 问题4:识别motif EM算法 Gibbs Sampling
18/57

19 是否所有的DNA都转录? 人—仅仅1% 4个与机器学习有关的问题,还有更多 是否所有的RNA都翻译? 编码RNA与非编码RNA 19/57

20 20/57

21 21/57 21

22 MicroRNA 参与调节的疾病举例 其它疾病 癌 症 - 老年性痴呆 - 糖尿病 - 肺癌 - 心肌肥大 - 直肠癌 - AIDS
癌 症 - 胸腺癌 - 肺癌 - 直肠癌 - 白血病 - 皮肤癌 - 成神经细胞瘤 - 鼻咽癌 - 卵巢癌 22/57 22

23 23/57

24 microRNA中的分类问题 挖掘---对前体的真伪辨别 同源比对 ab initio 靶标---对靶标的真伪辨别 24/57

25 基于同源比对的方法 利用已知的microRNA信息 BLAST 逐步过滤
参考: Wang,X.J. et al (2004) Prediction and identification of Arabidopsis thaliana microRNA genes and their mRNA targets. Genome Biology. 5:R65 25/57

26 26/57

27 microRNA的挖掘-- ab initio方法
Chenghai Xue, Fei Li, Tao He, Guo-Ping Liu, Yanda Li, Xuegong Zhang. Classification of real and pseudo microRNA precursors using local structure-sequence features and support vector machine. BMC Bioinformatics :310(他引167次,截至 ) Peng Jiang, Haonan Wu, Wenkai Wang, Wei Ma, Xiao Sun, Zuhong Lu. MiPred: classification of real and pseudo microRNA precursors using random forest prediction model with combined features. Nucleic Acids Research. 2007,35:W339-W344 (他引107次,截至 ) 27/57

28 28/57

29 29/57

30 30/57

31 microRNA中的分类问题 挖掘---对前体的真伪辨别 同源比对 ab initio 靶标---对靶标的真伪辨别 31/57

32 靶标预测 参考:Improving the prediction of human microRNA target genes by using ensemble algorithm. FEBS Letters 581 (2007) 1587–1593 32/57

33 33/57

34 提纲 DNA/RNA层面上的机器学习问题 蛋白质层面的机器学习问题 分类、鉴别 结构预测 相互作用预测 新技术带来的机器学习问题 34/57

35 35/57

36 参考:LY Han, J Cui, HH Lin, ZL Ji, ZW Cao, YS Li, and YZ Chen
参考:LY Han, J Cui, HH Lin, ZL Ji, ZW Cao, YS Li, and YZ Chen. Recent progresses in the application of machine learning approach for predicting protein functional class independent of sequence similarity. Proteomics 2006, 6(14): 36/57

37 The Protein Folding Problem
Secondary structures α-helix Average 10 residues, or three turns Glutamine, methionine, and leucine favor -helix Valine, serine, aspartic acid, and asparagine tend to destabilize helices β-sheet Generally 5~10 residues Valine, isoleucine, and phenylalanine enhance -Sheets Proline doesn’t fit well into -Sheets Loop The sections of the sequence that connect the other two kinds of secondary structure 37/57

38 蛋白质二级结构预测问题 输入 IRNSSNISPASMIFRNLLILEDDLRRQAHEQKILKWQFTLFLASMAGVGAFTFYELYF 输出 HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH----EEEEEEEE 参考:Fusion of classifiers for protein fold recognition. Neurocomputing 68 (2005) 315–321 38/57

39 39/57

40 40/57

41 相互作用预测 相互作用网络 相互作用位点预测
参考:于建涛, 郭茂祖, 蔡禄. 蛋白质相互作用及其网络预测方法研究进展. 电子学报.2007,35(12A):1-7 Li Minghui, et al. Protein–protein interaction site prediction based on conditional random fields. BIOINFORMATICS. Vol. 23 no , pages 597–604 41/57

42 提纲 DNA/RNA层面上的机器学习问题 蛋白质层面的机器学习问题 新技术带来的机器学习问题 microArray Assembling
SNP 42/57

43 43/57

44 44/57

45 45/57

46 microArray中的机器学习问题 样本分类(疾病诊断) 基因聚类 高维、小样本 代价敏感 正反例不平衡 属性缺失 层次聚类
参考:时序微阵列数据中的同步和异步共调控基因聚类. 计算机学报. 2007,30: 对于基因表达数据的基于类别树和SVM的多类癌症分类算法.计算机研究与发展,2004,41: Hierarchical clustering of gene expression profiles with graphics hardware acceleration. Pattern Recognition Letters. 2006,27: A comprehensive evaluation of multicategory classification methods for microarray gene expression cancer diagnosis. Bioinformatics : 46/57

47 测序技术的发展(1) 已在市场上的下一代平台
GA – Illumina/Solexa SBS 通过可逆荧光终止法(FISSEQ) GS FLX – Roche/454 Life Sciences SBS 通过焦磷酸测序 SOLiD – ABI/Agencourt SBL 通过双碱基编码 47/57 47

48 三十年来测序的发展 48/57

49 测序技术的发展(2) 2nd Generation Performance
49/57

50 50/57

51 重复区域 51/57

52 52/57

53 图模型下的片段组装 参考: Butler, J., Maccallum, I., Kleber, M., Shlyakhter, I.A., Belmonte, M.K., Lander, E.S., Nusbaum, C., and Jaffe, D.B. ALLPATHS: De novo assembly of whole-genome shotgun microreads. Genome Res.2008, 18: 810–820. Zerbino, D. and Birney, E. Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008,18: 821–829. J.T.Simpson et al. ABySS: A parallel assembler for short read sequence data. Genome Res. 2009 53/57

54 SNP 什么是SNP 为什么研究它 54/57

55 55/57

56 SNP中的计算问题 疾病预测/人群分类 nsSNP tagSNP 挖掘SNP 基因组压缩
参考:Haplotype Pattern Mining & Classification for detecting disease associated Site.CSB2003 nsSNP 参考:Finding new structural and sequence attributes to predict possible disease association of single amino acid polymorphism (SAP).Bioinformatics. 2007,23(12):1444–1450 tagSNP 参考: Jun Wang, Mao-zu Guo, Chun-yu Wang. CGTS: a site-clustering graph based tagSNP selection algorithm in genotype data.BMC Bioinformatics. 2009 挖掘SNP 参考:Jun Wang*, Quan Zou*, Maozu Guo. Mining SNPs from EST sequences using filters and ensemble classifiers. Genetics and Molecular Research. 2010,9(2): 基因组压缩 compress a human genome from 3.2GB to 4.1MB 参考:Human genomes as attachments. Bioinformatics 25: (2009). 56/57

57 END 欢迎给出任何意见和建议 57/57


Download ppt "邹 权 厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq 生物信息学中的分类学习问题 邹 权 厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq."

Similar presentations


Ads by Google