邹权厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq 生物信息学中的分类学习问题邹权厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq.

Slides:

Advertisements

Similar presentations

陳春賢老師長庚大學資管系報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )

Advertisements

蛋白质与人类健康曹春阳中国科学院上海有机化学研究所 —— 生命有机化学应用. 报告内容蛋白质分子结构蛋白质样品制备蛋白质结构测定.

班級：四食四甲學號：姓名：陳雅欣日期：101年10月15日

13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎？

第十七章基因组学与医学 GENOMICS AND MEDICINE 刘新文北京大学医学部生化与分子生物学系.

Welcome Each of You to My Molecular Biology Class

DNA测序技术 DNA Sequencing

防禦系統防禦系統：由一系列特化的分子、細胞、組織、器官所組成，用以保護人體，免受病原體及有毒物質的入侵

文献传递和馆际互借江南大学图书馆B712 张娣

人类基因组学朱德裕.

汇报人：李臻中国海洋大学信息科学与工程学院计算机科学与技术系

第七章 NP问题选讲邹权（博士）计算机科学系.

数学建模实践与学生科研素质培养报告人：王文娟.

資料探勘(Data Mining)及其應用之介紹

主讲人：孙啸制作人：刘志华东南大学吴健雄实验室

邹权 (博士、副教授) 厦门大学数据挖掘实验室

第一章蛋白质的结构与功能 Structure and Function of Protein.

个人总结及展望主讲人：胡玲玲.

一、现状与问题整体竞争能力不强服务品质不高市场秩序失范管理效率低下旅游旺季人满为患资源和环境保护不力欺客宰客的现象时有发生

生命特殊吗？ “生命物质” 特殊吗？生命活动的物质基础：化学家所知的生命物质.

生物信息学 Bioinformatics.

libD3C: 一种免参数的、支持不平衡分类的二类分类器

生物資訊 bioinformatics 林育慶.

中科院“百人计划”终期评估汇报卢克清中科院西安光学精密机械研究所.

資訊管理第九章資料採礦.

报告人：张婧导师：黄德根教授学校：大连理工大学研究领域：自然语言处理

3.1 胺基酸─通式及三度空間結構構成蛋白質之胺基酸只有20種，且全部屬於α-型胺基酸之特性由側鏈(side chain group, R group)決定。→Fig.3.1.

生物資訊 (Bioinformatics)

姓名:何康綸學號:M 指導教授:楊朝平博士

당신을 향한 노래.

化学生物信息学 -从进化到药物发现张红雨（华中农业大学生物信息中心）.

5、利用EST数据库发现新基因 EST (expressed sequence tags),是从基因表达的短的序列，携带着完整基因某些片断的信息，称为表达序列标签获得一个EST的途径有三种：1 大规模测序；2 比较同源性；3 差异显示或基因芯片法获得与某一性状相关的EST 电脑克隆第一步，找到与待克隆基因相关的EST；第二步.

词汇语义资源在中文关系抽取中的应用报告人：钱龙华刘丹丹胡亚楠钱龙华周国栋

基本概念介紹生命是什麼？生命的密碼~DNA 解讀生命的執行者~RNA 生命舞台的主演者~蛋白質 DNA、RNA、蛋白質的三角關係

第二章：生物学基础主讲教师：钱骏教授 Tel: / / Homepage：

第二章：生物学基础主讲教师：钱骏副教授 Tel: / / Homepage：

國立陽明大學臨床醫學研究所簡報 2005 報告人臨床醫學研究所所長吳肇卿教授.

Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育

第十二章資料探勘、商業智慧、知識管理第三篇企業對消費者B2C篇.

黎建辉 INF方面阶段性总结.

Authors: Saumil Mehta and Deendayal Dinakarpandian

基于基因集富集分析的畜禽复杂性状GWAS分析平台及其应用

高职申请申请人：孟增竞聘岗位：副教授研究方向：结构优化设计及可靠性分析设岗学科：工程力学土木与水利工程学院

天線工程期中報告 “Low-SAR Hexa-Band Antenna for Mobile

A Study on the Next Generation Automatic Speech Recognition -- Phase 2

103學年度「教學獎」申請理念說明黃慧玲生物科技學系 04/27/2015.

基于类关联规则的分类 Classification Based on Class-Association Rules

近期科研汇报报告人：纪爱兵.

谈模式识别方法在林业管理问题中的应用报告人：管理工程系马宁报告地点：学研B107

数据摘要现状调研报告上下文摘要初步思考徐丹云.

資料結構 Data Structures Fall 2006， 95學年第一學期 Instructor : 陳宗正.

模式识别与智能系统研究中心介绍 2017年8月.

第十四章氨基酸、多肽与蛋白质第一节氨基酸一、氨基酸的结构和分类除甘氨酸和脯氨酸外，其他均具有如下结构通式。不变部分 -氨基酸

DNA, 核酸, 雙螺旋, 基因, 染色體 A T G C T C G A A T T G G C 組合單位核苷酸

第十章線上行銷研究.

主講人：陳鴻文副教授銘傳大學資訊傳播工程系所日期：3/13/2010

第二节核酸与细胞核.

系统科学与复杂网络初探刘建国上海理工大学管理学院

Interactome data and databases: different types of protein interaction

有时挂在天边，有时落在树梢，有时像个圆盘，有时像把镰刀。.

Research Focus 研究方向為探討癌症因子機制及治療抗性之分子病理機制，並找尋癌症標誌並研發治療標誌與藥物。研究方向包含

An Quick Introduction to R and its Application for Bioinformatics

缅怀植物学家钟扬：一个心怀家国的“善梦者”

(Unit I: Protein Structure and Function)

蛋白質交互作用資料庫、網路拓樸分析與藥物標的搜尋 Protein Interactome, Topological Analysis on Complex Network for Identification of Drug Target

有时落在山腰，有时挂在树梢，有时像个圆盘，有时像把镰刀。

Bayesian Joint Prediction of Associated Transcription Factors in Bacillus subtilis 陳冠廷陳靜儀謝仁傑林敬恆.

DNA RNA Protein Central Dogma 複製轉錄逆轉錄轉譯 Replication Reverse

申请人：李强明申报职务：副教授所在单位：食品与生物工程学院

WiFi is a powerful sensing medium

Presentation transcript:

邹权厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq 生物信息学中的分类学习问题邹权厦门大学计算机科学系 http://datamining.xmu.edu.cn/main/~zq

提纲 DNA/RNA层面上的分类学习问题蛋白质层面的分类学习问题新技术带来的分类学习问题 2/57

几个概念：基因、基因组、DNA、染色体、细胞 3/57

4/57

5/57

6/57

DNA如何影响生物的性状？什么叫表达？ 7/57

中心法则 8/57

. A T C G I H S G 9/57

是否所有的DNA都转录？人—仅仅1% 是否所有的RNA都翻译？ 10/57

真核生物的基因结构非编码区编码区非编码区 RNA聚合酶结合位点外显子内含子真核细胞基因结构示意图 11/57

12/57

问题1：识别编码区(ORF) 问题2：辨别外显子、内含子问题3：识别可变剪切问题4：识别调控元件 Snyder, E. E., and Stormo, G. D. (1993). Identification of coding regions in genomic DNA sequences: An application of dynamic programming and neural networks. Nucleic Acids Res. 21: 607-613. 问题2：辨别外显子、内含子 T.M. Chen, C.C. Lu, W.H. Li,(2005) Prediction of splice sites with dependency graphs and their expanded Bayesian networks, Bioinformatics, 21:471–482. 问题3：识别可变剪切 Gideon D. et al(2005) Accurate identification of alternatively spliced exons using support vector machine. Bioinformatics, 21:897-901 问题4：识别调控元件 Jiang B, Zhang MQ, Zhang X, (2007) OSCAR: one-class SVM for accurate recognition of cis-elements, Bioinformatics, 23(5): 531-537 13/57

问题1：识别ORF NN(GRAIL: a multi-agent neural network system for gene identification) HMM 决策树（A decision tree system for finding genes in DNA .JCB98） 14/57

15/57

问题2：辨别外显子、内含子外显子内含子的分界线——剪切位点也可以称为“识别剪切位点” 特征：三连核苷酸… 分类器：SVM，NB，HMM，BP NN 编码区外显子内含子 16/57

问题3：识别可变剪切 17/57

问题4：识别motif EM算法 Gibbs Sampling 18/57

是否所有的DNA都转录？人—仅仅1% 4个与机器学习有关的问题，还有更多是否所有的RNA都翻译？编码RNA与非编码RNA 19/57

20/57

21/57 21

MicroRNA 参与调节的疾病举例其它疾病癌症 - 老年性痴呆 - 糖尿病 - 肺癌 - 心肌肥大 - 直肠癌 - AIDS 癌症 - 胸腺癌 - 肺癌 - 直肠癌 - 白血病 - 皮肤癌 - 成神经细胞瘤 - 鼻咽癌 - 卵巢癌 22/57 22

23/57

microRNA中的分类问题挖掘---对前体的真伪辨别同源比对 ab initio 靶标---对靶标的真伪辨别 24/57

基于同源比对的方法利用已知的microRNA信息 BLAST 逐步过滤参考: Wang,X.J. et al (2004) Prediction and identification of Arabidopsis thaliana microRNA genes and their mRNA targets. Genome Biology. 5:R65 25/57

26/57

microRNA的挖掘-- ab initio方法 Chenghai Xue, Fei Li, Tao He, Guo-Ping Liu, Yanda Li, Xuegong Zhang. Classification of real and pseudo microRNA precursors using local structure-sequence features and support vector machine. BMC Bioinformatics. 2005.6:310(他引167次，截至11.12.12) Peng Jiang, Haonan Wu, Wenkai Wang, Wei Ma, Xiao Sun, Zuhong Lu. MiPred: classification of real and pseudo microRNA precursors using random forest prediction model with combined features. Nucleic Acids Research. 2007,35:W339-W344 (他引107次，截至11.12.12) 27/57

28/57

29/57

http://dbgroup.cs.tsinghua.edu.cn/zouquan/libid/ 30/57

microRNA中的分类问题挖掘---对前体的真伪辨别同源比对 ab initio 靶标---对靶标的真伪辨别 31/57

靶标预测参考：Improving the prediction of human microRNA target genes by using ensemble algorithm. FEBS Letters 581 (2007) 1587–1593 32/57

33/57

提纲 DNA/RNA层面上的机器学习问题蛋白质层面的机器学习问题分类、鉴别结构预测相互作用预测新技术带来的机器学习问题 34/57

35/57

参考：LY Han, J Cui, HH Lin, ZL Ji, ZW Cao, YS Li, and YZ Chen 参考：LY Han, J Cui, HH Lin, ZL Ji, ZW Cao, YS Li, and YZ Chen. Recent progresses in the application of machine learning approach for predicting protein functional class independent of sequence similarity. Proteomics 2006, 6(14): 4023-4037 36/57

The Protein Folding Problem Secondary structures α-helix Average 10 residues, or three turns Glutamine, methionine, and leucine favor -helix Valine, serine, aspartic acid, and asparagine tend to destabilize helices β-sheet Generally 5~10 residues Valine, isoleucine, and phenylalanine enhance -Sheets Proline doesn’t fit well into -Sheets Loop The sections of the sequence that connect the other two kinds of secondary structure 37/57

蛋白质二级结构预测问题输入 IRNSSNISPASMIFRNLLILEDDLRRQAHEQKILKWQFTLFLASMAGVGAFTFYELYF 输出 -----------HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH----EEEEEEEE 参考：Fusion of classifiers for protein fold recognition. Neurocomputing 68 (2005) 315–321 38/57

39/57

40/57

相互作用预测相互作用网络相互作用位点预测参考：于建涛, 郭茂祖, 蔡禄. 蛋白质相互作用及其网络预测方法研究进展. 电子学报.2007,35(12A):1-7 Li Minghui, et al. Protein–protein interaction site prediction based on conditional random fields. BIOINFORMATICS. Vol. 23 no. 5 2007, pages 597–604 41/57

提纲 DNA/RNA层面上的机器学习问题蛋白质层面的机器学习问题新技术带来的机器学习问题 microArray Assembling SNP 42/57

43/57

44/57

45/57

microArray中的机器学习问题样本分类（疾病诊断）基因聚类高维、小样本代价敏感正反例不平衡属性缺失层次聚类参考:时序微阵列数据中的同步和异步共调控基因聚类. 计算机学报. 2007,30:1302-1314 对于基因表达数据的基于类别树和SVM的多类癌症分类算法.计算机研究与发展,2004,41:436-441. Hierarchical clustering of gene expression profiles with graphics hardware acceleration. Pattern Recognition Letters. 2006,27:676-681 A comprehensive evaluation of multicategory classification methods for microarray gene expression cancer diagnosis. Bioinformatics. 2005.21:631-643 46/57

测序技术的发展(1) 已在市场上的下一代平台 GA – Illumina/Solexa SBS 通过可逆荧光终止法(FISSEQ) GS FLX – Roche/454 Life Sciences SBS 通过焦磷酸测序 SOLiD – ABI/Agencourt SBL 通过双碱基编码 47/57 47

三十年来测序的发展 48/57

测序技术的发展(2) 2nd Generation Performance 49/57

50/57

重复区域 51/57

52/57

图模型下的片段组装参考： Butler, J., Maccallum, I., Kleber, M., Shlyakhter, I.A., Belmonte, M.K., Lander, E.S., Nusbaum, C., and Jaffe, D.B. ALLPATHS: De novo assembly of whole-genome shotgun microreads. Genome Res.2008, 18: 810–820. Zerbino, D. and Birney, E. Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008,18: 821–829. J.T.Simpson et al. ABySS: A parallel assembler for short read sequence data. Genome Res. 2009 53/57

SNP 什么是SNP 为什么研究它 54/57

55/57

SNP中的计算问题疾病预测/人群分类 nsSNP tagSNP 挖掘SNP 基因组压缩参考：Haplotype Pattern Mining & Classification for detecting disease associated Site.CSB2003 nsSNP 参考：Finding new structural and sequence attributes to predict possible disease association of single amino acid polymorphism (SAP).Bioinformatics. 2007,23(12):1444–1450 tagSNP 参考： Jun Wang, Mao-zu Guo, Chun-yu Wang. CGTS: a site-clustering graph based tagSNP selection algorithm in genotype data.BMC Bioinformatics. 2009 挖掘SNP 参考：Jun Wang*, Quan Zou*, Maozu Guo. Mining SNPs from EST sequences using filters and ensemble classifiers. Genetics and Molecular Research. 2010,9(2):820-834. 基因组压缩 compress a human genome from 3.2GB to 4.1MB 参考：Human genomes as email attachments. Bioinformatics 25: 274-275 (2009). 56/57

END 欢迎给出任何意见和建议 zouquan@xmu.edu.cn 57/57