Presentation is loading. Please wait.

Presentation is loading. Please wait.

个人总结及展望 主讲人:胡玲玲.

Similar presentations


Presentation on theme: "个人总结及展望 主讲人:胡玲玲."— Presentation transcript:

1 个人总结及展望 主讲人:胡玲玲

2 目录 1 所学所感 2 主要工作介绍 3 其他工作 4 下一步工作 5 毕业提纲设想

3 1 习惯与养成 所学所感 1. 养成习惯,每天至少收一次邮件,最好用foxmail或outlook随时收邮件 QQ? 新浪?
2. 学会用中国知网、学术Google搜索论文 3.每周实验室都会有组会,文体活动,希望积极参加去 4.论坛 注册并仔细读实验室工作板块的置顶帖子 …… QQ? 新浪? 微博? ……

4 1 所学所感 研究生的开始 一个简单的网站,根据用户输入的身份证前17位,计算第18位。

5 2 主要工作介绍-简介 数据挖掘流程 (1). 确定业务对象 (2). 数据准备 1)、数据的选择 2)、数据的预处理 3)、数据的转换
   1)、数据的选择    )、数据的预处理    3)、数据的转换 (3). 数据挖掘 (4). 结果分析 (5). 知识的同化 (1). 确定业务对象   清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.   (2). 数据准备   1)、数据的选择   搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.   2)、数据的预处理   研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.   3)、数据的转换   将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.   (3). 数据挖掘   对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.   (4). 结果分析   解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.   (5). 知识的同化   将分析所得到的知识集成到业务信息系统的组织结构中去.

6 2 主要工作介绍-miRNA简介 介绍microRNA
MicroRNA(miRNA),是一种长度约为18-29个核苷酸(nucleotides)的非编码小分子RNA。作为小分子RNA 家族中的一员—MicroRNA已经受到广泛的关注, 在2006年度诺贝尔生理学或医学奖就颁发给了小分子RNA的研究者。

7 2 主要工作介绍-miRNA简介 介绍microRNA 生物合成图
植物中,细胞核内编码miRNA 的基因的转录与加工是偶联的,即miRNA的形成过程是在细胞核中完成的。首先,细胞核中编码miRNA 的基因在RNA聚合酶Ⅱ的作用下转录形成长度约为几百个核苷酸的初级转录物—pri-miRNA;然后在一种类Dicer酶—DCL1 的作用下形成miRNA 前体pre-miRNA,该前体长度一般为64-303 nt,DCL1继续作用于pre-miRNA 而形成双链miRNA;最后,双链miRNA在miRNA甲基转移酶——HENI的作用下,使3' 端最后一个核苷酸发生甲基化修饰。甲基化的主要作用是阻止转移酶、聚合酶的活性。以上过程均在细胞核中完成的。成熟的miRNA或者是在细胞核中与类似RISC 的核糖核蛋白结合形成miRNP,然后被Exportin 5 的同源物——HASTY运送到细胞质中,或者是先被HASTY 运送到细胞质中,再与核糖核蛋白结合形成miRNP[22]。 动物中,细胞核内编码miRNA 的基因首先在RNA聚合酶Ⅱ的作用下发生转录,形成长度约为几百个核苷酸的初级转录物—pri-miRNA,初级转录物在 RNase III 家族酶— Drosha 的作用下进一步被加工成为只含60-70 nt 具有茎环结构的单个miRNA 前体—pre-miRNA,由转运蛋白Exportin-5 运送到细胞质;在另一个RNase III 家族酶—Dicer 的参与下,miRNA 前体被加工形成双链miRNA,随后miRNA 的双链解链形成成熟的miRNA。成熟的miRNA 通过与一种类似RISC(the RNA-induced silencing complex)的核糖核蛋白结合形成miRNP 而发挥作用。

8 2 主要工作一介绍-miRNA预测综述 从头计算的miRNA计算识别方法逐渐流行,很多研究者提出自己的识别算法并发展相
应的软件,但是各个软件和算法的识别效率,应用方法,功能范围等参差不齐,我 们设计了一个新的测试数据集来衡量不同软件,方法的性能,为microRNA预测的研 究提供参考。 二级结构对RNA正常功能非常重要,有时甚至于较序列重要,这可以帮助用于分析 非编码RNA,生物信息学的应用会使用一些二级结构的概念来分析RNA,所以我们分 析了不同的二级结构预测软件。

9 2 主要工作一介绍-miRNA预测综述 Number of true positives (NTP): the number of experimentally supported miRNA precursors predicted by a program. Number of false positives (NFP): the number of negatives predicted by a program. Number of true negatives (NTN): the number of negatives not predicted by a program. Number of false negatives (NFN): the number of experimentally supported miRNA precursors not predicted by a program. Other standards used to evaluate the performance of the predictive software products were sensitivity, specificity, and accuracy. These standards are always defined based on the 4 above-mentioned standards and are calculated as follows: Accuracy = (NTP + NTN)/(NTP + NTN + NFP + NFN) * 100 Specificity = NTN/(NTN + NFP) * 100 Sensitivity = NTP/(NTP + NFN) * 100

10 2 microRNA序列 分类器投票 预处理 结果 特征提取 预测 主要工作二介绍-miRNA前体预测
我做的工作就是简单的分类,利用已经有的样例训练出一个模型,然后根据模型来分类未知的数据。这个工作中主要的创新点就是使用集成分类器去预测,可以大大提高预测的准确性,而且使用RNAfold特征提取方法,大大减少了时间耗费。 结果 特征提取 预测

11 2 主要工作二介绍-miRNA前体预测 预测结果

12 2 主要工作三介绍-miRNA家族分类 研究显示miRNA有利于疾病和药物设计的发展,我们发现同样的家族总是拥有同样的发病机制和类似的工作机制,家族的研究一定程度上利于疾病和药物研究,我们提出了一种分层思想的家族预测方法,有效地预测miRNA的家族进而从PubMed中挖掘这个家族与一些疾病的关系。

13 2 主要工作三介绍-miRNA家族分类 特征提取方法:n-gram
miRNA一共有四种碱基(A,C,G,U),对于N-Gram我们使用N=1,2,3…为了提取n-grams,用一个大小为n的滑动窗口在miRNA序列的5’到3’之间扫描,在序列上的每一个位置,被长度为n的滑动窗口覆盖的子序列都对应与一个n-gram,随着窗口移动,每一个遇到的n-gram的出现频率被记录下来。 下面介绍miRFam使用n-gram的特征提取方法 由于miRNA只有四个碱基,miRFam使用4个唯一的unigram,42个唯一的bigram,43个唯一的trigram,一共有 =84个特征( A,C,G,U,AA,AC,AG,AU,CA,CC,CG,CU……) miRFam使用集中系数的概念来把这些不同的特征整合成一个特征向量,首先,定义类型i的唯一n-gram的数量用Ni表示,类型i的集中系数就是: Ci =Ni/∑3j=1Nj , i=1,2,3 当然我么可以得到: C1=4/ =0.048 C2=16/ =0.190 C3=64/ =0.762 然后特征向量可以通过下面的公式计算: fj = tj/Ti*Ci, 1<=j<=84 其中,tj是某一种类型i的唯一的n-gram的出现频率,Ti是类型i的所有的唯一n-gram的出现频率。特征向量包含84维,每一维对应于某一种类型i (i =1,2,3,4)的一种n-gram。

14 2 主要工作三介绍-miRNA家族分类 用n-gram特征提取

15 2 主要工作三介绍-miRNA家族分类 分层预测
The three layers prediction method was mentioned. The 1st layer: 19 families with the largest members are selected and each of them respectively is viewed as a class, a total of 19 classes, remaining as the last class, the prediction change into a new model that the number of the target class has only 20 classes (the dataset is denoted as and the random forest model is noted as RF1). For the 2nd layer, we select the top 99 families, respectively. Each of them is seen as a class, and the residual ones are taken as a class. So there are total of 100 classes (the dataset is denoted as , and the random forest model is noted as RF2). For the 3rd layer, we classify the miRNA families as same as miRBase (the dataset is denoted as the random forest model is noted as RF3). Our method can identify families hierarchically and judge whether a novel miRNA belongs to the popular families. The complete forecasting process is shown in Figure 2. The predicted sequence starts from the 1st layer, and if it is predicted as one of the top 19 families, the output is considered as the last result and the process will finish. Otherwise the process will automatically continue to the 2nd layer prediction. The sequence will be predicted whether it belongs to the top 99 families. If it doesn't belong to yet, miRClassify will go into the 3rd layer and the 3rd layer predictor will give the last result. Hierarchical predictors are used instead of the single 3rd one due that the 1st predictor is more accurate the 2nd one, and the 2nd one has worked superior to the 3rd one. So the hierarchical model can guarantee the prediction performance of the miRNAs from the popular families.

16 2 主要工作三介绍-miRNA家族分类

17 2 主要工作四介绍-miRNA物种差异 miRNA 的降解或翻译抑制, 对多种生物学过程起调控作用,在植物和动物中,miRNA 执行这种调控作用的机理却不尽相同。同时miRNA 在动植物体内的形成过程也存在很多的不同之处。

18 2 主要工作四介绍-miRNA物种差异 动植物 1)植物miRNA前体的茎环结构更大、更复杂,大约是动物中的3 倍长。
2)加工方式不同 3)植物miRNA具有较高的进化保守性,因此,对植物miRNA 目标基因的预测要相对简单。 4)基因组上的存在位置不同。 5)植物miRNA长度多为21 nt,而动物miRNA长度多为22~23 nt。 6)作用机制不同 1)前体miRNA长度不同 植物miRNA前体的茎环结构(stem—loop)更大、更复杂,大约是动物中的3 倍长,预测的折回(fold—back)长度变异(64~303 nt)也比动物miRNA(60~70 nt)明显[14]; 图1 pre-miRNA结构模式示意图(标注Drosha酶作用位点) 2)植物miRNA长度多为21 nt,而动物miRNA长度多为22~23 nt,这源于Drosha与Dicer切割性能的差异[15 ]; 3)植物miRNA 5′端更优选择脲嘧啶U[15 ],热力学分析表明,这种末端不稳态是通过RISC来维持的[15 ],另外植物中miRNA3′末端2nt突出的3′-OH存在甲基化,而动物中无甲基化; 4)相对于动物miRNA,植物miRNA具有较高的进化保守性,因此,对植物miRNA 目标基因的预测要相对简单[18 ]; 5)基因组上的存在位置不同 动物miRNA广泛存在基因簇现象,即多个miRNA由同一个前体RNA加工而来,且来自同一基因簇的miRNA具有较强的同源性,不同基因簇的miRNA的同源性则较弱[19],基因组的基因之间及结构基因的内含子区域均存在大量编码miRNA 的基因,因此,来源于 pre-mRNA 内含子区域的miRNA 伴随pre-mRNA的剪接而形成;而植物miRNA多数由单一pre-RNA加工而来,只有极少数miRNA,如miR395 存在基因簇现象[20]。除了极少数特例(编码miR402 的基因被发现存在于 pre-mRNA 内含子区域[21]),编码miRNA的基因主要存在于编码蛋白的基因之间的区域,且大多是远离 miRNA目标基因的独立的转录单元; 6)加工方式不同 植物中,细胞核内编码miRNA 的基因的转录与加工是偶联的,即miRNA的形成过程是在细胞核中完成的。首先,细胞核中编码miRNA 的基因在RNA聚合酶Ⅱ的作用下转录形成长度约为几百个核苷酸的初级转录物—pri-miRNA;然后在一种类Dicer酶—DCL1 的作用下形成miRNA 前体pre-miRNA,该前体长度一般为64-303 nt,DCL1继续作用于pre-miRNA 而形成双链miRNA;最后,双链miRNA在miRNA甲基转移酶——HENI的作用下,使3' 端最后一个核苷酸发生甲基化修饰。甲基化的主要作用是阻止转移酶、聚合酶的活性。以上过程均在细胞核中完成的。成熟的miRNA或者是在细胞核中与类似RISC 的核糖核蛋白结合形成miRNP,然后被Exportin 5 的同源物——HASTY运送到细胞质中,或者是先被HASTY 运送到细胞质中,再与核糖核蛋白结合形成miRNP[22]。 动物中,细胞核内编码miRNA 的基因首先在RNA聚合酶Ⅱ的作用下发生转录,形成长度约为几百个核苷酸的初级转录物—pri-miRNA,初级转录物在 RNase III 家族酶— Drosha 的作用下进一步被加工成为只含60-70 nt 具有茎环结构的单个miRNA 前体—pre-miRNA,由转运蛋白Exportin-5 运送到细胞质;在另一个RNase III 家族酶—Dicer 的参与下,miRNA 前体被加工形成双链miRNA,随后miRNA 的双链解链形成成熟的miRNA。成熟的miRNA 通过与一种类似RISC(the RNA-induced silencing complex)的核糖核蛋白结合形成miRNP 而发挥作用。 植物中miRNA的加工机制 动物miRNA的加工机制 图2:miRNA在动、植物中不同的加工方式 7)作用机制不同 研究发现, 在植物和动物发育过程中,miRNA与靶mRNA结合的程度和部位不同,作用方式也不同。 在动物中,多数miRNA 以不完全互补方式与其靶mRNA 的3' 端非翻译区的识别位点结合,从而阻碍翻译机器对该mRNA的翻译来调控基因表达,但不影响mRNA的稳定性。如线虫中的miRNA lin-4就是以这种方式调控它的两个靶基因——lin-14和lin-28 的翻译[23-24]。但是,Soraya Yekta2004年,研究证明在小鼠胚胎中的miR-196可以介导靶基因mRNA HOXB8的降解,说明动物中的miRNA也存在转录水平的调控[25]。

19 2 主要工作四介绍-miRNA物种差异 在生物进化过程中,动、植物从最后的共同祖先分化后,各自miRNA基因的进化是彼此独立的。但miRNA依然普遍存在于动、植物中,从一定侧面证明了miRNA对于生物个体形成和发展具有重要的意义。

20 3 其他工作 多示例学习 图像检索学习

21 3 其他工作 多示例学习-多示例学习是与监督学习、非监督学习和强化学习并列的第四类学习
框架,多示例学习被认为是基于事例的学习的最新进展,也是目前机器学习领域 中最活跃的研究方向之一。 多示例学习是与监督学习、非监督学习和强化学习并列的第四类学习框架,多示例学习被认为是基于事例的学习的最新进展,也是目前机器学习领域中最活跃的研究方向之一。 不同于传统的监督学习,在多示例学习中,假设训练数据集中的每个数据是一个包(Bag),每个包都是示例(instances)的集合,每个包都有一个训练标记,而包中的示例没有标记 如果包被赋予正标记,例如对药物分子的活性预测问题,则包中至少存在一个正标记的示例,即这个分子有适合制药的结构 对于一个有负标记的包,其中所有的示例均为负标记,即这个分子中没有一个结构适合制药

22 3 其他工作 图像检索学习 使用object detection提取图片中的对象(如people,ball),然后将这些对象作为WordNet的输入,WordNet包含对象和对象之间的关系,因此作者使用WordNet的输出进行分析,得到一个初期的有向图,然后进行函数分析得到最终的网络图。 关于WordNet:是大的英语词汇数据库,每一个同义词集是一个独特的概念,这些同义词集通过概念语义和词汇之间关系连接起来,WordNet实现的主要功能是:输入要查询的单词(本体),这个单词可以是名词,动词,形容词或者副词,输出这个本体的所有同义词,子集等Ontology所具有的关系属性。WordNet有提供C的源代码和数据文件。

23 4 下一步工作 毕业论文 实习

24 5 毕业提纲设计 毕业论文摘要 microRNA(miRNA )的研究是目前生物信息学领域最重要的课题之一,MicroRNA已经受到广泛的关注, 在2006年度诺贝尔生理学或医学奖就颁发给了小分子RNA的研究者。研究表明人类全部基因的三分之一都受到miRNA调控,miRNA重要的调控表达作用使越来越多的生物信息学研究人员致力于miRNA的预测,分类以及功能研究。本文从分析miRNA前体预测软件,家族分类以及不同种族miRNA功能差异分析出发,发掘最优miRNA前体预测分析软件,用最有软件预测前体miRNA,然后使用数据挖掘方法高效判定前体miRNA所属家族,最后对miRNA不同物种功能特性进行分析。

25 5 毕业提纲设计 毕业论文主要内容 (1)对从头计算的的microRNA识别方法,软件的基准比较。
(3)miRNA及其在不同物种中的差异

26 Thanks!


Download ppt "个人总结及展望 主讲人:胡玲玲."

Similar presentations


Ads by Google