个人总结及展望 主讲人:胡玲玲.

Slides:



Advertisements
Similar presentations
Chapter 2 Combinatorial Analysis 主講人 : 虞台文. Content Basic Procedure for Probability Calculation Counting – Ordered Samples with Replacement – Ordered.
Advertisements

第七节 心 悸 郑祖平. 一、概述 心悸是一种自觉心脏跳动的不适感或心 慌感。当心率加快时感到心脏跳动不适, 心率缓慢时则感到搏动有力。心悸时,心 率可快、可慢,也可有心律失常,心率和 心律正常者亦可有心悸。 一般认为与心肌收缩力心搏量的变化及 患者的精神状态注意力是否集中等多种因 素有关。
What do you see? What do you recognize? What do you think we are going to learn?
SCI 论文网 SCI论文写作 ——诊断试验类.
(RNA interference,RNAi)
深圳市龙岗区科技创新局 深圳市高新技术产业协会
第五章 動詞 動詞用來表示一種動作 動詞有及物與不及物之分,及物動詞之後需要受詞,有的動詞甚至需要兩個受詞:一個直接受詞,一個間接受詞
平阴县科技创新券情况介绍 平阴县科学技术局 2016年7月.
2013年二手车市场环境分析.
第二讲 正常和肿瘤组织细胞培养 温州医学院检验医学院 陶志华.
醫院自製天然養生灌食配方的營養成份探討 管灌飲食是醫院及長期照護體系中常見的一種飲食方式,自從1970年以來,商業配方因方便使用及人力節省已然成為主流,但其雖可提供符合基本營養素建議量,但卻由於不含天然食材,因而未能涵蓋近年來被一一發現存在植物界,對人體健康極為重要的化合物,簡稱植化素(phytochemicals)。臺北市立聯合醫院營養部,於2005年起陸續推出以營養豐富且多樣化之天然食材為主的自製天然養生灌食配方(養生配方)及蔬果精力湯,供應予住院及護理之家個案使用。為暸解配方在經過烹調、攪打、過濾等
一种基于结构序列 藕合模块辨别人类 miRNA前体的新方法
To Tell His Story To Tell His Story
RNA i 及其应用实例 苏踊跃
职业教育课程改革创新教材 财经法规与会计职业道德.
你们都有QQ吗? 那你们都知道是谁创造了QQ吗? :问 再问:.
班级小插曲.
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
Mode Selection and Resource Allocation for Deviceto- Device Communications in 5G Cellular Networks 林柏毅 羅傑文.
一、公司简介 二、网上办税平台简介 三、发票发放操作指南 四、金税盘操作指南 五、售后服务联系方式.
Semantic-Synaptic Web Mining: A Novel Model for Improving the Web Mining 報告者:陳宜樺 報告日期:2015/9/25.
The Lake of Heaven.
A Question Answering Approach to Emotion Cause Extraction
Euler’s method of construction of the Exponential function
-Artificial Neural Network- Adaline & Madaline
Feng Lin, Chen Song, Yan Zhuang, Wenyao Xu, Changzhi Li, Kui Ren
Mini-SONG & Site testing at Delingha
Population proportion and sample proportion
Chapter 7 Search.
Special English for Industrial Robot
沈 彤 英特尔中国区嵌入式产品事业部 市场经理 Jul, 26th 2011
北京饭店 Tell them that 我是服务员, 我是北京饭店的服务员, 欢迎,欢迎您们来中国。欢欢迎您们来北京饭店吃饭。
C 程式設計— 控制敘述 台大資訊工程學系 資訊系統訓練班.
Retail Customer Online Registration 零售顧客線上註冊教學
在基督裏的更新 林後5章 1-17節 2 Corinthians 5:1-17.
创建型设计模式.
啟示錄 人 子 七 教 會 寶 座 七 印 七 號 龍 與 獸 七 碗 巴 比 倫 千 禧 年 前 後 新 耶 路 撒 冷 第9章(第5號)
Leave the “Babylons” That Have Enslaved Us.
常用資料採礦技術介紹 關聯分組(associations)、分類(classification)、時序相關(sequence)、預測(forecasting)、群集化(clustering)以及描述等分析作業,目前常用的資料採礦技術有決策樹、類神經網路、基因演算法以及即時線上分析(OLAP)
第14章 竞争市场上的企业 上海杉达学院 国贸系.
生涯軌跡.
校園網路架構介紹與資源利用 主講人:趙志宏 圖書資訊館網路通訊組.
Lesson 44:Popular Sayings
MORE THAN TEMPLATE 工作总结 / 述职汇报 / 论文答辩 / 产品介绍.
第十五课:在医院看病.
句子成分的省略(1).
職業 Random Slide Show Menu
職業3 Random Slide Show Menu
Chapter 5 Recursion.
普通高等教育 “十三五”规划教材 生物信息学 Bioinformatics 非编码RNA 01/29, 2019 邵朝纲、陈铭.
Version Control System Based DSNs
Ericsson Innovation Award 2018 爱立信创新大赛 2018
虚 拟 仪 器 virtual instrument
关联词 Writing.
從 ER 到 Logical Schema ──兼談Schema Integration
爬蟲類動物2 Random Slide Show Menu
高考应试作文写作训练 5. 正反观点对比.
关系代词.
An Efficient MSB Prediction-based Method for High-capacity Reversible Data Hiding in Encrypted Images 基于有效MSB预测的加密图像大容量可逆数据隐藏方法。 本文目的: 做到既有较高的藏量(1bpp),
Review of Statistics.
Create and Use the Authorization Objects in ABAP
Mechanics Exercise Class Ⅱ
 隐式欧拉法 /* implicit Euler method */
Passive Voice 被动语态.
More About Auto-encoder
蛋白質交互作用資料庫、 網路拓樸分析與藥物標的搜尋 Protein Interactome, Topological Analysis on Complex Network for Identification of Drug Target
怎樣把同一評估 給與在不同班級的學生 How to administer the Same assessment to students from Different classes and groups.
推動搖籃的手─製作部門 ﹝西子劇坊﹞ 蔡如歆.
Bayesian Joint Prediction of Associated Transcription Factors in Bacillus subtilis 陳冠廷 陳靜儀 謝仁傑 林敬恆.
BESIII MDC 模拟与调试 袁野 年粒子物理实验计算软件与技术研讨会 威海.
Presentation transcript:

个人总结及展望 主讲人:胡玲玲

目录 1 所学所感 2 主要工作介绍 3 其他工作 4 下一步工作 5 毕业提纲设想

1 习惯与养成 所学所感 1. 养成习惯,每天至少收一次邮件,最好用foxmail或outlook随时收邮件 QQ? 新浪?   2. 学会用中国知网、学术Google搜索论文 3.每周实验室都会有组会,文体活动,希望积极参加去 4.论坛59.77.16.75注册并仔细读实验室工作板块的置顶帖子 …… QQ? 新浪? 微博? ……

1 所学所感 研究生的开始 一个简单的网站,根据用户输入的身份证前17位,计算第18位。

2 主要工作介绍-简介 数据挖掘流程 (1). 确定业务对象 (2). 数据准备 1)、数据的选择 2)、数据的预处理 3)、数据的转换    1)、数据的选择    2)、数据的预处理    3)、数据的转换 (3). 数据挖掘 (4). 结果分析 (5). 知识的同化 (1). 确定业务对象   清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.   (2). 数据准备   1)、数据的选择   搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.   2)、数据的预处理   研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.   3)、数据的转换   将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.   (3). 数据挖掘   对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.   (4). 结果分析   解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.   (5). 知识的同化   将分析所得到的知识集成到业务信息系统的组织结构中去.

2 主要工作介绍-miRNA简介 介绍microRNA MicroRNA(miRNA),是一种长度约为18-29个核苷酸(nucleotides)的非编码小分子RNA。作为小分子RNA 家族中的一员—MicroRNA已经受到广泛的关注, 在2006年度诺贝尔生理学或医学奖就颁发给了小分子RNA的研究者。

2 主要工作介绍-miRNA简介 介绍microRNA 生物合成图 植物中,细胞核内编码miRNA 的基因的转录与加工是偶联的,即miRNA的形成过程是在细胞核中完成的。首先,细胞核中编码miRNA 的基因在RNA聚合酶Ⅱ的作用下转录形成长度约为几百个核苷酸的初级转录物—pri-miRNA;然后在一种类Dicer酶—DCL1 的作用下形成miRNA 前体pre-miRNA,该前体长度一般为64-303 nt,DCL1继续作用于pre-miRNA 而形成双链miRNA;最后,双链miRNA在miRNA甲基转移酶——HENI的作用下,使3' 端最后一个核苷酸发生甲基化修饰。甲基化的主要作用是阻止转移酶、聚合酶的活性。以上过程均在细胞核中完成的。成熟的miRNA或者是在细胞核中与类似RISC 的核糖核蛋白结合形成miRNP,然后被Exportin 5 的同源物——HASTY运送到细胞质中,或者是先被HASTY 运送到细胞质中,再与核糖核蛋白结合形成miRNP[22]。 动物中,细胞核内编码miRNA 的基因首先在RNA聚合酶Ⅱ的作用下发生转录,形成长度约为几百个核苷酸的初级转录物—pri-miRNA,初级转录物在 RNase III 家族酶— Drosha 的作用下进一步被加工成为只含60-70 nt 具有茎环结构的单个miRNA 前体—pre-miRNA,由转运蛋白Exportin-5 运送到细胞质;在另一个RNase III 家族酶—Dicer 的参与下,miRNA 前体被加工形成双链miRNA,随后miRNA 的双链解链形成成熟的miRNA。成熟的miRNA 通过与一种类似RISC(the RNA-induced silencing complex)的核糖核蛋白结合形成miRNP 而发挥作用。

2 主要工作一介绍-miRNA预测综述 从头计算的miRNA计算识别方法逐渐流行,很多研究者提出自己的识别算法并发展相 应的软件,但是各个软件和算法的识别效率,应用方法,功能范围等参差不齐,我 们设计了一个新的测试数据集来衡量不同软件,方法的性能,为microRNA预测的研 究提供参考。 二级结构对RNA正常功能非常重要,有时甚至于较序列重要,这可以帮助用于分析 非编码RNA,生物信息学的应用会使用一些二级结构的概念来分析RNA,所以我们分 析了不同的二级结构预测软件。

2 主要工作一介绍-miRNA预测综述 Number of true positives (NTP): the number of experimentally supported miRNA precursors predicted by a program. Number of false positives (NFP): the number of negatives predicted by a program. Number of true negatives (NTN): the number of negatives not predicted by a program. Number of false negatives (NFN): the number of experimentally supported miRNA precursors not predicted by a program. Other standards used to evaluate the performance of the predictive software products were sensitivity, specificity, and accuracy. These standards are always defined based on the 4 above-mentioned standards and are calculated as follows: Accuracy = (NTP + NTN)/(NTP + NTN + NFP + NFN) * 100 Specificity = NTN/(NTN + NFP) * 100 Sensitivity = NTP/(NTP + NFN) * 100

2 microRNA序列 分类器投票 预处理 结果 特征提取 预测 主要工作二介绍-miRNA前体预测 我做的工作就是简单的分类,利用已经有的样例训练出一个模型,然后根据模型来分类未知的数据。这个工作中主要的创新点就是使用集成分类器去预测,可以大大提高预测的准确性,而且使用RNAfold特征提取方法,大大减少了时间耗费。 结果 特征提取 预测

2 主要工作二介绍-miRNA前体预测 预测结果

2 主要工作三介绍-miRNA家族分类 研究显示miRNA有利于疾病和药物设计的发展,我们发现同样的家族总是拥有同样的发病机制和类似的工作机制,家族的研究一定程度上利于疾病和药物研究,我们提出了一种分层思想的家族预测方法,有效地预测miRNA的家族进而从PubMed中挖掘这个家族与一些疾病的关系。

2 主要工作三介绍-miRNA家族分类 特征提取方法:n-gram miRNA一共有四种碱基(A,C,G,U),对于N-Gram我们使用N=1,2,3…为了提取n-grams,用一个大小为n的滑动窗口在miRNA序列的5’到3’之间扫描,在序列上的每一个位置,被长度为n的滑动窗口覆盖的子序列都对应与一个n-gram,随着窗口移动,每一个遇到的n-gram的出现频率被记录下来。 下面介绍miRFam使用n-gram的特征提取方法 由于miRNA只有四个碱基,miRFam使用4个唯一的unigram,42个唯一的bigram,43个唯一的trigram,一共有4+42+43 =84个特征( A,C,G,U,AA,AC,AG,AU,CA,CC,CG,CU……) miRFam使用集中系数的概念来把这些不同的特征整合成一个特征向量,首先,定义类型i的唯一n-gram的数量用Ni表示,类型i的集中系数就是: Ci =Ni/∑3j=1Nj , i=1,2,3 当然我么可以得到: C1=4/4+16+64=0.048 C2=16/4+16+64=0.190 C3=64/4+16+64=0.762 然后特征向量可以通过下面的公式计算: fj = tj/Ti*Ci, 1<=j<=84 其中,tj是某一种类型i的唯一的n-gram的出现频率,Ti是类型i的所有的唯一n-gram的出现频率。特征向量包含84维,每一维对应于某一种类型i (i =1,2,3,4)的一种n-gram。

2 主要工作三介绍-miRNA家族分类 用n-gram特征提取

2 主要工作三介绍-miRNA家族分类 分层预测 The three layers prediction method was mentioned. The 1st layer: 19 families with the largest members are selected and each of them respectively is viewed as a class, a total of 19 classes, remaining as the last class, the prediction change into a new model that the number of the target class has only 20 classes (the dataset is denoted as and the random forest model is noted as RF1). For the 2nd layer, we select the top 99 families, respectively. Each of them is seen as a class, and the residual ones are taken as a class. So there are total of 100 classes (the dataset is denoted as , and the random forest model is noted as RF2). For the 3rd layer, we classify the miRNA families as same as miRBase (the dataset is denoted as the random forest model is noted as RF3). Our method can identify families hierarchically and judge whether a novel miRNA belongs to the popular families. The complete forecasting process is shown in Figure 2. The predicted sequence starts from the 1st layer, and if it is predicted as one of the top 19 families, the output is considered as the last result and the process will finish. Otherwise the process will automatically continue to the 2nd layer prediction. The sequence will be predicted whether it belongs to the top 99 families. If it doesn't belong to yet, miRClassify will go into the 3rd layer and the 3rd layer predictor will give the last result. Hierarchical predictors are used instead of the single 3rd one due that the 1st predictor is more accurate the 2nd one, and the 2nd one has worked superior to the 3rd one. So the hierarchical model can guarantee the prediction performance of the miRNAs from the popular families.

2 主要工作三介绍-miRNA家族分类

2 主要工作四介绍-miRNA物种差异 miRNA 的降解或翻译抑制, 对多种生物学过程起调控作用,在植物和动物中,miRNA 执行这种调控作用的机理却不尽相同。同时miRNA 在动植物体内的形成过程也存在很多的不同之处。

2 主要工作四介绍-miRNA物种差异 动植物 1)植物miRNA前体的茎环结构更大、更复杂,大约是动物中的3 倍长。 2)加工方式不同 3)植物miRNA具有较高的进化保守性,因此,对植物miRNA 目标基因的预测要相对简单。 4)基因组上的存在位置不同。 5)植物miRNA长度多为21 nt,而动物miRNA长度多为22~23 nt。 6)作用机制不同 1)前体miRNA长度不同 植物miRNA前体的茎环结构(stem—loop)更大、更复杂,大约是动物中的3 倍长,预测的折回(fold—back)长度变异(64~303 nt)也比动物miRNA(60~70 nt)明显[14]; 图1 pre-miRNA结构模式示意图(标注Drosha酶作用位点) 2)植物miRNA长度多为21 nt,而动物miRNA长度多为22~23 nt,这源于Drosha与Dicer切割性能的差异[15 ]; 3)植物miRNA 5′端更优选择脲嘧啶U[15 ],热力学分析表明,这种末端不稳态是通过RISC来维持的[15 ],另外植物中miRNA3′末端2nt突出的3′-OH存在甲基化,而动物中无甲基化; 4)相对于动物miRNA,植物miRNA具有较高的进化保守性,因此,对植物miRNA 目标基因的预测要相对简单[18 ]; 5)基因组上的存在位置不同 动物miRNA广泛存在基因簇现象,即多个miRNA由同一个前体RNA加工而来,且来自同一基因簇的miRNA具有较强的同源性,不同基因簇的miRNA的同源性则较弱[19],基因组的基因之间及结构基因的内含子区域均存在大量编码miRNA 的基因,因此,来源于 pre-mRNA 内含子区域的miRNA 伴随pre-mRNA的剪接而形成;而植物miRNA多数由单一pre-RNA加工而来,只有极少数miRNA,如miR395 存在基因簇现象[20]。除了极少数特例(编码miR402 的基因被发现存在于 pre-mRNA 内含子区域[21]),编码miRNA的基因主要存在于编码蛋白的基因之间的区域,且大多是远离 miRNA目标基因的独立的转录单元; 6)加工方式不同 植物中,细胞核内编码miRNA 的基因的转录与加工是偶联的,即miRNA的形成过程是在细胞核中完成的。首先,细胞核中编码miRNA 的基因在RNA聚合酶Ⅱ的作用下转录形成长度约为几百个核苷酸的初级转录物—pri-miRNA;然后在一种类Dicer酶—DCL1 的作用下形成miRNA 前体pre-miRNA,该前体长度一般为64-303 nt,DCL1继续作用于pre-miRNA 而形成双链miRNA;最后,双链miRNA在miRNA甲基转移酶——HENI的作用下,使3' 端最后一个核苷酸发生甲基化修饰。甲基化的主要作用是阻止转移酶、聚合酶的活性。以上过程均在细胞核中完成的。成熟的miRNA或者是在细胞核中与类似RISC 的核糖核蛋白结合形成miRNP,然后被Exportin 5 的同源物——HASTY运送到细胞质中,或者是先被HASTY 运送到细胞质中,再与核糖核蛋白结合形成miRNP[22]。 动物中,细胞核内编码miRNA 的基因首先在RNA聚合酶Ⅱ的作用下发生转录,形成长度约为几百个核苷酸的初级转录物—pri-miRNA,初级转录物在 RNase III 家族酶— Drosha 的作用下进一步被加工成为只含60-70 nt 具有茎环结构的单个miRNA 前体—pre-miRNA,由转运蛋白Exportin-5 运送到细胞质;在另一个RNase III 家族酶—Dicer 的参与下,miRNA 前体被加工形成双链miRNA,随后miRNA 的双链解链形成成熟的miRNA。成熟的miRNA 通过与一种类似RISC(the RNA-induced silencing complex)的核糖核蛋白结合形成miRNP 而发挥作用。 植物中miRNA的加工机制 动物miRNA的加工机制 图2:miRNA在动、植物中不同的加工方式 7)作用机制不同 研究发现, 在植物和动物发育过程中,miRNA与靶mRNA结合的程度和部位不同,作用方式也不同。 在动物中,多数miRNA 以不完全互补方式与其靶mRNA 的3' 端非翻译区的识别位点结合,从而阻碍翻译机器对该mRNA的翻译来调控基因表达,但不影响mRNA的稳定性。如线虫中的miRNA lin-4就是以这种方式调控它的两个靶基因——lin-14和lin-28 的翻译[23-24]。但是,Soraya Yekta2004年,研究证明在小鼠胚胎中的miR-196可以介导靶基因mRNA HOXB8的降解,说明动物中的miRNA也存在转录水平的调控[25]。

2 主要工作四介绍-miRNA物种差异 在生物进化过程中,动、植物从最后的共同祖先分化后,各自miRNA基因的进化是彼此独立的。但miRNA依然普遍存在于动、植物中,从一定侧面证明了miRNA对于生物个体形成和发展具有重要的意义。

3 其他工作 多示例学习 图像检索学习

3 其他工作 多示例学习-多示例学习是与监督学习、非监督学习和强化学习并列的第四类学习 框架,多示例学习被认为是基于事例的学习的最新进展,也是目前机器学习领域 中最活跃的研究方向之一。 多示例学习是与监督学习、非监督学习和强化学习并列的第四类学习框架,多示例学习被认为是基于事例的学习的最新进展,也是目前机器学习领域中最活跃的研究方向之一。 不同于传统的监督学习,在多示例学习中,假设训练数据集中的每个数据是一个包(Bag),每个包都是示例(instances)的集合,每个包都有一个训练标记,而包中的示例没有标记 如果包被赋予正标记,例如对药物分子的活性预测问题,则包中至少存在一个正标记的示例,即这个分子有适合制药的结构 对于一个有负标记的包,其中所有的示例均为负标记,即这个分子中没有一个结构适合制药

3 其他工作 图像检索学习 使用object detection提取图片中的对象(如people,ball),然后将这些对象作为WordNet的输入,WordNet包含对象和对象之间的关系,因此作者使用WordNet的输出进行分析,得到一个初期的有向图,然后进行函数分析得到最终的网络图。 关于WordNet:是大的英语词汇数据库,每一个同义词集是一个独特的概念,这些同义词集通过概念语义和词汇之间关系连接起来,WordNet实现的主要功能是:输入要查询的单词(本体),这个单词可以是名词,动词,形容词或者副词,输出这个本体的所有同义词,子集等Ontology所具有的关系属性。WordNet有提供C的源代码和数据文件。

4 下一步工作 毕业论文 实习

5 毕业提纲设计 毕业论文摘要 microRNA(miRNA )的研究是目前生物信息学领域最重要的课题之一,MicroRNA已经受到广泛的关注, 在2006年度诺贝尔生理学或医学奖就颁发给了小分子RNA的研究者。研究表明人类全部基因的三分之一都受到miRNA调控,miRNA重要的调控表达作用使越来越多的生物信息学研究人员致力于miRNA的预测,分类以及功能研究。本文从分析miRNA前体预测软件,家族分类以及不同种族miRNA功能差异分析出发,发掘最优miRNA前体预测分析软件,用最有软件预测前体miRNA,然后使用数据挖掘方法高效判定前体miRNA所属家族,最后对miRNA不同物种功能特性进行分析。

5 毕业提纲设计 毕业论文主要内容 (1)对从头计算的的microRNA识别方法,软件的基准比较。 (3)miRNA及其在不同物种中的差异

Thanks!