汇报人:白云峰 副研究员 单 位:江苏省农业科学院

Slides:



Advertisements
Similar presentations
第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
Advertisements

分子生物学部分开发实验 植物遗传亲缘关系研究.
強制認領私生子首例 第十組組員:4970T012 劉柏宇 4970T013 黃偵泰 4970T035 陳建儒 4970T100 蔡維哲
讨论课.
香港扶貧計劃 關愛基金 Group 5 組員 馬曉真 余葆 董賽騫 蕭雪兒.
龙星课程—肿瘤生物信息学上机课程 曹莎
DNA多态性分析基础.
高中生物课件 ——复习.
第5章 基因突变 本章重点: 1、基因突变的鉴定 2、基因突变的分子机制 本章难点: 1、移动遗传因子 2、突变的分子机制.
2012年高考说明要求 考纲解读 遗传信息的转录和翻译 Ⅱ 掌握DNA与RNA组成、结构和功能的异同点 理解遗传信息转录、翻译过程的区别和联系以及学会有关图形的识别 学会基因表达过程中有关碱基和氨基酸数量关系的计算、推导.
彻底搞清楚promoter, exon, intron, and UTR
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
第五章 基因突变及其他变异.
实用操作系统概念 张惠娟 副教授 1.
第4章 基因的表达 第1节 基因指导蛋白质的合成.
基因的表达 凌通课件.
汪道文 华中科技大学同济医学院 同济医院高血压研究所
第七单元:生物的变异 第二十一讲:生物变异的来源 高三生物第一轮复习 考纲要求 考点梳理 考点突破 基因重组(Ⅰ)
高二生物教材分析(下) 程卫琴.
十三章 基因及基因突变.
专题六 变异、育种和进化 必考点16  “千变万化”的生物变异.
第5章 基因突变及其他变异 基因突变和基因重组.
高三生物一轮复习 第5章 基因突变及其他变异 第1节 基因突变和基因重组 徐沟中学.
又到桃花盛开时.
生物变异的来源(复习).
建湖县第二中学 杨 军.
第二章 遗传信息的表达 易发平 基础医学院生物化学与分子生物学教研室.
基因组数据注释和功能分析 陈启昀 陈 辰 丁文超 张增明 浙江加州国际纳米技术研究院(ZCNI)
分子生物学在检验医学中的应用.
基于R和pentaho的全套开源BI平台的实现
许晓风 南京师范大学生命科学学院 2011、8、in Xining
Hadoop I/O By ShiChaojie.
Geophysical Laboratory
基因工程实验流程总览.
Chinese Virtual Observatory
普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics 第五章:真核生物基因组的注释.
Biochemistry Li Enmin.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
基因的克隆与表达.
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
聚合酶链式反应(PCR)扩增DNA片段.
数据挖掘工具性能比较.
生物信息学 第六章 基因预测和基因结构分析 (II).
第8章 遗传密码 8.1 遗传密码的基本特性.
DevDays ’99 The aim of this mission is knowledge..
第九章 食品中外源外源化学物致突变作用.
C++语言程序设计 C++语言程序设计 第七章 类与对象 第十一组 C++语言程序设计.
C语言程序设计 主讲教师:陆幼利.
高三生物第一轮复习 基因突变和基因重组 郑州二中 生物组 党茹.
第四章 基因的表达 第1节 基因指导蛋白质的合成.
第二节 DNA分子的结构.
北投溫泉博物館 建築特色 ★小組成員:高103林孟璇、林念儀、施妤柔★.
超越自然还是带来毁灭 “人造生命”令全世界不安
1 打开 SQL Server 2005 安装盘,单击 SPLASH.HTA 文件进行安装,安装界面如图所示。
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
1.非线性规划模型 2.非线性规划的Matlab形式
生物的变异 ——基因突变.
      基 因 突 变 第一节        基因突变的基本概念 第二节        基因突变的分类 第三节        随机突变 第四节        DNA的定位诱变及点突变技术.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
_03宽字符与Unicode编程 本节课讲师——void* 视频提供:昆山爱达人信息技术有限公司 官网地址:
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
基于列存储的RDF数据管理 朱敏
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
基因信息的传递.
第三节 转录后修饰.
电影《侏罗纪公园》中恐龙复活的场景 在现实生活中,我们能不能像电影《侏罗纪公园》中描述的那样,利用恐龙的DNA,使恐龙复活呢?
第十七讲 密码执行(1).
Presentation transcript:

汇报人:白云峰 副研究员 单 位:江苏省农业科学院 中国地方鸡种核酸数据库建设与功能设计 汇报人:白云峰 副研究员 单 位:江苏省农业科学院

汇 报 内 容 研究意义与目的 中国地方鸡种核酸序列数据库初步建设 系统功能设计 系统演示 未来展望 数据获取 数据库构成 数据分析 核酸序列特征一般分析 核酸序列相似性搜索 系统发生分析 系统演示 未来展望

研 究 意 义 中国是世界上生物多样性最丰富国家之一,地方鸡种是我国具有战略 意义的独特资源。亟需构建该领域拥有自身特色和自主知识产权的, 与国际主流生物信息数据库接轨的专业二级数据库。 当前,农业生物信息数据库主要集中在英、美、日等发达国家。我国 大多生物学数据库只能提供镜像和索引服务,无自主知识产权,独立 开发并能提供丰富资源和工具的生物信息数据库平台仍很缺乏。 目前国内关于医疗和制药领域的生物信息数据库较多,而高质量的农 业生物信息数据库数量较少,尚无我国专门化的地方鸡种生物信息数 据库系统。 生物信息数据库分布分散且格式不统一,将独立的、分散的农业生物 信息数据库信息整合,使农业生物信息数据库集成化和标准化。

中国地方鸡种核酸序列数据库 初步建设 数据获取方面 基于Agent智能代理本地化数据获取程序; 863合作单位数据提供与数据校验; 数据分析 数据完整性分析 数据特征特征值扫描 地方鸡种数据筛选

中国地方鸡种核酸序列数据库 初步建设 数据标准化 基于XML中国地方鸡种核酸序列元数据模型; 自定义中国地方鸡种数据结构; 数据转导 与国际主流数据文件格式的兼容 完成中国地方鸡种核酸序列数据库结构设计

系 统 功 能 设 计 目标序列分析(以白银耳鸡1条序列AF128321作为本系统分析处理结果示例) 功能设计3个层次: 序列组成统计特征分析; 本地化序列相似性搜索 系统发生分析

核酸序列组成统计特征分析 密码子计数 核苷酸统计 转换成互补序列 互补统计 核苷酸组成统计作图 二聚体统计 密码子使用偏性 CpG岛 短序列匹配 绘制热红外分布图 识别开发阅读框ORFs 翻译成对应氨基酸序列 序列核苷酸组成与统计 核酸序列密码子使用 CpG岛特征 ORFs识别 短序列匹配

待分析序列 ttgttctcaactacgggaacaattttattttttaacctaactcccc tactaagtgtaccccccctttcccccccagggggggtatactat gcataatcgtgcatacatttatataccacatatattatggtaccg gtaatatatactatatatgtactaaacccattatatgtatacgggc attaatctatattccacatttctcccaatgtccattctatgcatga tccaagacatactcattcaccctccccatagacagttctaaacc actatcaagccacctaactatgaatggttacaggacataaatct cactctcatgctctccccctaacaagtcacctaactatgaatggt tacaggacatacatttaactaccatgttctaacccatttggttatg ctcgccgtatcagatggatttattgatcgtccacctcacgagaga tcagcaacccctgcctgtaatgtacttcatgaccagtctcaggc ccattctttccccctacacccctcgccctacttgccttccaccg

密码子计数结果 AAA: 1 AAC: 5 AAG: 0 AAT: 2 ACA: 7 ACC: 3 ACG: 1 ACT: 6 AGA: 2 AGC: 1 AGG: 1 AGT: 2 ATA: 4 ATC: 2 ATG: 4 ATT: 5 CAA: 1 CAC: 5 CAG: 0 CAT: 8 CCA: 8 CCC: 10 CCG: 1 CCT: 1 CGA: 1 CGC: 1 CGG: 0 CGT: 1 CTA: 10 CTC: 2 CTG: 1 CTT: 2 GAA: 0 GAC: 0 GAG: 1 GAT: 1 GCA: 1 GCC: 3 GCG: 0 GCT: 2 GGA: 2 GGC: 1 GGG: 3 GGT: 2 GTA: 6 GTC: 2 GTG: 0 GTT: 2 TAA: 5 TAC: 4 TAG: 1 TAT: 9 TCA: 5 TCC: 3 TCG: 2 TCT: 6 TGA: 3 TGC: 2 TGG: 1 TGT: 2 TTA: 3 TTC: 4 TTG: 1 TTT: 4

密码子使用偏性 由于密码子的简并性,每个氨基酸至少对应1种密码子,最多有6种对应的密码子。 不同物种、不同生物体的基因密码子使用存在着很大的差异。各种生物体似乎更偏爱使用某些同义三联密码子(即编码相同氨基酸的密码子)。 高表达的基因密码子的使用偏性一般比较大。这些偏好可能与两个原因有关:一是避免使用类似终止密码子的密码子;二是这些偏好能够有效地翻译密码子,因为这些密码子对应于生物体中非常丰富的tRNA。 真实的外显子一般能反映出这些偏好,而随机选择的三联体序列却不能。

密码子使用偏性 研究结果表明,基因密码子的使用也与基因编码的蛋白的结构和功能有关。mRNA中的稀有密码子的使用与蛋白质结构域的连接区和规则二级结构单元的连接区有关,翻译速率在连接区会降低,说明蛋白质折叠方式与mRNA序列之间存在一定的相关性。 研究结果还表明,蛋白质的三级结构与密码子使用概率有密切的关系,通过对密码子的聚类分析,可以将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中。进一步的研究发现,在不同物种中,类型相同的基因具有相近的同义密码子使用偏性,对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小。

绘制热红外分布图

CpG岛分析 在人类基因组中有一半左右的CpG island 与已知管家基因(housekeeping gene)有关联;

短序列匹配 在待分析序列中查找特征短片段,如TATA Box TATA Box,CAAT Box,终止子等

识别开放阅读框ORFs 开放阅读框(Open Reading Frame: ORF)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。 开读框架的预测常与第一个ATG和终止密码子的确定相关。 系统以原核生物和真核生物两种模式识别待分析序列的ORFs

中国地方鸡种基因序列比对与相似性搜索 意义与目的: 通过搜索序列数据库,找到与新序列同源的已知序列,并根据同源性推测未知序列的生物学功能; 对于DNA序列,同源搜索还有助于确定编码区域,确定基因; 实现方法: 中国地方鸡种核酸序列库+家禽基因组序列库的比对搜索; 设定全局最优比对算法+局部最优比对算法2种策略 Smith-Waterman Needleman-Wunsch

中国地方鸡种系统发生分析(开发中) 由于国内学者对国内地方鸡种mtDNA研究较多,数据库收集到数 据较丰富特点。构建地方鸡种mtDNA系统发生专门化分析组件。 线粒体DNA非常适合于系统发生分析,因为线粒体DNA从母体完 全传到子代,不与父代DNA重组。线粒体DNA具有易分离、进化 速度快、母系遗传、缺乏重组和无内含子等特点。使线粒体DNA 成为分子系统发育学研究的一类重要的分子标记。 mtDNA的控制区即D-loop区为非编码区,不编码蛋白质线粒体 DNA中,受到选择压力较小,因此积累了较多的突变,如碱基替 换、插入、缺失,以及众多的串联重复序列等。 系统采用非加权分组平均法(UPGMA,unweighted pair group method with arithmetic means)构建进化树

系统功能实现的关键技术 Matlab Bioinformatic Toolbox 引用 M文件编写与调试 MATLAB与.NET数据类型转换 Imports System Imports System.Reflection Imports MathWorks.MATLAB.NET.Utility Imports MathWorks.MATLAB.NET.Arrays Imports ComponentName M文件编写与调试 MATLAB与.NET数据类型转换

M文件编程示例 function HeatMap(mitochondria) for frame = 1:3 figure('color',[1 1 1]) subplot(2,1,1); codoncount(mitochondria,'frame',frame,'figure',true); title(sprintf('阅读框%d密码子',frame)); subplot(2,1,2); codoncount(mitochondria,'reverse',true,'frame',frame, 'figure',true); title(sprintf('阅读框%d反义密码子', frame)); end

调用MATLAB生物信息学函数 设计功能 函数 示例 从GenBank获取1条序列 密码子计数 codoncount codoncount(mitochondria) 核苷酸统计 basecount basecount(mitochondria) 转换成互补序列 seqrcomplement seqrcomplement(mitochondria) 互补统计 basecount(seqrcomplement(mitochondria)) 统计作图 ntdensity Map = ntdensity(mitochondria) 二聚体统计 dimercount dimercount(mitochondria) 核苷酸统计2 aacount Aacount(mitochondria) 密码子使用偏性 codonbias cb = codonbias(mitochondria,'PIE',true) CpG岛 cpgisland cpgisland(mitochondria,'PLOT',true) 短序列匹配 seqshowwords seqshowwords(mitochondria,'TATA')

Matlab与.NET数据类型转换 Matlab类型 .NET类型 数据转换类 说明 Cell N/A MWCellArray Structure MWstructArray Char System.String MWCharArray Double System.Double MWNumericArray 默认为Double类型 Single Uint64 不支持 Uint32 Uint6 引自苏金明等《Matlab高级编程》北京,电子工业出版社,2008

数据类型转换实例 %利用MatLab构建不同地方鸡种亲缘关系进化树; %定义数组二维data,存储鸡种名称和mtDNA序列; function phylogenyanalysis(data,m) %data = {'白银耳鸡' 'AF128320'; '灵昆鸡' 'AF128330'; '寿光鸡' 'AF512058'; '丝羽乌骨鸡' 'AF512060'; '茶花鸡' 'AF512078';}; %for ind = 1:5 % seqs(ind).Header = data{ind,1}; % seqs(ind).Sequence = getgenbank(data{ind,2}, 'sequenceonly', true); %end %进化距离运算;UPGMA,非加权分组平均法(unweighted pair group method with arithmetic means)Jukes-Cantor, for ind = 1:m seqs(ind).Header = data{ind,1}; seqs(ind).Sequence = data{ind,2}; end distances = seqpdist(seqs,'Method','Jukes-Cantor','Alphabet','DNA'); tree = seqlinkage(distances,'UPGMA',seqs); %画出进化树; h = plot(tree,'orient','bottom'); set(findobj(gca,'Type','line','Color',[0 10 1]),'Color','red','LineWidth',2); ylabel('进化距离') title('中国地方鸡种进化关系树') set(h.terminalNodeLabels,'Rotation',-45) saveas(gca,'C:\PhylogenyTree.jpg') %close('all','hidden')

讨 论 在Windows操作系统下运行具有更广泛的适应性; 采用组件技术开发,具有更强适应性、可移植性和 复用性; 根据中国地方鸡种定制分析组件库,针对性强; 构建了中国地方鸡种分子数据存储、共享和分析平 台,先进性和创新性强。

展 望 畜、禽 生物信息 序列 注释、分析 海量、异质数据处理 地方品质 特色研究 数据仓库 SQL Server Matlab组件 .NET开发平台 Windows操作系统 海量、异质数据处理 序列 注释、分析 畜、禽 生物信息 地方品质 特色研究 算法、模型 Matlab 数据仓库 SQL Server

敬请批评指正!