生物信息学软件及使用技巧. 内容概要 一. 生物信息学的概念 二. 生物信息学软件的主要功能简介  分析和处理实验数据和公共数据,加快研究进度,缩 短科研时间  提示、指导、替代实验操作,利用对实验数据的分析 所得的结论设计下一阶段的实验  用计算机管理实验数据  寻找、预测新基因及预测其结构、功能.

Slides:



Advertisements
Similar presentations
生物化学 Biochemistry 临床生物化学教研室 陈正炎教授. 绪 论 ( Introduction ) 生物化学( biochemistry ) 是研究生物体 内化学分子及其化学反应,从分子水平探讨 生命现象本质的一门科学。 一、什么是生物化学 ? 生物化学 --- 生命的化学.
Advertisements

第四节 RNA 的空间结构与功能. RNA 的种类和功能 核糖体 RNA ( rRNA ):核蛋白体组成成分 转移 RNA ( tRNA ):转运氨基酸 信使 RNA ( mRNA ):蛋白质合成模板 不均一核 RNA ( hnRNA ):成熟 mRNA 的前体 小核 RNA ( snRNA ):
第九章 核酸序列的其他分析方法 生物信息学. 1. 确定 DNA 序列的分子量和碱基组成  分子量( molecular weight )  单链 DNA ( single strand DNA , ssDNA )  双链 DNA ( double strand DNA , dsDNA ) 
第十一章 药物生物信息学基础.
分子生物学部分开发实验 植物遗传亲缘关系研究.
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
分子生物学实验课 1、欢迎大家参加分生实验的学习; 2、学习分生实验的重要性; 3、课堂上守纪律,听老师安排,做实验穿白衣;
PCR引物设计及测序结果分析.
龙星课程—肿瘤生物信息学上机课程 曹莎
第一节 生药鉴定的意义 一、什么是生药鉴定 生药鉴定是依据国家药典、有关资料规定或有关专著对生药作真实性、纯度及品质优良度的检定。
第七 章 生物信息学数据库 Bioinformatics database
初级会计电算化 (用友T3) 制作人:张爱红.
分子生物学软件介绍 刘吉平讲师
引 物 设 计 引物 引物的重要性 引物设计的原则 引物与PCR 引物设计软件 如何使用Primer Premier 5.0 引物同源性分析.
生物大分子的计算机模拟.
蛋白质工程的崛起.
生物信息学数据库.
生命的物质基础.
尖孢镰刀菌致病相关物质β-D-葡萄糖苷酶基因的克隆与序列分析
13-14学年度生物学科教研室总结计划 2014年2月.
必修1 分子与细胞 第二章 第三节 细 细胞溶胶 内质网 胞 核糖体 质 高尔基体 线粒体 第一课时 浙江省定海第一中学 黄晓芬.
PCR技术及其应用 朱德裕 2013年11月1日.
第二节 生物信息学及其发展历史.
面向对象建模技术 软件工程系 林 琳.
真核生物基因结构的预测分析.
蛋白质结构分析及三维可视化 以镰刀型红细胞贫血症为例
生物信息学 与 信息技术 张 勤
生物序列的信息检索 多序列比对及进化树的构建
数据挖掘工具性能比较.
生物信息学 第六章 基因预测和基因结构分析 (II).
生物序列的信息检索 多序列比对及进化树的构建
第8章 遗传密码 8.1 遗传密码的基本特性.
Science and technology report service systemUsage method
胚胎原位杂交检测基因的时空表达模式.
第三节 聚合酶链反应(polymerase chain reaction,PCR)
Metabolic biomarker signature to differentiate pancreatic ductal adenocarcinoma from chronic pancreatitis Gut, 2017, Jan (IF=14.921) 汇报人:王宁 IMI CONFIDENTIAL.
Unit 11.Operating System 11.1 What’s OS 11.2 Related Courses
PCR引物设计及相关软件使用.
C语言程序设计 主讲教师:陆幼利.
微机系统的组成.
1.了解引物设计原则 ; 2.掌握primer premier的基本使用方法 。
Three stability circuits analysis with TINA-TI
NoeClone 诺京生物信息.
超越自然还是带来毁灭 “人造生命”令全世界不安
名以清修 利以义制 绩以勤勉 汇通天下 新晋商理念 李安平
Home Work 现代科学中的化学键能及其广泛应用 罗渝然(Yu-Ran Luo)
Web安全基础教程
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
实验三 16位算术逻辑运算实验 不带进位控制的算术运算 置AR=1: 设置开关CN 1 不带进位 0 带进位运算;
长春理工大学 电工电子实验教学中心 数字电路实验 数字电路实验室.
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
第4课时 绝对值.
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
利用DSC进行比热容的测定 比 热 容 测 量 案 例 2010.02 TA No.036 热分析・粘弹性测量定 ・何为比热容
分数再认识三 真假带分数的练习课.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
生物数据库.
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
基因信息的传递.
第三节 转录后修饰.
本底对汞原子第一激发能测量的影响 钱振宇
第十七讲 密码执行(1).
第十二讲 密码执行(上).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
入侵检测技术 大连理工大学软件学院 毕玲.
实验十八 图谱解析实验 根据谱图,推定未知苯系物的结构
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

生物信息学软件及使用技巧

内容概要 一. 生物信息学的概念 二. 生物信息学软件的主要功能简介  分析和处理实验数据和公共数据,加快研究进度,缩 短科研时间  提示、指导、替代实验操作,利用对实验数据的分析 所得的结论设计下一阶段的实验  用计算机管理实验数据  寻找、预测新基因及预测其结构、功能  蛋白高级结构预测

三.生物学软件部分常见功能使用技巧 PCR 引物设计 DNA 、蛋白质序列同源分析及进化树构建 Contig Express----DNA 序列片断拼接 DNA 模拟电泳 重要生物数据库简介 四.生物信息学服务

一. 生物信息学的概念

生物信息学的概念: 生物信息学是一门新兴的 交叉学科,它将数学和计算机 知识应用于生物学,以获取、 加工、存储、分类、检索与分 析生物大分子的信息,从而理 解这些信息的生物学意义。

二. 生物信息学软件的主要功能 简介

生物信息学软件主要功能 1. 分析和处理实验数据和公共数据, 加快研究进度,缩短科研时间 分析和处理实验数据和公共数据, 加快研究进度,缩短科研时间 2. 提示、指导、替代实验操作,利用 对实验数据的分析所得的结论设计 下一阶段的实验 提示、指导、替代实验操作,利用 对实验数据的分析所得的结论设计 下一阶段的实验 3. 实验数据的自动化管理 实验数据的自动化管理 4. 寻找、预测新基因及其结构、功能 寻找、预测新基因及其结构、功能 5. 蛋白质高级结构及功能预测(三维 建模,目前研究的焦点和难点) 蛋白质高级结构及功能预测(三维 建模,目前研究的焦点和难点)

功能 1. 分析和处理实验数据和公共数据, 加快研究进度,缩短科研时间  核酸:序列同源性比较,分子进化树构建, 结构信息分析,包括基元 (Motif) 、酶切点、 重复片断、碱基组成和分布、开放阅读框 ( ORF ),蛋白编码区( CDS )及外显子 预测、 RNA 二级结构预测、 DNA 片段的拼 接  蛋白:序列同源性比较,结构信息分析 (包括 Motif ,限制酶切点,内部重复序列 的查找,氨基酸残基组成及其亲水性及疏 水性分析 ) ,等电点及二级结构预测等等  本地序列与公共序列的联接,成果扩大

网上数据库的运用(成果扩大) IRACE ( 基因拉长功能) BLAST 同源序列检索 ENTREZ SYSTEM ( 集成 信息检索系统 )

ENTREZ 集成检索示意图

Vector NTI Suit 同源比较 — 主窗口

Vector NTI Suit 同源比较 — 进化树

Antheprot 5.0 Dot Plot 点阵图

Peptool Lite--- Dot Plot 点阵图

DNASIS 2.5 蛋白二级结构预测

DNASIS 2.5 RNA 二级结构预测

DNASIS 2.5 tRNA 二级结构预测

RNAStructure 3.5 RNA 二结构预测

Omiga 2.0 ORF Map

DnaStar 之 Protean 对氨基酸的亲疏水性 分析: helical wheel 图

功能 2. 提示、指导、替代实验操作,利用对实 验数据的分析所得的结论设计下一阶段的实验 用软件设计 PCR 引物,测序引物 或杂交探针,设计克隆策略,构建 载体,做模拟电泳实验,即模拟核 酸内切酶或内肽酶对相应的底物分 子切割后的电泳行为。蛋白跨膜区 域分析,信号肽潜在断裂点预测。

Vector NTI Suit 5.5 模拟电泳

Gene Construction Kit 2.0 模拟电泳

Winplas 2.6 质粒构建

OLIGO 5.0 PCR 引物设计

Atheprot 5.0 预测蛋白跨膜区域

Antheprot 5.0 预测信号肽断裂点

功能 3. 用计算机管理实验室数据及文献资料 实验室结果的储存,管理和申报工作 从网络数据库获得的序列文件(由 ENTREZ 集成检索系统所得的数据文件可以进入 EndNote 或者 Reference Manager 储存管理) 或资料文献的管理  软件 : EndNote , Reference Manager

Reference Manager 9 界面

功能 4. 用计算机预测新基因及其结构和功能 对 CDS ( Coding Sequence )蛋白编码区的预 测准确率已达到 90% 以上 对整个基因结构的预测存在一定难度  PWM (位置权重矩阵)算法 由物化原理技术开发,侧重于找基因表达系 统和核酸相互作用的位点。给信号序列各个 位置每种可能出现的核苷酸分配一个分数, 将各位置分数相加后得出该序列作为潜在作 用位点的分数。

DNASIS 2.5 对蛋白编码区的预测 A. (Codon Bias)

DNASIS 2.5 对蛋白编码区的预测 B. (Rare Codon)

DNASIS 2.5 对蛋白编码区的预测 C. (ORF List)

DNASTAR 之 GeneQuest 预测 CDS

功能 5. 蛋白高级结构预测 该项技术算法十分复杂,尚未成熟。 PDB 及 MMDB 数据库目前仍然禁止收录软件预测出来 的蛋白高级结构模型。 X 射线晶体学技术和多维核磁共振技术是当前 人们认识蛋白高级结构的主要手段,但两种技 术都有不足之处。前者要求必需得到高标准的 蛋白晶体,后者对分子量大于 3 万的大蛋白不 能测定。因此理论模拟和结构预测显得十分重 要。 序列与结构关系的根源在于 “ 蛋白质折叠的问 题 ” ,这是近期研究关注的焦点。

目前应用的蛋白质结构预测的算法 1. 同源预测 ( 一级结构决定高级结构 ) 2. 结构与结构相对比( DALI 算法) 3. 当前最先进的结构预测方法: 结构类识别( fold recognition ) 先建立一个已知的结构类数据库( fold library) ,将待测序列 “ 穿过 ” 该数据库构成的座 标,并根据事先确定的物理限制,逐个位置移 动( threading , sequence-structure alignment) , 并用一个函数( sequence-structure fitness alignment) 判断序列与结构类的符合程度,找 出未知序列在目标结构上的能量最优和构象最 稳固的比对位置。对计算机要求很高。

Cn3D 2.5 显示 1EQF A 链三维结构

RasMol 2.7 显示 1EQF A 链三维结构

PDB 与 MMDB 结构图比较

三. 生物学软件部分常见功能 使用技巧

PCR 引物设计

引物设计的原则 首先引物要跟模板紧密结合,其次引 物与引物之间不能有稳定的二聚体或发 夹结构存在,最后引物不能在别的非目 的位点引起高效 DNA 聚合反应 ( 即错配 ) 。

围绕这几条基本原则,设计引物需 要考虑诸多因素,如引物长度( primer length ),产物长度( product length ), 序列 Tm 值 (melting temperature) , ΔG 值 (internal stability) ,引物二聚体及发夹 结构( duplex formation and hairpin ), 错误引发位点( false priming site ),引 物及产物 GC 含量( composition ),有 时还要对引物进行修饰,如增加限制酶 切点,引进突变等。

引物设计要点 一般引物的长度为 16-23bp ,常用的长度为 bp ,过长或过短都不合适。 引物 3 ’ 端的碱基一般不用 A ,因为 A 在错误引发 位点的引发效率相对比较高,而其它三种碱基 的错误引发效率相对小一些。 引物的 GC 含量一般为 45-55% ,过高或过低都 不利于引发反应。上下游引物的 GC 含量不能 相差太大。 引物所对应模板序列的 Tm 值最好在 72 ℃左右, 当然由于模板序列本身的组成决定其 Tm 值可 能偏低或偏高,可根据具体情况灵活运用。

ΔG 值反映了引物与模板结合的强弱程度,也是 一个重要的引物评价指标,一般情况下,在 Oligo 5.0 软件的 ΔG 值窗口中,引物的 ΔG 值最 好呈正弦曲线形状,即 5 ’ 端和中间部分 ΔG 值较 高,而 3 ’ 端 ΔG 值相对较低,且不要超过 9 ( ΔG 值为负值,这里取绝对值),如此则有利于正 确引发反应而可防止错误引发。分析其原理, 引物与模板应具有较高的结合能量,这样有利 于引物与模板序列的整合,因此 5 ’ 端与中间段 的 ΔG 值应较高,而 3 ’ 端 ΔG 值影响 DNA 聚合酶 对模板 DNA 的解链,过高则不利于这一步骤。

可能的错误引发位点决定于引物序列组成与模 板序列组成的相似性,相似性高则错误引发率 高,错误引发的引发率一般不要高过 100 ,最好 没有错误引发位点,如此可以保证不出非目的 产物的假带。 引物二聚体及发夹结构的能量一般不要超过 4.5 , 否则容易产生引物二聚体带而且会降低引物浓 度从而导致 PCR 正常反应不能进行。 对引物的修饰一般是增加酶切位点,应参考载 体的限制酶识别序列确定,常常对上下游引物 修饰的序列选用不同限制酶的识别序列,以有 利于以后的工作。

关于引物的自动搜索和评价分析 推荐使用自动搜索软件: Primer Premier 5.0 推荐使用引物评价软件: Oligo 5/6 实际操作示例 > > > > >

DNA 、蛋白质序列同源分析及 进化树构建

相似性与同源性 相似性是指一种很直接的数量关系,比 如部分相同或相似的百分比或其它一些 合适的度量。可进行自身局部比较。 如 Dot Plot ( 点阵序列比较 ) 同源性指从一些数据中推断出的两个基 因或蛋白质序列具而共同祖先的结论, 属于质的判断。 如 Alignment ( 同源性分析 )

推荐软件 相似性分析 Peptool Lite 同源性分析 Vector NTI Suit 6---AlignX 实际操作示例 > > > > >

Contig Express----DNA 序列 片断拼接

推荐软件 DNA 序列片断拼接 Vector NTI Suit 6---ContigExpress Project 实际操作示例 > > > > >

DNA 模拟电泳

一点体会 DNA 模拟电泳具有一定实验预示功能, 模拟电泳不能作为实验结果或依据 实际操作示例 > > > > >

重要生物数据库简介

三大数据库 NCBI ( 美国 ) DDBJ ( 日本 ) EBI ( 欧洲 )

其他重要数据库 酵母基因组数据库( SGD ) 酵母蛋白质数据库( YPD ) 拟南芥数据库( AtDB ) 医学数据库( OMIM ) 线虫数据库( ACEDB )

四. 生物信息学服务

服务内容 1. PCR 引物、测序引物及杂交探针的设 计及评价 2. DNA ,蛋白质序列同源分析及进化树 构建 3. 生物大分子二级结构模拟显示及基本 序列分析

4. 有关蛋白质亲疏水性,等电点,抗原性, 跨膜蛋白,信号肽等分析以及 Dot Plot 服务 5. 质粒载体构建及克隆策略 6. 小型数据库建设及协助实验室进行数据 管理维护

7. 医学相关的图像、病例统计、分析及小 型数据库建设 8. 网上数据库应用辅助:包括序列拉长 (扩大实验成果), Blastn/Blastp , NCBI Entrez 查询 ( 多维查询 ) ,新序列、 SNIP 等申报 9. 蛋白质三维结构初步预测(此为生物信 息学目前研发的焦点,正在探索中,结 果可能不十分准确或者不能出结果)

Thanks!