REVIEW&PLINK 2017.01.09.

Slides:



Advertisements
Similar presentations
摆一摆,想一想. 棋子个数数的个数 摆出的数 、 10 2 、 11 、 20 3 、 12 、 21 、 30 4 、 13 、 22 、 31 、 40 5 、 14 、 23 、 32 、 41 、
Advertisements

探究问题 1 、观察任意一 质点,在做什么运动? 动画课堂 各个质点在各自的平衡 位置附近做机械振动,没 有随波迁移。 结论 1 :
高考数学专题之概率 高考数学冲刺 主讲人 : 北京大学光华管理学院 何洋. 北京师范大学京师大厦 9810 室 电话 : 传真 : 写在前面的话 概率是高中数学新教材中新增的内容, 在 实际生活中应用非常广泛, 并且由于概率 论是统计学的基础,
第 3 节 人类遗传病. 自主学习 新 知突破 1 .识记人类遗传病的类型及特点。 2 .掌握人类遗传病的调查方法、监测、预防。 3 .了解人体基因组计划和人体健康。
1 债券融资业务拓展交流 债券业务部 二 O 一二年二月. 2 目 录  第一部分 债券融资业务概述  第二部分 东兴证券债券融资业务情况介绍及前景展望  第三部分 什么样的企业适合发债  第四部分 债券融资业务合作开发方式及激励探讨.
轴对称(一) 课堂引入 仔细观察下列图片,思考这些图片有什么样 的特点.
创意鄱阳湖— 一种基于无形资源理念开发鄱阳湖的思考 以传奇背景音乐作为开场,体现创意创造传奇 南昌大学 黄细嘉
防盜裝置  學生科技探究.
第四章:长期股权投资 长期股权投资效果 1、控制:50%以上 有权决定对方财务和经营.
饮食中的平衡 酸 性 食 物 与 碱 性 食 物.
知识聚焦 光合作用 呼吸作用 条件 场所 原料 产物 物质变化 能量变化 有光无光都可以 需要光 主要是线粒体 叶绿体 二氧化碳、水
2.3.1条件概率.
期末書面報告指定書籍 王鼎鈞回憶錄---昨天的雲
川信-丰盛系列集合资金信托计划 2016年3月.
古文選讀.
龙星课程—肿瘤生物信息学上机课程 曹莎
我征服了黃山 林達的黃山之旅 2006春.
农信社信贷产品实务技能提升培训.
高齡者道路交通事故特性與道安防制措施 研究計畫報告
是重要的感觉器官,有许多感觉器,具触觉、嗅觉功能,还能感受异性的性信息素。 触角由柄节、梗节和鞭节三部分组成。
第2章 基因和染色体的关系 第1节 减数分裂和受精作用.
项目亮点 融资方为AA级发债主体,是当地唯一的综合平台公司
复习 什么是结构? 结构是指事物的各个组成部分之间的有序搭配和排列。
植物辨識及分類 呂春森 基隆市立暖暖高級中學 植物辨識及分類 呂春森 基隆市立暖暖高級中學.
第一章信託法 第一節 信託契約 第二節 信託財產 第三節 受益人 第四節 受託人 第五節 信託關係之消滅.
骨质疏松症的遗传学研究 Hong-Wen Deng, Ph.D. Osteoporosis Research Center
骨质疏松症的遗传学研究 Hong-Wen Deng, Ph.D. Osteoporosis Research Center
第三课 闲话“家”常 1.
第四节 地域文化与人口 有儿无女不称心,有女无儿就伤心; 一儿一女不放心,多子多女才舒心。 有权的顶着生,有钱的买着生;
“华东师大数学系部分老同事活动”(辛卯聚会)记事
第五节 读图表述.
財團法人中華民國證券櫃檯買賣中心 交 易 部 中華民國101年8月
§6.3 性别决定和伴性遗传. §6.3 性别决定和伴性遗传 人类染色体显微形态图 ♀ ♂ 它们是有丝分裂什么时期的照片? 在这两张图中能看得出它们的区别吗?
管理好种公鸡提高雏鸡质量.
走进 莱 芜 制作人:楠楠.
第四章 时间序列的分析 本章教学目的:①了解从数量方面研究社会经济现象发展变化过程和发展趋势是统计分析的一种重要方法;②掌握时间数列编制的基本要求;③理解和掌握水平速度两方面指标的计算及运用④理解和掌握长期趋势分析和预测的方法。 本章教学重点:现象发展的水平指标和速度指标。 本章教学难点:现象变动的趋势分析。
腾冲叠水河瀑布 和来凤山公园 音乐:贝多芬——F大调浪漫曲 摄影、制作:曹珏 陈晓芬.
高三生物专题复习 生物工程.
生 物 的 变 异.
腹泻的中西医诊断与治疗 独山县中医院 蒙兴莲 二0 一0年八月二十六日.
第二节 遗传平衡定律及应用 一、遗传平衡定律
第三节 遗传力的估算及其应用 一、遗传力的概念
人无信不立 业无信不兴 公路建设市场信用体系 建设综述 交通运输部公路局 交通运输部公路局
R in Enterprise Environment 企业环境中的R
如何寫工程計畫書 臺北市童軍會考驗委員會 高級考驗營 版.
第十章 方差分析.
数据挖掘工具性能比较.
Craig.Hanis,Ph.D. 德克萨斯大学健康科学中心 Hoaston 人类遗传学中心
2.1.2 空间中直线与直线 之间的位置关系.
基因组多态性.
一、基因分离定律的实质 位于一对同源染色体上的等位基因,具有 一定的独立性,生物体在进行减数分裂形成配
课件制作:淮北矿业集团公司中学纪迎春 10.7相互独立事件同时发生的概率 授课教师:纪迎春.
模型分类问题 Presented by 刘婷婷 苏琬琳.
VisComposer 2019/4/17.
超越自然还是带来毁灭 “人造生命”令全世界不安
实体描述呈现方法的研究 实验评估 2019/5/1.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
遗传物质--核酸 核酸分子组成 核酸分子结构.
06 无形资产投资环节的会计处理.
基于知识库对自然语言中属性取值对的探索 潘笑吟.
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
基于高中生物学理性思维培养的实践性课例开发
第4课时 绝对值.
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
基因信息的传递.
知识点:交流接触器的结构和工作原理 主讲教师:冯泽虎.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
五.有丝分裂分离和重组 (一) 有丝分裂重组(mitotic recombination) 1936 Curt Stern 发现
Presentation transcript:

REVIEW&PLINK 2017.01.09

PLINK http://pngu.mgh.harvard.edu/~purcell/plink/ 统计遗传学

1、全基因组关联分析工具。 2、由人类遗传研究中心(CHGR),马萨诸塞州总医院(MGH),哈佛大学和麻省理工学院的Broad研究所等机构科研人员所开发。 3、主要针对基因型/表型数据的分析 4、软件可以使用命令行分析 5、也可以使用基于JAVA语言的图形界面gPLINK。

现在许多现存的基因分析软件不能够用来处理基因组大数据,为了解决这个问题,开发了plink软件。基于C语言的全基因组关联分析。

人类基因组中识别导致某种特殊疾病的基因,分析人类复杂遗传疾病,研究与疾病相关的基因突变。

主要的功能模块包括:数据处理,质量控制的基本统计,群体分层分析,单位点的基本关联分析,家系数据的传递不平衡检验,多点连锁分析,单倍体关联分析,拷贝数变异分析,Meta分析等等。

全基因组关联分析 GWAS (Genome-wide association study;GWAS):应用基因组中数以百万计的单核苷酸多态;SNP为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。

世界范围的人类群体,在表型上可谓千差万别,但是基因组上的差异却非常小,而且这种差异大多数表现为SNP (Single nucleotide polymorphism , 单核苷酸多态性)。

Case & control 刀鲚 筛选出最显著的SNP

Plink -IBS IBS (Identity By State,状态一致) : 在两个或两个以上的个体当中,如果一个DNA片段具有相同的核苷酸序列,就说这个DNA片段是IBS。

Plink -IBD IBD (Identity By Des-cent,同源一致): 如果IBS片段是遗传自同一个祖先且中间过程没有发生过重组事件,就说这个片段是IBD。

显著的SNP 由1 和2 组成的2n个序列,每一个SNP 基因型对应两个序列。 对于任意一个个体的SNP 基因型数据进行处理(忽略ACGT 的差别)如22,21,12,11 分别对应于SNP 基因型,aa aA Aa AA。然后把这些序列转换为 由0、1、2 组成的数量为n的SNP 序列,表示为:

第i个个体 第k个SNP

第i个个体的SNP基因型为: 第j个个体的SNP基因型为:

这两个个体间的第K个snp的IBS状态为:

只考虑状态值是0和非0的情况:

个体i和个体j的SNP的IBS 状态值非0的区域满足一定阈值就作为候选IBD片段,可以表示为: 个体IBS 状态值非0 的SNP 数量

每个SNP 上各个体之间的差异: 数据个体的总数目

第k个SNP 的差异表示为:

把N个体的数据分成case和control两组进行分析,其中case包含个l个体,control包含m个个体,然后对这两组数据分别进行评价分析,对每个SNP 得到各自的S值。

PLINK- LD(连锁不平衡) P(AB)= P(A)*P(B) 配子不平衡,是单倍型中等位基因之间的统计相关性。 单倍体基因型 A 和B 1、如果不存在连锁不平衡——相互独立,随机组合 2、实际观察到的群体中单倍体基因型 A和B 同时出现的概率

P(AB)≠P(A)*P(B) 1、如果A与B是相关联的 2、两对等位基因是非随机结合

  P (AB) = D + P (A) * P (B) D是表示两位点间LD程度值

GWAS的基本原理 借助于SNP分子遗传标记,进行总体关联分析,在全基因组范围内选择遗传变异进行基因分析,比较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。

例子 青藏高原的居民对极端的高海拔的适应研究。作者测了50个藏族的外显子组。找到了青藏高原居民的基因中等位基因频率变化的候选基因。 并通过关联分析最后验证出EPAS1基因与他们的高海拔适应性状具有最高的相关性。

https://www.cog-genomics.org/plink2/formats

Making a binary PED file

谢谢 一起再讨论!