Microattribution&Nanopublication as Means to Incentivize the Placement of Human Genome Variation Data into the Public Domain George P. Patrinos
01 动机与背景 02 概念与应用 03 挑战与困难 04 相关讨论 Microattribution&Nanopublication发展的动机与背景 Microattribution&Nanopublication的创新出版形式,以及其在实践应用中的发展 Microattribution&Nanopublication从概念到实践的跨越中所遇到的挑战 相关问题的讨论以及建议
1 the part one 动机与背景
前基因组时代 基因组时代 后基因组时代 动机与背景 标志性工作包括生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等; 标志性工作包括基因识别与发现、网络数据库系统的建立和交互界面工具的开发等; 后基因组时代 标志是大规模基因组分析、蛋白质组分析以及各种数据的比较与整合。 其特点之一是全基因组关联研究(GWAS)的出现。
动机与背景 全基因组关联研究 全基因组关联研究(Genome-Wide Association Studies,GWAS)是指在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNP或CNV等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法,全面揭示疾病发生、发展与治疗相关的遗传基因。
动机与背景 基因突变数据库的主要类型 locus-specific mutation databases (LSDBs; designed for single genes) LSDB是Link State DataBase的缩写,指链路状态数据库,通过路由器间的路由信息交换,自治系统内部可以达到信息同步,即LSDB(连接状态数据库)描述的网络拓扑同步。 national/ethnic mutation databases (NEMDBs; designed specifically for particular population or ethnic groups)
动机与背景 中心数据库 The Online Mendelian Inheritance in Man (OMIM; http://omim.org) 在线人类孟德尔遗传(OMIM)是以人类孟德尔遗传与疾病(MIM)为基础的人类基因及其相关突变的在线目录。提供简要的基因和疾病背景生物学信息资源,包括人类基因中最常见的具有显著临床意义的突变和多态信息。 HumanGeneMutation数据库(HGMD;http://www.hgmd.org) HGMD:人类基因突变数据库(The Human Gene Mutation Database, HGMD)全面收集引起人类遗传疾病或与人类遗传疾病相关的核基因突变信息,HGMD包括大约4550个不同基因中的> 12.4万个不同变体(免费公开版,2012年3月获得),其中绝大多数变体都进行了基因注释。。
动机与背景 LSDB的发展: 第一个建立的LSDBs包括了200组α- 和β-球蛋白(HBA1,HBA2,HBB)基因突变数据,它以书的形式存在[Huisman et al., 1997, 1998]。它推动了关于hemoglobin variants(血红蛋白变种)和thalassemia mutations(地中海贫血突变)的HbVar数据库的建立; 有关F9、factor IX、hemophilia B的LSDBs自上世纪90年代初就已经存在; 而PAHdb在线知识库(另一个在上世纪90年代初建立的高质量的LSDB)在1995年9月提供了798个条目,对应248个等位基因[Hoang et al., 1996]。 目前有超过1800种独立记录了突变数据的LSDB在互联网上可以找到。
↓ 动机与背景 人员激励问题: 1.建立的LSDB后续管理难以维系; 2.就目前而言,几乎没有人认为将基因组变异数据贡献给突变数据库是正确的举动。 ↓ 解决措施: 以lsdb和NEMDBs为重点,通过引入某种形式的奖励机制来激励个体研究人员和研究团队的数据提交行为。
02 part two 概念与应用
“ ” “ ” 概念与应用 Microatrribution: The Human Variome Project will need to introduce publishing innovations at both ends of the citation spectrum. It will need to track the citation of each variant's accession code in papers, database entries and across the web. This closing of the online publication loop might be termed microattribution. “ ” “ Giving database accessions the same citation conventions and indices that journal articles currently enjoy. ”
“ ” 概念与应用 Nanopublication: Nanopublication 是可出版的最小知识单元,具有唯一标识符ID,是科技文献和数据集 中的科学结论、科学事实等的表示模式。每个Nanopublication知识元也可以像文献一样被引用,从而方便地计算它们在整个知识资源中的价值。它将个体研究者或者研究组织所提供的基因数据以一种稳定且容易获取的形式存储在开放数据库中,它有助于挖掘到与这个/这些作者唯一ID相关的引用,并且可以被引用和用来评估其在学术界的影响。 “ ”
( Publication In-formation) 概念与应用 纳米出版物的结构 论断 (Assertion) 出处 ( Provenance) 出版信息 ( Publication In-formation) 辅助信息 头部(Head) 纳米出版物ID 是最小的无歧义的信息单元,是纳米 出版物的核心,通常用于表示科学观点或科学结论 表示论断的来源,包括提出论断的作者、机构、时间和地点等; 即纳米出版物的元数据,包括该纳米出版物的创建者、创建时间、版权信息和版本信息等。
概念与应用
概念与应用 纳米出版物的形式表示 头部图包含四个RDF 三元组,分别用于定义一个纳米出版物实例以及描述该实例与论断图、出处图和出版信息图之间的关系; 论断图只能描述一个自然语言论断,需采用领域本体和专业词表对论断中的自然语言词汇进行规范化表示,可由一个或多个RDF三元组形式化地表示; 出处图描述论断的背景信息( 即论断的元数据) ,是对论断图属性的描述,由一个或多个主语是论断图的RDF 三元组构成,谓语则常采用出处本体( Provenance Ontology) 中的属性; 出版信息图描述纳米出版物的相关信息( 即纳米出版物的元数据) ,由一个或多个主语是纳米出版物URI 标识符的RDF 三元组构成,描述属性可取自出处本体或相关元数据规范( 如DC 元数据) 。
概念与应用 纳米出版物的形式表示
概念与应用 01 Nanopublication的优势 02 03 不需要与完整的科学文章相关 可以在资源描述框架(RDF)中编码,成为语义Web的一部分,并使用可扩展标记语言(XML)在计算机之间传输 03 激励潜在的数据贡献者将他们的数据置于公共领域
↓ 概念与应用 2011,Giardine等人首次在实践中应用了证明了microattribution的效用。 1.他们使用HbVar(珠蛋白基因LSDB)作为模型,将所有致病珠蛋白基因的表型和等位基因频率都记录在37个与α-和β-珠蛋白基因相关的LSDB中。 2.这些LSDB的每一个基因数据都列在了单独的microattribution表中,包括已发表的基因变体和个体研究人员或涉及血红蛋白的研究组贡献的未发表的基因变体。每个变体都与其LSDB编码和给数据提供者的唯一ID相连接。 3.随后,microattribution表被储存在NCBI(http://www.ncbi.nlm.nih.gov)公共数据库中以集中测量每个数据提供者或者数据单元的microattribution。 4.此外,这篇由35个机构51名作者组成的microattribution文献被发表在Nature Genetics上。 ↓ 人们已经发现,microatrribution对HbVar和相关数据库的数据提交率的提高有显著贡献,与HbVar活跃的前几年甚至与HbVar刚开始启动2001年相比,数据提交率提高了1.8至8.2倍。
03 part three 挑战与困境
挑战与困境 01 02 03 04 有效管理的LSDB数据库 领域领军人物的激励 资金问题 未经组织的数据
球蛋白基因数据集Microattribution项目的成功在于: 挑战与困境 球蛋白基因数据集Microattribution项目的成功在于: 1.管理良好的数据库; 2.试点项目本身所具有的新颖性; 3.高知名期刊的热情支持。
挑战与困境 项目资金问题: 1.microattribution/nanopublication概念的成功采用将需要国际专家来进行质量评估,由协会统一管理; 2.建立在一个或多个预先存在且开放存取的高质量中央数据库或数据库期刊的基础上; 3.基因组研究期刊(包括online期刊)中定期发布microattribution类型的文章相结合。
↓ 挑战与困境 以明确的方式标注数据置信水平 目前正在生成的大多数突变/变异数据来自基因和全基因组的全基因组测序研究。这些是“原始的”没有经过组织的数据,因此必须以与例如涉及等位基因频率等经过组织的数据完全不同的方式处理。 ↓ 以明确的方式标注数据置信水平
挑战与困境 WHO? ↓ ↓ 只考虑高影响因子的传统权威期刊 希望在短期内最大限度地获得收益
04 part four 相关讨论
对公共和私人基因诊断实验室以及相关研究组织的激励 鼓励作者提交数据的两种方法:期刊方面要求;为microattribution文章进行标注:“mA” 数据所有权以及 隐私保护问题 小标题 对公共和私人基因诊断实验室以及相关研究组织的激励 你的幻灯片只是帮助别人记忆,它的作用是辅助性的。只在幻灯片上强调最重要的东西。而那些细点,则通过你的嘴巴说出来。
如何激励公共和私人基因诊断实验室以及研究组织来贡献数据? 相关讨论 如何激励公共和私人基因诊断实验室以及研究组织来贡献数据? ↓ ↓ 担心患者身份的泄露以及随之而来的诉讼问题 缺少制度上的激励 ↓ ↓ 1.订购基因测试时向患者请求同意 2.可以在提交数据时隐藏其个人详细信息 数据贡献囊括进基因实验室资格认证过程的质量评价标准
相关讨论 室间质量评价(EQA,external quality assessment),是多家实验室分析同一标本、并由外部独立机构收集和反馈实验室上报的结果、以此评价实验室操作的过程。通过实验室间的比对判定实验室的校准、检测能力以及监控其持续能力。
总结 microattribution的广泛采用将依赖于新型的出版方式,认证个人数据提供者的唯一身份的手段和相关人员的热情和动力。 虽然在人员激励方面仍存在不小困难,但是其发展对于科学进步来说十分重要。
THANKS THANKS