公用数据元目录 张业武 胡 凯 医药卫生科学数据共享网总中心 国家科技基础条件平台 医药卫生科学数据共享网 资源体系建设与标准规范建设培训 胡 凯 资源体系建设课题组 医药卫生科学数据共享网总中心 标准规范建设课题组 2008年11月29日 北京
意义:相同含义的数据元直接使用公用数据元目录中的定义,保证数据的一致性 普通用户 提交数据元 审核注册机构 完成一个数据元的定义 定义一个数据元 进行数据元 的属性著录 审核 有问题返回给用户 意义:相同含义的数据元直接使用公用数据元目录中的定义,保证数据的一致性 通过标准化 审核与注册 标准化 数据元库 公用 数据元目录
通过公用数据元目录标准的研制: 规范和统一领域内基础性、通用性的数据元; 规范、推动和促进科学数据在语义层面上的共享; 解决数据共享工程中的数据一致性问题; 为建立规范化的领域数据元目录提供方法和实例。
公用数据元目录 (医药卫生领域) 领域公用数据元目录内容框架 数据元描述与标识 数据元值的表示方法 领域公共数据元目录 与各数据中心的合作与分工
一、领域公用数据元目录内容框架 基础是遵循和参考科学数据共享工程的公用数据元目录 去掉与医药卫生领域无关的数据元 增加了医药卫生领域多个专业共同使用的数据元
一、领域公用数据元目录内容框架 内容框架 基础医学公用 数据元 临床医学 公用数据元 公共卫生公用 数据元 领域公共 数据元 。。。。。。 药学公用 数据元 中医药学公用 数据元
公用数据元目录 (医药卫生领域) 领域公用数据元目录内容框架 数据元描述与标识 数据元值的表示方法 领域公共数据元目录 与各数据中心的合作与分工
二、数据元描述与标识 1、摘要表示的描述符 本标准中,数据元是通过标识符、名称、英文名称、说明、表示、值域、同义名称、相关环境、版本、备注这些属性来表达的 标识符:在数据元目录中,为数据元分配的与语言无关的惟一标识。 名称:数据元的中文名称,是标识数据元的主要手段。 英文名称:数据元的英文全称。 说明:关于数据元的含义和基本特性的说明,并使之区别于其他数据元。 表示:数据元值的数据类型及字符长度的组合表示格式。参见 5。 值域:数据元取值范围或相关内容的说明。如所采用的代码标准,或通过枚举的等方式 给出所有可能的取值。 同义名称:本数据元的其他许用名称。(可选) 相关环境:产生或使用数据元的应用环境的说明。(可选) 版本:数据元所在数据元目录的版本标识。 备注:对数据元的补充说明(可选)
二、数据元描述与标识 2、数据元标识码分配 XX XX XXXX 数据元的大类(公共、基础医学、临床医学等) 数据元的组号(公共数据元中的组,机构人员等) 数据元流水号(最后一位的奇偶代表是否为代码型)
二、数据元描述与标识 2、数据元标识码分配 1)数据元大类编号分配 MC - 代表医药卫生公共数据元 BM –代表基础医学公用数据元 CM –代表临床医学公用数据元 PH –代表公共卫生公用数据元 TM –代表中医药学公用数据元 PM –代表药学公用数据元
二、数据元描述与标识 2、数据元标识码分配 2)组号分配 各个大类分别单独分组,排序赋予两位组序号。 对每一个大类的数据元目录来说,保留组号99为其它组。
二、数据元值的表达方式 2、数据元标识码分配 3)流水号分配 使用4 位数字作为数据元的流水号 其中最后一位码的奇偶性决定数据元是否为代码型,非代码型数据元采用偶数标识,紧随其后的奇数用来标识同一概念的代码型数据元。 如:MC010506 代表数据元: 性别 MC010507 代表代码型数据元:性别代码
公用数据元目录 (医药卫生领域) 领域公用数据元目录内容框架 数据元描述与标识 数据元值的表示方法 领域公共数据元目录 与各数据中心的合作与分工
三、数据元值的表达方式 1、数据类型表示方式 表 1 数据类型表示法 表示符 数据类型 说明 S 字符型 表 1 数据类型表示法 表示符 数据类型 说明 S 字符型 可以包含汉字(中、国……等)、字母字符(a-z,A-Z)、数字字符等。(默认 GB 2312 信息交换用汉字编码字符集 基本集) N 数值型 数字形式表示的数值 T 日期时间性 采用GB/T7408中规定的 YYYYMMDD、YYYYMMDDThhmmss 格式
三、数据元值的表达方式 2、字符长度表示方式 表 2 字符长度表示方式 分类 表示方法 固定长度 在数据类型表示符后直接给出字符长度的数目。 表 2 字符长度表示方式 分类 表示方法 固定长度 在数据类型表示符后直接给出字符长度的数目。 可变长度 1) 可变长度不超过定义的最大字符数。在数据类型表示符后加 “..”后给出数据元最大字符数目。 2) 可变长度在定义的最小和最大字符数之间。在数据类型表示符后给出最小字符长度数后加 “..”后,再给出最大字符数。 有若干字符行表示的长度 按固定长度或可变长度的规定给出每行的字符长度数后加“X” 后,再给出最大行数。
三、数据元值的表达方式 3、应用实例 1) S 字符型 S12 固定长度为 12 个字符(相当于 6 个汉字)长度的字符。 S..40X3 3 行最大长度为 40 个字符长度的字符。
三、数据元值的表达方式 3、应用实例 2) N 数值型 N3 固定长度为 3 位数字。 N..3 最大长度为 3 位数字。
三、数据元值的表达方式 3、应用实例 3) T 日期时间型 T8 采用 YYYYMMDD 格式(8 位定长)表示年月日。 如 1998 年 1 月 8 日,应表示为 19980108。 T15 采用 YYYYMMDDThhmmss 格式(15 位定长)表示年月日时分秒。时分秒之前加大写字母“T”。如 2004 年 3 月 25 日 9 时 8 分 5 秒为 20040325T090805。
公用数据元目录 (医药卫生领域) 领域公用数据元目录内容框架 数据元描述与标识 数据元值的表示方法 领域公共数据元目录 与各数据中心的合作与分工
四、领域公共数据元目录 1、公共数据元分组 第 01 组 机构、人员类数据元; 第 02 组 地理位置、空间、几何图形类数据元; 第 01 组 机构、人员类数据元; 第 02 组 地理位置、空间、几何图形类数据元; 第 03 组 日期、时间、期限类数据元; 第 04 组 金额、数量、比率、计量单位类数据元; 第 05 组 仪器、设备、物品类数据元; 第 06 组 数据资源生成、管理、应用类数据元; 第 99 组 (其它);
四、领域公共数据元目录 第一组 机构、人员类数据元 标识符: MC010000 中文名称:单位名称 第一组 机构、人员类数据元 标识符: MC010000 中文名称:单位名称 英文名称:Organisation name 说明: 批准成立的组织机构的正式名称,与公章上的名称一致。 表示: S..100 值域: 文本 同义名称:机构名称 相关环境:科学数据共享工程 版本号: v1.0 备注:
五、与各个数据中心的合作与分工 基础医学公用 数据元 临床医学公用 数据元 公共卫生公用 数据元 领域公共 数据元 。。。。。。 药学公用 中医药学公用 数据元
五、与各个数据中心的合作与分工 1、共享网总中心标准化课题组 1)公用数据元目录的制定 职责一:定义 ● 数据元描述方式的定义(数据类型、长度等的表示方法)标识 ● 目录中每个数据元描述符的选择与界定 ● 数据元标识编码的定义与分配 职责二:制定领域公共数据元 ● 通用数据元的选择(国家、性别、职业……) ● 领域公用数据元的纳入(诊断、体重……)
五、与各个数据中心的合作与分工 1、共享网总中心数据元标准化工作组 2)数据元目录的维护 ● 执行对数据中心所提交数据元的标准化审核 ● 数据元目录的更新与维护
五、与各个数据中心的合作与分工 2、各个数据中心数据元工作组 收集本专业数据元(在公共部分之外) 执行数据元的标准化定义(待审核) 制定公用数据元目录的本专业部分 建议补充领域公共数据元
五、与各个数据中心的合作与分工 目前,公用数据元目录(1.0版)只完成了公共部分 需要各个专业数据中心的合作完成和补充
介绍完毕, 谢谢大家!