鼎湖山站数据信息系统的建设 http://dhs.scib.ac.cn 国家生态系统观测研究网络 2006年度数据管理系统培训班 鼎湖山站数据信息系统的建设 http://dhs.scib.ac.cn 鼎湖山森林生态系统定位研究站 张 倩 媚 2006年8月20-26日
总体介绍 信息系统介绍 建设过程 系统的应用 问题与展望 鼎湖山站
一、鼎湖山站数据历史背景 1 、 1955-1978建站前,开始进行一些本底监测.数据较零散 ★ 1. 总体介绍 一、鼎湖山站数据历史背景 1 、 1955-1978建站前,开始进行一些本底监测.数据较零散 2 、 1978-1991建站后至加入CERN前,按本站监测指标进行监测.数据也不规范 3 、1991至今,加入CERN后, 按CERN指标体系进行监测.1999开始按CERN要求上交数据. 4、2000年后,研究项目增多,数据多样化 5、2002年开始C通量观测,数据量大 6、2004年开始大气本底观测
二、鼎湖山站数据特点: 1、数据量大(C通量数据每天约200MB,其它数据量达1GB以上) ★ 1. 总体介绍 二、鼎湖山站数据特点: 1、数据量大(C通量数据每天约200MB,其它数据量达1GB以上) 2、数据连续性强(如生物数据从1955年开始、气象数据从1965年开始) 3、研究类型多(研究课题、学生上交数据类型多; 各种林型数据齐全、调查分析项目齐全 ) 4、长期观测项目多(常规监测1978年始、 CERN监测上交1999年始、 C通量2002年始、大气本底站2004年始)
三、鼎湖山站数据管理特点: 1、完整归类(研究数据按监测的水土气生归类、格式尽量靠拢; 监测数据尽量合并每年的) ★ 1. 总体介绍 三、鼎湖山站数据管理特点: 1、完整归类(研究数据按监测的水土气生归类、格式尽量靠拢; 监测数据尽量合并每年的) 2 、元数据标准制定和填报(首批森林站试点) 3 、数据结构不断调整(从DBF-XLS-SQL) 4 、管理内容数据化 (如论文及PDF入库查询)
四、鼎湖山站数据服务: 1、数字化台站(网上办公系统、GIS与属性数据连接查询、虚拟仿真在调试中) ★ 1. 总体介绍 四、鼎湖山站数据服务: 1、数字化台站(网上办公系统、GIS与属性数据连接查询、虚拟仿真在调试中) 2 、数据服务和共享(网上查询系统和数据使用登记)
★ 2. 管理系统介绍 一、鼎湖山站的信息管理系统 首页(台站简介、新闻动态、台站风光、历史沿革、申请项目、人员队伍、新闻检索、数据申请排行榜、友情链接、用户注册或登录) 元数据(分类检索或搜索—然后可查看实体描述、监测场地、产生方法、质量评价、数据分发等信息) 样区地图(图例、鹰眼、放大、缩小、全图、漫游、信息、查询、查找、测距、缓冲、选择、清除,图层选择) 监测类数据( 生物、土壤、水文、气象) 研究类数据( 生物、土壤、水文、气象、研究专题打包下载)
科研管理(数据供查询、文档供下载查看) 数据服务(根据数据集名称、摘要、关键词、作者、年份等进行查询,然后提出数据申请) 用户服务(用户注册、用户登录、取回密码、修改资料) 标准规范(下设子目录供下载查看)
二、鼎湖山站的后台管理系统 1、系统管理 2、文章管理(增加删改) 3、数据申请(处理回复) 4、数据下载(统计) 5、用户及角色管理 ★ 2. 管理系统介绍 二、鼎湖山站的后台管理系统 1、系统管理 2、文章管理(增加删改) 3、数据申请(处理回复) 4、数据下载(统计) 5、用户及角色管理 6、友情链接管理(随时删减) 7、文件管理(上传文件到数据库中,与查询出的结果相对应)
制定数据共享政策与权限设置 用户分级考虑全面 权限设置考虑周全,与数据共享政策的制定密切相关。 设计好admin3用户角色定义表 鼎湖站人员可看全部数据,CERN成员可看监测数据,非鼎湖站的能看元数据和部分管理类数据与历史数据,还未细分到哪个数据库能看哪年的数据。
三、本网站新增功能 1、根据样区地图,与属性数据连接查询,具有直观实用性。 ★ 2. 管理系统介绍 三、本网站新增功能 1、根据样区地图,与属性数据连接查询,具有直观实用性。 2、可针对每个字段进行查询,方便实用。如根据论文目录查出的内容,又可与对应的PDF下载连接。 3、改进了图片展示、文本、PDF等的上传下载功能。用资源管理器的文件及文件夹方式即可实现在网上的查询功能。
★ 3. 建设过程 一、整编归类 鼎湖山站数据分为五大类。其中研究数据尽量与监测数据一样,按水、土、气、生再归为4类,按时间、空间或要素进行整编,不能归类的则按研究专题单独存放,打包下载。数据库格式尽量与监测数据格式保持一致,如有更多的信息则增加在备注列之后。(I1表和ES中的数据词典一致) CERN数据格式在2005年有较大的变动,以前几年的数据也尽量往新表格靠拢,以体现数据的延续性。(生物还是要保留两套) 能与样地信息关联起来的元数据均可以样区地图作为界面,可进行查询统计。
二、元数据填报 基本完成了标识信息I、场地S、方法M等元数据的填写工作。 ★ 3. 建设过程 二、元数据填报 基本完成了标识信息I、场地S、方法M等元数据的填写工作。 但在填写过程中仍发现有些内容很难表达,或有些内容很冗余,或许可以精简。需要数据管理员全面熟悉本站的所有数据及数据的来源信息,才能更好地管理好本站的数据。也需要研究人员在提供数据的同时,能提供尽量详细的本底信息。 这是一项长期而艰巨的工作,要通过推广应用、反复的实践检验才能确定一套适用可操作的体系,现在只能说是处于初级阶段。
心 得 A:由同一个字段相关联的表放在一张EXCEL表中进行编辑修改,充分利用EXCEL软件的灵活性。再按每张表的字段内容选择粘贴入库。 ★ 3. 建设过程 心 得 A:由同一个字段相关联的表放在一张EXCEL表中进行编辑修改,充分利用EXCEL软件的灵活性。再按每张表的字段内容选择粘贴入库。 如I2、I3_1、E1表都是由数据集标识符关联的,则放在一张表中编辑,并用数据透视表(有数据刷新功能)生成I1、I2、I3_1表,则保证了数据的统一、更新及尽量避免重复。 A1与E1通过实体标识符关联。 记录数的多少与这几个库的包含关系相反:A1>E1 >I2=I3_1=I3_2>I1
心 得 如S4、S6、M1、M7通过样地代码关联,可放在一张表(M1比S4稍多几行,是由于同一样地中有两个以上项目的,如永久样地要进行植物采样和植物调查两类;建议S6合并到S4中,加多一列就行(年+管理大事),有的就填,没的空着),M1和M7还通过方法编码和方法名称再度关联,一一对应。 如M2-M5通过方法编码关联。也与M1、M7关联(实际上M2-M5只与方法名称相关,监测数据目前不同的样地采样、调查、分析方法是一样的,加上样地代码的方法编码后就变成不一样了,则方法名称也要加上样地名称)。 M6与M2通过“待分析项目”关联起来,一对多关系 如M10-M11通过仪器代码及名称关联。
★ 3. 建设过程 心 得 B:如数据集只与一个实体对应,则用EXCEL的=功能,即实体标识符=数据集标识符,实体名称=数据集名称,也能保证数据的统一与同时修改。I2、I3_1、E1表 C:要充分了解信息管理系统中查询的细节,有助于填写元数据表格。如提供查询的摘要和关键词等要逐步完善。作者查询是关联到创建者和其它贡献者的填报。年份查的是I3_2表
★ 3. 建设过程 心 得 D:元数据表中有很多有时间字段,很容易出现混乱,如何注意统一是个重要问题。查询中的年份读的是I3_2表,但此表还没填好,因模板有错 。I3_1表有日期,E1表有实体开始和结束时间(针对实体),I3_2表又有开始时间和结束时间(针对数据集),一定要理解清楚。
心 得 数据不是一成不变的,入库的数据肯定还要保留一套平时便于操作的EXCEL格式,修改好后一次性入库。 ★ 3. 建设过程 心 得 数据不是一成不变的,入库的数据肯定还要保留一套平时便于操作的EXCEL格式,修改好后一次性入库。 在元数据标准的内容中,始终存在着这样的矛盾:对于元数据的编写而言,元数据标准的格式越简单越好;而对于使用元数据的人来说, 元数据包含的内容越多越好。如何制订简单而函盖内容广泛的元数据标准始终是元数据研究的主题。 CERN元数据标准还要在使用过程中加以检验。
★ 3. 建设过程 三、FO管理数据 FO管理数据.xls(论文、项目、学生毕业论文、成果、人员、专家库、数据使用登记、培训会议、GIS图片、DBF数据目录等 ) 管理文件:XLS、PDF、PPT、DOC、JPG、RAR等任何格式,均以文件夹形式归类供查询下载
四、用ES软件进行数据入库 A:ES管理台(开始尽量少设,各部分都是相关联的,改起来很麻烦) ★ 3. 建设过程 四、用ES软件进行数据入库 A:ES管理台(开始尽量少设,各部分都是相关联的,改起来很麻烦) 角色:根据本站实际情况,如暂不用工作流,且入库时不分专业管理,则只设一个管理员角色即可,以后再添加。实际上把审核等工作放到服务器外,用EXCEL操作会简单方便一些。 用户:如只有一个角色,就只有一个用户了 用户词典:根据I1分类系统表设置,便于在我的工作台中归类查看
数据类型:尽量少设,以后再改。如文字型的设三级:10字以内,100字以内,250字以内。数字型的设5级:整数、前10后1,2,3,4,就可包括所有数据了。 数据规范:网络统一制定了部分,可自己添加。 EXCEL报表:全部建立了模板的报表都在此显示,与SQL中的表名(生成带_明细的表名)要完全对应才行。也要与E1属性表中的实体名称对应(校对较麻烦)
★ 3. 建设过程 B:数据库建模板及入库 先基本填好元数据的A1、E1、I1、I2、I3-1表才开始入库。全部放在DHF元数据结构表.xls一个数据集中,便于修改查对。 同时打开A1表、E1表及要建立模板的数据表。选择A1表的中英文字段名,转置粘贴在一个新表中,拷贝E1表中的实体名称,作为新模板的文件名。 创建模板时,定义报表的“报表编号”为实体代码,即FA01,FA02,FC01;“报表名称”为实体代码再连上实体名称,这个实体名称必须与E1实体信息表中定义的名称完全一致。比如,E1实体信息表中定义FA02的实体名称为“森林植物群落乔木层灌木层生物量模型”,那么报表名称应为“FA02森林植物群落乔木层灌木层生物量模型”.这样做的目的是在“我的工作台”上同类表就挨在一起显示。
入库时: 定义完重复数据项后先看能否存盘,留意生成_明细的名称是否与自己E1表的一样。看文件名是否包含不认可的符号。如有错会提示,做完全部再存盘而存不上,就会前功尽弃了 存好盘后,再重新打开建立管理数据表定义数据类型。(此时可打开A1表放在边上,因代码内容都不熟悉,可对照着设定字段类型和长度)
气象数据的A表就分成了72张表入库,所以先把模板建好,再把每年数据合并在一张表中方便入库。如DHF04A合并、 DHF05A合并
★ 3. 建设过程 注意事项: 实体代码或名称中不能有、()、\、-、数字开头或上下标等该软件不能识别的格式,可改用_,则在元数据的A1、E1、I2、I3-1中要修改好才入库。如乔木层、灌木层,株(丛),mg\m, FA01-03、-中子法(这要请各分中心重新提供没有出现这些符号的统一表命名,如FA02有、) 数据更新时,先删除原来数据,这样会运行快些。用查看方式进去易死机。如A1表经常要更新 A1表入库前按实体标识符排好序后入库,会加快检索速度和有较好的显示排列顺序。。 如数据集标识符修改,则相关联的I2、I3_1、E1表要同时修改入库。
五、空间数据入库 矢量化本站的全部图象(各时期的植被图、地形图、地貌图、航片图、土壤图等、样地平面分布图等) 与样地信息等属性数据建立链接(样地信息表、观测项目信息等)
六、网上查询系统、后台管理系统、ES入库系统要互相检验 ★ 3. 建设过程 六、网上查询系统、后台管理系统、ES入库系统要互相检验 查对步骤: 在ES中导出EXCEL表,在SQL中导出表,粘贴到E1表中对应行,较对实体标识符和名称是否一致。 A1表的属性标识符和属性名称与建立的模板及数据表中的要一一对应。
修改步骤: 数据如要修改,建议在我的工作台中删除数据,重新入库 模板名称不对的: 1.打开模板修改模板属性中的名称; 2.打开模板删除已定义的重复数据项; 3. ES管理台中同时删掉模板和数据后重建。 尽量不要在EXCEL中只修改模板属性,因为模板名称可以随时改动,但原来已进入SQL的_明细表不会跟着改动,所以在查询时就读不到数据了。 输入数据时有时会出现存盘不上,可能是某些字段超长,要缩短原数据内容或增加模板字段长度。
★ 4. 系统的应用 1、网上办公,本站人员随时查询利用,提高工作效率 2、数据对外发布,实行共享,提高数据利用率 3、数据集成,为大尺度研究提供基础 4、扩大宣传,吸引更多有兴趣的研究人员到本站工作。
★ 5. 问题与展望 目前还是单表查询,目标是要跨表查询 字段名的统一,中英文命名规范可作深入研究 进一步加强公式表达,自动生成派生数据库 日期型数据类型未解决 地图显示需要有域名,已向所里申请 http://dinghs.scib.ac.cn 研究人员对信息管理工作虽然很重视,但还不能很好地参与其中,还维持着较原始的数据利用方式。开发的系统越简单越实用最好。
谢 谢!