第六次全国人口普查 近期数据处理工作部署 夏雨春 2010年12月28日
内容提要 通报进展、分析问题、部署工作 数据处理进展情况 当前面临的主要问题 重点工作安排
数据处理进展情况 起步不一 进展较快 进度不均 全面启动数据编审
数据处理进展情况 起步不一 最早的:11月23日开始录入 最晚的:3个地市12月10日尚未开始 全国启动整体情况
数据处理进展情况 进展较快 至12月20日,全国已扫小区数3801210个,完成率68.92 %;已校验小区 数为3751575个,完成率68.02%.前五省的柱状图:
数据处理进展情况 进度不均 全面启动数据编审 至12月20日 省区市:四个省(区)光电录入工作完成率未到50%; 地(市):正式启动光电录入工作的占99%以上; 开始启动数据处理的地市(区)有126个; 个别地区节奏失控将影响全国光电录入顺利完成。 全面启动数据编审 至12月20日,全国数据处理工作已全面进入编审阶段。
总结:数据处理进展情况 整体上:数据处理进展顺利 个别地区:起步晚、进展慢,影响全国进度 思想重视、组织得力、保障到位。 领导松心、组织较混乱、计划性较差、流程不够清晰,落实不到位。 普查表不能及时交付 光电录入环境不到位(无场地) 数据处理设备不足 人员数量和能力不够
当前面临的主要问题和原因 数据质量 数据安全 人员与设备保障 耗材保障与技术支持
数据质量 普查数据质量面临挑战 三个环节各有问题:为赶进度、把关不严、简化流程。 百岁老人 多配偶 出生/死亡人口高 无性别人多 民族人数 普查环节->编码 光电录入->校对 数据处理(逻辑改错) ->核实
数据质量:普查环节 地址码 普查表: 不一致:不同开始时间可能使用不同地址码,个别地区自行调整了地址码; 必须统一:12月5日国家发布的地址码为准! 普查表: 有小区无表,有表无小区; 正常小区无短表、无长表; 虚拟表的在数据编审时必须删除! 全户死亡未填999; 光电完成后,新增普查表; 手工录入的必须上报说明,并单独报送对应的图象!
数据质量:普查环节 填表质量问题:主要是编码问题 编码书写不规范 编码与圈填不一致(百岁老人、多配偶), 编码错误; 未编码 普查表污染
填表质量问题:编码书写不规范,校对不认真 提示校对未被修改正确的 识别为1155, 9被提示校对1 识别为0933, 1被提示校对0 识别为1441, 9被提示校对4 识别为1904, 6被提示校对0
填表质量问题:编码与圈填不一致
填表质量问题:编码错误(0编码为6) 这里全部字符都应是0,某小区119个0误编了33个6,其中26 个被自动识别为6,7个为疑似6,需人工校对。
填表质量问题:未编码 漏编、未编码现象较多,其中: 80万普查人有4000多未填性别; R6、R7漏编较多; 民族漏编等
填表质量问题:普查表污染 墨水不是纯黑 滤红后无法识别 表格被污染, 出生年被识别为1 表格被污染 出生年被识别为1187
数据质量:光电录入 光电录入:主要是校对不认真 校对:不认真、不看原图; 数据:识别为疑似,未改对的数量(见前页); “汉”易被误识为“水”、“白”、“侗”等;
数据质量: “汉”被误识 “汉”被识别为疑似的其他民族,转入人工校 对 汉族水族 汉族侗族 连笔草书,“汉”字左边三点水写成一竖,易识别成“侗、回”等。
数据质量: “汉”、“哈”被误识 “汉”被识别为疑似的其他民族,转入人工校 对 “哈尼族”若只写”哈” 易被识别为疑似的其 他民族,转入人工校 对 汉族白族 连笔草书,“汉”字第一点写在上部偏中,下两点与“又”字连笔书写,易识别成“白” 。
数据质量:光电录入 光电录入:认真校对 校对率 0.0256% 6.001% 0.0459% 0.0243% 0.7927% 0.0273% 识别引擎技术要求:数据(误识率<0.05%)、汉字(误识率<0.1%) 民族的汉字识别:某省30万人的实际样本测试结果,人数少时错误率波动大 总人数 误识率 校对率 错误率 305231 0.0256% 6.001% 0.0459% (汉)98897 0.0243% 0.7927% 0.0273% 哈尼72043 0.018% 0.6607% 0.0208% 满族,49人 0.0% 7, 14% 4, 8%
数据质量:数据编审 总结:数据质量 数据编审 等待热校软件,尚未正式开始编审改错; 人手不够,简化流程,不认真核实问题数据,未看原图; 审核规则不全,即未用最新版数据处理软件和制度包; 总结:数据质量 圈填、编码、校对等所有环节形成的问题都在数据编审这 个最后环节集中体现,压力确实很大!但必须把好最后一 关,确保数据质量。
当前面临的主要问题和原因 数据安全 已发现2个地市将扫描、校对完成的数据和图象全部丢 失,目前,正在全力以赴重新扫描识别! 主要是未做备份! 作好数据和图象的归档备份(磁带或移动硬盘); 作好数据合并(导入/导出)工作; 严格流程,防止误操作;
当前面临的主要问题和原因 人员 设备保障 连续作战 元旦、春节将近 光电录入已近收尾 确保队伍稳定、人员不散 数据编审、光电录入并行 年报等常规工作必须完成 目前,设备压力最大,必须确保普查数据处理的服务器和编审设备
当前面临的主要问题和原因 耗材保障 技术支持 扫描仪送纸轮磨损严重,耗材消耗量大; 设备故障频繁; 最高扫描量:6、7万张/日; 目前,70%以上是设备故障和耗材申请; 已紧急调用耗材和备件,确保设备正常运行。 技术支持 国家人普办数据处理组成立了联合指挥小组; 规范流程、解答问题、控制质量; 确保技术支持与服务24小时有人响应; 确保设备和软件运行正常; 各省要作好对地市(县)的数据转换、交接等工作的指导和支持。
下一步工作重点 加强领导、严格控制、确保质量、按时上报。 主要领导要亲自抓质量控制,抓进度落实; 要加强管理,做到普查工作不结束,人员不能乱,特别是在数据处理 的关键时期,保证普查队伍稳定; 要严格按照人普办的统一部署和时间要求,完成光电录入和数据编审 工作。
重点工作安排 数据编审 光电短表数据上报 后期光电录入工作
重点工作安排 数据编审,确保数据质量 数据编审即是问题暴露点,也是问题解决点, 是把好普查数据质量的最后一关; 人普办将增加有针对性审核、汇总关系; 认真作好人工审核、逻辑改错工作; 数据编审(逻辑改错)一定要查看原图(修改确认); 业务人员要全面介入,对数据质量把关; 严格按照流程和规范执行!
重点工作安排 光电短表数据上报工作 光电录入数据质量控制 国家将发布光电短表数据报送通知; 各省须准备一台与地市相同的PC服务器; 报送内容:短表数据、日志文件(报送程序会自动生成); 报送时间:2011年1月10至20日。 光电录入数据质量控制 载出必须保持与原表、图象数据匹配; 国家将做有针对性的质量检测和比对;
重点工作安排 后期光电录入工作 还没进行光电录入的地方 短表光电录入收尾 长表、死亡表的光电录入 图象归档和报送 设备保养和耗材管理 软件版本和环境管理 还没进行光电录入的地方 必须针对实际情况和制定有效措施; 加强普查表的质量审核; 按时高质地完成光电录入工作;
总结:重点工作安排 组织上:加强领导,亲自抓; 管理上:稳定队伍,别散别乱; 具体工作: 总之,对数据质量负责,做好做实!保质按时! 光电录入:短表收好关,长表、死亡表落实到位; 数据编审:按规范执行、改错必须落地(看图)。 总之,对数据质量负责,做好做实!保质按时!
新春快乐! 感谢大家的辛苦工作! 感谢全国5万多名奋战 在数据处理一线的同志们!