邮政基础地址采集录入规范 中国邮政数据传媒中心 宋钧 2013.7
内容 一、为什么要建基础地址? 二、采集录入规范解决了什么问题? 三、采集录入规范的主要内容 四、下一阶段的主要考虑
什么是邮政基础地址库? 邮政基础地址是以国家标准地名为依据,结合邮政自身特点,按照一定规律分层、分段后形成的邮政用通信地址。 它为人们正确书写通信地址提供了方便,也是邮政分拣、投递、商函、物流等业务子系统的重要的基础性数据。
中国邮政基础地址库建设过程 2004年6月开始建设地址库,采用“先大省后小省,先城市后乡镇”的原则进行,经过五个阶段的建设,截止到2006年8月,全国346个地市全部完成地址库的建设,数据总量9110万。 用时2年零2个月 2007年,全国基础地址库达到1.3亿条。
含义与结构 建设地址库的意义
每天都会有大量的信息从邮政的各个业务系统中经过…… 张三可能在邮局办理过如下业务: 订阅了全年的《新潮电子》杂志、《电脑报》 报刊订阅 留下了姓名、 地址、邮编、报刊名称等信息 电子汇兑 每月都会往同一地点汇大额款 留下了汇款人和收款人的姓名、地址、证件号码、汇款金额等信息 集邮预定证 每年都会办理此项业务 留下了用户的姓名、地址、证件号码等信息 邮政储蓄 邮局在制作帐单时,可能又会留下张三的“银行”和“移动”、“联通”的信息。 留下了用户的姓名、地址、证件号码、手机号码等信息 在邮政开了一个帐户,用于日常消费。 。。。。。。 留下了用户的姓名、地址、证件号码等信息 每天都会有大量的信息从邮政的各个业务系统中经过……
如何将这些信息整合成统一的名址库? 关键在于建立地址库 需要解决的难题 分布在全邮政各专业中,互不相连、互不共享; 存放在各异的信息系统中; 存放形式多种多样; 商函有大量数据,但很多都是别人的; 如何将这些信息整合成统一的名址库? 关键在于建立地址库
? 张三在办理以上业务时地址可能是这么写的? 为什么要建立地址库? 基础地址表: 北京市 东城区 建国门内大街 8号 中粮广场 601室 报刊业务:北京建国门内大街8号中粮广场6层601 集邮业务:北京市建内大街八号中粮广场六层六〇一 电子汇兑:北京建国门内大街中粮广场6层601室 邮政储蓄:北京市长安街中粮广场601 ………… 基础地址表: 北京市 东城区 建国门内大街 8号 中粮广场 601室 清洗、规范后: 北京市东城区建国门内大街8号中粮广场601室
数据分析能力:分层、分级 电子汇兑 清洗 加工 匹配 整合 质量检查 分析 安全管理 报刊 集邮 EMS 金融账单 公安 通讯账单 超市 个人信息查询表 个人车辆信息 个人信息 个人会员信息 姓名 地址 年龄 收入等级 教育程度 职业类型 车辆等级 …(76个属性) 基本信息 集邮 EMS 个人兴趣爱好 个人信用信息 ……… 面向应用工具建表 金融账单 组织重要人物 组织机构 组织名称变更 公安 通讯账单 基本信息 组织机构关系 组织联系人员 面向商函市场策略建表 超市 思乡月 商务人士库 ……… ……… 公务员 学生 有车族 高档社区 基础地址 ……… ……… 个税账单 房产 基本信息 护照 俱乐部 合同信息 保险 商函客户 名单访问信息 基本信息 交通罚单 ……. 营销活动信息 名单下载信息 ……… 数据源模型 (挖掘模型) 面向商函市场分析的基础数据模型 (分析模型) 面向地市使用的应用模型 (应用模型)
建立怎样的地址库 到末端地址点的详细地址 邮政编码(投递道段等) 地址的基本属性等 所有的地址将会按一定的层次和格式存放
地址库的作用 1、规范地址; 将不同书写方式的地址整理成计算机能够识别的统一的规范地址。 2、有利于整理名址信息; 地址规范化后进行信息整合是信息整理的主要工作内容。 3、有利于利用地址库开展商函营销 地址库本身含有的属性可直接用于商函营销。 4、规范其他业务系统的地址 可作为规范的地址提供给其他业务系统使用。 5、地址库是整个名址库分析、挖掘、匹配、进行数据清洗等服务的基础
地址库采集、录入方法
第 一 层 第 二 层 第 四 层 第 三 层 地址数据的拆分举例 广东省肇庆市端州区 端州五路 甲11号 万寿园小区 1号楼 4单元402室 第 一 层 广东省 肇庆市 端州区 第 二 层 端州五路 甲11号 万寿园小区 1号楼 第 四 层 第 三 层 4单元 402室 省、市、县 乡镇、街道 门牌 单元室
基础地址结构标准 以地址层次关系为基准的树状结构 小区名 北京市 海淀区 西城区 中关村大街 学院路 复兴门外大街 建国门外大街 建筑物名 今典花园 1号 22号 赛特大厦 小区名 高档 高层 高层 1号楼 1209室 民用 商用 1单元 101室
地址信息(乡镇、街道)采集卡——街卡 地址信息(乡镇、街道)采集卡——街卡 ________省/区/市_______地市__________县/区 第 页 共 页 投递部门: ____________ 邮政编码:____________ 序号 街 名 别名 单号 双号 全条 1 2 3 4 5 6 7 8 9 10 采集人:_________ 审核人:____________ 联系电话:___________ 采集日期:__________年____月___日
地址信息(门牌)采集卡——门牌卡
小区:由开发商建设并被政府正式命名的,由多座建筑物组成的一个区域,如某某小区、某某园、某某宿舍楼、某某家属院等。 地址库建设—小区、建筑物、行政村 小区:由开发商建设并被政府正式命名的,由多座建筑物组成的一个区域,如某某小区、某某园、某某宿舍楼、某某家属院等。 建筑物:小区内或街道上独立的单个多层建筑。如:某某号楼、某某座、某某大厦等。 行政村:是指政府为了便于管理,而确定的乡下边一级的管理机构所管辖的区域。两者的关系是自然村一般小于行政村,也就是说,几个相邻的小村可以构成一个大的行政村。这个行政村由一套领导班子(支部、村委会)管理,但可以把几个自然村分成几个组,每组一个组长,这些自然村都要受行政村村委会和村支部的管理和领导。
名称 填写要求 项目说明 小区名称 必填 小区别名 选填 小区曾用名、简称;多个使用逗号分隔 小区档次 档次:高、中高、中、中低、低 邮政编码 行政区划 小区地址 县以下,小区段(含小区段)以上的所有段的集合 户数 系统自动生成,统计小区段下挂的所有地址 邮政信箱数量 非邮政信箱数量 商函是否准入 选择方式(默认是准入) 无姓名商函是否准入 选择方式 无名址商函是否准入 投递局 填投递商函的机构名称,多个时用逗号分隔 环线 一环、二环、三环、四环、五环、六环、七环、内环、外环、中环(选择方式) 地铁或轻轨 地铁或轻轨沿线描述 所属片区 如:CBD商圈或居住区描述 是否通邮 入住时间 从1900年到2007年,以首次入住时间为准。(选择方式)
地址库的维护 全国邮政邮编名址维护系统 全国基础地址库 报刊系统 两网互通系统 名址系统 待维护数据 待维护数据 退信、行地址 地市名址中心BS 投递端CS
3、基础地址不规范造成数据匹配率较低,如错层问题 基础地址质量对业务的影响 1、虚假地址造成邮件无法投递 2、小区地址量过少,影响商函匹配率 3、基础地址不规范造成数据匹配率较低,如错层问题 4、邮编地址库咬界规则过多,影响营业员前台找地址及其邮编的速度,影响了两网互通的匹配率,造成邮件投递时限的延长; 5、报刊段作为基础地址的街道将对其它专业(商函、两网互通前台找地址邮编)有较大影响; 6、组织机构直接放在基础地址中将大大减少有效组织机构库的数量。 据美国邮政不完全统计:美国邮政因为地址质量问题,导到全年投递成本增加23亿美元
基础地址存在的问题分类 (一)数据真实性问题 表现:基础地址数据有的局存在虚假地址 表现:基础地址数据有的局存在虚假地址 原因:是为了达到一定的地址任务量,而出现了虚假街道、门牌、单元室 (二)及时性问题 表现:地址无效或系统中找不到或地名不对 原因:城市化和撤乡并镇的加快,需要增、删、改的地址并没有得到及时维护
(三)特殊情况 (1)基础地址新旧号并存 由于城市改造,新旧号并存的现象 (2)部分地区存在特殊情况问题 中国地址的区域特点强烈,在新疆、东北、内蒙等地区有许多生产建设兵团;沿海发达地区存在大量的经济技术开发区,有的成为当地认可的独立行政区;随着公路网、铁路网的建设,道路两侧存在大量的无门牌地址。
(四)地址缺失性问题-地址库不全 表现:部分小区户数过少。 原因:部分名址维护人员,只对有报刊收订的住户信息入库,没有全小区信息入库 (五)数据归范性问题 -严重的问题 表现:数据由于写法不一,造成重复。把组织机构放 在基础址中等不规范地址。 原因:在报刊收订的压力下,维护人员放松了地址库入库标准。还有名址维护人员更换频繁 下面着重举例说明不规范地址
基础地址规范性问题示例 1、由于写法不一造成数据重复 如在街道层里: 山西省吕梁市孝义市 安艺巷 032300 山西省吕梁市孝义市 安义巷 032300 山西省吕梁市柳林县 陈家湾乡 033300 山西省吕梁市柳林县 陈家湾 033300 正确处理方法:一定要规范文字、规范地址称谓,把不规范的删去
正确处理方法:在街道层把组织机构删去,在组织机构库中添加 2、组织机构放在街道层 行政区划 街道 门牌 邮编 是否正确 黑龙江省大庆市肇源县 薄荷台支局 166543 × 大兴支局 166522 肇源县二站支局 166542 辽宁省朝阳市凌源市 凌钢供应楼设备材料科 凌源市农业银行张灵芝转 凌钢东区凌钢小学 正确处理方法:在街道层把组织机构删去,在组织机构库中添加
3、组织机构放在基础地址门牌层 × 行政区划 街道 门牌 邮编 是否正确 北京市大兴区 青云店村 兴建化工厂 102605 政府 大东公司 正确处理方法:在门牌层把组织机构删去,在组织机构库中添加
4、口语话的地址数据放在街道层 正确处理方法:规范化地址称谓 街道段1 街道段2 街道段3 街道段4 邮政编码 行政区划 八公里 650217 云南省昆明市官渡区 八号洞外一公里处投递箱 661000 云南省红河哈尼族彝族自治州个旧市 三公里 651400 云南省楚雄彝族自治州永仁县 勐海县三公里佛双路 666200 云南省西双版纳傣族自治州勐海县 昆明铁路局昆东公寓 西安街办事处 黑白水二公里退休党支部 674100 云南省丽江市古城区 滇池路 三公里处 南源路 650228 云南省昆明市西山区 广福路 14公里 邬小村 3公里 杨家 二村 周家 桂园小区 正确处理方法:规范化地址称谓
5、把门牌号也放在街道层 正确处理方法:在街道层把门牌号删去,在门牌层添加 街道段1 街道段2 街道段3 街道段4 街道段5 邮政编码 行政区划 长征街1号 034000 山西省忻州市 长征中街26号 山西省忻州市忻府区 光明东街1号 光明东街3号 后东街69号 037200 山西省朔州市右玉县 健康西街5号机电宿舍 利民路铁北东10号 043500 山西省临汾市翼城县 绵山北街6号 032000 山西省晋中市介休市 七一北路6号 七一北路6号机引宿舍 前进街北巷8号 正确处理方法:在街道层把门牌号删去,在门牌层添加
6、把信箱放在街道层 正确处理方法:在街道层把信箱删去,在门牌层添加 街道段1 街道段2 街道段3 街道段4 邮政编码 行政区划 02信箱 657000 云南省昭通市昭阳区 06-0064信箱 678000 云南省保山市 105信箱 665800 云南省普洱市孟连傣族拉祜族佤族自治县 106信箱 653100 云南省玉溪市 109号信箱 657900 云南省昭通市威信县 109信箱 115信箱 正确处理方法:在街道层把信箱删去,在门牌层添加
7、把报刊段道做为街道层 正确处理方法:在街道层把段道删去,添加规范化的街道 街道段1 街道段2 街道段3 街道段4 街道段5 邮政编码 行政区划 106国道以东 511600 广东省清远市佛冈县 106国道以西 10号区 511518 广东省清远市 1段 517200 广东省河源市和平县 1段本局 205国道 514700 广东省梅州市梅县 2段 2段本局 324国道 515800 广东省汕头市澄海区 3段本局 4段 4段本局 5段 5段本局 正确处理方法:在街道层把段道删去,添加规范化的街道
8、把报刊段道+街道放在街道层 正确处理方法:在街道层中的段删去 街道段1 街道段2 街道段3 街道段4 街道段5 邮政编码 行政区划 北大街1段 161601 黑龙江省齐齐哈尔市克山县 北大街2段 北大街3段 北大街4段 北环东路二段 北环东路一段 北环西路1段 东大街1段 161602 161603 东大街2段 东大街3段 东大街4段 正确处理方法:在街道层中的段删去
9、在街道层存在阿拉伯数字 正确处理方法:在数据删去,如数字是门牌,则应在门牌层补充 街道段1 街道段2 街道段3 街道段4 邮政编码 行政区划 中华路 553300 贵州省毕节地区纳雍县 中华路(1) 中华路(10) 中华路(11) 中华路(12) 中华路(13) 中华路(14) 中华路(17) 中华路(18) 中华路(19) 中华路(2) 中华路(21) 中华路(22) 中华路(23) 中华路(25) 中华路(26) 正确处理方法:在数据删去,如数字是门牌,则应在门牌层补充
10、街道和门牌的信息重复 × 行政区划名称 街道 门牌 邮编 是否正确 辽宁省丹东市宽甸满族自治县 大西岔镇沿江村 118212 大西岔镇小荒沟村 大西岔镇平安村 大西岔镇双安村 大西岔镇大西岔乡 大西岔镇明安村 大西岔镇和平村 正确处理方法:在门牌层的信息删去,加上门牌号或自然村
11、在街道层出现行政区划-信息冗余 正确处理方法:在街道层把冗余信息删去 街道段1 邮编 行政区划 朝阳市凌源市北大街 122500 街道段2 街道段3 街道段4 街道段5 邮编 行政区划 朝阳市凌源市北大街 122500 辽宁省朝阳市凌源市 朝阳市凌源市北大街检查院家属楼 朝阳市凌源市北大街昆明小区 朝阳市凌源市北大街三福园小区 朝阳市凌源市北大街商贸区 朝阳市凌源市北大街鑫福家园 朝阳市凌源市北建昌街供电家属楼 朝阳市凌源市朝阳路东段平安小区 朝阳市凌源市朝阳路东段日兴小区 朝阳市凌源市朝阳路东段鑫泰小区 朝阳市凌源市朝阳路西段金星小区 朝阳市凌源市朝阳路西段科健小区 朝阳市凌源市朝阳路西段凌中家属楼 朝阳市凌源市朝阳路西段兴源小区 朝阳市凌源市朝阳路西段亿安小区 朝阳市凌源市东环路林业局家属楼 正确处理方法:在街道层把冗余信息删去
12、把单元室放在街道层 正确处理方法:在街道层把单元室删去,在单元层中添加 街道段1 街道段2 街道段3 街道段4 邮政编码 行政区划 101线房产楼1单元1楼6号 122500 辽宁省朝阳市凌源市 109-3四单元1号 115队南山开发楼4单元 122100 辽宁省朝阳市北票市 155队2栋4单元 155队9号楼2单元502 155队北楼4单元2楼 155队姜家窝开发楼3单元103 155队金三角楼4单元2楼 155队院内姜家窝铺开发楼2单元201 155队院内条楼3单元302 155队院正房楼3单元401 155队院正房楼4单元 155队组织部开发楼3单元2楼 15队组织部开发正房楼3单元402 2号楼1单元402号 2号楼5单元402 正确处理方法:在街道层把单元室删去,在单元层中添加
13、把部队编号放在街道层 正确处理方法:在街道层把部队编号删去,在特殊地址库中添加 街道段1 街道段2 街道段3 街道段4 街道段5 街道简称 邮政编码 行政区划 61258部队 61258部队 034025 山西省忻州市忻府区 66080部队 66080部队 034015 66245部队宿舍 032000 山西省晋中市介休市 93413部队 044500 山西省运城市永济市 93511部队 034200 山西省忻州市代县 8673 部队 044400 山西省运城市夏县 正确处理方法:在街道层把部队编号删去,在特殊地址库中添加
14、地址中存在错层 行政区 街道 门牌 邮编 问题 XX省XX市 古泉镇 幸福小区 240018 正确的:把幸福小区统一放在街道或门牌不要在街道和门牌同时存在,这种问题严重影响地址匹配
15、邮编地址库,邮编规则过多,过滥 正确处理方法:简化规范邮编咬界规范
16、其它问题 表现: 名字含有乱字符 街道名称过短、 过长 门牌段过长 街道含括号 街道含全角数字等其它错误
17、小区建筑物数据质量 (1)地址及小区前缀修饰过多 (2)由于小区写法不一,造成数据重复 行政区划 小区名称 云南省玉溪市红塔区 玉溪市红塔区北苑龙湖园 玉溪市红塔区气象路文化小区 (2)由于小区写法不一,造成数据重复 行政区划 小区名称 云南省玉溪市红塔区 凤凰花园 凤皇花园 求实园 求实园小区 正确处理方法:把不规范的小区数据删去
有的区县,小区数量过少(小区数量在6个以下的有502个,约占17%,小区数量在1个有145个区县占5%) (3)小区建筑物数据过少 有的区县,小区数量过少(小区数量在6个以下的有502个,约占17%,小区数量在1个有145个区县占5%) 有的小区/建筑物户数过少(全国小区总量159228,其中小区户数小于21的71085占44.6%,全国建筑物总量1496402,其中建筑物户数小于11的692018户,占46.2%)可见基础址库还是不完善。 正确处理方法:要不断地完善小区和建筑物数据
内容 一、为什么要建基础地址? 二、采集录入规范解决了什么问题? 三、采集录入规范的主要内容 四、下一阶段的主要考虑
在现有标准不变的情况下,如何正确书写一条地址。
内容 一、为什么要建基础地址? 二、采集录入规范解决了什么问题? 三、采集录入规范的主要内容 四、下一阶段的主要考虑
QZX 0001-2012 邮政基础地址采集录入规范.pdf 基础地址采集录入规范.ppt
内容 一、为什么要建基础地址? 二、采集录入规范解决了什么问题? 三、采集录入规范的主要内容 四、下一阶段的主要工作
严格按照“规范”中的要求,开展质量检查工作。 全年“基础地址库规范率”达到98%以上。 对目前已有数据中存在的普遍问题,按照新规范进行集中清理。 配合集团企发部做好基础地址库结构标准的研究和制定。
谢谢!