一份标准、权威的的地址数据是任何信息系统的基础。
这是一份从国家统计局获取的区域三四级地址数据,由国家统计局在每年2月发布截止到头年8月的城乡区划数据和代码。
update 2024.3.26
更新到了2023年的数据
update 2023.2.22
修正了2021年的数据。
update 2023.2.22
修正了数据,目前经过两次验证的数据总共44704条,原始数据44703条,数据库第一条数据为特别处理;感谢某为同学的反馈。
update 2023.2.21
重要说明:由于解析的原因,数据存在遗漏,目前正在修复。
update 2023.2.1
更新到2022年10月31日的数据, 数据只减少了12个!
update 2022.2.15
更新到2021年10月31日的数据, 数据减少了2000多个!
update 2021.1.19
更新到2020年6月30日的数据, 数据减少了1493个,粗略的看了一下,有些非行政区域的内部划分没有了,例如XX开发区其实并不是行政划分区域,以前有数据是为了方便统计,现在很多没有了;同时有些乡随着发展升级为了镇,但是这个连机构代码也变了优点麻烦!。
update 2020.03.16
更新到2019年数据统计的版本 粗略的看了一下,统计局的最末端代码出现了所谓的虚拟社区,所以实际使用的时候要适当控制使用哪一级的数据:部门地点的5级数据会出现非常奇怪的东西,因为这是统计局出去统计口径不同做了特殊的设置。
update 2019.11.05
今天折腾了一下身份证编号归属地,结果发现其实是按照身份证前6位进行匹配的,兴冲冲发觉就是我们平常使用的6位码,但是一番数据比对后才发觉其实是很苦逼的事情,虽然表面上看起来确实是6位码,但是实际上由于社会的变革和发展,以前很多6位码已经现在不适用了。
例如以深圳为例 有440301,440321,440320 。这些数据都很难找到元素记录代表的意义;如果依据6位码来说匹配身份归属,这种找不到的6位码太多了,在网上比较了4份以上专门用来匹配的6位码数据,发觉从CSDN下载的最靠谱,但是不表示这是最准确的,只是目前比对最靠谱的。 已上传,供参考。
update 2019.05.07
之前在整理这些数据时由于遇到一些问题,就大胆给国家统计局写了一封邮件,提了一些建议,然后刚刚收到了电话答复,并就有些问题大家互相进行了沟通
- 四五级数据名称不规范的问题他们也注意到了,正在改进中;
- 由于统计局和民政部的业务范围不一样,所以导致了在行政区划上存在差异;有些区域其实并不是行政上存在而是统计需求而产生。
- 三级数据是标准的,按照道理来说应该是国家标准委出,但是国家标准委的数据更新不及时,对方建议如果要使用三级编码使用民政部的编码,因为民政部的更新最准确最及时
- 6位码的使用基本是靠谱的,8位码和12位码的使用可能存在问题。
为国家统计局这种态度手工点赞,如果每个行政管理单位都是这个态度,我天朝还是能更OK的
个人看法和结论:
- 如果使用民政部的三级数据会导致出现另外一个严重问题,就是类似于东莞,中山这样的地区并没有第三级数据,又是一个两难的问题;
- 民政部虽然每个月都在更新数据,但是针对于第四级数据并没有一份统一的文件出来,三级倒是有;四级数据每次出来的都是补充更新;
- 综合各种层面考虑,不管使用三级数据还是四级数据建议还是使用统计局这份数据。以后有机会俺来出一份民政部的三级数据。不过那个数据中有些地区是没有三级数据的
update 2019.04.29
俺很认真的思考了一下,而且进行过数据比对判别:
- 四级区域的变更相对频繁,每个月都在发生,三级机构很少变更;
- 很多人其实不知道自己居住的到底是那个街道这样的四级信息
- 综合来说,如果不是必须,请考虑不要使用四级区域信息
update 2019.04.28
发觉部分行政区域的6位码存在重复,所以建议大家使用12位码。广东东莞、中山,海南 儋州市 这三个二级市下面的三级区域都没有6位子编码。
国家统计局发布的是五级代码:省 \ 市 \ 县(区) \ 街道(乡、镇) \ 村; 由于村的数据太复杂所以这里只包含了四级代码:省 \ 市 \ 县(区) \ 街道(乡、镇)
主要结构:
名称 | 说明 |
---|---|
ID | 区域编号。数据库自增编号 |
name | 区域名称 |
statisCode | 区域国标编号。12位国标代码 |
code | 区域编码。6位国标代码。注意:只有三级数据有6位编码,四级(五级)都是12位编码 |
fullName | 区域全称。在当前区域名称上整合了前置数据。【非国标】 |
regionType | 类型。1 国家、2省份、3市、4县、5街道、6村 【非国标】 |
sort | 排列顺序。自定义显示顺序。【非国标】 |
parentID | 上级对象编号。当前区域数据的上级区域对应的编号 【非国标】 |
isDel | 是否删除。默认0 【非国标】 |
=====================================
数据用MYSQL 导出文件 RegionData.SQL
- 2022年数据总条数 44699
- 2022年数据总条数 44704
- 2021年数据总条数 44715
- 2020年数据总条数 44976
- 2019年数据总条数 46469
- 2018年数据总条数 46938
2020相对2019年,将近调整了1493个行政区域 。
2019相对2018年,将近调整了500个行政区域,变化挺大的。
- 如果使用三级数据建议使用 6位码,否则请使用12位码。关于各个码代表的意义,在如下链接中有说明:
http://www.stats.gov.cn/tjsj/tjbz/200911/t20091125_8667.html
-
部分数据中存在第三级区域名称包含第一二级数据的情况,这不是俺导致的,数据本身这样
-
对于第五级层级中涉及的”城乡分类代码“ 111表示:主城区 112表示:城乡结合区 121表示:镇中心区 122表示:镇乡结合区 123表示:特殊区域 210表示:乡中心区 220表示:村庄
-
本数据中不包括港澳台数据
-
数据中第一条“中国”为手动添加,为了方便容纳其他国家的行政区划数据
-
数据中部分内容的显示不是我们常见的那样,主要是直辖单位,例如 新疆\XX地区\XX县,但是存在 新疆\ 自治区直辖县级行政区划\XX 县
-
有些特殊的城市是不设区的,类似于东莞,中山这样的市并没有区这个概念,所以导致了它们的三级数据和其他城市不是一个概念,甚至他们的三级编码是同一个441900,但是4级编码不同 。例如深圳的结构是 深圳\南山区\后海街道,而东莞是 东莞市\东城街道;这种数据需要特别注意。