Data Quality Inspection Method for Comprehensive Risk Survey of Natural Disasters

  • WANG Juanle , 1, 4, * ,
  • LI Shuhan 1, 2 ,
  • WANG Yujie 1 ,
  • DUAN Bowen 1 ,
  • ZHOU Jialing 1, 3
Expand
  • 1. State Key Laboratory of Resources and Environmental Information Systems, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 2. Institute of Disaster Prevention, Sanhe 065201, China
  • 3. School of Marine Technology and Geomatics, Jiangsu Ocean University, Lianyungang 222005, China
  • 4. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
* WANG Juanle, E-mail:

Received date: 2023-04-30

  Revised date: 2023-06-24

  Online published: 2023-09-05

Supported by

Fundamental Research Funds for the Central Universities(ZY20180101)

National Pilot Survey Data Quality Inspection and Verification of the Emergency Management System(O7M79890)

Construction Project of China Knowledge Centre for Engineering Sciences and Technology(CKCEST-2022-1-41)

Abstract

China is one of the countries that are most vulnerable to natural disasters. To enhance the comprehensive capacity for disaster prevention, the Chinese State Council initiated the first national comprehensive survey of natural disaster risks in 2020 (hereinafter referred to as the “disaster survey”). Data quality inspection and control of the disaster survey is fundamental to ensure data sharing, disaster assessment, emergency response, and even international cooperation in disaster prevention and reduction. This extensive disaster survey was completed by multiple departments, among which the emergency management system is responsible for three investigation tasks: vulnerability investigation of affected areas, historical disaster investigation, and comprehensive disaster reduction capacity investigation. According to the requirements of the quality inspection of disaster survey data, this study integrated the concept of geographical big data and explored a framework for quality inspection of natural disaster survey data. Specifically, our objectives include: 1) designing a business process framework for data quality inspection of the emergency management system at four levels, i.e., national, provincial, municipal, and county levels; 2) developing a technical rule system for data quality inspection following the principles of integrity, standardization, consistency, and rationality; 3) building a new rule database with 11 coding numbers, which can be updated and used by computer software systems; 4) developing a combination (spatial and non-spatial) outlier detection method combining classical mathematical statistics (e.g., standard deviation and median) and spatial correlation analysis (e.g., local indicators of spatial association); 5) proposing a new model for cross-detection of outliers using third-party big data; and 6) establishing a special survey data processing mechanism and a software system response mode to continuously evaluate China's national conditions. The feasibility of the above methods was empirically demonstrated by combining quality inspection practices in nationwide and an application practice of a county-level survey in Jiangxi Province. In total, ten types of data anomalies were found in practice, with most common anomalies falling into three categories: suspected violation of rationality, data exceeding the 99% confidence interval, and anomalies verified by third parties. Our research shows that this data quality inspection farmwork allows for disaster survey data quality inspection at early stages so that many errors can be automatically found during data collection, reducing the pressure of later-stage data quality control and thereby improving efficiency and saving costs. This methodology is expected to provide valuable references for ongoing natural disaster risk surveys and related surveys in the future.

Cite this article

WANG Juanle , LI Shuhan , WANG Yujie , DUAN Bowen , ZHOU Jialing . Data Quality Inspection Method for Comprehensive Risk Survey of Natural Disasters[J]. Journal of Geo-information Science, 2023 , 25(9) : 1765 -1773 . DOI: 10.12082/dqxxkx.2023.230239

1 引言

为科学应对自然灾害,减少自然灾害造成的损失,世界各国都在加强单一或综合灾害的基础调查。中国国务院于2020年6月发起了第一次全国自然灾害综合风险普查,这也是全球首个大规模的自然灾害综合风险普查。灾害普查调查任务包括主要灾害致灾调查及重点隐患调查、承灾体调查、历史灾害调查、综合减灾能力调查等,由普查领导小组办公室统筹协调应急管理部门及自然资源、生态环境、住房城乡建设等多个行业部门[1]共同组织实施。由于该调查工作是典型的跨部门、跨领域、跨区域的综合性工作,且是第一次开展无现成经验可循,其面临的数据质量控制问题非常复杂,因而迫切需要探索建立有效的普查成果质量检查方法。
数据质量是普查统计工作的灵魂[2]。数据质量的优劣对统计分析结果的正确与否有直接影响,是这些成果能否发挥支撑作用的核心基础[3]。我国开展了多种定期或不定期的行业普查,如人口普查、农业普查、经济普查、污染源普查、地理国情普查等,均针对内部普查数据真实性评估、外部来源数据准确性对比等方面积累了相关的数据质量控制经验[4-8]。其中,应用到的主要质检方法有行政记录检查法、逻辑规则检验法和经典计量模型法[9-11]等。行政记录检查法具备高可信度[12],主要适用于数据采集工作结束后对普查数据的准确性评估[13]。逻辑规则检验法有利于在数据采集源头控制数据质量,要求具备充分的先验知识[14-15]。经典计量模型法在数据质量准确性检查方面的优势较为突出,但模型精度受模型指标选取质量优劣影响极大[16],且多集中在属性检查,缺少从空间角度质检。
上述普查对象类型相对单一,缺少对于综合交叉类型数据的全面质检方法支持。部分学者也在数据质量的评估维度[17-19]、异常数据的检测方法[20-22]、互联网大数据辅助检测[23-24]等方面开展了研究。国家减灾中心构建了可供数据质量检查参考的自然灾害综合风险防范信息服务的业务体系框架[25]。国内外权威机构和组织也制定了数据质量评估指南或标准,提高了数据质量评估的标准化水平[26-28]。然而现有这些数据质量评价方法研究多是理论性研究为主,且主要集中在事后质量评价。
相对于事后评价,数据前端采集阶段的质量检查更有利于普查数据的质量控制。及早发现普查填报中的错误,可以避免后期质量抽检时大量错误无法再被发现,以及巨大的检查回溯成本。针对以上问题,本文以灾害普查中应急管理系统所承担的调查任务为对象,探索构建系统化、多层级、可操作的灾害普查数据质检方法体系,为灾害普查数据的高质量获取和长期应用提供科学支撑。

2 灾害普查质量检查方法体系

2.1 灾害普查数据质量检查对象

灾害普查中应急管理系统调查对象如表1所示,主要面向承灾体、综合减灾能力以及历史灾害调查。承灾体是指暴露于灾害风险下脆弱的物质文化环境,如人口、建筑、工矿环境等,包括17类调查对象。历史灾害是指如洪涝、地震等自然灾害对人员受灾、房屋倒损等方面造成的损失,包括5类调查对象。综合减灾能力是指政府、社会组织和企业、基层和家庭等主体用于减轻灾害损失或影响的各种能力或资源,包括17类调查对象。
表1 灾害普查应急管理系统调查对象

Tab. 1 Respondents of the disaster survey emergency management system

承灾体调查对象 历史灾害调查对象 综合减灾能力调查对象
学校 历史年度自然灾害 政府灾害管理能力
医疗卫生机构 重大历史自然灾害(洪涝灾害) 政府专职和企业专职消防队伍与装备
提供住宿的社会服务机构 重大历史自然灾害(地震灾害) 森林消防队伍与装备
公共文化场所 重大历史自然灾害(台风灾害) 航空护林站队伍与装备
旅游景区 重大历史自然灾害(森林火灾) 地震专业救援队伍与装备
星级饭店 矿山/隧道行业救援队伍与装备
体育场馆 危化/油气行业救援队伍与装备
宗教活动场所 海事救援队伍与装备
大型超市-百货店-亿元以上商品交易市场 救灾物资储备库(点)
县(域)/乡镇基础指标统计 应急避难场所
煤矿(企业) 地质灾害监测与防治工程
金属非金属地下矿山 大型企业救援装备和专业救援队伍
金属非金属露天矿山 保险和再保险企业综合减灾能力
尾矿库 社会组织减灾能力
化工园区 乡镇(街道)减灾能力
危险化学品企业 社区(行政村)减灾能力
加油加气加氢站 家庭减灾能力

2.2 灾害普查质量检查方法体系架构

针对应急管理系统中的自然灾害调查数据质量检查问题,设计的总体质检方法体系如图1所示,包括4个层级、6个部分。首先建立与我国灾害普查的调查体系相对应的国家、省、市、县四级质检总体框架,然后从数据填报单位自检开始,逐级通过县、市、省向上汇总普查数据并进行相应等级质检。随着质检等级的提高,其调查对象的内容、数量以及汇总的数据记录量都在显著增加,因此,对应在不同等级的质检手段也会变化。
图1 灾害普查数据质检关键环节

Fig. 1 Disaster survey data quality inspection key steps

在自检和一级质检阶段,数据量相对小,重点在于遵照调查技术规范和指标经验阈值,形成满足完整性、规范性、一致性、合理性四位一体的质检规则体系,建立质检规则编码支持下的计算机软件系统可更新和调用的质检规则库,保持规则库动态更新。在这一阶段中,主要建立前端采集数据的质检规则,为调查成果的质量控制打下良好基础。
随着数据汇总等级的提高(例如达到市级及以上),数据记录量也更多,此时可形成融入经典统计与空间相关性分析相结合的质检方法,定量化发掘数据间隐藏的空间及属性相关关系。同时,利用更多第三方数据(例如POI数据、全国组织机构统一社会信用代码数据等),建立普查采集数据与外部第三方大数据的交叉对比,探索建立基于大数据异常值交叉检测的新模式。另外,为保证一些不可预见的客观数据也能够正常通过质检,增加了特殊普查数据处理机制和软件响应处理方式。这一阶段主要应用局部空间自相关检测法、大数据交叉检验等方法验证数据质量。

2.3 灾害普查质量检查方法技术实现

(1)设计国家、省、市、县四级质检业务流程框架
应急管理系统灾害普查调查成果可形成由低级到高级逐级汇总检查的4级业务流程:① 数据填报单位自检。填报单位在填报数据过程中,根据预置在系统中的质检规则对每个指标项进行自检;② 将完成自检且已修正的数据汇总到一级汇总单元(如县级),并重点开展以下4个方面检查。即,汇总数据间的逻辑错误,填报数据中的重复值错误,数据的填报率(过低)问题,以及普查数据基本情况与本地现实条件是否有较大出入;③ 一级汇总单元完成质检及修正后,汇总到二级汇总单元(如市级)。该单元中数据的获取范围更大、关联关系更多,因此相对于上一级汇总单元质检,增加了统计分析检查及衍生关联指标检查。统计分析检查运用统计模型和方法,识别调查成果中存在的异常值;衍生关联指标检查通过某些指标数据填报中的关联计算,增加与区域实际情况的研判对比;④三级汇总(如省级)单元中的数据量更大,调查成果之间的地域关联也更明显,因此该单元除了上述统计分析检查外,还增加了对省域数据空间分布异常的判别。最后,所有调查成果汇总至四级汇总单元(国家级)进行国家级质检。
(2)建立完整性、规范性、一致性、合理性四位一体的质检技术规则体系
应急管理系统调查成果质检体系应以嵌入质检规则的软件系统自动化检查为主,以需要人工干预检查为辅的方式。本研究设计的质检规则由完整性、规范性、一致性、合理性4个维度组成(表2)。
表2 灾害普查质检要素属性

Tab. 2 Quality inspection element attributes in disaster survey

规则类型(一级类) 规则类型(二级类) 说明
完整性 完整性 包括必填、选填等要求
填报重复 包括辖区范围内,同个对象多次填报的情况
规范性 数据格式规范性 包括填报数据类型限制(如,字符型、浮点型等)
文件格式规范性 包括上传文件是否符合格式要求
一致性 逻辑一致性 包括调查指标、调查表间逻辑关系约束等
时间一致性 包括填报时间与事实一致性等
属性一致性 包括表间指标的一致性等
空间一致性 包括填报经纬度是否在上一级行政区范围内、绘制图层是否自相交、同类对象绘制图层是否重叠等
合理性 值域合理性 包括填报数据是否在值域范围内
异常值合理性 包括填报数据的离群性
空间集聚合理性 包括填报数据在空间分布上的集聚性
(3)建立计算机软件可编码的质检规则库
灾害普查质检规则库的设计框架,包括以下7个部分(表3):指标名称对应普查指标;11位规则编码格式如“GGSS.A01.01.01”,1—4位为指标所属技术规范,5—7位为指标所在技术规范中的调查表编号,8—9位为指标在调查表中的代码,10—11位为该规则在指标中的顺序;质检规则内容是对指标的详细约束;值域是对数值型指标的值域进行限制;规则类型如表2,主要用于对填报数据中检查到的错误做出归类与统计;采集阶段是否自检则对是否在此阶段触发规则约束做出判断,如果选择是,则启动,反之,则不适用。
表3 灾害普查质检规则库示例

Tab. 3 Example of disaster survey data quality inspection rule library

指标名称 规则编码 质检规则 值域 规则类型
(一级类)
规则类型
(二级类)
采集阶段是否自检
万元以上设备台数 GGSS.A01.09.01 必填 ≥0 完整性 完整性
GGSS.A01.09.02 整型 规范性 数据格式规范性
(4)提出经典统计与空间相关性分析相结合的质检方法
应急管理系统调查成果质检方法可归为经典统计方法和空间相关性分析方法2类。经典统计方法主要应用统计参数以及统计分析方法判断异常值,这些方法的优势在于可以编程软件化,实现数据自动检查。其原理和公式如表4所示。
表4 灾害普查中的经典统计方法

Tab. 4 Classical statistical methods of disaster survey

统计参数/
统计分析方法
公式 公式编号 变量说明 方法原理
平均值 μ = 1 n x i (1) μ代表调查指标中所有填报值的平均值; n为调查指标中的填报值个数; xi为第i个填报值 判断普查数据集中趋势
最大值 x m a x = m a x ( x 1 , x 2 , , x n ) (2) xmax代表调查指标中最大的填报值; xn代表调查指标中的第n个填报值 描述普查数据离散程度
最小值 x m i n = m i n ( x 1 , x 2 , , x n ) (3) xmin代表调查指标中最小的填报值 描述普查数据离散程度
标准差 σ = 1 n i = 1 n (x i - u ) 2 (4) σ代表调查指标中所有填报值的标准差 反映普查数据离散程度,具有与普查指标的计量单位相同的量纲
离散系数 σ / μ = 1 n i = 1 n (x i - u ) 2 / μ (5) σ/μ代表调查指标中所有填报值的离散系数 测度普查数据离散程度
方差 σ 2 = 1 n i = 1 n (x i - u ) 2 (6) σ2代表调查指标中所有填报值的方差 反映普查数据离散程度
中位数 M = x m , m = n + 1 2 , n x m + x m + 1 2 , m = n 2 , n (7) M代表调查指标中所有填报值的中位数; xmxm+1分别代表调查指标的n个填报值中,第mm+1个填报值 测度顺序普查数据的集中趋势,不受极端数据的影响
上下四分位聚集区间 上分位数 Q 3 = x i , i = i n t ( 3 ( n + 1 ) 4 + 0.5 ) (8) Q 3代表调查指标中所有填报值由小到大排列后第75%的数字; Q 1代表调查指标中所有填报值由小到大排列后第25%的数字;A代表调查指标中所有填报值的四分位聚集区间右端点;B则为左端点 异常值通常被定义为位于区间(BA)以外的值
下分位数 Q 1 = x i , i = i n t ( n + 1 4 + 0.5 ) (9)
上边缘线 A = Q 3 + 1.5 × ( Q 3 - Q 1 ) (10)
下边缘线 B = Q 1 - 1.5 × ( Q 3 - Q 1 ) (11)
3 σ原则 μ - 3 σ = 1 n x i - 3 × 1 n i = 1 n (x i - u ) 2 (12) μ-3 σ代表调查指标中所有填报值的3倍标准差左端点; μ+3 σ则为右端点 超过区间(μ-3 σ ,μ+3 σ)的数据判断为异常
μ + 3 σ = 1 n x i + 3 × 1 n i = 1 n (x i - u ) 2 (13)
自然灾害普查中获取的大量数据具有地理空间属性,因此可增加空间分析检测,这区别于其他多数行业普查只依赖经典统计的传统做法。空间相关性分析方法使用局部空间自相关指标(Local Indicators of Spatial Association, LISA)[29]判断填报数据的空间集聚是否合理,从而判断调查成果中的异常值。LISA公式如下:
I i = ( x i - x - ) S 2 W i j ( x j - x - )
式中: x i x j为第ij区域填报值; x -为研究区内调查指标的填报均值; S 2代表研究区内调查指标中所有填报值的方差; W i j为空间邻接权重矩阵。 I i为正值表示该空间单元与相邻单元的填报值存在正的空间关联,反之,则表示负的空间关联。其中,负的空间关联可能存在异常值。由于LISA模型的使用有其基本条件,通常可以先逐个对灾害普查指标进行全局自相关的莫兰指数显著性检验,当置信度大于99%时认为指标非随机分布之后,再进行LISA模型检测。
(5)探索基于第三方大数据等异常值交叉检测的新模式
随着可开放获取的大数据资源不断增加,当前数据质检可使用的参考数据越来越多,可以结合灾害普查体系以外的更多第三方大数据开展质检。这些大数据资源包括遥感大数据、社交网络大数据、统计大数据等。例如,可以利用遥感大数据,获取灾害调查地区的Google Earth影像或者天地图影像,辅助判断调查区域的位置和地表覆盖内容信息。再如,利用互联网兴趣点POI(Point of Interest)数据,对学校、超市等调查对象的填报总条数、填报地址等基本情况的准确性提供参考。又如,使用网络和统计大数据为调查指标提供参考值域等。
(6)建立适合我国国情的特殊普查数据处理机制和软件响应方式
中国地域辽阔、国情复杂,面对数据采集和汇总中的一些特殊情况,应该加以区别对待,否则将会对质检结果产生干扰。因此,一方面,针对无资料支持的指标,允许地方填报时按无资料方式标注,避免填报人员以“无”或“零值”等方式简单处理。另一方面,考虑到个别指标在地方填报时的实际情况,将质检规则按强约束和弱约束分别处理。强约束的质检规则无法突破,必须遵守。弱约束是指在软件系统提醒违反了规则约束的情况下,也允许用户强制提交(但系统中会进行记录,以便日后核实)。此外,对于共性易错填的指标在软件系统填写说明界面上进行特别提醒,减少填报错误。

3 灾害普查质检方法验证

本研究以灾害普查中应急管理系统承担的调查成果为例,应用以上质检方法分别开展了国家级试点普查质检实践和市级普查应用实践。根据质检结果,国家级试点普查质检实践数据异常可归结以下4类:疑似重复、违反规则库、疑似违反合理性、疑似违反空间一致性。在4类异常中,疑似违反合理性最多,占数据异常总个数的75%。地市级普查应用实践数据异常可归结以下8类:疑似重复、违反规则库、超出99%可信区间、比值离群、第三方验证异常、逻辑异常、空间数据疑似异常、局部空间自相关疑似异常。其中超出99%可信区间与第三方验证异常占比最多,分别达到了25%与28%。

3.1 国家级试点普查质检实践

基于全国试点县采集的试点数据,发现了以下4类主要数据异常:
(1)疑似重复。数据采集阶段,由于填表人重复操作,导致系统中多条数据重复。通过规则库中的一致性规则、经典统计中的部分定量指标,以及人工质检相结合能够自动发现这些重复记录,这大量节约了检查的时间成本。
(2)违反规则库。通过系统中预置的质检规则库检查填报数据,筛选出违反规则库的异常数据。如承灾体调查成果中,避难场所类型选择了“室内”,而应急避难场所室内面积填报为0,这违反了规则库中的“若选择‘室内’,则必填,且数值>0”。
(3)疑似违反合理性。合理性检查主要结合试点县采集到的数据通过经典统计分析方法,为指标确定一个合理的阈值,从而判断填报数据是否存在异常。如历史灾害调查成果中,历史年度自然灾害调查指标“直接经济损失”,建议设置阈值为[0,1 000 000)。经合理性检查确定出的值域范围可作为弱约束更新入质检规则库,为后续质检提供参考。
(4)疑似违反空间一致性。根据点状、面状空间数据质检结果,其错误类型可归纳为三类:违反拓扑一致性、图形面积和填报占地面积相差过大、空间指标无数据。如承灾体调查成果中,某医疗卫生机构绘制的图形面积和填报占地面积相差大于10倍,认为存在异常。

3.2 市级普查应用实践

在全国普查阶段,对江西省某市进行了质检方法应用实践。本次地市级实践与前期试点实践相比,对错误类型进行了更加详细的划分,并在经典统计异常值检测的基础上加入了本地理区域空间相关性分析,将数据异常归纳为以下主要的6类:
(1)超出99%可信区间。运用3σ原则,计算得到99%可信区间,筛选超出可信区间以外的异常数据。如承灾体调查成果中,计算学校占地面积与在校生数之比的正负3倍标准差,得到可信区间 [-448.13,628.57],由此在区间外的数据中找出异常值。
(2)比值离群异常。依据指标间的相关关系,通过散点图、上下四分位聚集区间,比较填报值之比,找出离群值。如减灾能力调查成果中,所有乡镇的救灾物资折合金额与救灾物资之比,某乡镇高达12 000万元,远远超出其他乡镇。
(3)第三方数据验证异常。对照如行政记录等外部来源数据,验证填报值真实性。如减灾能力调查成果中,某具备减灾能力的社会组织填报的全国统一社会信用代码与全国组织机构统一社会信用代码数据服务中心查询到的第三方信息不相符。
(4)逻辑异常。在质检过程中,深入探究指标间联系时,仍能发现某些填报值间存在异常的相关关系。如承灾体调查成果中,非煤矿山的每个井口都有一个井口台账表与之相对应,存在井口数量与台账记录表数量相等的逻辑关系。
(5)空间数据疑似异常。空间数据的检查也引入了第三方验证的方法,发现的问题多在于绘制的面状数据过大、点状位置不准确等。
(6)局部空间自相关疑似异常。在市级尺度,从数据的地理空间分布着手探索了属性数据异常。如通过对某地级市调查成果进行的局部空间自相关检查中,发现减灾能力调查成果中,经过标准化后的“登记注册志愿者人数”指标值,异常值占比达7%,且在莫兰散点图中表现出了较强的分散趋势,因此可以认为在该区域内,该指标的填报值存在较大误差。

4 讨论与结论

4.1 讨论

自然灾害普查的对象来源极为复杂,涉及应急管理部门及交通、水利、气象、林草、能源等多个行业部门,具有显著的综合性特点。针对此特点,本研究中充分吸纳以往普查数据质量检查的优点,同时从重视源头、分层控制;机器为主、人工为辅;经典统计和空间分析相结合;大数据关联分析等多个维度切入,建立总体质检方法体系,形成以下应用特色。①分层分级实施质检,从源头控制数据质量。②强化机器为主开展自动检查,人工干预为辅。大量提高检查的自动化程度并减少人为错误,通过制定各类质检规则,形成系统的、可维护的质检规则库。规则库具有动态更新机制,可以长期支持本次乃至未来更多的周期性普查工作。③充分利用经典统计方法结合地理空间分析方法,发现大数据中的异常值,为质检人员辅助提供可疑的空间“异常”。这一方法被证明在大数据汇聚的后期阶段是有效的检查手段。

4.2 结论与展望

数据质量是支撑自然灾害普查工作发挥成效的重中之重。本文针对我国首次开展灾害普查工作缺少质量检查方法支持的现实需求,设计建立了由6部分组成的质检方法体系,并进行了国家级试点质检实践和普查阶段县级应用实践。充分表明了这一质检方法体系能够适应于我国灾害普查中的全生命周期数据质检的要求。
本研究在灾害普查中的应急管理系统调查成果质检方法应用方面已经取得了一定的成果,然而仍旧存在一些不足:在调查对象各指标间的质检规则中,可以继续挖掘潜在数量和逻辑关系,健全和完善质检规则库;进一步加强质检与调查标准之间的协同关系,提高质检方法体系和普查标准体系间的联动,及时解决质检标准与采集标准之间的统一;当前应急系统的质检内容通用性强,涉及的专业灾害类型不多,未来将从其他专业灾害普查工作(如地质灾害、水文气象灾害、海洋灾害、林草灾害等)中进一步吸取经验,完善涉及专业领域的质检内容。
[1]
国务院办公厅. 国务院办公厅关于开展第一次全国自然灾害综合风险普查的通知[EB/OL].(2020-06-08)[2023-03-01]. www.gov.cn.

[General office of the state council. Notice of General Office of the State Council on carrying out the First National Survey on Natural Disaster Comprehensive Risks[EB/OL]. (2020-06-08)[2023-03-01]. www.gov.cn.]

[2]
王银辉. 浅谈统计质量和统计安全[J]. 经济视野, 2014(19):258.

[Wang Y H. Discussion on Statistical Quality and Statistical Safety[J]. Economy View, 2014(19):258.]

[3]
闫爱莲. 浅议统计数据质量的重要性[J]. 河北煤炭, 2009(4):69-70.

[Yan A L. Discussion on the importance of the quality of statistical data[J]. Hebei Coal, 2009(4):69-70.] DOI:10.3969/j.issn.1007-1083.2009.04.036

DOI

[4]
国务院第七次全国人口普查领导小组办公室. 第七次全国人口普查方案通知[EB/OL].(2020-07-07)[2023-03-01]. tjj.sm.gov.cn.

[Office of the seventh national census leading group of the state council. Notification of the Seventh National Census Program[EB/OL]. (2020-07-07)[2023-03-01]. tjj.sm.gov.cn.]

[5]
江苏省统计局. 第四次全国经济普查全面质量控制与管理办法[EB/OL].(2019-06-28)[2023-03-01]. www.jinhu.gov.cn.

[Jiangsu provincial bureau of statistics. Total Quality Control and Management method of the fourth National Economic Census[EB/OL]. (2019-06-28)[2023-03-01]. www.jinhu.gov.cn.]

[6]
国务院办公厅. 第二次全国污染源普查质量控制技术指南[EB/OL].(2019-09-11)[2023-03-01]. sthjt.hubei.gov.cn.

[General office of the state council. Technical Guide for quality Control of the second National Pollution Survey[EB/OL]. (2019-09-11)[2023-03-01]. sthjt.hubei.gov.cn.]

[7]
国务院第一次全国地理国情普查领导小组办公室. 地理国情普查质量控制与检验[M]. 北京: 测绘出版社, 2014.

[Office of the state department's first national geographic and national intelligence survey leading group. Quality control and inspection of geographical national census[M]. Beijing: Sino Maps Press, 2014.]

[8]
史文中, 陈鹏飞, 张效康. 地理国情监测可靠性分析[J]. 测绘学报, 2017, 46(10):1620-1626.

DOI

[Shi W Z, Chen P F, Zhang X K. Reliability analysis in geographical conditions monitoring[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(10):1620-1626.] DOI:10.11947/j.AGCS.2017.20170377

DOI

[9]
王华, 金勇进. 统计数据准确性评估:方法分类及适用性分析[J]. 统计研究, 2009, 26(1):32-39.

[Wang H, Jin Y J. Statistical data accuracy assessment: Methods classification and applicability[J]. Statistical Research, 2009, 26(1):32-39.] DOI:10.19343/j.cnki.11-1302/c.2009.01.006

DOI

[10]
刘洪, 黄燕. 基于经典计量模型的统计数据质量评估方法[J]. 统计研究, 2009, 26(3):91-96.

[Liu H, Huang Y. An evaluation method of statistical data quality based on the classical econometric model[J]. Statistical Research, 2009, 26(3):91-96.] DOI:10.19343/j.cnki.11-1302/c.2009.03.014

DOI

[11]
许永洪. 行政记录和政府统计的多视角研究[J]. 统计研究, 2012, 29(4):3-7.

[Xu Y H. Multi-perspective research on relationship between administrative records and government statistics[J]. Statistical Research, 2012, 29(4):3-7.] DOI:10.19343/j.cnki.11-1302/c.2012.04.001

DOI

[12]
陶然. 周期性普查数据质量评估方法与适用性研究[J]. 统计研究, 2014, 31(8):66-72.

[Tao R. Research on assessment methods and applicability of periodic censuses data quality[J]. Statistical Research, 2014, 31(8):66-72.] DOI: 10.19343/j.cnki.11-1302/c.2014.08.010

DOI

[13]
吴婷, 安军, 胡桂华. 人口普查质量评估方法[J]. 中国统计, 2019(10):47-49.

[Wu T, An J, Hu G H. Evaluation method of population census quality[J]. China Statistics, 2019(10):47-49.]

[14]
祝君仪. 大数据时代背景下统计数据质量的评估方法及适用性分析[J]. 中国市场, 2015(29):41-42.

[Zhu J Y. Evaluation method and applicability analysis of statistical data quality under the background of big data era[J]. China Market, 2015(29):41-42.] DOI:10.13939/j.cnki.zgsc.2015.29.041

DOI

[15]
耿修林. 普查数据质量的两种检查方法[J]. 中国统计, 2006(6):10-11.

[Geng X L. Two inspection methods of census data quality[J]. China Statistics, 2006(6):10-11.] DOI:10.3969/j.issn.1002-4557.2006.06.004

DOI

[16]
王磊. 计量模型——一种经典数据质量评估方法[J]. 电子制作, 2012(10):153.

[Wang L. Econometric Model-A Classical Data Quality Assessment Method[J]. Practical Electronics, 2012,(10): 153.] DOI: 10.16589/j.cnki.cn11-3571/tn.2012.10.084

DOI

[17]
Vetrò A, Canova L, Torchiano M, et al. Open data quality measurement framework: Definition and application to Open Government Data[J]. Government Information Quarterly, 2016, 33(2):325-337. DOI:10.1016/j.giq.2016.02.001

DOI

[18]
Rajan N S, Gouripeddi R, Mo P, et al. Towards a content agnostic computable knowledge repository for data quality assessment[J]. Computer Methods and Programs in Biomedicine, 2019, 177:193-201. DOI:10.1016/j.cmpb.2019.05.017

DOI PMID

[19]
Ijab M T, Mat Surin E S, Mat Nayan N. Conceptualizing big data quality framework from a systematic literature review perspective[J]. Malaysian Journal of Computer Science, 2019:25-37. DOI:10.22452/mjcs.sp2019no1.2

DOI

[20]
王卷乐, 陈沈斌. 地学栅格格网数据质量评价指标与方法[J]. 测绘科学, 2006, 31(5):83-85,82,6.

[Wang J L, Chen S B. Research on index and method of geosciences raster grid data quality evaluation[J]. Science of Surveying and Mapping, 2006, 31(5):83-85,82,6.] DOI:10.3771/j.issn.1009-2307.2006.05.027

DOI

[21]
朱海涌. 环境与灾害监测预报小卫星数据应用评价[J]. 干旱环境监测, 2010, 24(1):39-42.

[Zhu H Y. Application and evaluation of moonlet datum on environment and calamity monitoring forecast[J]. Arid Environmental Monitoring, 2010, 24(1):39-42.] DOI:10.3969/j.issn.1007-1504.2010.01.010

DOI

[22]
王晶. 我国宏观经济统计数据质量诊断方法与实证[J]. 统计与决策, 2018, 34(4):34-37.

[Wang J. Diagnosis method and empirical analysis of China’s macroeconomic statistic data quality[J]. Statistics & Decision, 2018, 34(4):34-37.] DOI:10.13546/j.cnki.tjyjc.2018.04.007

DOI

[23]
Huang D M, Zhao D F, Wei L F, et al. Modeling and analysis in marine big data: advances and challenges[J]. Mathematical Problems in Engineering, 2015, 2015:1-13. DOI: 10.1155/2015/384742

DOI

[24]
鹿明. 基于大数据的污染源普查清查方法学研究[D]. 哈尔滨: 哈尔滨工业大学, 2019.

[Lu M. Methodological study on list screening of pollution sources survey based on big data[D]. Harbin:Harbin Institute of Technology, 2019.] DOI:10.27061/d.cnki.ghgdu.2019.004122

DOI

[25]
廖永丰, 吴玮, 杨赛霓, 等. 自然灾害综合风险防范信息服务技术体系构建及展望[J]. 地球信息科学学报, 2022, 24(12):2282-2296.

DOI

[Liao Y F, Wu W, Yang S N, et al. Construction and prospect of information service technology system for comprehensive risk prevention of natural disasters[J]. Journal of Geo-information Science, 2022, 24(12):2282-2296.] DOI:10.12082/dqxxkx.2022.220207

DOI

[26]
Statistical Division of the United Nations. Post-enumeration Surveys-operational Guidelines[R]. New York: United Nations Statistics Division, 2010.

[27]
Geographic information - Data quality: ISO 19157: 2013, 2013.

[28]
国家统计局. 国家统计质量保证框架(2021)[EB/OL].(2021-06-18)[2022-08-20]. www.gov.cn.

[National bureau of statistics. National Statistical Quality Assurance Framework (2021)[EB/OL]. (2021-06-18)[2022-08-20]. www.gov.cn.]

[29]
Anselin L. Local indicators of spatial association-LISA[J]. Geographical Analysis, 2010, 27(2):93-115. DOI: 10.1111/j.1538-4632.1995.tb00338.x

DOI

Outlines

/