Classification for Spatial Patterns of Urban Ozone Pollution in Beijing Based on Semi-Supervised Few-Shot Learning

  • SUN Jin , 1, 2, *
Expand
  • 1. School of Earth Sciences and Engineering, Hohai University, Nanjing 211100, China
  • 2. Jiangsu Province Engineering Research Center of Water Resources and Environment Assessment using Remote Sensing, Hohai University, Nanjing 211100, China
*SUN Jin, E-mail:

Received date: 2023-09-25

  Revised date: 2023-11-06

  Online published: 2024-03-31

Supported by

Fundamental Research Funds for the Central Universities(423062)

Abstract

Ozone concentrations tend to be heterogeneous across a city's space due to the mixed land use and diverse landscapes. Studying spatial patterns of urban ozone pollution contributes to the knowledge of the mechanism of pollution formation and also provides scientific reference for pollution prevention and control. Nevertheless, most previous research focused on the averaged value of ozone concentration from monitoring sites, which cannot describe the spatial characteristics of the entire region's concentration surface. Additionally, the classification method was seldom used to analyze pollutants' spatial patterns, and thus very few studies paid attention to the varied types of patterns and their temporal variations. In this study, based on the distributions of ozone’s daily maximum 8-h moving average estimated from satellite data, an approach of semi-supervised few-shot learning was proposed to classify ozone's spatial patterns in Beijing. The self-training method considered the difficulty of data labeling and can utilize information from a large number of unlabeled samples to augment the training set iteratively. Three kinds of normalized features were involved in classification to describe the spatial variations of concentrations. Totally, there were 40 training samples and 249 test samples for the year of 2020, and the overall classification accuracy was 81.12% with a kappa coefficient of 0.741 6. This demonstrated the effectiveness of the semi-supervised classification method despite the small size of training samples. The classification results showed that, among the eight patterns of ozone distributions in Beijing, three of them were major patterns, including Pattern 1: high concentrations in the south/east/southeast and low in the north/west/northwest, Pattern 2: high concentrations in the north/northwest and low in the south/southeast, and Pattern 6: low concentrations in the center. They dominated the warm season (from Mar. to Oct.), the cold season (from Nov. to Feb.), and the transition period, respectively. These temporal variations of ozone's spatial patterns indicated the influence from the seasonality of regional transport and photochemical reactions. When training samples were transferred to the year of 2019, the overall classification accuracy reached 80.97%, and the kappa coefficient was 0.745 6, suggesting the high potential of sample migration. And the results of 2019 further confirmed the previous findings. Thus, the proposed classification method for spatial patterns of urban ozone pollution can not only benefit the identification of regions with heavy pollution but also support the study on mechanisms of different pollution events.

Cite this article

SUN Jin . Classification for Spatial Patterns of Urban Ozone Pollution in Beijing Based on Semi-Supervised Few-Shot Learning[J]. Journal of Geo-information Science, 2024 , 26(3) : 725 -735 . DOI: 10.12082/dqxxkx.2024.230581

1 引言

臭氧是继PM2.5之后又一影响我国环境空气质量的重要污染物,对居民健康具有不可忽视的负面效应[1-3]。近年来随着污染防治行动计划的陆续发布, PM2.5污染防控取得了显著成效,但受复杂的大气化学过程影响,近地面臭氧浓度反而呈现上升趋势[4-6]。这一浓度变化趋势使得臭氧造成的健康负担逐年增加,有研究显示2018年全国范围内臭氧短期暴露造成的过早死亡数甚至超过了PM2.5短期暴露[7]。臭氧污染的发展态势不利于可持续发展和绿色宜居城市建设,是下一步城市空气质量改善的重点。
城市内用地类型的高度混合与复杂的地表形态导致污染物的排放和扩散行为存在较大的空间异质性。对于臭氧这样的光化学反应产物而言,同样会因为前体物NO2和VOCs(Volatile Organic Compounds)的空间异质性造成浓度空间分布上的差异[8-9],且这种差异可能存在一定的规律或模式。对城市臭氧污染的空间分布模式进行研究,有利于了解城市内居民的暴露公平性,确定优先治理的区域;也能够辅助臭氧污染的成因分析,为相关污染防控策略提供参考。
过去对污染空间分布模式的研究,数据主要来自站点监测数据[10]或其插值后的平面分布[11-13]。然而直接用“点”数据分析所得的特征并不足以描述完整的“平面”分布;即使经过站点数据插值得到平面分布,在站点稀疏区域的估计值仍可能存在较大误差。针对这一问题,近年来有许多学者基于卫星数据或模式模拟数据估计得到臭氧的高时空分辨率平面分布数据[6,14-16],经站点数据验证精度较高,可以应用于城市臭氧空间分布模式的研究当中。而在研究方法上,过去主要通过求年/季/月均值获得平均或主要的污染空间分布模式[11-12,17]。这一方法无法捕捉分布模式的时间变化,一些出现频率较低的模式容易被忽略。为尽可能从大量平面分布数据中提取信息,更全面地解读污染空间分布模式的变化规律,分类不失为一种值得考虑的研究手段,但其在目前的臭氧乃至大气污染的空间分布模式研究当中尚缺乏应用。
从原理上看,污染空间分布模式分类属于图像分类问题,而这一领域已发展出许多成熟方法,如主成分分析[18-19]、局部二值模式[20]和深度学习[21]等应用在人脸识别上表现较好。这些方法经调整后,也可用于极光图像检测[22-24]等相似问题。但以污染空间分布模式为研究对象,和人脸等对象存在较多差异,这使得图像分类的一些常用方法难以直接用于污染空间分布模式分类。以描绘不同方位浓度相对高低的分布模式为例,“南高北低”这一模式所指的南/北部在图像上有确定的范围,只有高值区落在南部、低值区落在北部才能分作此模式,因此污染空间分布模式与不强调空间绝对位置的“纹理”不同(同样的纹理在平移后仍属同一类),基于纹理的方法(如局部二值模式)难以发挥优势;而高值区落在南部内的具体位置又有一定的自由度,故即使两种分布在表象上存在差异,仍可能属于同一模式,这又使得一些基于表象的方法(如主成分分析)并不适用。此外,由于训练样本的标签只能通过目视判别,工作量大且有时在主观上难以分辨,获得大量标签样本用监督学习方法(如传统深度学习算法)进行分类存在较大难度。这些都对污染空间分布模式的分类研究提出了挑战。
针对以上问题,本研究采用公开数据集中由卫星数据估计得到的臭氧日最大8 h滑动均值分布数据,考虑数据标签化的难度,在小样本条件下提出一种基于半监督学习的臭氧空间分布模式分类方法,以北京市为例进行实验,分析不同模式的出现频率、浓度水平及时间规律,为进一步理解城市臭氧污染成因打下基础,也为污染防控提供科学依据。

2 数据来源与研究方法

2.1 臭氧分布数据

本研究使用的臭氧分布数据来自“国家青藏高原科学数据中心”(http://data.tpdc.ac.cn)的中国高分辨率高质量地面臭氧数据集(2013—2020)[25]。该数据集是通过在地面站点监测值与卫星数据、气象数据和排放清单间建立时空极度随机树模型(Space-time Extremely Randomized Trees, STET),估计得到全覆盖的10 km分辨率臭氧日最大8 h滑动平均浓度分布[14]。本研究取2019—2020年数据集中北京市范围的数据,与地面站点监测数据进行对比验证。监测数据来自北京市生态环境监测中心(http://www.bjmemc.com.cn/)在线公报的34个站点(图1)的臭氧小时浓度。由于在线公报数据未经质量控制,可能存在仪器故障等导致的错误数据,故剔除异常值(如与浓度变化趋势明显不同的异常高值或低值)后再求算站点监测数据的日最大8 h滑动均值。验证结果见表1。所使用数据集中的估计值与监测值在2019年与2020年分别进行线性拟合的总体R2均在0.9以上,说明数据集在北京范围的整体质量较好;分站点线性拟合的结果中数据集在密云水库等北部站点稍有低估,在西直门北等交通站点存在高估,但R2均在0.8以上。
图1 研究区域与空气质量监测站点分布

Fig. 1 Research area and locations of air monitoring sites

表1 北京市臭氧分布数据经站点监测值验证结果

Tab. 1 Validation of near-surface ozone concentrations in Beijing using monitoring data

年份 总体 分站点
R2 RMSE/
(μg/m3)
R2
小值
R2
大值
RMSE最小值/(μg/m3) RMSE最大值/(μg/m3)
2019 0.93 12.17 0.86 0.99 0.33 28.82
2020 0.94 13.33 0.81 1.00 5.72 28.44

2.2 研究方法

考虑到对臭氧空间分布模式标记的难度,需要提出一个能从少量训练样本中学习的半监督分类方法。本研究采用自训练的方式实现半监督分类,即通过将高置信度的测试样本标记后加入训练集,由迭代不断扩大训练集的规模,取得比依靠原训练集进行监督分类更好的效果。
分类方法中,分类器采用K阶最近邻法(K-Nearest Neighbor, KNN),取K=1,距离则按式(1)计算。
d = i = 1 m j = 1 n f i , j - f i , j '
式中:d是样本特征之间的距离; fi,jfi,j分别表示不同样本特征在第i行第j列的数值;mn分别为行数和列数。
由于空间分布模式主要是对不同区域浓度相对高低的描述,用于分类的特征也需要对高/低值区进行表达,故分别选择3种特征计算欧氏距离(图2)。第一种是将臭氧浓度分布归一化(式(2)),使分布中所有网格的值均在[-1,1]内且总和为0,从而排除浓度绝对值的干扰,使各样本之间计算距离时具有可比性,距离近即表明属同一模式的可能性更大。然而,这种直接归一化的特征保留了所有浓度空间变化的细节,在高/低值区的描述上缺乏概括性,单独用其进行分类时会弱化不同模式样本间的差异形成误判,分类效果不够好。为强化样本间的差异,增加2种对高/低值区的概括性表达方式作为第2和第3种特征(式(3)和式(4)),同样满足值在 [-1,1]内且总和为0,区别在于第3种特征的高/低值区判定标准较第2种更为宽松。
图2 半监督分类示意

Fig. 2 The schematic diagram of semi-supervised classification

x 1 , i , j = c i , j - m e a n ( c ) m a x   ( m a x c - m e a n c , m e a n c - m i n   ( c ) )
x 2 , i , j = - 1 / N L , 2           ( c i , j m i n c + 0.25 × ( m a x c - m i n c ) ) 0                             ( m i n c + 0.25 × m a x c - m i n c < c i , j                                   < m a x c - 0.25 × ( m a x c - m i n c ) ) 1 / N H , 2                 ( c i , j m a x c - 0.25 × ( m a x c - m i n c ) )
x 3 , i , j = - 1 / N L , 3           ( c i , j m i n c + 0.4 × ( m a x c - m i n c ) ) 0                                   ( m i n c + 0.4 × m a x c - m i n c < c i , j                                       < m a x c - 0.4 × ( m a x c - m i n c ) ) 1 / N H , 3                 ( c i , j m a x c - 0.4 × ( m a x c - m i n c ) )
式中: c表示原臭氧浓度分布; ci,jx1,i,jx2,i,jx3,i,j分别表示原臭氧浓度和3种特征在第i行第j列的数值;mean、min、max分别表示取均值、最小值、最大值;NL,2NL,3分别表示第二和第三种特征中满足低值判定条件(即式(3)和式(4)第一行对应条件)的网格数,同理NH,2NH,3分别表示第二和第三种特征中满足高值判定条件(即式(3)和式(4)第三行对应条件)的网格数。
对训练和测试样本分别用式(2)—式(4)求3种特征后,按如下步骤进行分类(其中求距离均用式(1),整体示意如图2):
步骤(1) 按KNN分类:对测试集的每个样本计算与训练样本3种特征的距离,每种距离找出最近的训练样本,将训练样本的类型标签赋予测试样本。若3种特征得到的类型至少有2种相同,则将该测试样本分作众数类型;否则认为样本难以分辨,另分作一类模式(称“其它”或“混杂模式”)。
步骤(2) 按置信度分类:在训练集中计算各类模式的平均分布作为类中心分布,分别用3种特征计算测试样本与各类中心分布的距离。对于任一类中心分布,根据每种距离将所有测试样本排序,由小到大排在前p%时记为置信度(1-p)%,表示与类中心分布距离越近,分作该类模式的置信度更高。3种距离得3个置信度,相乘作为测试样本对某一类型的综合置信度,对于每一测试样本取综合置信度最大值对应的类型,作为辅助标签用于 步骤(3)。
步骤(3) 求高置信度的样本加入训练集:在辅助标签划分的各类测试样本中,分别取1个测试样本,同时满足综合置信度在该类测试样本中最大、综合置信度超过0.9、辅助标签与步骤(1)所得标签一致的条件,作为高置信度的样本按辅助标签加入到训练集(如不满足条件则该类型不加入新样本),实现以自训练方式扩大训练集规模。
步骤(4) 迭代与终止:重复步骤(1)—步骤(3),直至无样本加入训练集。此时将最后一次迭代中步骤(1)输出的测试样本标签与所有新加入训练集的样本标签汇总得到测试集分类结果。

3 结果及分析

本研究主要对北京市2020年臭氧日最大8 h滑动均值数据进行分类实验与结果分析;之后为进一步降低分类方法中生成训练集的难度,将2020年训练样本迁移至2019年再次进行分类实验,评估其表现并验证2020年的分析结果。

3.1 北京市臭氧空间分布模式类型的确定及分类前预处理

通过归一化特征的聚类预实验结果以及经验判断,将北京市臭氧空间分布模式分为8类(表2)。其中模式1和2为出现较多的主要模式,与北京(西)北部山地和(东)南部平原的地形特征相吻合(图1)。模式5和6描述中心与四周的相对高低,可能出现与模式1—模式4的复合,但由于污染成因分析的需要,本研究更突出中心高/低的特征,故将此复合类型也分入模式5/6中。
表2 北京市臭氧空间分布的8类模式

Tab. 2 Eight types of ozone's spatial patterns in Beijing

模式类型 模式描述
1 (东)南高(西)北低或东高西低
2 (西)北高(东)南低
3 东北高西南低
4 西(南)高东(北)低
5 中心高
6 中心低
7 空间差异较小的均匀型
8 难以分入上述类型的混杂型
进行分类前,为降低分类难度,首先对于一些能通过简单条件判定的样本进行标记,不进入后续分类流程:如均匀型即模式7的样本,可通过“范围内浓度最大值与最小值之差与之和的比值小于0.1”的条件判定得到。考虑到模式5和模式6可能出现复合类型,直接进入分类程序容易被误分(如“中心低且南高北低”的复合类型按定义本应属于模式6,却被分作模式1),而“中心低”的模式6主要是由于中心城区交通排放高浓度NO对臭氧进行了滴定,即模式所描述的“中心”与中心城区有一定程度的重合,因此在分类前通过浓度比较预先筛除一些以中心城区为高/低值区被分作模式5/6的样本。具体做法是:单独取北京市中心的城六区(东城、西城、海淀、丰台、石景山、朝阳,但除去朝阳区在顺义区内的飞地)对应网格作为一个单元,在周边取相近大小的若干单元与之形成3×3的布局,将城六区对应单元的平均浓度与周边8个单元的浓度进行对比,如城六区浓度均高于周边,则无论是否复合有其它类型的模式(如“南高北低”),统一分作模式5;同理,如城六区浓度均低于周边,统一分作模式6。
将预先分作模式5/6/7的样本从数据集中排除,在剩余数据中为各模式选择具典型空间分布特征的样本生成训练集。由于使用半监督分类方法,对训练样本数的要求不高:模式1和模式2为主要模式,各取10个样本进入训练集;模式3—模式6则各取5个样本进入训练集(因预处理中分作模式5/6的仅有以城六区为中心高/低值区的样本,可能存在二者范围不一致但仍属于模式5/6的样本未被识别而进入到分类程序中,故仍需为模式5/6选择训练样本)。整体流程如图3所示。
图3 北京市臭氧空间分布模式预处理与分类流程

Fig. 3 Flow chart of preprocessing and classification for ozone's spatial patterns in Beijing

3.2 2020年北京市臭氧空间分布模式分类结果分析

3.2.1 分类精度评价分析

2020年北京市臭氧日最大8 h滑动均值数据经分类前预处理,共排除77个样本(其中模式5、6、7的样本数分别为1、44、32)。剩余样本以40个样本作为训练集、249个样本作为测试集进行半监督分类,用于评价的实际模式标签来自事先目视判别。半监督分类的最终结果见表3(行表示实际模式,列表示分类预测模式),其中总体分类精度和kappa系数均较高,说明整体分类效果较好,可用于后续分析。对各类型制图精度和用户精度的分析有助于进一步把握漏分、错分现象:制图精度描述某一类型正确分类的样本数与实际属于该类的样本数之比,制图精度越高说明漏分越少,可见模式5、6、8漏分较严重;用户精度描述某一类型正确分类的样本数与所有被识别为该类的样本数之比,用户精度越高说明错分越少,可见模式3、5、8错分较严重。其中错分主要在于其高/低值区与其他模式存在部分重叠;模式5/6的漏分则是因为所描述的“中心”并不局限在城六区,尤其是模式5的中心高值区具体范围在不同样本中变化较大,同时用以学习的训练样本较少;模式8漏分、错分现象均显著是因其作为难以分辨的类型,本身并不具有一致的空间分布特征,而是靠3种特征最邻近类型的不一致来判定,因此分类难度较大。
表3 半监督分类的混淆矩阵

Tab. 3 Confusion matrix of semi-supervised classification

模式类型 1 2 3 4 5 6 8 制图精度/% 用户精度/%
1 99 0 0 0 2 1 1 96.12 89.19
2 0 55 4 0 1 0 3 87.30 90.16
3 0 0 14 0 0 0 0 100.00 58.33
4 2 0 0 8 1 0 0 72.73 72.73
5 7 0 0 0 4 0 0 36.36 44.44
6 0 5 1 2 0 20 5 60.61 90.91
8 3 1 5 1 1 1 2 14.29 18.18
总体分类精度/% 81.12
Kappa系数 0.741 6
半监督分类过程中总体分类精度和kappa系数随迭代次数的变化如图4所示,基本呈上升趋势, 最终二者较第一次分类时分别提高3.21%和0.041 2。而第一次分类可视作原训练集上的监督分类,故可见在少量训练样本的情况下,使用半监督分类方法的确能有效提升分类效果。
图4 总体分类精度和kappa系数在半监督分类过程中的 变化曲线

Fig. 4 Variation of overall classification accuracy and kappa coefficients in the process of semi-supervised classification

3.2.2 各类型所占比例、浓度水平与日期分布

将预处理标记的77个样本与半监督分类的训练样本和测试样本汇总于表4,得到2020年全年的分类结果;汇总的实际结果则来自预处理标记和目视判别。其中模式1—模式6作为待研究的典型类型,计算浓度平均分布表示其分布模式如图5。可见,分类结果和实际模式的各类型所占比例相似,均以模式1、2、6为主要模式,而模式8作为难以分辨的类型,在全年中占少数;空间上的浓度平均分布模式也无显著区别。此外,模式6的中心低值区与城六区范围较一致,但模式5的中心高值区主要在城六区以北,这也是分类前预处理得到模式5样本较少(数目仅为1)的原因。
表4 2020年北京市臭氧日最大8 h滑动均值分布模式分类结果统计

Tab. 4 Statistics of spatial patterns of ozone's daily maximum 8-h moving averages in Beijing during 2020

模式类型 分类结果 实际
天数 占比/% 天数 占比/%
1 121 33.06 113 30.87
2 71 19.40 73 19.95
3 29 7.92 19 5.19
4 16 4.37 16 4.37
5 15 4.10 17 4.64
6 71 19.40 82 22.40
7 32 8.74 32 8.74
8 11 3.01 14 3.83
图5 臭氧日最大8 h滑动均值在不同类型的平均分布模式

Fig. 5 Average distribution patterns of ozone's daily maximum 8 h moving averages from different categories

对各样本求其在北京范围内的浓度平均值,按模式汇总后绘制箱形图如图6。箱内的3条横边分别代表3个四分位数的位置,“×”代表离群值。从各类模式的浓度水平分布来看,分类结果与实际的趋势一致:模式1、5为高浓度模式,模式2、6为低浓度模式;高低值区相反的模式3和4中模式4的浓度水平更高;均匀型的模式7浓度在各类中处于中等水平。
图6 各类模式在北京范围臭氧平均浓度的箱形图

Fig. 6 Boxplots of average ozone concentrations of different patterns in Beijing

各类模式的日期分布如图7,可见分类结果与实际的时间特征较一致:如以3—10月为暖季,11—次年2月为冷季,模式1、4、5主要分布在暖季,模式2、3主要在冷季,模式6、7主要在冷暖季的过渡期。这说明臭氧空间分布模式存在某种“季节性”,对后续研究臭氧污染成因有一定帮助。同时也解释了图6中各模式浓度水平的差异:暖季光化学反应剧烈,生成臭氧浓度更高,因此主要发生在暖季的模式1、4、5浓度相对更高。
图7 2019—2020年北京市臭氧空间分布模式日历

Fig. 7 Calendars of ozone's spatial patterns in Beijing from 2019 to 2020

综上所述,无论从分类精度指标,还是从分类结果与实际模式在所占比例、浓度水平和日期分布上的相似性,都说明本研究所采用的分类方法能够在训练样本较少的情况下,对不同的臭氧空间分布模式进行有效区分。

3.3 训练样本迁移与验证:以2019年北京市臭氧空间分布模式为例

对2019年数据使用迁移的训练样本分类,即对2019年数据经分类前预处理,排除55个样本后,以2020年的40个样本作为训练集,2019年余下310个样本作为测试集进行半监督分类。在没有本年度样本训练的情况下,总体分类精度仍然达到了80.97%,kappa系数为0.745 6,说明训练样本迁移效果尚可,利用某一年的训练集进行非本年数据的分类是可能的,由此能够降低这一分类方法中训练样本生成的难度。
2019年的分类结果也为基于2020年数据发现的规律提供了进一步佐证:2019年各模式所占比例及浓度水平与2020年相似,均以模式1、2、6为主要模式,其中模式1、4、5相较模式2、3、6浓度更高;日期分布见图7,虽与2020年存在细节上的不同,如模式7天数更少,在春季的分布时段由3—4月变为4—5月,6—8月的模式5天数明显增多,但冷暖季与过渡期的整体分布规律仍是相似的。

4 讨论

在过往针对北京市臭氧空间分布特征的研究中,一般认为(东)南/(西)北差异是主要差异[11,26],这与北京市地形及人口活动特征密切相关:如图1,北京市(西)北部为海拔较高的山地,植被覆盖率高,植物源排放较多BVOCs(Biogenic Volatile Organic Compounds)作为前体物促进该区域臭氧生成;而在中心与(东)南部人类活动更多,包括交通源、工业源等在内的人为源排放更多,并且盛行南风或东风时会受河北重工业区的污染传输影响。因此,通过对不同时段的臭氧浓度分布求均值,相关研究得到北京市常见的臭氧空间分布模式有“(东)南高(西)北低”[26]、“(西)北高(东)南低”[11,17]乃至“东北高西南低”[27],分别与本研究的模式1、2和3相对应;模式4—模式6则鲜有出现。其中模式4与5是因为本身作为出现频率较低的次要模式,在均值分布中容易被主要模式所掩盖;模式6尽管本身出现频率较高,但由于相关研究多是基于站点数据插值得到的浓度分布,因站点有限可能不足以在插值结果中表现出“中心低”的特征。故相对于均值分布取得的单一模式,基于日浓度分布的模式分类提供了更为丰富的信息,能发掘一些偶发性污染事件中高污染区域的规律(如模式4的西南部和模式5的城六区以北的臭氧高值区)。
进一步对臭氧空间分布模式进行分析,可将其视作气象、排放、传输等因素作用于污染过程的表现,即作为污染机制的一种结果,因此探索模式的时间变化规律有助于增进对城市臭氧污染机制的理解。本研究发现暖季的主要模式为“(东)南高(西)北低或东高西低”的模式1,这显然与北京市(东)南或者东部的排放特征及污染传输特征相关。北京市在夏季盛行偏南风[28-29],大量臭氧及其前体物从河北等地传输至(东)南或东部平原区域,加上本地排放的前体物进行活跃的光化学反应,使得浓度明显高于(西)北或西部山地。而冷季的主模式为“(西)北高(东)南低”的模式2,此时盛行风为偏北风[28-29],上风向较清洁,污染传输较少,臭氧主要受(西)北部排放的BVOCs影响,因此在(西)北部浓度更高。
对于“中心低”的臭氧空间分布模式而言,一般是由于市中心交通排放的NO对臭氧进行了滴定,模式6的低值区和城六区范围相吻合也证明了这一点。模式6主要出现在冷暖季过渡期,即NO通过滴定消耗臭氧在过渡期最明显,这可能与过氧自由基(HO2和RO2)的浓度变化有关。在光化学反应中,过氧自由基和NO反应生成NO2,NO2光解生成活化氧原子,再与O2结合生成臭氧,但臭氧可以继续被NO滴定得到NO2和O2。当大气中VOCs浓度较高时,能够提供较多过氧自由基与臭氧争抢NO进行反应,从而减少臭氧的消耗,致使臭氧浓度升高[30]。因此在暖季,随着南风向北京输送污染物,VOCs浓度升高,得到大量过氧自由基,NO滴定被抑制;而向冷季过渡时,过氧自由基浓度降低,NO对臭氧的滴定效应增强,在中心城区形成臭氧低值区,模式1向模式6转变;到冷季时,因光化学反应不再活跃,中心城区臭氧浓度极低,滴定的削减作用并不明显,模式6向模式2转变。冷季向暖季过渡时同理。同样出现在过渡期的模式7则是(东)南(西)北进行高低值区交替时形成的过渡态。
至于出现频率较低的模式3—模式5,其中模式3伴随模式2出现在冷季,模式4伴随模式1出现在暖季,彼此的成因可能有相似之处;“中心高”的模式5虽然出现在暖季,但如与模式1成因相似,即依赖南风输送,则无法解释其在中心而非南部达到浓度高值的现象,如与本地排放有关,其高值区却与人口最密集的城六区范围并不一致。故这些次要模式的成因仍有待后续研究,并有望从中发现一些过去被忽略的污染机制。

5 结论与展望

本研究利用由卫星数据建模估计的臭氧日最大8 h滑动均值分布数据,针对臭氧空间分布模式标签化的难度提出了一种面向小样本的半监督学习方法,在北京市进行分类实验。主要结论如下:
(1) 2020年数据经预处理后,以40个训练样本对249个测试样本采用自训练的半监督分类方法进行分类,总体分类精度为81.12%,kappa系数为0.741 6。相比初始训练集上的监督分类,2个指标在迭代过程中分别提高了3.21%和0.041 2,说明在少量训练样本的情况下,使用半监督分类方法能有效提升臭氧空间分布模式的分类效果。
(2)分类结果与实际模式在出现频率、浓度水平及时间规律上呈现出一致的规律: 8种模式中,“(东)南高(西)北低或东高西低”的模式1、“(西)北高(东)南低”的模式2以及“中心低”的模式6为主要模式;从浓度水平来看,模式1、4、5相较高低值区与之相反的模式2、3、6浓度更高,均匀型的模式7浓度居中;模式的时间分布存在季节性,即以3—10月为暖季,11—次年2月为冷季,模式1、4、5主要分布在暖季,模式2、3主要在冷季,模式6、7则主要在冷暖季的过渡期。模式的季节性规律与区域传输和光化学反应的季节性特征有关。
(3)利用2020年的训练样本对2019年臭氧空间分布模式进行半监督分类,总体分类精度仍然达到了80.97%, kappa系数为0.745 6,说明训练样本迁移效果尚可,可据此降低训练样本生成的难度。2019年的分类结果也验证了基于2020年数据发现的规律。
(4)与求浓度均值分布相比,进行日浓度分布模式分类除提取到污染空间分布的主要模式外,还能捕捉次要模式和模式的时间变化,在全面确定高污染的防治区域和分类别研究不同污染事件的成因上有很大优势。
同时,由于本研究的半监督分类采用自训练方式,对训练样本要求较高,既需要准确把握研究区的污染分布模式类型,又需要在挑选同一类型的训练样本时兼顾代表性与差异性,使少量训练样本尽可能代表各模式的不同形态,否则会降低分类精度。未来考虑改进和试验更多不同的分类方法,在进一步提升分类精度的同时减小方法使用的难度。
[1]
Guo B, Wang Y, Pei L, et al. Determining the effects of socioeconomic and environmental determinants on chronic obstructive pulmonary disease (COPD) mortality using geographically and temporally weighted regression model across Xi'an during 2014-2016[J]. Science of the Total Environment, 2021, 756:143869. DOI:10.1016/j.scitotenv.2020.143869

[2]
Wang Y, Guo B, Pei L, et al. The influence of socioeconomic and environmental determinants on acute myocardial infarction (AMI) mortality from the spatial epidemiological perspective[J]. Environmental Science and Pollution Research, 2022, 29(42):63494-63511. DOI:10.1007/s11356-022-19825-4

[3]
陈浪, 赵川, 关茗洋, 等. 我国大气臭氧污染现状及人群健康影响[J]. 环境与职业医学, 2017, 34(11):1025-1030.

[ Chen L, Zhao C, Guan M Y, et al. Ozone pollution in China and its adverse health effects[J]. Journal of Environmental & Occupational Medicine, 2017, 34(11):1025-1030. ] DOI:10.13213/j.cnki.jeom.2017.17455

[4]
李红, 彭良, 毕方, 等. 我国PM2.5与臭氧污染协同控制策略研究[J]. 环境科学研究, 2019, 32(10):1763-1778.

[ Li H, Peng L, Bi F, et al. Strategy of coordinated control of PM2.5 and ozone in China[J]. Research of Environmental Sciences, 2019, 32(10):1763-1778. ] DOI:10.13198/j.issn.1001-6929.2019.09.18

[5]
Li K, Jacob D J, Liao H, et al. A two-pollutant strategy for improving ozone and particulate air quality in China[J]. Nature Geoscience, 2019, 12:906-910. DOI:10.1038/s41561-019-0464-x

[6]
Meng X, Wang W, Shi S, et al. Evaluating the spatiotemporal ozone characteristics with high-resolution predictions in mainland China, 2013-2019[J]. Environmental Pollution, 2022, 299:118865. DOI:10.1016/j.envpol.2022.118865

[7]
Wang F, Qiu X, Cao J, et al. Policy-driven changes in the health risk of PM2.5 and O3 exposure in China during 2013-2018[J]. Science of the Total Environment, 2021, 757:143775. DOI:10.1016/j.scitotenv.2020.143775

[8]
严心田. 基于WRF-Chem的南京市春夏季空气质量研究:时空特征和减排效果分析[D]. 南京: 南京信息工程大学, 2019.

[ Yan X T. WRF-Chem simulation of air quality in spring and summer in Nanjing: Spatio-temporal characteristics and analysis of emission reduction effects[D]. Nanjing: Nanjing University of Information Science and Technology, 2019. ]

[9]
赵丽敏. 京津冀及周边地区近地表O3浓度的遥感估算研究[D]. 南京: 南京大学, 2019.

[ Zhao L M. Estimation of ground-level O3 concentrations in Beijing-Tianjin-Hebei and surrounding areas based on satellite observations[D]. Nanjing: Nanjing University, 2019.] DOI:10.27235/d.cnki.gnjiu.2019.001677

[10]
Ren J, Hao Y, Simayi M, et al. Spatiotemporal variation of surface ozone and its causes in Beijing, China since 2014[J]. Atmospheric Environment, 2021, 260:118556. DOI:10.1016/j.atmosenv.2021.118556

[11]
陈菁, 彭金龙, 徐彦森. 北京市2014—2020年PM2.5和O3时空分布与健康效应评估[J]. 环境科学, 2021, 42(9):4071-4082.

[ Chen J, Peng J L, Xu Y S. Spatiotemporal distribution and health impacts of PM2.5 and O3 in Beijing, from 2014 to 2020[J]. Environmental Science, 2021, 42(9):4071-4082. ] DOI:10.13227/j.hjkx.202101033

[12]
苏志华, 韩会庆, 李莉, 等. 贵阳市臭氧的时空分布、气象作用及其与前体物的关系[J]. 中山大学学报(自然科学版), 2020, 59(5):102-112.

[ Su Z H, Han H Q, Li L, et al. Temporal and spatial distribution of ozone, meteorological effect and relation with its precursors in Guiyang city[J]. Acta Scientiarum Naturalium Universitatis Sunyatseni, 2020, 59(5):102-112.] DOI:10.13471/j.cnki.acta.snus.2020.02.21.2020D010

[13]
赵洁, 丁俊傑, 刘芮伶, 等. 重庆市臭氧污染特征分析及天气分型研究[J]. 环境科学与技术, 2022, 45(11):62-69.

[ Zhao J, Ding J J, Liu R L, et al. Study on the ozone pollution characteristics and subjective weather classifications in Chongqing[J]. Environmental Science & Technology, 2022, 45(11):62-69. ] DOI:10.19672/j.cnki.1003-6504.0954.22.338

[14]
Wei J, Li Z Q, Li K, et al. Full-coverage mapping and spatiotemporal variations of ground-level ozone (O3) pollution from 2013 to 2020 across China[J]. Remote Sensing of Environment, 2022, 270:112775. DOI: 10.1016/j.rse.2021.112775

[15]
Xue T, Zheng Y X, Geng G N, et al. Estimating spatiotemporal variation in ambient ozone exposure during 2013-2017 using a data-fusion model[J]. Environmental Science & Technology, 2020, 54(23):14877-14888. DOI: 10.1021/acs.est.0c03098

[16]
Kong L, Tang X A, Zhu J A, et al. A 6-year-long (2013-2018)high-resolution air quality reanalysis dataset in China based on the assimilation of surface observations from CNEMC[J]. Earth System Science Data, 2021, 13(2):529-570. DOI: 10.5194/essd-13-529-2021

[17]
Wang H W, Li X B, Wang D, et al. Regional prediction of ground-level ozone using a hybrid sequence-to-sequence deep learning approach[J]. Journal of Cleaner Production, 2020, 253:119841. DOI: 10.1016/j.jclepro.2019.119841

[18]
徐竟泽, 吴作宏, 徐岩, 等. 融合PCA、LDA和SVM算法的人脸识别[J]. 计算机工程与应用, 2019, 55(18):34-37.

DOI

[ Xu J Z, Wu Z H, Xu Y, et al. Face recognition based on PCA, LDA and SVM algorithms[J]. Computer Engineering and Applications, 2019, 55(18):34-37.] DOI:10.3778/j.issn.1002-8331.1903-0286

[19]
Yang J, Zhang D, Frangi A F, et al. Two-dimensional PCA: A new approach to appearance-based face representation and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(1):131-137. DOI:10.1109/TPAMI.2004.1261097

PMID

[20]
何云, 吴怀宇, 钟锐. 基于多种LBP特征集成学习的人脸识别[J]. 计算机应用研究, 2018, 35(1):292-295.

[ He Y, Wu H Y, Zhong R. Face recognition based on ensemble learning with multiple LBP features[J]. Application Research of Computers, 2018, 35(1):292-295. ] DOI:10.3969/j.issn.1001-3695.2018.01.062

[21]
李倩玉, 蒋建国, 齐美彬. 基于改进深层网络的人脸识别算法[J]. 电子学报, 2017, 45(3):619-625.

DOI

[ Li Q Y, Jiang J G, Qi M B. Face recognition algorithm based on improved deep networks[J]. Acta Electronica Sinica, 2017, 45(03):619-625.] DOI:10.3969/j.issn.0372-2112.2017.03.017

[22]
Wang Q, Liang J, Hu Z J, et al. Spatial texture based automatic classification of dayside aurora in all-sky images[J]. Journal of Atmospheric and Solar-Terrestrial Physics, 2010, 72:498-508. DOI:10.1016/j.jastp.2010.01.011

[23]
张浩, 陈昌红. 基于深度学习的极光序列自动分类方法[J]. 激光与光电子学进展, 2018, 55(11):346-354.

[ Zhang H, Chen C H. Aurora sequence classification based on deep learning[J]. Laser & Optoelectronics Progress, 2018, 55(11):346-354. ] DOI:10.3788/LOP55.111504

[24]
韩冰, 贾中华, 高新波. 改进的主成分分析网络极光图像分类方法[J]. 西安电子科技大学学报, 2017, 44(1):83-88.

[ Han B, Jia Z H, Gao X B. Improved PCANet for aurora images classification[J]. Journal of Xidian University, 2017, 44(1):83-88. ] DOI:10.3969/j.issn.1001-2400.2017.01.015

[25]
韦晶, 李占清. 中国高分辨率高质量地面臭氧数据集(2013-2020)[DB/OL]. 2023.https://doi.org/10.5281/zenodo.4400042.

[ Wei J, Li Z. China High O3: Big Data Seamless 10 km Ground-level MDA8 O3 Dataset for China (2013-2020)[DB/OL]. 2023. https://doi.org/10.5281/zenodo.4400042. ]

[26]
Li M, Yang Q, Yuan Q, et al. Estimation of high spatial resolution ground-level ozone concentrations based on Landsat 8 TIR bands with deep forest model[J]. Chemosphere, 2022, 301:134817. DOI:10.1016/j.chemosphere.2022.134817

[27]
王占山, 李云婷, 陈添, 等. 北京市臭氧的时空分布特征[J]. 环境科学, 2014, 35(12):4446-4453.

[ Wang Z S, Li Y T, Chen T, et al. Temporal and spatial distribution characteristics of ozone in Beijing[J]. Environmental Science, 2014, 35(12):4446-4453. ] DOI:10.13227/j.hjkx.2014.12.005

[28]
窦晶晶. 北京城区近地面气象要素精细化时空分布特征[D]. 北京: 中国气象科学研究院, 2014.

[ Dou J J. Fine-scale characteristics of low-level meteorological elements in Beijing urban area[D]. Beijing: Chinese Academy of Meteorological Sciences, 2014. ]

[29]
曹杨, 何文英, 施红蓉, 等. 2018年北京城区和远郊区低层大气风场特征分析[J]. 气候与环境研究, 2021, 26(4):403-412.

[ Cao Y, He W Y, Shi H R, et al. Analysis of wind field characteristics within the lower atmosphere in urban and suburban areas of Beijing in 2018[J]. Climatic and Environmental Research, 2021, 26(4):403-412. ] DOI: 10.3878/j.issn.1006-9585.2021.20042

[30]
符传博, 周航. 中国城市臭氧的形成机理及污染影响因素研究进展[J]. 中国环境监测, 2021, 37(2):33-43.

[ Fu C B, Zhou H. Research progress on the formation mechanism and impact factors of urban ozone pollution in China[J]. Environmental Monitoring in China, 2021, 37(2):33-43.] DOI:10.19316/j.issn.1002-6002.2021.02.05

Outlines

/