工业污染对癌症影响的挖掘方法：改进的空间同位模式

图1 技术路线

Fig. 1 Technology roadmap

图1中，首先对污染源实例进行3种因素的影响机制建模，依据污染源实例偏移后的位置和影响半径，结合癌症实例的活动半径确定污染源实例和癌症实例之间的空间邻近关系（浅黄色框），再通过提出的度量计算模式的影响度（浅蓝色框），最后输出满足阈值的空间序偶模式（一种改进的空间同位模式）。根据技术路线图，首先给出空间序偶模式相关概念，然后是污染源影响机制建模的相关内容，之后给出基于核密度估计的模式有趣性度量，最后呈现完整的挖掘算法。

2.1 空间序偶模式

给定一个空间数据集，包含特征集 $F = \{P F, C F\}$ ，其中污染源特征集 $P F = \{p_{1}, p_{2}, \dots, p_{n}\}$ ，一个污染源实例用 $p_{i} . j$ 表示，所有污染源实例构成的集合称为污染源实例集，记为 $O_{P} = O_{p_{1}} ⋃ O_{p_{2}} ⋃ \dots ⋃ O_{p_{n}}$ ， $O_{p_{i}} (1 \leq i \leq n)$ )表示污染源特征 $p_{i} (p_{i} \in P F)$ 的实例集合。除了特征类型，实例ID和空间位置，每个污染源实例还携带浓度和致癌类别信息，可以用一个五元组唯一标识，即<特征类型，实例ID，浓度，致癌类别，空间位置>。癌症特征集 $C F = \{c_{1}, c_{2}, \dots, c_{m}\}$ ，一个癌症实例用 $c_{s} . t$ 表示，所有癌症实例构成的集合称为癌症实例集，记为 $O_{C} = O_{c_{1}} ⋃ O_{c_{2}} ⋃ \dots ⋃ O_{c_{m}}$ ， $O_{c_{s}} (1 \leq s \leq m)$ 表示癌症特征 $c_{s} (c_{s} \in C F)$ 的实例集合，癌症实例可用一个三元组表示，即<特征类型，实例ID，空间位置>。

定义1（空间序偶模式）给定污染源特征集 $P F$ 和癌症特征集 $C F$ ，将序偶 $c = [F_{p}, F_{c}] (F_{p} \subseteq P F, F_{c} \subseteq C F)$ 称为空间序偶模式 $S O P P_c$ ，c中包含的空间特征个数称为阶，记为 $s i z e (c) = |F_{p} |+| F_{c}|$ 。

一个特征及其实例空间坐标分布示例如图2 所示，污染源特征集 $P F = \{A, B\}$ ，实例集 $O_{P} = \{\{A . 1, A . 2, A . 3, A . 4, A . 5\}, \{B . 1, B . 2, B . 3, B . 4, B . 5\}\}$ ，癌症特征集 $C F = \{a\}$ ，实例集 $O_{c} = \{\{a . 1, a . 2, a . 3\}\}$ 。

图2

图2 特征实例空间坐标分布示例

注：图中的数字表示实例序号。

Fig. 2 An example of feature instances space coordinates distribution

为了使空间序偶模式反映的污染源对癌症的影响更符合实际，本文考虑了污染源受风向、风速、浓度的干扰作用，以及污染物所属致癌类别。详细定义如下。

2.2 污染源影响机制建模

2.2.1 风向、风速对污染物扩散的影响

污染物在一个地区的分布受多种因素的影响，如污染物类型、释放浓度、天气条件（风、降水）、地形等，本文目标并不是重现复杂的空气污染分布模型，而是在挖掘过程中尽可能地模拟污染物在真实世界中的扩散过程。风向、风速的应用可能有2种情况：①污染物排放地区全年无风，即污染物不发生位置偏移；②在盛行风向下，风速非零。风速、风向直接决定了大气污染物的扩散范围，风速与化学物质传播距离呈正相关。根据典型地域的风向特征研究^[25]，云南省盛行风向为西南风，风向年分布形态非常稳定。风向频率表示为：风向频率 $=$ 某风向出现次数 $/$ 风向的总观测次数 $\times 100 %$ ，风玫瑰图是根据某一地区多年平均统计的各个风向频率值和风速值按一定比率绘制，玫瑰图上的风向指的是从外面吹向地区中心的方向。云南省风玫瑰图如图3所示。

图3

图3 云南省风玫瑰图

Fig. 3 Wind rose map of Yunnan Province

根据风玫瑰图可知，云南省风向集中为西南风，平均风速不超过15 m/s，受西南风的影响，污染源空间位置逐渐向东北方位发生偏移，产生偏移距离。

定义2（偏移距离）给定一个污染源实例 $p_{i} . j (p_{i} . j \in O_{p_{i}})$ ，实例 $p_{i} . j$ 在风条件影响下，自东北方向发生的偏移距离记为s， $s = λ |v|$ 。其中 $λ$ 为拉伸系数，拉伸系数越大，偏移距离越大，v为云南省西南风风速，变化范围 $0 ~ 25 m / s$ ，参照大气污染物扩散与气象条件的关系，拉伸系数 $λ$ 固定取值300，45°为西南风风向与水平方向和垂直方向的夹角大小。假设污染源实例 $p_{i} . j$ 的空间坐标为 $(x, y)$ ， $p_{i} . j$ 的偏移坐标 $(x^{,}, y^{,})$ 表示如下：

(1)

\{\begin{array}{l} x^{,} = x + λ |v| c o s 45^{°} \\ y^{,} = y + λ |v| s i n 45^{°} \end{array}

污染源实例的偏移坐标通过偏移距离s的三角函数关系计算可得，最终根据癌症实例坐标与污染源实例偏移坐标可计算实例之间的欧式距离。如图4所示，癌症实例 $a . 1$ 和污染源实例 $A . 1$ 之间的实际距离为 $d i s t (a . 1, A . 1^{'})$ 。

图4

图4 污染源实例坐标偏移计算示例

注:图中a.1表示-一个癌症实例，A.1 (x, y)表示-一个污染源实例及其空间坐标，A.1'(x', y')表示A.1发生位置偏移后的实例及其空间坐标，dist( )表示癌症实例与污染源实例间的欧式距离，s表示西南风作用下污染源A.1到A.1'的偏移距离，45°表示西南风与水平方向的夹角。

Fig. 4 Example of calculation of pollution source instance coordinate shift

2.2.2 污染物浓度

每个污染物不同时段的排污浓度越大，排污量越大，影响范围越广。现将浓度与污染源影响范围联系起来，定义了新的与浓度相关的空间邻近关系划分标准，详细定义如下。

定义3（局部平均浓度）给定一个污染源实例 $p_{i} . j (p_{i} . j \in O_{p_{i}})$ ，实例 $p_{i} . j$ 不同时段的浓度值 $C o n c_{p_{i . j}} = \{c o n c_{1}, \dots, c o n c_{k}\}$ ，局部平均浓度为 $C o n c_{p_{i . j}}$ 的平均值，记做 $L M C o n c_{p_{i} . j}$ ，计算如下：

（2）

L M C o n c_{p_{i} . j} = \frac{\sum_{t = 1}^{k} c o n c_{t}}{k}

例如 $C o n c_{A . 1} = \{0.1,0.2,0.3\}$ ，单位 $m g / N m^{3}$ ，则 $L M C o n c_{A . 1} = (0.1 + 0.2 + 0.3) / 3 = 0.2 m g / N m^{3}$ 。

定义4（全局平均浓度）给定一个污染源特征 $p_{i} (p_{i} \in P F)$ ，全局平均浓度表示 $p_{i}$ 的实例集 $O_{p_{i}}$ 的局部平均浓度和的平均值，记做 $G M C o n c_{p_{i}}$ ，计算如下：

（3）

G M C o n c_{p_{i}} = \frac{\sum L M C o n c_{p_{i} . j}}{n (O_{p_{i}})}

例如 $L M C o n c_{A} = \{0.2,0.3,0.5,0.1,0.8\},$ 单位 $m g / N m^{3}$ ，则 $G M C o n c_{A} = (0.2 + \dots + 0.8) / 5 = 0.4 m g / N m^{3}$ 。

定义5（污染源影响半径）根据污染源局部平均浓度和全局平均浓度的关系，将污染源影响半径划分为3个等级，分别表示为 $r_{m i n}$ 、 $r_{m i d}$ 、 $r_{m a x}$ 。给定一个污染源实例 $p_{i} . j (p_{i} . j \in O_{p_{i}})$ ，影响半径 $r_{p_{i} . j}$ 定义如下：

（4）

r_{p_{i} . j} = \{\begin{array}{l} r_{m i n} L M C o n c_{p_{i} . j} < G M C o n c_{p_{i}} \\ r_{m i d} L M C o n c_{p_{i} . j} = G M C o n c_{p_{i}} \\ r_{m a x} L M C o n c_{p_{i} . j} > G M C o n c_{p_{i}} \end{array}

式中： $r_{m i n}$ 、 $r_{m i d}$ 、 $r_{m a x}$ 为用户自定义阈值，且 $r_{m i n} < r_{m i d} < r_{m a x}$ ，且 $r_{m i n}$ 、 $r_{m i d}$ 、 $r_{m a x}$ 分别对应污染源低、中、高等级的浓度。

定义6（癌症病例活动半径）每个癌症病例通常情况下不会长期呆在同一个位置，由于工作或其他原因存在一个活动范围。为了尽可能的还原现实情况，本文为癌症病例定义了一个活动半径，给定一个癌症实例 $c_{s} . t (c_{s} . t \in O_{c_{s}})$ ，活动半径记为 $r_{c_{s} . t}$ 。

定义7（空间邻近关系）由于人类活动以及污染物扩散运动，人类活动区域与污染源影响区域会发生相交，由此人类便会接触到致癌物，本文根据污染源影响半径和癌症病例活动半径定义相应实例间的空间邻近关系。给定一个癌症实例 $c_{s} . t (c_{s} . t \in O_{c_{s}})$ ，一个污染源实例 $p_{i} . j (p_{i} . j \in O_{p_{i}})$ ，将癌症实例 $c_{s} . t$ 与污染源实例 $p_{i} . j$ 之间的邻近关系记为 $R_{c_p}$ ，如果 $d i s t (c_{s} . t, p_{i} . j) \leq r_{c_{s} . t} + r_{p_{i} . j}$ ，则称癌症实例 $c_{s} . t$ 与污染源实例 $p_{i} . j$ 存在邻近关系 $R_{c_p}$ ，记做 $R_{c_p} (c_{s} . t, p_{i} . j) \Leftrightarrow (d i s t (c_{s} . t, p_{i} . j) \leq r_{c_{s} . t} + r_{p_{i} . j})$ 。

如图5所示， $d i s t (a . 2, A . 5) = 2.83 ， r_{a . 2} + r_{A . 5} = 2 + 2 = 4$ ， $d i s t (a . 2, A . 5) < r_{a . 2} + r_{A . 5}$ ，实例 $a . 2$ 和 $A . 5$ 满足邻近关系。将所有满足邻近关系的实例对用虚线连接。

图5

图5 实例间空间邻近关系示例

注:图中数字表示实例序号;虚线表示癌症病例活动范围与污染源实例影响范围相交或相切，满足实例间邻近关系; 表示污染源实例影响范围不超过半径为1、2、3的圆; 表示癌症病例活动范围不超过半径为2的圆。

Fig. 5 Examples of spatial neighbor relationship between instances

由此，将污染源浓度合理地应用在空间邻近关系计算过程中。

2.2.3 污染物致癌类别

2021年世界卫生组织国际癌症研究机构公布了最新的致癌物清单，将致癌物分为4个类别，记为 $c a t e g o r y (1), \dots, c a t e g o r y (4)$ 。一类是明确致癌的物质，二类是可能性较高的致癌物质，三类是致癌证据不充分的致癌物，四类是对人体可能不致癌的物质。如果人体长期直接或间接接触这些物质，会使得癌细胞恶性增生从而形成肿瘤。由于污染源一般不会包含第四类致癌物，所以本文仅对前三类致癌物进行讨论。在本研究中，提出“致癌系数”区分企业污染物中不同类别的致癌物，以“致癌类别”划分致癌物对人体的“影响级别”，符合流行病学分类管理和控制的策略。用“致癌系数”作为权重进行加权求和计算各种污染物对癌症的影响，权重越大表示对人类致癌的证据越充分，污染物对癌症的影响也越大。

定义8（致癌系数）给定一个污染源特征 $p_{i} (p_{i} \in P F)$ ，将 $p_{i}$ 的致癌系数记为 $v (p_{i})$ 。

（5）

v (p_{i}) = \{\begin{array}{l} ε_{1} p_{i} \in c a t e g o r y (1) \\ ε_{2} p_{i} \in c a t e g o r y (2) \\ ε_{3} p_{i} \in c a t e g o r y (3) \end{array}

当污染源特征属于一类致癌物，则将其致癌系数 $v (p_{i})$ 设置为 $ε_{1}$ ，同理，可对属于二三类致癌物的污染源设置其致癌系数，其中 $0 < ε_{3} < ε_{2} < ε_{1} \leq 1$ ， $ε$ 大小的设置参照世卫组织对致癌物等级的划分标准。

2.3 基于KDE模型的模式有趣性的度量

核密度估计（Kernel Density Estimation）是一种用于估计概率密度函数的非参数估计方法，是分析空间自相关和密度分布的有效数学工具，例如利用KDE模型可以从一组给定的二维空间数据中生成一个光滑的三维钟型曲面，该曲面显示了点空间数据的聚类信息，根据指定的密度阈值即可提取所需的聚类。在点空间数据中，KDE模型可以表示为：

（6）

f_{(O_{x})} = \frac{1}{h^{2}} \sum_{i = 1}^{t} (\frac{d i s t (O_{x}, O_{i})}{h})

式中： $f_{(O_{x})}$ 是基于数据集 $O' = \{O_{1}, O_{2}, \dots, O_{t}\}$ 的空间实例 $O_{x}$ 的密度估计， $O'$ 是以 $O_{x}$ 为中心半径为 $h$ 的圆内的所有实例， $t$ 是 $O'$ 的实例数， $h$ 是一个平滑参数，称作带宽， $d i s t (\cdot)$ 用于计算2个空间实例之间的欧几里得距离。K是用于模拟实例对 $(O_{x}, O_{i})$ 贡献的核函数，距离越大，贡献越小，核函数 $K$ 满足非负性并且积分为1，假设 $O_{x}$ 是癌症实例， $O'$ 是污染源实例集，KDE模型不仅能够考虑 $O'$ 与 $O_{x}$ 之间距离衰减带来的影响变化，同时通过密度估计也能合理地度量模式的频繁性。

KDE模型有2个重要参数：核函数K和带宽h。K可以选择高斯函数、指数函数、幂函数等，在本研究中，由于高斯核函数变化趋势更符合影响衰减情况，所以选择正态高斯核函数，即：

（7）

K (x) = a \times e x p (- \frac{{(x - b)}^{2}}{2 c^{2}})

参数 $a$ 决定了曲面的峰高，b决定了峰值在横轴上的位置，c决定了曲线的宽度，在正态高斯核函数中， $a = c = 1$ 和 $b = 0$ 。 $e x p (∙)$ 是以自然常数e为底的指数函数，正态高斯核函数在三维空间中的变化曲线如图6所示。

图6

图6 三维高斯核函数

Fig. 6 The Gaussian kernel function in 3-dimensional space

假设中心点是一个癌症实例，那么满足距离阈值的污染源实例集根据其与癌症实例的欧式距离即可产生一个光滑的三维钟形曲面，该曲面可以清晰的展示出污染源对癌症病例的影响随距离衰减的程度。那么，式（7）可以转换如下：

（8）

f_{(O_{x})} = \frac{1}{h^{2}} \sum_{i = 1}^{t} (- \frac{d i s t {(O_{x}, O_{i})}^{2}}{2 h^{2}})

基于以上陈述，定义了一种新的有趣性度量准则-影响度，采用星型邻居物化空间数据集的邻近关系，生成符合影响度计算模型的星型影响实例表，从而减少无效候选模式产生。基于KDE模型计算影响度，不仅能够反映污染源对癌症病例的影响随距离的衰减趋势，同时也更加合理的度量了模式的频繁程度。详细定义如下。

定义9（星型邻居）给定一个癌症实例 $c_{s} . t (c_{s} . t \in O_{c_{s}})$ ， $c_{s} . t$ 的星型邻居被定义为一个污染源实例的集合，这些污染源实例均与癌症实例 $c_{s} . t$ 满足空间邻近关系。记为 $S N (c_{s} . t) = {p_{i} . j \in O_{p} | R_{c_p} (c_{s} . t, p_{i} . j)}$ ，其中 $O_{p}$ 是污染源实例集，且 $p_{i} . j$ 以实例名的字典序排序。

例如图5中癌症实例 $a . 1$ 的星型邻居表示为 $S N (a . 1) = \{A . 1, A . 2, B . 1, B . 2, B . 3\}$ 。

在癌症实例 $c_{s} . t$ 的星型邻居中，将单个污染源特征 $p_{i}$ 的实例集称为 $p_{i}$ 对 $c_{s} . t$ 的星型影响实例集，记做 $S E I_{p_{i}} (c_{s} . t) = {O_{p_{i}} | O_{p_{i}} \subseteq S N (c_{s} . t)}$ ，在图5中，污染源特征A和B对癌症实例 $a . 1$ 的星型影响实例集分别为 $S E I_{A} (a . 1) = \{A . 1, A . 2\}$ 和 $S E I_{B} (a . 1) = \{B . 1, B . 2, B . 3\}$ 。

定义10（星型影响实例表）给定一个空间序偶模式 $S O P P_c = [F_{p}, F_{c}]$ ， $F_{p} = \{p_{1}, p_{2}, . . ., p_{k}\} (F_{p} \subseteq P F)$ ， $F_{c} = \{c_{s}\} (F_{c} \in C F)$ ， $S O P P_c$ 的星型影响实例表定义为癌症特征 $c_{s}$ 的实例子集与其对应污染源特征集 $F_{p}$ 的星型影响实例集的集合，记做 $I n s T (S O P P_c) = {{S E I_{p_{i}} (c_{s} . t) | p_{i} \in F_{p}, 1 \leq i \leq k}, c_{s} . t | c_{s} . t \in O_{c_{s}}}$ 。

如图5中，所有候选模式的星型影响实例表如表1所示。

表1 候选模式的星型影响实例表示例

Tab. 1 An example of star effect instance table of candidate patterns

候选模式	[A, a]	[B, a]	[{A, B}, a]
	{{A.1, A.2}, a.1}	{{B.1, B.2, B.3}, a.1}	{{{A.1, A.2}, {B.1, B.2, B.3}}, a.1}
星型影响实例表	{{A.5}, a.2}	{{B.3}, a.3}	{{{A.3, A.4}, {B.3}}, a.3}
	{{A.3, A.4}, a.3}	{{B.3}, a.3}	{{{A.3, A.4}, {B.3}}, a.3}

注：表格中的A,B表示污染源特征，a表示癌症特征，数字代表实例序号，如A.1表示污染源特征A的第一个实例，候选模式星型影响实例表的生成依据定义10与图5中的数据计算得到。

要对空间序偶模式的频繁性进行度量，首先，要考虑单个污染源实例对某个癌症实例造成的影响，进而计算单个污染源特征对某个癌症特征的影响，从而衡量模式的频繁同位程度。现实生活中，往往还存在多种污染源共同作用促使某种癌症的发生，在计算模式的影响度时，也需对此进行合理的考量。

基于KDE模型，将癌症实例 $c_{s} . t$ 受到某个星型影响实例集 $S E I_{p_{i}} (c_{s} . t)$ 的影响记为 $S E I E_{p_{i}} (c_{s} . t)$ 。计算如下：

（9）

S E I E_{p_{i}} (c_{s} . t) = \frac{1}{n (p_{i})} \sum_{j = 1}^{n (S E I_{p_{i}} (c_{s} . t))} e x p (- \frac{d i s t {(p_{i} . j, c_{s} . t)}^{2}}{2 {(r_{p_{i} . j} + r_{c_{s} . t})}^{2}})

式中： $n (p_{i})$ 表示污染源 $p_{i}$ 的实例总数； $n (S E I_{p_{i}} (c_{s} . t))$ 表示癌症实例 $c_{s} . t$ 对应污染源 $p_{i}$ 的星型影响实例数， $p_{i} . j \in S E I_{p_{i}} (c_{s} . t)$ 。核函数用于模拟实例 $p_{i} . j$ 对 $c_{s} . t$ 的影响，距离越大，影响越小。当 2个实例之间的距离为0时，影响最大，否则，污染源实例对癌症实例的影响随距离衰减，当二者之间的距离 $d i s t (p_{i} . j, c_{s} . t) > r_{p_{i} . j} + r_{c_{s} . t}$ ，影响衰减为0。当且仅当污染源特征 $p_{i}$ 的所有实例出现在 $c_{s} . t$ 的星型影响实例集中时， $c_{s} . t$ 的核密度估计值为1，即 $p_{i}$ 对 $c_{s} . t$ 的影响为1，但是现实情况中， $p_{i}$ 的实例几乎不可能全部出现在 $c_{s} . t$ 周围，所以影响值一般小于1。

在图5中，利用模式[{A, B}, a]的星型影响实例表InsT([{A, B}, a])可进行计算，$SEI{{E}_{\text{A}}}\left( \text{a}.1 \right)=\frac{1}{n\left( \text{A} \right)}\times \left( exp\left( -\frac{dist{{\left( \text{A}.1,\text{a}.1 \right)}^{2}}}{2{{\left( {{r}_{\text{A}.1}}+{{r}_{\text{a}.1}} \right)}^{2}}} \right)+exp\left( -\frac{dist{{\left( \text{A}.2,\text{a}.1 \right)}^{2}}}{2{{\left( {{r}_{\text{A}.2}}+{{r}_{\text{a}.1}} \right)}^{2}}} \right) \right)=\frac{1}{5}\left( exp\left( -\frac{{{1.414}^{2}}}{2{{\left( 1+2 \right)}^{2}}} \right)+exp\left( -\frac{{{2}^{2}}}{2{{\left( 2+2 \right)}^{2}}} \right) \right)$=0.355，同理可得 $S E I E_{A} (a . 3) = 0.352$ ， $S E I E_{B} (a . 1) = 0.413$ ， $S E I E_{B} (a . 3) = 0.144$ 。

定义11（影响率）将污染源 $p_{i} (p_{i} \in F_{p})$ 对癌症 $c_{s} (c_{s} \in F_{c})$ 的影响率记做 $E R_{p_{i}} (c_{s})$ ，是癌症特征 $c_{s}$ 的实例在模式 $S O P P_c$ 的星型影响实例表中，对应污染源 $p_{i}$ 的影响之和，计算如下：

（10）

E R_{p_{i}} (c_{s}) = \sum_{n (c_{s}, I n s T (S O P P_c))} S E I E_{p_{i}} (c_{s} . t)

这个值与传统方法中的参与率PR值类似，只不过ER更加强调2个特征的单向影响关系，由于计算ER值时，星型影响实例表中的污染源实例影响被重复计算，使得ER值受癌症实例数量的影响具有不确定性，癌症实例数量越多，ER值就越大，可以利用指数函数对其进行改进，以改善由于癌症实例数量差异带来的影响率偏差过大问题，将改进后的影响率记为 $\bar{E R_{p_{i}} (c_{s})}$ ，计算如下。

（11）

\bar{E R_{p_{i}} (c_{s})} = E R_{p_{i}} (c_{s}) \times {(\frac{n (c_{s})}{n (c_{- a v e})})}^{δ}

式中： $n (c_{s})$ 表示癌症 $c_{s}$ 的所有实例数； $n (c_{_a v e})$ 表示所有癌症特征实例总和的平均值； $δ$ 称为平滑因子，且 $- 1 < δ < 0$ ， ${(\frac{n (c_{s})}{n (c_{_a v e})})}^{δ}$ 变化图像如图7所示。当 $\frac{n (c_{s})}{n (c_{_a v e})} > 1$ ， $c_{s}$ 数量较多， ${(\frac{n (c_{s})}{n (c_{_a v e})})}^{δ} < 1$ ， $\bar{E R_{p_{i}} (c_{s})}$ 比 $E R_{p_{i}} (c_{s})$ 略小， $n (c_{s})$ 越大， $\bar{E R_{p_{i}} (c_{s})}$ 值越小。反之，当 $\frac{n (c_{s})}{n (c_{_a v e})} < 1$ ， $c_{s}$ 数量较少， ${(\frac{n (c_{s})}{n (c_{_a v e})})}^{δ} > 1$ ， $\bar{E R_{p_{i}} (c_{s})}$ 比 $E R_{p_{i}} (c_{s})$ 略大， $n (c_{s})$ 越小， $\bar{E R_{p_{i}} (c_{s})}$ 值越大。就影响率的改进来说，对于同一种癌症，并不影响模式前件的生成和组合，因为同一种癌症的 ${(\frac{n (c_{s})}{n (c_{_a v e})})}^{δ}$ 是相同的。合理地对 $δ$ 进行取值，可有效避免因癌症实例数差异引起的模式挖掘缺陷。

图7

图7 平滑因子变化对 ${(\frac{n (c_{s})}{n (c_{_a v e})})}^{δ}$ 的影响

注: n(c_s)为癌症特征c_s的实例个数; $\delta$为平滑因子; n(c_{_}_a_v_e)为所有癌症特征实例总和的平均值。因为$-1<\delta <0$，所以变化曲线为实线部分。

Fig. 7 The effect of smoothing factor changes on ${(\frac{n (c_{s})}{n (c_{_a v e})})}^{δ}$

如图5中，模式[{A, B}, a]的$E{{R}_{\text{A}}}\left( \text{a} \right)=SEI{{E}_{\text{A}}}\left( \text{a}.1 \right)+SEI{{E}_{\text{A}}}\left( \text{a}.3 \right)=0.355+0.352=0.707$，
$\overline{E{{R}_{\text{A}}}\left( \text{a} \right)}=E{{R}_{\text{A}}}\left( \text{a} \right)\times {{\left( \frac{n\left( \text{a} \right)}{n\left( {{\text{c}}_{\_ave}} \right)} \right)}^{-0.6}}=0.707\times {{\left( \frac{3}{3} \right)}^{-0.6}}=0.707$。

定义12（加权影响率）影响率的计算默认每个污染源特征的影响相同，根据定义8，每个污染源特征的影响程度并不相同，由此提出加权影响率，记为 $W E R_{p_{i}} (c_{s})$ 。

（12）

W E R_{p_{i}} (c_{s}) = \frac{v (p_{i})}{ε_{1} + ε_{2} + ε_{3}} \times \bar{E R_{p_{i}} (c_{s})}

式中： $v (p_{i})$ 表示污染源 $p_{i}$ 对应的致癌系数； $ε_{1} + ε_{2} + ε_{3}$ 为3类致癌系数之和。如图5中，模式[{A, B}, a]的 $W E R_{A} (a) = \frac{v (A)}{ε_{1} + ε_{2} + ε_{3}} \times \bar{E R_{A} (a)} = \frac{1}{1 + 0.7 + 0.3} \times 0.707 = 0.353 50$ ，同理， $W E R_{B} (a) = 0.083 55$ 。

定义13（影响度）空间序偶模式的影响度记为 $W E I (S O P P_c)$ 。

（13）

W E I (S O P P_c) = 1 - Π_{i = 1}^{k} (1 - W E R_{p_{i}} (c_{s}))

如图5所示，$WE{{I}_{\text{AB}}}\left( \text{a} \right)=1-\left( 1-WE{{R}_{\text{A}}}\left( \text{a} \right) \right)\times \left. \left( 1- \right.\text{ }\!\!~\!\!\text{ }WE{{R}_{\text{B}}}\left( \text{a} \right)\text{ }\!\!~\!\!\text{ } \right)=$$1-\left( \text{ }\!\!~\!\!\text{ }1-0.353\text{ }\!\!~\!\!\text{ }50\text{ }\!\!~\!\!\text{ } \right)\times \left( \text{ }\!\!~\!\!\text{ }1-0.083\text{ }\!\!~\!\!\text{ }55 \right)=0.407\text{ }\!\!~\!\!\text{ }50$。所以最终模式[{A, B}, a]的影响度大小为0.407 50。假如影响度阈值 $m i n_p i i = 0.3$ ，则模式[{A, B}, a]为频繁序偶模式。

序偶模式的影响度随着模式阶数的增加，高阶模式的影响度可能会比低阶模式的影响度更大。如图5中， $W E I_{B} (a) = 0.083 55$ ， $W E I_{A B} (a) =$ 0.407 50。因此，与传统空间同位模式的参与度度量不同，衡量序偶模式频繁性的影响度度量不满足向下闭合性质。

2.4 挖掘算法

本节给出了提出的空间序偶模式的挖掘算法，详见算法1。

算法1 基于KDE模型的空间序偶模式挖掘算法

输入:1污染源空间数据集

P S

，癌症空间数据集

C S

2拉伸系数

λ

，风速

v

3污染源实例影响半径

r_{m i n}

、

r_{m i d}

、

r_{m a x}

；癌症病人活动半径

r_{c}

4致癌系数

ε_{1}

，

ε_{2}

，

ε_{3}

5平滑因子

δ

6影响度阈值

m i n_p i i

输出:所有频繁空间序偶模式

S O P P_c

变量：

P S_l m C o n c

：带有局部平均浓度信息的污染源实例集

g m_C o n c S

：污染源实例的全局平均浓度集

S N S

：所有癌症实例的星型邻居集

k

：模式的阶数

C_{k}

：

k

阶候选模式

i n s_T_{k}

：

C_{k}

的星型影响实例表集

P_{k}

：

k

阶频繁模式
步骤:
1

P S

= get_wind_influence_PS(

λ

v

P S

)
2

P S_l m C o n c

= get_local_mean_Concentration(

P S

)
3

g m_C o n c S

= get_global_mean_Concentration(

P S_l m C o n c

)
4

S N S

= gen_star_neighbor_set (

C S, r_{m i n}, r_{m i d}, r_{m a x}, r_{c}, P S_l m C o n c,

g m_C o n c S

)
5

C_{2}

= gen_candidate_patterns (

S N S

)
6

k

=2
7 WHILE(

C_{k} \neq

NULL)

i n s_T_{k}

= gen_InsTable (

C_{k}

S N S

)

P_{k}

= gen_prev_SOPP (

C_{k}, i n s_T_{k}, ε_{1}, ε_{2}, ε_{3}, δ, m i n_p i i

)

S O P P_c \leftarrow S O P P_c ⋃ P_{k}

C_{k + 1}

= gen_candidate_patterns(

S N S

)
k=k+1
8 RETURN

S O P P_c

关于算法1的解释如下：

步骤1：根据输入的拉伸系数λ和风速v计算污染源实例的偏移坐标。

步骤2—步骤3：计算污染源实例的局部平均浓度和全局平均浓度。

步骤4：根据污染源实例局部平均浓度和全局平均浓度的关系判断其对应的影响半径，进而生成癌症实例的星型邻居集。

步骤5：根据星型邻居集生成2阶候选模式。因为与某个癌症对应的模式前件只会在癌症的星型邻居集对应的特征中出现，所以在生成候选模式时，根据星型邻居集即可生成。

步骤6—步骤8：从2阶开始，逐阶循环生成模式的星型影响实例表，再根据实例表计算模式的影响度，保留满足影响度阈值的模式。直至k+1阶候选模式为空，退出循环，输出结果。

算法1的时间复杂度分析，步骤1—步骤3均需要遍历污染源实例集，复杂度为 $O (n)$ ，步骤4每一个癌症实例都需遍历一遍所有污染源实例判断邻近关系，故复杂度为 $O (m \times n)$ ， $n$ 是污染源实例数， $m$ 是癌症实例数。步骤5复杂度与步骤4同等级。在步骤7中，耗时最多的步骤是星型影响实例表 $i n s_T_{k}$ 的生成过程，生成一个候选模式的实例表需要 $O (|S N S|)$ ，故需要 $O (|C_{k} |\times| S N S|)$ 。生成频繁模式 $P_{k}$ 所需时间为 $O (|C_{k}|)$ ，生成 $k + 1$ 阶候选模式所需时间为 $O (|C_{k}| \times (O (|C_{k}|) - 1))$ 。算法的距离阈值过大或者实例数过多都会对算法效率产生影响。

3 实验与分析

在本节，通过在真实数据集和合成数据集上进行实验，对本文所提算法的有效性和性能进行评估。实验算法采用C++实现，硬件环境为Inter Core i7、16 G运行内存，运行环境Visual Studio 2019。

3.1 实验数据集

实验基于1个真实数据集和5个人工合成数据集完成，真实数据集包括癌症病例数据和污染源数据两个部分，癌症病例数据主要由云南省某医院提供，有少量其他一些医院的数据，时间为2014—2015年。根据得到的病例数据选取了相应范围的污染企业形成实验数据，主要来自云南省排污单位自行监测信息公开平台(https://wryjc.cnemc.cn/gkpt/mainZxjc/530000)，并且只保留了对人类致癌的空气污染物，真实数据分布如图8所示，小写字母 a-beta为癌症，大写字母A-S为污染源。合成数据集1在真实数据集的基础上将污染源数据在地理空间中的分布修改为随机分布。其他合成数据集是随机产生的，主要用于算法的效率分析，数据均匀分布在97º E—107º E、20º N—30º N的空间中。数据集如表2所示。

图8

图8 真实数据集分布

Fig. 8 Distribution map of the real dataset

表2 数据集

Tab. 2 Data Set

数据集	污染源(特征/实例)	癌症(特征/实例)	数据分布(经度97 °E—107 °E、纬度20 °N—30 °N)
真实数据集	19(A-S)/9294	28(a-beta)/28797	真实地理坐标
合成数据集1	19(A-S)/9294	28(a-beta) /28797	随机分布
合成数据集2	10(A-J)/10000	10(a-j)/10000	随机分布
合成数据集3	10(A-J)/20000	10(a-j)/20000	随机分布
合成数据集4	10(A-J)/30000	10(a-j)/30000	随机分布
合成数据集5	10(A-J)/40000	10(a-j)/40000	随机分布

3.2 影响度度量的有效性分析

由于空间序偶模式挖掘需要对污染源数据和癌症数据进行底层建模，并且模式生成与传统方式并不相同，要将本文算法与传统算法进行比较是困难的，为了证明本文算法的有效性，我们在传统的参与度算法上进行了改进，称为PI_SOPPMA算法。PI_SOPPMA按照Kde_SOPPMA算法的方式生成候选模式，区别主要表现在PI_SOPPMA按照传统方式生成表实例，基于表实例计算候选模式的参与率和参与度进而生成频繁模式。将2个算法进行比较，并从宏观上和微观上证明了算法1应用于挖掘污染源与癌症关系的有效性。

基于真实数据集和合成数据集1进行实验，暂不考虑风向的影响。对距离阈值的选取，以室外大气污染物扩散与气象条件的关系作为先验指导，最大距离阈值不超过小尺度范围 $10 k m$ 。算法1中，污染物影响半径 $r_{m i n}$ 、 $r_{m i d}$ 、 $r_{m a x}$ 分别4.5、5.0、 5.5 km，癌症病例的活动半径 $r_{c}$ 为4.5 km，一类、二类、三类致癌系数分别取1.0、0.7、0.3，平滑指数取0.6。PI_SOPPMA算法距离阈值同算法1。

3.2.1 宏观分析

表3分别记录了2种方法得到的2阶模式频繁指数最小值，最大值以及平均值。从表3中可以看出，2种方法在相同的数据集和距离阈值下，影响度的大小分布比参与度大，这是因为影响度更加强调污染源对癌症单方面的影响，对于模式的贡献程度，利用邻近对之间的距离加权进行计算，将兴趣度转化为一个密度估计问题；对于参与度来说，除了污染源，还要对癌症的贡献大小进行评估，在我们的物化模型中癌症实例周围总是有污染源分布，污染源参与率和癌症参与率会出现一定的差距，所以计算的参与度值往往比影响度值要小。尽管如此，影响度和参与度的总体变化趋势是一样的，无论是影响度还是参与度，在真实数据集上的最小值、最大值、平均值都比合成数据集1上要小。从宏观上可以看出，基于KDE模型的影响度计算可以反应出模式在空间中的频繁同位关系。

表3 2阶频繁模式频繁指数极值

Tab. 3 The extreme values of the prevalence indices of size-2 patterns

数据集	影响度			参与度
数据集	最小值	最大值	平均值	最小值	最大值	平均值
真实数据集	0	0.628	0.211	0	0.443	0.099
合成数据集1	0	1.000	0.253	0	0.518	0.128

3.2.2 微观分析

虽然基于参与度的方法改进后能够有效利用本文对污染源数据底层建模的优势，但是在相同数据集和距离阈值下，2种方法的频繁指数结果分布不同，无法以相同的频繁阈值进行比较，所以本文采用Top_k频繁模式^[26]来比较2种算法的结果。表4记录了在真实数据集上算法1得到影响度排名前十的2阶频繁空间序偶模式以及相关模式在PI_SOPPMA算法中的等级和参与度大小。

表4 top_10模式对比

Tab. 4 Top_10 patterns comparison

Top_10	Kde_SOPPMA	排序	PI- SOPPMA	排序
[颗粒物，TBL(气管、支气管和肺癌)]	0.628	1	0.443	1
[酸雾，肝癌]	0.610	2	0.074	292
[钴及其化合物，TBL]	0.601	3	0.036	441
[酸雾，TBL]	0.596	4	0.061	343
[烟尘，TBL]	0.575	5	0.166	70
[苯并芘，TBL]	0.569	6	0.023	497
[颗粒物，结直肠癌]	0.563	7	0.341	9
[苯并芘，骨癌}	0.559	8	0.032	463
[颗粒物，子宫癌]	0.550	9	0.367	4
[颗粒物，骨癌]	0.541	10	0.302	22

表4展示了几个信息。① 前10个频繁空间序偶模式中，肺癌和支气管恶性肿瘤分别与颗粒物、钴及其化合物、酸雾、烟尘、苯并芘存在空间关联，除了钴及其化合物，其他均有证据表明与肺癌的发病存在因果关系，这说明本文方法挖掘得到的结果是符合实际的。② 对比2个算法得出的结果，有3个模式{颗粒物，TBL}、{颗粒物，结直肠癌}、{颗粒物，子宫癌}均为top_10模式，{颗粒物，TBL}在2种方法中均排在第一位，说明颗粒物有很大可能性会导致肺癌、气管癌。值得注意的是，{颗粒物，结直肠癌}、{颗粒物，子宫癌} 2个模式在2种方法中获得了不同的等级。图9为2个模式中满足邻近关系的污染源实例与癌症实例之间的欧式距离分布频率直方图，从2个图中可以看出，{颗粒物，结直肠癌}的实例距离分布与{颗粒物，子宫癌}的较为相似，但前者平均值小于后者，前者实例之间比后者更加邻近，算法1能够有效地捕获这种距离远近差异带来的影响，并赋予了该模式相对PI_SOPPMA算法结果更低的频繁等级。③ 诸如{苯并芘，TBL}这类模式，影响度较大，但是参与度却很小，这主要是因为苯并芘实例数相对稀少，苯并芘周围几乎都有肺癌，但是大量的肺癌周围却很少有苯并芘，癌症的参与率相对较低，参与度也会非常低，这就造成了虽然苯并芘对肺癌有较大的影响，但是PI_SOPPMA算法并不能发现这样的模式，算法1却能有效处理这种情况，使得无论污染源实例多或少，都能找到被其潜在影响的癌症。

图9

图9 模式满足邻近关系的污染源实例与癌症实例之间的距离分布频率直方图

Fig. 9 The Distance frequency distribution histogram between pollution source instances and cancer instances satisfying spatial neighbor relationship

综上所述，无论是从宏观还是微观的角度看，本文提出方法相较于传统方法，能够更加有效地发现污染源对癌症的影响。

3.3 风向、风速对模式挖掘结果的影响分析

从真实数据分布可以看出，患癌群体在云南省东北方位较为密集，虽然该地区是云南省经济发达地区，人口居多，患癌人数占比也会偏大，但东北方位的癌症病例密集程度却远超正常水平，城市周围并没有太多排污企业，很难对癌症起因进行分析。结合大气污染物扩散与风力活动的关系，本节分析了风向、风速对频繁模式生成的影响。考虑到现实生活中，出现5种以上化学污染物发生相互作用致癌的情况极少^[5]，所以除了效率对比以外，本文最多只对5阶频繁模式挖掘结果进行讨论，后续不再赘述。图10显示了真实数据集和合成数据集1在不同风速下，生成频繁模式的情况，污染物影响半径 $r_{m i n}$ 、 $r_{m i d}$ 、 $r_{m a x}$ 分别为5.0、5.5、6.0 km，癌症病例的活动半径 $r_{c}$ 为2 km，一类、二类、三类致癌系数分别取1.0、0.7、0.3，平滑指数取0.6，影响度阈值取0.6，风速范围参照云南省风速玫瑰图，设定为0~25 m/s。

图10

图10 风速变化对挖掘结果的影响

Fig. 10 Effect of wind speed changes on mining results

从图10可发现，无论是真实数据还是合成数据，相同影响度阈值下，随着风速的增大频繁模式逐渐增多，这主要是因为污染源在西南风作用下逐渐向东北方向发生偏移，导致原本污染物稀少的区域污染物逐渐增多。对于真实数据分布来说，风速0~15 m/s增幅较缓慢，从15 m/s以后频繁模式开始急剧增多，说明当风速大于15 m/s时，那些原本远离人类生活区的致癌污染物随着风活动会更接近人类生活区，风速越大，堆积的污染物会越多，人类患癌的风险也越大，符合本文的假设。反观合成数据上的实验，因为数据是均匀分布的，在风力作用下，污染物发生偏移对数据空间分布影响较小，风活动影响后虽然频繁模式会缓慢增加，但是涨幅很小，说明风力作用对均匀分布的污染源致癌情况影响较小。尽管如此，这并不意味着要在云南省内均匀分布的建立企业，因为云南省风速大约90%分布在0~15 m/s，在这个范围内，合成数据产生的频繁模式要比真实数据产生的更多。

3.4 污染物浓度对模式挖掘结果的影响分析

3.4.1 污染源浓度对应的影响半径梯度差异对模式挖掘结果的影响

根据污染源局部平均浓度和全局平均浓度的关系，可将影响半径分为3个等级，3个等级的影响半径存在梯度变化，梯度不同对应的模式挖掘结果也不相同。图11显示了3个等级的影响半径在不同变化梯度下，对频繁模式挖掘结果的影响。对于影响半径的选取尽可能符合实际，在梯度为3 km时， $r_{m i n} = 4.0 k m$ ， $r_{m i d} = 7.0 k m$ ， $r_{m a x} = 10.0 k m$ ，刚好达到小尺度范围最大值。所以选取 $r_{m i n}$ 的范围在0.5 km到4 km之间，癌症病例的活动半径 $r_{c}$ 固定为1.0 km，一类、二类、三类致癌系数分别取1.0、0.7、0.3，平滑指数取0.6，影响度阈值取0.3。

图11

图11 半径梯度变化对挖掘结果的影响

Fig. 11 Effect of diameter gradient changes on mining results

无论对于真实数据集还是合成数据集1，在相同条件下，影响半径变化梯度越大，挖掘得到的频繁模式也越多，符合预期。这是由于 $r_{m i n}$ 相等，梯度越大 $r_{m i d}$ 和 $r_{m a x}$ 就越大，具有邻近关系的实例对就越多，所以计算得到的影响度也会越大。

3.4.2 污染源高浓度实例占比不同对模式挖掘结果的影响

本文还对污染源高浓度实例占比不同对频繁模式挖掘结果的影响进行了分析，图12为不同风条件下，真实数据集和合成数据集1上污染源高浓度实例占比由10%增长到100%进行实验的结果。对于实例低中高浓度的划分采用随机选取的方式，除高浓度实例以外，剩下的实例按照1:1的比率随机赋予低浓度和中等浓度。污染物低浓度到高浓度影响半径分别为5.0、6.0、7.0 km，癌症病例的活动半径固定2.0 km，一类、二类、三类致癌系数分别取1.0、0.7、0.3，平滑指数取0.6，影响度阈值取0.6。

图12

图12 高浓度实例占比不同对挖掘结果的影响

Fig. 12 Effect of different ratio of high concentration examples on mining results

可以看出，相同条件下，无论是有风还是无风，污染源高浓度实例占比与频繁模式个数均呈正相关，高浓度实例越多，影响范围大的污染源实例就越多，所以频繁模式也随之增加。值得注意的是，在风条件的影响下，无论是真实数据还是合成数据，频繁模式都比无风时多，真实数据上，频繁模式个数随着高浓度实例的占比增加大幅增多，超出正常水平，说明有风时，污染源高浓度实例越多，人类患癌的风险会大幅增加。

3.5 致癌系数对模式挖掘结果的影响分析

致癌系数主要用于计算加权影响率，给定不同的致癌系数最终都会转化为权重，所以本节直接将致癌系数设置为权重进行实验。图13体现了3类致癌物对应的致癌系数权重变化对模式挖掘结果的影响。在真实数据集上进行实验，污染源影响半径 $r_{m i n}$ 范围在1.0~5.0 km，影响半径梯度1.0 km，癌症病例的活动半径 $r_{c}$ 固定1.0 km，平滑指数取0.6，影响度阈值取0.35。

图13

图13 致癌系数变化对挖掘结果的影响

Fig. 13 Effect of carcinogenic factors changes on mining results

从整体上看，无论有风还是无风条件下，当一类致癌物致癌系数权重较大时，产生的频繁模式更多，当一类致癌物致癌系数权重相同时，二类致癌系数权重较大时，产生的频繁模式也更多。这说明致癌程度高的污染物权重越大，产生的频繁模式也越多，人类患癌的风险越大。

现有方法中，当影响因素与疾病存在空间线性关系时，可利用空间回归模型进行分析，存在非线性关系时，地理探测器也可应用于探究疾病的致病因素。空间回归模型中最常用的为Logistic回归模型，除了要求自变量与因变量具有线性关系以外，还需要保证自变量之间无多重共线性，因变量一般为二分类量。适用于分析无多重共线性的危险因素与疾病之间的联系以及疾病预测。如利用Logistic回归模型探究胃癌的致病因，因变量为是否患胃癌，自变量包括年龄、性别、饮食习惯、环境等独立因素，通过回归分析可对胃癌的危险因素进行探究。

地理探测器是基于地理学第二定律提出来的一种探测空间分异性以及揭示其背后驱动力的空间分析方法，被广泛用于驱动力分析和因子分析，其核心思想是基于这样的假设：如果某个自变量对某个因变量有重要影响，那么自变量和因变量的空间分布应该具有相似性。在流行病学研究中，地理探测器适用于分析自变量为类型量，因变量为数值量之间的关系，比如利用空间探测器分析环境污染与食道癌死亡率的关系，研究空气污染和乳腺癌发病率的关系等。空间模式挖掘则是在空间距离驱动下寻找与疾病在空间中频繁邻近出现的污染源特征，核心思想是在空间上越接近的事物关联越紧密。适用于自变量为类型量，因变量也为类型量的分析，自变量与因变量须带有空间位置信息，对数据之间是否有线性关系没有要求，两者都可以为多分类量。现实生活中，污染源受多种因素的干扰具有差异性和复杂性，通常情况下和癌症不属于简单的线性关系，综上，空间回归模型以及地理探测器不适用于分析污染物与癌症的空间关联关系，因此在进行对比分析时，本文选用与本文一致的空间序偶模式挖掘算法进行比较。

3.6 比较分析

将本文算法与文献[24]提出的PSSOPP_OA算法在真实数据集上的挖掘结果进行了比较，尽管 2个算法输入参数存在差异，但是仍然可以通过控制PSSOPP_OA算法的参数使其在生成癌症实例的星型邻居集时具有相同的距离阈值，表5显示了本文算法Kde_SOPPMA和PSSOPP_OA在相同距离阈值时挖掘到的Top_100模式的后件中癌症特征及实例数的分布情况。

表5 Top_100模式中癌症特征及实例数分布情况

Tab. 5 Distribution of cancer characteristics and the number of examples in the TOP_100 patterns

排序	Kde_SOPPMA			PSSOPP_OA
排序	癌症特征	实例数/个	占比/%	癌症特征	实例数/个	占比/%
1	o	1 592	5.5	w	104	0.3
2	w	104	0.3	t	362	1.2
3	d	1 637	5.6	p	291	1.0
4	g	449	1.5	y	127	0.4
5	x	470	1.6	u	132	0.4
6	alpha	308	1.0	f	359	1.2
7	e	2 032	7.0
8	k	1 065	3.7

在真实数据集上，进行了多组实验，Kde_SOPPMA的top_100模式中，癌症特征数量平均值大约11，占癌症总特征的40%左右。并且癌症实例数既有占比较大的，也有较小的。例如表5中，Kde_SOPPM的top_100模式中，实例数高至2 032，低至104。反观PSSOPP_OA算法的top_100模式，癌症特征数量平均值大约6，占癌症总特征的20%左右。癌症实例数几乎都很小，几乎集中在数据集中实例数较为稀少的特征。原因主要是PSSOPP_OA算法在求模式影响率时，分母为癌症特征对应的实例总数，这就使得癌症实例数量最少的特征往往影响率最大，top_k模式后件就几乎都是实例数占比小的癌症。现实中癌症有频发的也有比较罕见的，PSSOPP_OA算法在挖掘频发癌症时表现却差强人意。本文提出的Kde_SOPPMA算法利用平滑因子改进了此问题，在癌症实例数量分布不均匀时表现更加稳定。

3.7 算法效率评估

本节对提出算法的效率进行评估，主要与PSSOPP_OA算法进行效率对比。对比实验在4个合成数据集上完成，分析了本文算法和PSSOPP_OA算法在不同数据密集程度下的执行时间差异。

3.7.1 距离阈值的影响

图14显示了在4个合成数据集上，算法1和算法PSSOPP_OA运行时间与距离阈值的关系。对于算法1，污染源影响半径梯度为500 m，癌症病例的活动半径固定1 km。对于PSSOPP_OA算法，通过控制算法输入变量alpha2的大小，可以使生成邻近关系的距离阈值为3个影响半径的平均值，其余参数不影响效率，设置合理即可。

图14

图14 运行时间与距离阈值的关系

Fig. 14 The relationship between the running time and distance thresholds

从图14可看出，随着距离阈值的增加，2个算法的时间都呈现上升趋势，算法1在距离阈值较小时，耗时比PSSOPP_OA算法长，这是因为距离阈值较小时，具有邻近关系的实例对较少，PSSOPP_OA算法并不能生成频繁模式，根据剪枝算法不必再继续生成候选模式，而算法1要计算所有候选模式的影响度。随着距离阈值的增大，PSSOPP_OA算法要进行的表实例连接操作越来越多，所以耗时急剧增长，算法1可直接从星型影响实例中生成实例表，所以耗时趋于稳定，在效率方面比PSSOPP_OA算法更胜一筹。

3.7.2 影响度阈值的影响

2个算法运行时间与影响度阈值的关系如图15所示，算法1中，污染物影响半径 $r_{m i n}$ 、 $r_{m i d}$ 、 $r_{m a x}$ 分别为8.0、8.5、9.0 km，癌症病例的活动半径 $r_{c}$ 为 1 km，一类、二类、三类致癌系数分别取1.0、0.7、0.3，平滑指数取0.6。PSSOPP_OA算法同样通过设置alpha2的值，使得生成邻近关系的距离阈值为3个影响半径的平均值。

图15

图15 运行时间与影响度阈值的关系

Fig. 15 The relationship between the running time and effect index thresholds

在影响度阈值较低时，算法1耗时远低于PSSOPP_OA算法，由于PSSOPP_OA算法具有剪枝策略，在影响度阈值较高时，生成候选模式较少，所以随着影响度阈值增大，PSSOPP_OA算法耗时会略微少于算法1，与之相比，算法1整体耗时趋于稳定。

3.7.3 特征数的影响

图16中，特征数和实例数为污染源和癌症特征数以及实例数的总数，算法1中，污染物影响半径 $r_{m i n}$ 、 $r_{m i d}$ 、 $r_{m a x}$ 分别为4.0、4.5、5.0 km，癌症病例的活动半径 $r_{c}$ 为1 km，一类、二类、三类致癌系数分别取1.0、0.7、0.3，平滑指数取0.6，影响度阈值取0.1。PSSOPP_OA算法同样通过设置alpha2的值，使得生成邻近关系的距离阈值为3个影响半径的平均值，影响度阈值取0.1。结果如图16所示。

图16

图16 运行时间与特征数的关系

Fig. 16 The relationship between the running time and the number of features

2个算法在不同的特征数下，算法1效率比PSSOPP_OA算法更高，PSSOPP_OA算法随着特征数增加，耗时也逐渐增加，算法1随着特征数增加，耗时趋于稳定。

3.8 挖掘结果分析

3.8.1 模式分析

为了进一步分析影响各种癌症的污染源，在真实数据集上进行了多组实验，表6展示了污染物影响半径 $r_{m i n}$ 、 $r_{m i d}$ 、 $r_{m a x}$ 分别为6.0、7.0、8.0 km，癌症病例的活动半径 $r_{c}$ 为1 km，一类、二类、三类致癌系数分别取0.80、0.15、0.05，平滑指数取0.6时的挖掘结果，只列举了每种癌症对应的影响度最大的模式，并按照影响度大小排序，这些结果也多次出现在其他输入参数的频繁模式中。

表6 按影响度排序的部分挖掘结果

Tab. 6 Partial mining results sorted by influence degree

空间序偶模式	影响度
[{颗粒物}，TBL(气管、支气管和肺癌)]	0.966
[{颗粒物}，结直肠癌]	0.905
[{颗粒物，烟尘，酸雾，苯并芘}，骨癌]	0.903
[{颗粒物，铅及其化合物，烟尘，酸雾}，肝癌]	0.876
[{颗粒物，酸雾，苯并芘，二噁英类}，乳腺癌]	0.870
[{颗粒物}，子宫癌]	0.857
[{烟尘，酸雾，苯并芘，二噁英类}，头颈部癌]	0.830
[{颗粒物}，淋巴癌]	0.819
[{六价铬及其化合物，酸雾，镍及其化合物，二噁英类}，白血病]	0.808
[{颗粒物，烟尘，酸雾，苯并芘}，腹部恶性肿瘤]	0.763
[{颗粒物，烟尘，酸雾，二噁英类}，宫颈癌]	0.754
[{颗粒物，烟尘，酸雾}，胰腺癌]	0.751
[{颗粒物，酸雾，苯并芘，二噁英类}，胸部恶性肿瘤]	0.739
[{铅及其化合物，镉及其化合物，砷及其化合物，镍及其化合物}，盆腔癌]	0.716
[{铅及其化合物，镉及其化合物，砷及其化合物，六价铬及其化合物}，脑癌]	0.699
[{颗粒物，铅及其化合物，烟尘，酸雾}，肾癌]	0.670
[{烟尘，酸雾，苯并芘，二噁英类}，眼耳部恶性肿瘤]	0.669
[{烟尘，酸雾，苯并芘，二噁英类}，皮肤癌]	0.628
[{颗粒物，镉及其化合物，烟尘，酸雾}，胃癌]	0.626
[{颗粒物，烟尘，酸雾，镍及其化合物}，甲状腺癌]	0.618
[{铅及其化合物，酸雾，镍及其化合物，二噁英类}，肢体恶性肿瘤]	0.610
[{颗粒物，烟尘，酸雾}，胆部恶性肿瘤]	0.609
[{烟尘，酸雾，苯并芘，二噁英类}，卵巢癌]	0.517
[{颗粒物，二氧化硫}，前列腺癌]	0.488
[{颗粒物，酸雾，苯并芘，二噁英类}，食管癌]	0.453
[{颗粒物，二氧化硫，烟尘，苯并芘}，肛门癌]	0.440
[{颗粒物，二氧化硫}，膀胱癌]	0.415
[{颗粒物，石油类，烟尘，氯类致癌物}，垂体恶性肿瘤]	0.336

通过表6可发现，颗粒物与很多癌症在空间中存在关联，尤其是肺癌、消化道癌与颗粒物关系较为密切，说明空气中的颗粒物、烟尘、酸雾等空气中的大颗粒分子对人体危害非常大。还有一部分癌症的发生可能与室外空气中的重金属成分相关，例如对脑癌影响度较大的均为重金属离子。苯并芘，二噁英类物质属于危害较强的一类致癌物，也与很多癌症存在空间关联。除此之外，有一些污染物单独出现影响度较小，但是当它与其他污染物一块出现，模式的影响度就会大幅增加，其中似乎有些污染物发挥了“催化剂”的作用，比如污染物“酸雾”如果单独出现，模式影响度可以忽略不计，但是当“酸雾”与“烟尘”或“颗粒物”同时出现，模式影响度就会大幅提升，可能与很多癌症的发生存在空间关联。

通过改进的空间同位模式挖掘理论，从空间数据分布的角度挖掘工业污染与癌症的关联关系，对云南省癌症防治提出相关建议。首先，建议云南省排污企业选址在盛行风向的下风口处，至少15 km以内不能有人居住，尤其对于颗粒物排放较多的企业；其次，对于排放颗粒物、烟尘等大颗粒污染物以及苯并芘、二噁英较多的企业，周边居民定期进行肺癌、消化道癌等恶性肿瘤筛查，最后，本研究结果也可为癌症流行病学专家提供参考，进一步研究污染源和癌症的关系。

3.8.2 混杂因素分析

混杂通常是由于一个或多个外来因素的存在，掩盖或夸大了研究因素与疾病的联系，从而部分或全部地歪曲了两者间的真实联系。本文可以通过配比法实现混杂因素控制。配比法是指选择某些特征上与处理组一致的对照，排除这些因素的混杂作用，从而凸显出研究因素的效应。通过一个例子来解释本文如何利用配比法实现混杂控制。

肺癌的混杂因素主要包括吸烟、职业、肺部慢性疾病、遗传因素，在进行模式挖掘时，可以选择其中一个或多个因素配比，吸烟是最常见的肺癌元凶，所以此处选择吸烟进行配比。将真实数据集的肺癌患者中有吸烟经历的患者和没有吸烟经历的患者分开，分别与污染源进行空间序偶模式挖掘。输入参数为污染物影响半径 $r_{m i n}$ 、 $r_{m i d}$ 、 $r_{m a x}$ 分别为6.0、7.0、8.0 km，癌症病例的活动半径 $r_{c}$ 为1 km，一类、二类、三类致癌系数分别取0.80、0.15、0.05，平滑指数取0.6，未进行混杂控制与进行了混杂控制的结果对比如表7、表8所示。

表7 top_10模式影响度排序

Tab. 7 top_10 patterns influence degree sequence

模式	未进行混杂控制	进行混杂控制
模式	全体肺癌病例	吸烟肺癌病例	未吸烟肺癌病例
[{颗粒物}，肺癌]	0.733 267	0.547 896	0.663 529
[{颗粒物，二氧化硫}，肺癌]	0.707 699	0.537 499	0.660 082
[{颗粒物，烟尘}，肺癌]	0.703 397	0.537 169	0.602 412
[{颗粒物，烟尘，酸雾}，肺癌]	0.698 457	0.470 928	0.659 817
[{颗粒物，二氧化硫，烟尘}，肺癌]	0.693 392	0.533 641	0.591 096
[{颗粒物，烟尘，苯并芘}，肺癌]	0.6899 48	0.451 520	0.646 803
[{颗粒物，二氧化硫，苯并芘}，肺癌]	0.674 282	0.408 540	0.641 783
[{颗粒物，苯并芘}，肺癌]	0.671 279	0.405 032	0.638 911
[{颗粒物，汞及其化合物，烟尘}，肺癌]	0.664 098	0.499 861	0.571 227
[{颗粒物，酸雾}，肺癌]	0.653 135	0.421 261	0.606 689

表8 进行混杂控制与未进行混杂控制时top_50、top_100模式中相同模式百分比

Tab. 8 Percentage of the same patterns in top_50 and top_100 patterns with or without confounding control (%)

模式	吸烟	未吸烟
Top_50	72	88
Top_100	69	90

从表7可看出，与未进行混杂控制的top_10模式相比，进行混杂控制时不论是吸烟还是未吸烟，都有70%的模式与未进行混杂控制的模式影响度变化顺序一致。进行混杂控制时，吸烟的影响度普遍低于未吸烟的，但是患肺癌的人数依然居高不下，从侧面表明了吸烟对肺癌有一定的影响，符合预期。

通过表8可知，进行混杂控制时与未进行混杂控制时模式基本保持一致，但部分模式存在一定的差异，吸烟情况差异较为明显，这种差异主要由吸烟患者的空间位置分布与混杂因素共同引起。我们在挖掘癌症与污染源的空间关联关系时，一般选择top_10、top_20影响度较大的模式进行分析，在结果中，这些模式几乎完全一致，所以是否控制混杂因素对于研究污染源与癌症的空间关联关系并无太大影响，但是控制混杂可以使得结果更精细。

4 结论

传统的空间同位模式挖掘算法在挖掘空间序偶模式时存在诸多限制，本文利用核密度估计(KDE)模型结合空间同位模式挖掘算法，提出了一种新的基于距离衰减效应和影响加权的频繁性度量方法-影响度，影响度的计算不仅能够有效地衡量污染源实例与癌症实例之间距离变化对模式频繁程度的影响，还结合现实条件将污染源对癌症的影响机制进行建模，尽可能地考虑风环境、污染物浓度对于污染物扩散的影响，提出“致癌系数”区分企业污染物中不同类别的致癌物，用“致癌系数”作为权重进行加权求和计算各种污染物对癌症的影响，解决了传统方法的局限性。此外，本文还利用平滑因子改进了因癌症实例数分布不均引起的挖掘异常，提高了方法的稳健性。实验结果表明，无论是宏观角度还是微观角度，影响度与参与度同样都可以体现模式的频繁程度，但影响度度量更能捕获在空间中距离更近且影响度更大的模式，更能反映污染源对癌症的影响规律。

但是，本文所提出的方法还有一些不确定性和局限性。首先，污染物在一个地区的分布受多种因素的影响，如污染物类型、释放浓度、天气条件（风、降水）、地形等，这些因素使得污染源的扩散具有不确定性，尽管本文给出了一个模型尽可能的模拟污染物在真实世界的扩散过程，仍然无法真实还原复杂的空气污染情况。其次，该方法的提出考虑了一些影响机制，主要集中在对污染源影响的建模上，这些机制的考虑可能会降低所提方法在一些实际应用中的普适性和可操作性。由于这些机制的设置比较独立，所以本文所提方法除了可以用于挖掘室外空气污染源对癌症的影响，也适用于发现其他疾病与其他多种因素的空间同位模式，例如距离沼泽区越近的人群越容易患血吸虫病。在未来的工作中，在尽量消除该方法的不确定性以及局限性的基础上，拟在挖掘到高影响模式后进一步考虑识别模式的高影响区域，以便提供更有针对性的癌症筛查区域以及提出城市规划的合理化建议。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Sung

, Ferlay

, Siegel

R L

, et al.

Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries

[J]. CA: a Cancer Journal for Clinicians, 2021, 71(3):209-249. DOI: 10.3322/caac.21660

This article provides an update on the global cancer burden using the GLOBOCAN 2020 estimates of cancer incidence and mortality produced by the International Agency for Research on Cancer. Worldwide, an estimated 19.3 million new cancer cases (18.1 million excluding nonmelanoma skin cancer) and almost 10.0 million cancer deaths (9.9 million excluding nonmelanoma skin cancer) occurred in 2020. Female breast cancer has surpassed lung cancer as the most commonly diagnosed cancer, with an estimated 2.3 million new cases (11.7%), followed by lung (11.4%), colorectal (10.0 %), prostate (7.3%), and stomach (5.6%) cancers. Lung cancer remained the leading cause of cancer death, with an estimated 1.8 million deaths (18%), followed by colorectal (9.4%), liver (8.3%), stomach (7.7%), and female breast (6.9%) cancers. Overall incidence was from 2‐fold to 3‐fold higher in transitioned versus transitioning countries for both sexes, whereas mortality varied <2‐fold for men and little for women. Death rates for female breast and cervical cancers, however, were considerably higher in transitioning versus transitioned countries (15.0 vs 12.8 per 100,000 and 12.4 vs 5.2 per 100,000, respectively). The global cancer burden is expected to be 28.4 million cases in 2040, a 47% rise from 2020, with a larger increase in transitioning (64% to 95%) versus transitioned (32% to 56%) countries due to demographic changes, although this may be further exacerbated by increasing risk factors associated with globalization and a growing economy. Efforts to build a sustainable infrastructure for the dissemination of cancer prevention measures and provision of cancer care in transitioning countries is critical for global cancer control.

[2]

Stocks

On the relations between atmospheric pollution in urban and rural localities and mortality from cancer, bronchitis and pneumonia, with particular reference to 3:4 benzopyrene, beryllium, molybdenum, vanadium and arsenic

[J]. British Journal of Cancer, 1960, 14(3):397-418. DOI:10.1038/bjc.1960.45

PMID:21772437 [本文引用: 2]

[3]

Ramis

, Diggle

, Cambra

, et al.

Prostate cancer and industrial pollution risk around putative focus in a multi-source scenario

[J]. Environment International, 2011, 37(3):577-585. DOI:10.1016/j.envint.2010.12.001

PMID:21216467 [本文引用: 1]

Prostate cancer is the second most common type of cancer among men but its aetiology is still largely unknown. Different studies have proposed several risk factors such as ethnic origin, age, genetic factors, hormonal factors, diet and insulin-like growth factor, but the spatial distribution of the disease suggests that other environmental factors are involved. This paper studies the spatial distribution of prostate cancer mortality in an industrialized area using distances from each of a number of industrial facilities as indirect measures of exposure to industrial pollution.We studied the Gran Bilbao area (Spain) with a population of 791,519 inhabitants distributed in 657 census tracts. There were 20 industrial facilities within the area, 8 of them in the central axis of the region. We analysed prostate cancer mortality during the period 1996-2003. There were 883 deaths giving a crude rate of 14 per 100,000 inhabitants. We extended the standard Poisson regression model by the inclusion of a multiplicative non-linear function to model the effect of distance from an industrial facility. The function's shape combined an elevated risk close to the source with a neutral effect at large distance. We also included socio-demographic covariates in the model to control potential confounding.We aggregated the industrial facilities by sector: metal, mineral, chemical and other activities. Results relating to metal industries showed a significantly elevated risk by a factor of approximately 1.4 in the immediate vicinity, decaying with distance to a value of 1.08 at 12km. The remaining sectors did not show a statistically significant excess of risk at the source.Notwithstanding the limitations of this kind of study, we found evidence of association between the spatial distribution of prostate cancer mortality aggregated by census tracts and proximity to metal industrial facilities located within the area, after adjusting for socio-demographic characteristics at municipality level.Copyright © 2010 Elsevier Ltd. All rights reserved.

[4]

Santos-Sanchez

, Córdoba-Doña

J A

, García-Pérez

, et al.

Industrial pollution and mortality from digestive cancers at the small area level in a Spanish industrialized Province

[J]. Geospatial Health, 2020, 15(1):147-155. DOI:10.4081/gh.2020.802

[5]

Hwang

, Bae

, Choi

, et al.

Impact of air pollution on breast cancer incidence and mortality: A nationwide analysis in South Korea

[J]. Scientific Reports, 2020, 10:5392. DOI:10.1038/s41598-020-62200-x

PMID:32214155 [本文引用: 2]

Breast cancer is one of the major female health problems worldwide. Although there is growing evidence indicating that air pollution increases the risk of breast cancer, there is still inconsistency among previous studies. Unlike the previous studies those had case-control or cohort study designs, we performed a nationwide, whole-population census study. In all 252 administrative districts in South Korea, the associations between ambient NO and particulate matter 10 (PM) concentration, and age-adjusted breast cancer mortality rate in females (from 2005 to 2016, N = 23,565), and incidence rate (from 2004 to 2013, N = 133,373) were investigated via multivariable beta regression. Population density, altitude, rate of higher education, smoking rate, obesity rate, parity, unemployment rate, breastfeeding rate, oral contraceptive usage rate, and Gross Regional Domestic Product per capita were considered as potential confounders. Ambient air pollutant concentrations were positively and significantly associated with the breast cancer incidence rate: per 100 ppb CO increase, Odds Ratio OR = 1.08 (95% Confidence Interval CI = 1.06-1.10), per 10 ppb NO, OR = 1.14 (95% CI = 1.12-1.16), per 1 ppb SO, OR = 1.04 (95% CI = 1.02-1.05), per 10 µg/m PM, OR = 1.13 (95% CI = 1.09-1.17). However, no significant association between the air pollutants and the breast cancer mortality rate was observed except for PM: per 10 µg/m PM, OR = 1.05 (95% CI = 1.01-1.09).

[6]

Lynge

, Holmsgaard

H A

, Holmager

T L F

, et al.

Cancer incidence in Thyborøn-Harboøre, Denmark: A cohort study from an industrially contaminated site

[J]. Scientific Reports, 2021, 11:13006. DOI:10.1038/s41598-021-92446-y

PMID:34155291 [本文引用: 1]

In a fishing community Thyborøn-Harboøre on the Danish West coast, a chemical factory polluted air, sea, and ground with > 100 xenobiotic compounds. We investigated cancer incidence in the community. A historical cohort was identified from the Central Population Register and followed for cancer incidence in the Danish Cancer Register including inhabitants from 1968-1970 at height of pollution, and newcomers in 1990-2006 after pollution control. Two fishing communities without pollution, Holmsland and Hanstholm, were referent cohorts. We calculated rate ratios (RR) and 95% confidence intervals (CI). In 1968-1970, 4914 persons lived in Thyborøn-Harboøre, and 9537 persons in Holmsland-Hanstholm. Thyborøn-Harboøre had a statistically significant excess cancer incidence compared with Holmsland-Hanstholm; RR 1.20 (95% CI 1.11-1.29) deriving from kidney and bladder cancer; stomach and lung cancer in men, and colorectal cancer in women. In 1990-2006, 2933 persons came to live in Thyborøn-Harboøre. Their cancer incidence was the same as for newcomers to Holmsland-Hanstholm; RR 1.07 (95% CI 0.88-1.30). Persons in Thyborøn-Harboøre at height of chemical pollution had a cancer risk 20% above persons living in non-polluted fishing communities with a pattern unlikely to be attributable to life style. The study suggested that chemical pollution may have affected cancer risk.

[7]

Lagunas-Rangel

F A

, Linnea-Niemi

J V

, Kudłak

, et al.

Role of the synergistic interactions of environmental pollutants in the development of cancer

[J]. GeoHealth, 2022, 6: e2021GH000552. DOI:10.1029/2021gh000552

[8]

Turner

M C

, Andersen

Z J

, Baccarelli

, et al.

Outdoor air pollution and cancer: An overview of the current evidence and public health recommendations

[J]. CA: a Cancer Journal for Clinicians, 2020, 70(6):460-479. DOI:10.3322/caac.21632

Outdoor air pollution is a major contributor to the burden of disease worldwide. Most of the global population resides in places where air pollution levels, because of emissions from industry, power generation, transportation, and domestic burning, considerably exceed the World Health Organization's health‐based air‐quality guidelines. Outdoor air pollution poses an urgent worldwide public health challenge because it is ubiquitous and has numerous serious adverse human health effects, including cancer. Currently, there is substantial evidence from studies of humans and experimental animals as well as mechanistic evidence to support a causal link between outdoor (ambient) air pollution, and especially particulate matter (PM) in outdoor air, with lung cancer incidence and mortality. It is estimated that hundreds of thousands of lung cancer deaths annually worldwide are attributable to PM air pollution. Epidemiological evidence on outdoor air pollution and the risk of other types of cancer, such as bladder cancer or breast cancer, is more limited. Outdoor air pollution may also be associated with poorer cancer survival, although further research is needed. This report presents an overview of outdoor air pollutants, sources, and global levels, as well as a description of epidemiological evidence linking outdoor air pollution with cancer incidence and mortality. Biological mechanisms of air pollution‐derived carcinogenesis are also described. This report concludes by summarizing public health/policy recommendations, including multilevel interventions aimed at individual, community, and regional scales. Specific roles for medical and health care communities with regard to prevention and advocacy and recommendations for further research are also described.

[9]

Hill

, Lim

E L

, Weeden

C E

, et al.

Lung adenocarcinoma promotion by air pollutants

[J]. Nature, 2023, 616(7955):159-167. DOI:10.1038/s41586-023-05874-3

[10]

Shekhar

, Huang

. Discovering spatial co-location patterns: A summary of results[M]//Jensen C S, Schneider M, Seeger B, et al., Eds. Advances in Spatial and Temporal Databases. Heidelberg: Springer Berlin Heidelberg, 2001:236-256. DOI:10.1007/3-540-47724-1_13

[本文引用: 2]

[11]

J D

, Adilmagambetov

, Jabbar

M S M

, et al.

On discovering co-location patterns in datasets: A case study of pollutants and child cancers

[J]. GeoInformatica, 2016, 20(4):651-692. DOI:10.1007/s10707-016-0254-1

URL [本文引用: 2]

[12]

Akbari

, Samadzadegan

, Weibel

A generic regional spatio-temporal co-occurrence pattern mining model: A case study for air pollution

[J]. Journal of Geographical Systems, 2015, 17(3):249-274. DOI:10.1007/s10109-015-0216-4

[13]

Huang

, Shekhar

, Xiong

Discovering colocation patterns from spatial data sets: A general approach

[J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(12):1472-1485. DOI:10.1109/TKDE.2004.90

[14]

Yoo

J S

, Shekhar

, Smith

, et al.

A partial join approach for mining co-location patterns

[C]// Proceedings of the 12th annual ACM international workshop on Geographic information systems. New York: ACM, 2004:241-249. DOI:10.1145/1032222.1032258

[15]

Yoo

J S

, Shekhar

, Celik

A join-less approach for co-location pattern mining: A summary of results

[C]// Fifth IEEE International Conference on Data Mining (ICDM'05). IEEE, 2005:813-816. DOI:10.1109/ICDM.2005.8

[16]

Wang

L Z

, Bao

Y Z

, Lu

, et al.

A new join-less approach for co-location pattern mining

[C]// 2008 8^th IEEE International Conference on Computer and Information Technology. IEEE, 2008:197-202. DOI:10.1109/CIT.2008.4594673

[17]

Xiao

X Y

, Xie

, Luo

, et al.

Density based co-location pattern discovery

[C]// Proceedings of the 16^th ACM SIGSPATIAL international conference on Advances in geographic information systems. New York: ACM, 2008:1-10. DOI:10.1145/1463434.1463471

[18]

杨培忠, 王丽珍, 王晓璇, 等.

一种基于列计算的空间并置模式挖掘方法

[J]. 中国科学:信息科学, 2022, 52(6):1053-1068.

[ Yang

P Z

, Wang

L Z

, Wang

X X

, et al.

A spatial co-location pattern mining approach based on column calculation

[J]. Scientia Sinica (Informationis), 2022, 52(6):1053-1068. ]

[19]

Xiong

, Shekhar

, Huang

, et al.

A framework for discovering co-location patterns in data sets with extended spatial objects

[C]// Proceedings of the 2004 SIAM International Conference on Data Mining. Philadelphia, PA: Society for Industrial and Applied Mathematics, 2004:78-89. DOI:10.1137/1.9781611972740.8

[20]

Liu

, Huang

. Mining co-locations under uncertainty[M]//Advances in Spatial and Temporal Databases. Berlin, Heidelberg: Springer Berlin Heidelberg, 2013:429-446. DOI:10.1007/978-3-642-40235-7_25

[21]

Yao

X J

, Chen

L J

, Peng

, et al.

A co-location pattern-mining algorithm with a density-weighted distance thresholding consideration

[J]. Information Sciences, 2017, 396:144-161. DOI:10.1016/j.ins.2017.02.040

[22]

胡添, 刘涛, 杜萍, 等.

空间同位模式支持下城市服务业关联发现及特征分析

[J]. 地球信息科学学报, 2021, 23(6):969-978.

DOI:10.12082/dqxxkx.2021.200408 [本文引用: 1]

空间同位模式分析是数据挖掘中一种常见的方法,可有效挖掘城市设施在空间位置上的关联特征,进而发现城市设施的分布规律。本文基于POI数据同位模式挖掘用来获取城市服务业空间关联结构：首先,通过邻近实例获取、同位候选模式存储与筛选,得到城市服务业二阶同位模式;然后,据此构造产业空间关联图,得到产业间的关联结构;最后,分别构造了产业空间关联图密度和产业空间关联显著指数,用来衡量城市服务业空间关联的紧密程度和整体关联的显著程度。本文选取成都、兰州、郑州、沈阳、上海与深圳为试验区,实验结果表明：不同城市服务业的空间关联结构存在共性与特殊性,整体上,餐饮、购物等与居民日常生活相关的服务业易与其他服务业产生空间强相关,这几类服务业内部空间集聚明显;成都与沈阳的服务业整体表现空间关联度高且紧密,兰州其次,上海与深圳的服务业则整体表现空间关联较弱,郑州的服务业空间关联较紧密但强度较低。

[ Hu

, Liu

, Du

, et al.

Correlation discovery and feature analysis of urban service industry supported by spatial co-location model

[J]. Journal of Geo-information Science, 2021, 23(6):969-978. ] DOI:10.12082/dqxxkx.2021.200408

[23]

徐振, 荆耀栋, 毕如田, 等.

基于资源环境数据格网化表达的关联模式发现

[J]. 地球信息科学学报, 2018, 20(1):28-36.

DOI:10.12082/dqxxkx.2018.170266 [本文引用: 1]

传统空间关联模式以空间谓词作为发现逻辑进行知识发现,会导致关联模式侧重空间位置关联,并且挖掘结果受所建立谓词表的限制,存在所发现模式固定、解释自由度差等问题。本文提出一种不依赖于空间谓词的关联模式发现方法,该方法将空间数据进行格网化表达,对格网化结果以平滑移动的N×N掩膜进行多约束事务化,将传统Apriori算法去除属性自连接,然后对所构建的空间事务化数据库进行关联模式探索,抽取有价值的关联模式。最后,以山西省晋城市长河流域为实证研究区,建立煤、地、水空间事务数据库,给出格网化表达的定量误差,探索其隐含空间关联模式,并以同位模式验证了事务化结果的精度。格网化生成覆盖研究区的64 m格网28 434个,各数据层格网化误差均在5%以内,以耕地为主因子事务化结果共有记录38 310条记录。对抽取的部分关联模式分析表明：发现结果符合长河流域矿农复合区背景下耕地相关的先验知识;该方法能有效提取空间数据及其属性信息中潜在的关联模式,提高了挖掘过程自由度和结果的兴趣度。

[ Xu

, Jing

Y D

, Bi

R T

, et al.

The discovery of spatial association patterns of resource and environment information based on grid data

[J]. Journal of Geo-information Science, 2018, 20(1):28-36. ] DOI:10.12082/dqxxkx.2018.170266

[24]

谢旺, 王丽珍, 陈红梅, 等.

基于空间序偶模式挖掘污染源与癌症病例的关系

[J]. 数据分析与知识发现, 2021, 5(2):14-31.

[本文引用: 2]

[ Xie

, Wang

L Z

, Chen

H M

, et al.

Identifying relationship between pollution sources and cancer cases with spatial ordered pair patterns

[J]. Data Analysis and Knowledge Discovery, 2021, 5(2):14-31. ] DOI:10.11925/infotech.2096-3467.2020.1026

[本文引用: 2]

[25]

邓星

典型地域的风向特征研究

[J]. 风能, 2017(8):46-51.

[ Deng

Study on wind direction characteristics in typical areas

[J]. Wind Energy, 2017(8):46-51. ]

[26]

Wang

L Z

, Fang

, Zhou

L H

. Preference-based spatial co-location pattern mining[M]. Singapore: Springer Nature Singapore, 2022. DOI:10.1007/978-981-16-7566-9