地球信息科学理论与方法

基于零膨胀贝叶斯时空建模的精细尺度伪基站垃圾短信分析方法

  • 史雨飞 ,
  • 陶海燕 ,
  • 卓莉
展开
  • 中山大学地理科学与规划学院,广东省公共安全与灾害工程技术研究中心/广东省城市化与地理环境空间模拟重点实验室,广州 511400
*陶海燕(1966— ),女,江苏扬州人,副教授,主要从事多智能体地理模拟、空间数据挖掘研究。 E-mail:

史雨飞(2000— ),女,湖北天门人,硕士研究生,主要从事犯罪地理研究。E-mail:

收稿日期: 2022-04-19

  修回日期: 2022-06-01

  网络出版日期: 2023-01-25

基金资助

国家自然科学基金项目(41971372)

广东省自然科学基金项目(2020A1515010680)

Fine-scale Pseudo Base Station Spam Message Analysis Method based on Zero-inflated Bayesian Spatiotemporal Modeling

  • SHI Yufei ,
  • TAO Haiyan ,
  • ZHUO Li
Expand
  • School of Geography and Planning, Guangdong Provincial Engineering Research Center for Public Security and Disasters/Guangdong Provincial Key Laboratory of Urbanization and Spatial Simulation of Geographic Environment, Sun Yat-sen University, Guangzhou 511400, China
*TAO Haiyan, E-mail:

Received date: 2022-04-19

  Revised date: 2022-06-01

  Online published: 2023-01-25

Supported by

National Natural Science Foundation of China(41971372)

National Natural Science Foundation of Guang Dong Province(2020A1515010680)

摘要

伪基站垃圾短信活动存在显著的时空自相关和异质性现象,采用时空分析方法可以精准把握伪基站的移动规律和行为模式,为相关部门综合施策、探索长效管理机制提供科学的依据。然而,精细尺度下垃圾短信数据集中过多零数据导致的零膨胀问题,使当前的时空分析方法并不适用。为此,本文以2017年2月23日至2017年4月26日北京市色情服务类垃圾短信数据为例,构建零膨胀贝叶斯时空模型,不仅可以解决零膨胀问题,而且可以综合分析伪基站的空间、时间、时空效应以及外部影响因素,以识别伪基站活动的相对风险高值区、探究城市建成环境对其的影响。结果发现:在数据集中零值占比高达83.46%的情况下,基于零膨胀泊松分布的贝叶斯时空模型具有更好的拟合精度;色情服务类垃圾短信空间上的高风险区域主要聚集在北京市主城区的东部,风险值最高的区域属于朝阳区;周四、五、六风险趋势会相对增加,且18:00至次日02:00为高发时期;伪基站一般18:00从主城区的西南部开始向东北方向移动,凌晨01:00聚集在朝阳区西北部区域;商务住宅与住宿服务类城市环境与垃圾短信呈正相关,餐饮服务与派出所类城市环境呈负相关。研究表明,零膨胀贝叶斯时空模型为精细尺度的伪基站垃圾短信研究,提供了一个可以有效整合多个时间截面的分析数据、充分考虑伪基站的时空关系和外部影响因素并解决数据中存在零过多现象的方法,为发展和验证伪基站的环境犯罪学理论提供了一种重要的分析方法。

本文引用格式

史雨飞 , 陶海燕 , 卓莉 . 基于零膨胀贝叶斯时空建模的精细尺度伪基站垃圾短信分析方法[J]. 地球信息科学学报, 2022 , 24(11) : 2089 -2101 . DOI: 10.12082/dqxxkx.2022.220204

Abstract

There are significant spatiotemporal autocorrelation and heterogeneity in spam message activities of pseudo base stations. Using spatiotemporal analysis method can accurately grasp the movement law and behavior pattern of pseudo base stations, which provides a scientific basis for relevant departments to formulate comprehensive policies and explore long-term management mechanism. However, the problem of zero inflation caused by excessive zero data in the spam SMS data set at the fine scale makes the spatiotemporal analysis method not applicable. In this paper, using the Beijing municipal erotic service spam message data from February 23 to April 26, 2017 as an example. we constructed the zero inflation Bayesian spatiotemporal model, which can not only solve the problem of zero inflation, but also comprehensively analyze space, time, space and time effect, and external influence factors of pseudo base stations. Based on this, we further identified the high risk areas of pseudo base station activity and explored the influence of urban built environment. The results show that the Bayesian spatiotemporal model based on zero-inflation Poisson distribution has a higher fitting accuracy when the ratio of zero values in the dataset is 83.46%. The high risk areas of pornographic service spam messages are mainly concentrated in the eastern part of the main urban area of Beijing, and the Chaoyang District has the highest risk value. The risk increases relatively on Thursday, Friday, and Saturday, and the high-risk period is from 6 pm one day to 2 pm the next. The pseudo base station generally starts moving from the southwest to the northeast of the main city at 6 pm and gathers in the northwest of Chaoyang District at 1 am. There is a positive correlation between the urban environment of commercial residence and accommodation service and the spam message, while there is a negative correlation between the urban environment of catering service and police stations. The zero-inflation Bayesian spatiotemporal model for analyzing fine scale pseudo base station spam messages can effectively integrate multiple time cross section data, take into account the external factors and the relationship between time and space of pseudo base stations, and solve the problem of too much zero data in the dataset. Our study provides an important analysis method for the development and validation of pseudo base station environmental criminology theory.

1 引言

伪基站作为一种移动通信基站模拟装置,通常流动于城市人口密集区域,利用强大的发射信号强行连接一定半径范围内的手机,向用户发送诈骗、色情、广告推销等垃圾短信,以引诱用户点击短信中的链接或诱使用户拨打电话“主动”提供相关信息,进而实施诈骗、卖淫等非法活动。伪基站发送垃圾短信的行为不仅违法,而且当垃圾短信数量巨大或诈骗等行为给社会治安和国家安全带来重大隐患时,将构成刑事犯罪。随着移动互联技术的普及和互联网+时代的到来,利用伪基站实施违法犯罪的案件数量明显上升[1]。根据360安全卫士统计[2],2021年第三季度360手机卫士拦截垃圾短信约36.9亿条,平均每日拦截垃圾短信约4041.6万条。虽然国家持续保持对伪基站的高压严打态势,但是由于其通常采用车载或人工背包等移动方式,具有极强的流动性和隐蔽性,如何把握伪基站的时空分布规律及影响因素,仍然是相关执法部门精准打击、防范伪基站的关键。
根据环境犯罪学理论中的日常活动理论和理性抉择理论[3-4],伪基站为了在短时间内向周边手机用户发送大量短信,在移动时通常会根据发送信息的内容,选择合适的目标人群,并结合目标人群活动规律、城市交通状况、警方打击形势等选择合适的短信发送时间和地点,例如,色情短信往往深夜出现在酒店、公寓附近;招聘、假证假发票等短信一般在早晚高峰时期人流量大的区域出现。因此,伪基站发送的每一条信息的类型、位置、时间等均是其在获取收益、规避风险的过程中与目标人群、相关执法部门以及外部环境特征间相互作用的结果。同时,伪基站的活动形式也使其在相邻时间、相邻空间上趋向于集聚分布,这种时空近重复现象为伪基站时空分布特征的探究提供了犯罪学的近重复理论框架[5-6],即伪基站发送垃圾短信的行为会在一定时空范围内传播,当某区域接收到垃圾短信后,该区域及其相邻地区短时间内再次接收到垃圾短信的风险会显著增加。已有研究围绕伪基站的时空特征和外部环境的影响展开,如唐楷[7]等通过分析垃圾短信的时空特征,发现伪基站在不同时间切片内的行为模式,以此设计了基于时空特征的伪基站行为可视分析系统;汪伟[8]等构建垃圾短信分类模型,结合土地利用数据,分析发送不同类型垃圾短信的伪基站的时空分布规律;李旭亮[9]等根据伪基站在邻近区域间存在空间自相关的特征,采用空间计量模型分析建成环境与社会经济因素对伪基站分布的影响。然而,从环境犯罪学理论的角度出发,以上研究在探究伪基站的时空分布情况时,未能考虑到伪基站发送垃圾短信的行为会受到相邻时间伪基站活动情况的影响,也缺乏时空交互方面的研究,没有综合分析伪基站的时空关系及其外部影响因素。
常见的时空分析方法如Knox检验[10]、Jacquez检验[11]以及时空扫描统计[12]等利用垃圾短信数量或其他统计值来量化伪基站在空间和时间上的聚集程度,但无法确定其他非热点区域的估计风险值及其时间变化[13],也会由于数据出现极端值而提供具有误导性的结果[14]。当以上方法应用于精细尺度的时空分析时,垃圾短信数据集中过多的零数据也可能会导致不稳定的风险估计和不可靠的结果[15],出现严重的零膨胀(Zero-Inflated, ZI)问题。零膨胀贝叶斯时空模型可以有效弥补以上频率主义方法的不足,不仅可以通过贝叶斯统计推断实现伪基站的空间、时间、时空交互及相关影响因素的同时分析,获得相对风险在空间、时间以及时空上的分布及变化,而且模型中的随机效应也可用于建模伪基站在时空分布上的近重复现象[13]。同时,该模型通过贝叶斯方法与零膨胀泊松(Zero-inflated Poisson, ZIP)模型[16]的结合[17-18],能够灵活地基于时空邻域上的相似性解决精细尺度下垃圾短信数据的零膨胀问题,避免缺失数据和小数量问题所导致的风险估计值不稳定的情况,因此在医学、公共卫生、计量经济学等众多领域[19-22]得到广泛应用。例如,Agarwal[23]等提出在贝叶斯框架内拟合零膨胀泊松模型,引入空间随机效应生成贝叶斯模型;Gschlößl和Czado[20]等从贝叶斯模型的角度综述了零膨胀计数数据的泊松分布、广义泊松分布和负二项分布的空间回归模型,并将其应用于德国侵袭性脑膜炎球菌病病例数量的研究。然而,这种零膨胀贝叶斯时空模型尚未应用于伪基站的时空分析中。
本文以北京市主城区的“众源垃圾短信大数据”中的色情服务类垃圾短信数据为研究对象,基于环境犯罪学理论,建立零膨胀贝叶斯时空模型,将接收垃圾短信作为区域的风险事件,研究其相对风险(Relative Risk,RR)的时空分布情况以及区域内城市建成环境对相对风险的影响情况,探讨零膨胀贝叶斯时空模型在伪基站研究方面的应用价值,为相关部门制定抓捕部署方案提供辅助决策。

2 数据来源与研究方法

2.1 研究数据

研究使用的数据集为2017年2月23日至2017年4月26日,QHNet公司的手机卫士应用软件收集的北京市被标记为垃圾短信的样本数据[8],预处理后共有3 345 421条记录。每条记录包括伪基站发送的电话号码、垃圾短信内容、垃圾短信接收时间、与伪基站连接时间以及伪基站的近似位置信息等一共7个字段,由于伪基站会在短时间内屏蔽合法基站的信号向附近的用户发送短信,而为了保护用户隐私,数据集中用户上传的位置信息是接收色情服务类垃圾短信前最后连接的合法基站的位置,将该位置近似为伪基站发送垃圾短信时的位置信息[24]。考虑到色情服务类伪基站后续的非法活动(卖淫、招嫖等)在地点和时间方面的特殊性,本文选用分类后的色情服务类垃圾短信数据[8]进行分析,其具体字段名称如表1所示。
表1 数据集字段名称与含义

Tab. 1 Dataset field name and meaning

字段名称 字段含义
Phone 伪基站伪装的发送方电话号码
Content 短信具体内容
Md5 短信正文MD5
Recitime 垃圾短信接收时间戳
Conntime 与伪基站的连接时间戳
lng 伪基站发送垃圾短信时的近似位置经度
lat 伪基站发送垃圾短信时的近似位置纬度
色情服务类垃圾短信共有345 666条记录,其中345 045条数据分布在北京市六环以内,占总数的99.82%(图1),因此确定北京市六环以内的主城区为具体的研究区域,并依据街道和乡镇区域划分为180个空间单元。
图1 2017年2月23日至4月26日北京市色情服务类垃圾短信分布

Fig. 1 Distribution of pornographic service spam messages in Beijing from February 23 to April 26, 2017

同时,如图2所示,区域上色情服务类垃圾短信的接收情况在一周的工作日与休息日、一天24 h内均有较大的差异,主要分布在晚上的时段内,且在星期四、星期六晚间18:00-20:00出现峰值。因此,为了得到精细尺度下垃圾短信接收风险的变化规律,将时间尺度设置为“天”、“小时”,在此空间和时间分辨率下,共有180×7×24=30 240个时空单元,其中未接收到垃圾短信的时空单元即零数据有25 237个,占总数的83.46%,说明该研究中需要解决零膨胀问题。
图2 北京市色情服务类垃圾短信的时间分布

Fig. 2 Time distribution of all pornographic service spam messages in Beijing

遵循日常活动理论及理性抉择理论,选择城市兴趣点(Point of Interest,POI)数据作为伪基站发送垃圾短信行为的外部环境特征,数据包含城市各类地物的名称、类别以及经纬度信息,可以直观有效地反映城市建成环境的空间分布[25]。本文使用POI计数作为当前区域接收垃圾短信风险的影响变量,研究城市建成环境对相对风险的影响情况。POI数据来自高德地图(https://www.amap.com),采集的数据类型包括餐饮服务、交通设施、购物服务、公司企业、住宿服务、生活服务、商务住宅和派出所8类。如表2所示。
表2 POI数据的简要信息

Tab. 2 Brief information about POI data

POI类别 内容 数量/条
餐饮服务 中餐厅、快餐厅、咖啡厅、糕饼店等 48 412
交通设施 火车站、机场、地铁站、公交车站等 40 852
购物服务 商场、便利店、家电卖场等 55 566
公司企业 公司、农林牧渔基地等 41 853
住宿服务 宾馆酒店、招待所等 9461
生活服务 电讯营业厅、共享设备等 50 417
商务住宅 住宅区、楼宇等 26 436
派出所 警察局、派出所等 1043

2.2 研究方法

2.2.1 模型构建

零膨胀贝叶斯时空模型可以对零数据和非零数据建立混合模型,从而解决计数数据的零膨胀问题。而且,模型中的贝叶斯方法将数据视为固定的,所有的未知参数视为以概率表示的随机变量[13],通过给各个参数设定先验概率分布的方式,量化参数的不确定性[26],并结合观测到的时空数据以及先验信息(时空结构)来估计模型参数的后验概率分布,包括空间、时间、时空交互作用以及外部影响因素[27]的估计风险值。
假定区域i在一周中第j天的第k小时色情服务类垃圾短信数量为 O i j k,将实际垃圾短信数量服从零膨胀泊松分布ZIP,其似然函数表示如下:
${{O}_{ijk}}\tilde{\ }ZIP\left( {{E}_{ijk}}{{r}_{ijk}} \right)$
式中: E i j k表示区域i在一周中第j天第k小时期望接收到的色情服务类垃圾短信数量,与每个区域的地理面积成正比; r i j k是相应空间和时间上接收垃圾短信的相对风险(Relative Risk,RR),表示相对于期望值,区域i在该时间段内实际接收垃圾短信水平的高低。
零膨胀泊松分布将垃圾短信数据中的零分为两部分[19,28]:一部分零数据来自泊松分布中产生的抽样零;另一部分不同于泊松分布中出现的“随机零”,而来自那些不可能接收垃圾短信的区域,即额外得到的结构零。区域i在一周中第j天的第k小时接收到的色情服务类垃圾短信数量 o i j k遵循零膨胀泊松分布的概率密度函数,如下所示[16]
$P\left( {{O}_{ijk}}={{o}_{ijk}} \right)=\left\{ \begin{array}{*{35}{l}}{{p}_{ijk}}+\left( 1-{{p}_{ijk}} \right)f\left( 0 \right),{{o}_{ijk}}=0 \\ \left( 1-{{p}_{ijk}} \right)f\left( {{o}_{ijk}} \right),{{o}_{ijk}}>0 \\ \end{array} \right.$
$f\left( {{o}_{ijk}} \right)=\frac{{{r}_{ijk}}^{{{o}_{ijk}}}}{{{o}_{ijk}}!}exp\left( -{{r}_{ijk}} \right)$
式中: p i j k为数据中存在结构零的概率[23],对式(3)中接收垃圾短信的相对风险 r i j k进行建模得到:
$\text{log}\left( {{r}_{ijk}} \right)={{b}_{0}}+{{\mu }_{i}}+{{v}_{i}}+{{\gamma }_{j}}+{{\varphi }_{j}}+{{\tau }_{k}}+{{\delta }_{ijk}}+\underset{p}{\mathop \sum }\,{{\alpha }_{p}}{{X}_{p}}$
式中: b 0是截距项,表示研究期间所有地理单元垃圾短信接收风险的平均对数; μ i是空间结构随机效应,表示空间结构对垃圾短信接收风险的影响效应,也就是垃圾短信风险的分布变化受空间结构的影响。相反, v i表示空间非结构随机效应,表示垃圾短信接收风险的分布变化不受空间结构的影响;时间项 γ j φ j分别表示天的时间结构随机效应与非结构随机效应,对应于垃圾短信在时间分布上的相关性与异质性, τ k则是小时的时间结构随机效应,表示一天中垃圾短信在小时尺度上分布的相关性;而 δ i j k是时空交互项,定义为考虑了整体空间和时间模式后的时空聚类,估计了特定区域偏离总体时空效应的情况[27] X p表示影响垃圾短信接收风险的 p个协变量, α p是对应的回归系数。
空间项包含空间非结构与结构随机效应,分别服从独立同分布的高斯随机效应与条件自回归(Conditional Autoregressive,CAR)。即空间非结构随机效应服从均值为0的正态分布,空间区域间彼此独立。而CAR过程将Besag模型[29]扩展为高斯分布,表示为:
${{\mu }_{i}}|{{\mu }_{l\ne i}}\tilde{\ }N\left( \frac{1}{{{n}_{i}}}\underset{i\tilde{\ }l}{\mathop \sum }\,{{\mu }_{i}},\frac{\sigma _{\mu }^{2}}{{{n}_{i}}} \right)$
式中: n i是区域i的相邻区域数量,表示 μ i的条件期望等于相邻区域 μ i的平均值,方差 σ μ 2 / n i取决于相邻区域的数量。设定空间结构随机效应服从CAR过程,表示某区域中事件发生的相对风险受到邻近区域的影响,距离越近,这些区域呈现的相对风险就越相似。
时间项中,时间非结构随机效应假定为独立同分布的高斯随机效应,表示时间上的异质性。天和小时的时间结构随机效应均服从一阶随机游走[30],以天的时间结构随机效应 γ j为例,其先验密度 π表示为:
$\pi({{\gamma }_{j}}|\sigma _{\gamma }^{2})\propto exp\left( -\frac{1}{2\sigma _{\gamma }^{2}}\underset{j=2}{\overset{J}{\mathop \sum }}\,{{({{\gamma }_{j}}-{{\gamma }_{j-1}})}^{2}} \right)$
该先验分布考虑时间上的相关性,某时间点的垃圾短信的接收风险 γ j受到相邻时间点 γ j - 1的影响,表示在相邻时间内各区域趋向于具有相似的垃圾短信接收风险变化趋势。
具有交互作用的时空交互项 δ i j k表示时间和空间对相对风险的共同影响,设定受到空间非结构随机效应与时间非结构随机效应的影响,服从独立同分布的高斯随机效应 δ i j k ~ N ( 0 , σ δ 2 )。同时该分布的超参数的先验分布设定为一个参数为1和0.00 005的对数伽马分布。
模型基于R环境中的INLA包实现,相比于贝叶斯推断时常用的马尔可夫链蒙特卡洛算法(Markov Chain Monte Carlo,MCMC),积分嵌套拉普拉斯逼近算法(Integrated Nested Laplace Approximations,INLA)可以快速得到准确的参数估计值[31-32],避免MCMC算法计算不收敛、计算大数据集耗时长的问题。

2.2.2 模型选择

为了探讨空间效应、时间效应以及时空交互作用在模型风险估计中的适用性,采用渐进的方式建立零膨胀泊松贝叶斯时空模型。首先M0仅考虑协变量的影响,模型中不包含任何时间或空间效应,随后依次向贝叶斯时空模型中添加空间项、天时间项、小时时间项以及时空交互项,分别得到模型M1、M2、M3以及M4,研究不同区域的空间、时间对垃圾短信相对风险的影响。且采用偏差信息准则(Deviance Information Criterion,DIC)以及Watanabe-Akaike信息标准(Watanabe-Akaike Information Criterion,WAIC)[33]作为模型评价的指标,定义如下:
$DIC=\bar{D}+{{P}_{D}}$
$WAIC=LPD+{{P}_{W}}$
式中:DIC既通过模型偏差的后验期望 D -度量模型的拟合状况,也通过模型中有效参数的个数 P D度量模型的复杂度[34],较大的 P D表示模型的高度复杂性。WAIC近似等于贝叶斯交叉验证[35],在式(8)中, L P D表示预期的对数逐点预测密度, P W表示WAIC估计得到的有效参数个数,以此衡量模型的复杂度。WAIC与DIC的解释一样:值越小,模型在复杂性和适应性之间有越好的平衡。
根据表3中各候选模型的评估结果,5个模型中充分考虑了时空效应的零膨胀贝叶斯时空模型M4具有最低的DIC、WAIC,说明其在模型适应度以及复杂性方面表现最好,在模型中纳入空间、时间效应以及时空交互的影响是合理的。
表3 候选零膨胀贝叶斯时空模型的评估结果

Tab. 3 Evaluation results of candidate zero-inflated Bayesian spatiotemporal models

模型 DIC WAIC
M0 1 081 712.22 817 283.63
M1 534 768.70 524 369.00
M2 516 833.00 523 083.81
M3 371 102.18 406 692.38
M4 58 057.76 57 216.10
进一步,在模型均包含时间项、空间项以及时空交互项的情况下,为了说明时空建模时解决零膨胀问题的必要性,以DIC和WAIC估计得到的模型中有效参数的个数 P D P W以及交叉验证对数评分(Cross-validated Logarithmic Score, LS)作为评估指标,分别比较零膨胀泊松分布与泊松分布的贝叶斯时空模型的复杂性和预测质量,其中, LS越小,贝叶斯模型的预测效果越好[15]
表4可知,相较于基于泊松分布的贝叶斯时空模型,基于零膨胀泊松分布的贝叶斯时空模型(M4)在模型复杂性( P D P W)和预测能力(LS)方面表现更好,说明在精细尺度下对垃圾短信数据建模时,解决零膨胀问题可以提高贝叶斯时空模型的性能。因此,后续将基于M4对式(4)中各项进行结果分析:空间上,区域i在空间上的相对风险估计值可以通过 μ i + v i计算获得;时间上,以天、小时为单位的时间相对风险估计值也可以分别通过 γ j + φ j τ k获得;时空上,以 δ i j k表明特定区域在特定时间偏离总体风险的情况,即时空上的相对风险;影响因素方面,以 α p识别对接收垃圾短信相对风险具有显著影响的因素。
表4 基于零膨胀泊松分布和泊松分布的贝叶斯时空模型的比较

Tab. 4 Comparison of Bayesian spatiotemporal models with zero-inflated Poisson distribution and Poisson distribution

模型 PD PW LS
M4 3916.53 2700.35 1.45
M5(Poisson) 7733.67 5011.74 4.59

注:M5表示考虑了时间项、空间项以及时空交互项的泊松分布的贝叶斯时空模型。

3 结果与分析

3.1 垃圾短信接收风险的空间分布

空间上垃圾短信相对风险以模型中的 ( μ i + v i )估计结果表示,其值大于0表示该区域为接收色情服务类垃圾短信的高风险区域,如图3所示。总体上,区域空间效应的相对风险高值区主要集中在北京市主城区的东部,其中,估计值异常高的区域均隶属于朝阳区,其相对风险约为总体平均水平的10倍以上。此外,贝叶斯时空模型估计空间上相对风险值时的平滑作用较好地表示了伪基站的近重复现象:伪基站发送垃圾短信的违法行为会在相邻的空间范围内发生传递,因此垃圾短信接收风险的估计也需要考虑相邻区域的影响。在计算这些有着较高的垃圾短信数量的区域时,由于其周围邻接区域的垃圾短信数量也高于平均水平,借助平滑作用估计得到的区域空间效应相对风险估计值异常高。而外围区域的相对风险值普遍低于总体平均水平,如海淀区、石景山区以及丰台区的空间效应估计值较低。以北京市海淀区羊坊店街道办事处为例,该区域接收到的色情服务类垃圾短信数量为1039,基于区域面积计算得到的期望垃圾短信数量为677,即实际接收数量是期望数量的1.5倍。但是,贝叶斯时空模型估计得到的该区域垃圾短信相对风险值为-2.65,低于总体平均水平,表示为低风险区域,这是在估计过程中考虑了邻近的低风险区域所导致的结果。
图3 北京市六环以内的色情服务类垃圾短信相对风险的空间分布

Fig. 3 Spatial distribution of the relative risk of pornographic service spam messages within the Sixth Ring Road of Beijing

3.2 垃圾短信接收风险的时间分布

( γ j + φ j ) τ k分别作为时间上天、小时的相对风险估计值,其解释与空间效应类似。如图4(a)所示,一周七天内,工作日周一、二、三的色情服务类垃圾短信的接收风险值保持在平均相对风险之下,而周四时,可能是临近周末的原因,一周的风险值达到峰值,随后一直保持在平均相对风险之上。而在一天24小时内,如图4(b),白天中午12:00-12:59色情服务类垃圾短信接收风险(-0.34)最低,晚上20:00-20:59风险值(0.84)最高。色情服务类垃圾短信的接收风险从下午六点开始呈逐渐增加的趋势,20:00-20:59达到峰值后逐渐减小,但总体风险仍然高于平均相对风险,直至凌晨两点的相对风险低于总体风险。考虑到色情服务类伪基站活动的特殊性,通常在夜间寻找目标人群,与所得的时间变化趋势基本符合,因此可以确定周四、周五和周六的18:00至次日2:00为色情服务类垃圾短信的高发时间。
图4 北京市六环以内的色情服务类垃圾短信相对风险的时间变化趋势

Fig. 4 Temporal trends of the relative risk of pornographic service spam messages within the Sixth Ring Road of Beijing

3.3 垃圾短信接收风险的时空分布

通过以上垃圾短信高发时段内各个地理单元的色情服务类垃圾短信接收风险估计值,区域内伪基站的流动规律可以被直观地表示。区域i在一周中第j天的第k小时的时空上的相对风险估计值为 δ i j k,其值大于0时表示该区域在该时段为高风险区域。
周四、周五和周六的时空相互作用的风险区域分布结果如图5图6图7所示。
图5 北京市六环以内周四18:00—周五01:59色情服务类垃圾短信时空相对风险区域分布

Fig. 5 Spatial and temporal relative risk of pornographic service messages within the Sixth Ring Road of Beijing from 18:00 on Thursday to 01:59 on Friday

图6 北京市六环以内周五18:00—周六01:59色情服务类垃圾短信时空相对风险区域分布

Fig. 6 Spatial and temporal relative risk of pornographic service messages within the Sixth Ring Road of Beijing from 18:00 on Friday to 01:59 on Saturday

图7 北京市六环以内周六18:00—周日01:59色情服务类垃圾短信时空相对风险区域分布

Fig. 7 Spatial and temporal relative risk of pornographic service messages within the Sixth Ring Road of Beijing from 18:00 on Saturday to 01:59 on Sunday

结果显示,周四、周五与周六伪基站的移动规律相似。整体上,伪基站的移动均从北京市主城区的西南部分开始,以房山区的长阳镇和大兴区的芦城乡为起始点,向主城区的东北方向移动,凌晨一点左右聚集在朝阳区,在此期间,在朝阳区与东城区相邻的多个街道办事处区域内,伪基站也呈现出由南至北的移动规律,在凌晨01:00-01:59朝阳区的西北部的太阳宫乡、三里屯、大屯乡都属于接收色情服务类垃圾短信的高风险区域。该现象或许与不同区域隐含的城市功能不同有关,伪基站移动的起点区域介于北京市房山区、丰台区和大兴区的交汇处,属于城乡结合部,区域内京周、京良公路交织成网,交通便利;移动终点聚集在朝阳区,并与空间上接收色情服务类垃圾短信的高风险区域(图3)大致相符,根据朝阳区高风险区域内部与周边邻近区域POI的分布情况,可以发现这些区域相较其邻近区域,交通设施、住宅区以及住宿服务(酒店、招待所)类别的地物更多,且包含较密集的购物场所等吸引人流量聚集的商业区域,这些对伪基站均具有较强的吸引力。这些时空上的高风险区域在 周四、五、六的垃圾短信高发时段内产生了空间上的关联性,接收到垃圾短信的风险在一定时空范围内传播,遵循了伪基站发送垃圾短信行为的近重复理论。

3.4 影响因素分析

在建模前,需要从所有影响变量中选择具有代表性的变量参与贝叶斯时空建模。通过正向逐步回归方法排除不具有统计学意义的变量[36]表5中展示了协变量进行逐步回归分析后得到的显著性变量,将表中4类POI类型作为色情服务类垃圾短信接收风险的影响变量进行分析。
表5 协变量的正向逐步回归分析结果

Tab. 5 Results of positive stepwise regression analysis of covariates

协变量 回归系数 T检验 显著性
餐饮服务 -7.337 -3.787 0.00021***
商务住宅 10.854 2.095 0.03760**
派出所 -173.879 -1.926 0.05568*
住宿服务 46.763 4.374 2.09000e-5***

注:***、**和*分别表示0.001、0.05和0.1的显著性水平。

表6展示了模型所选协变量对接收色情服务类垃圾短信的相对风险影响的后验估计参数。回归结果解释研究时段内整个研究区域协变量的相对风险,包括未收到垃圾短信和收到垃圾短信的区域。4个协变量结果均统计显著,餐饮服务类、派出所类POI计数与垃圾短信的相对风险呈负相关,两类的POI每增加一个单位,就会分别使色情服务类垃圾短信接收风险降低约3.00%、7.13%;商务住宅类、住宿服务类POI计数与垃圾短信的相对风险呈正相关,两类的POI每增加一个单位,就会分别带来2.00%和13.08%的相对风险的增加。
表6 协变量后验参数和相对风险值

Tab. 6 Covariate posterior parameter and relative risk value

协变量 后验均值(置信区间) 相对风险RR
餐饮服务 -0.003*(-0.004,-0.004) 0.997
商务住宅 0.002*(0.001,0.003) 1.002
派出所 -0.074*(-0.087,-0.060) 0.929
住宿服务 0.013*(0.011,0.014) 1.013

注:*表示协变量在95%置信区间统计显著。

考虑到商务住宅类、住宿服务类POI中分别包含住宅区和酒店、招待所等地物,以及色情服务类垃圾短信内容中“酒店”等隐晦信息,可以说明这两类POI中有着较多的色情服务类违法活动的潜在目标,根据环境犯罪学中的日常活动理论,具有潜在作案价值的目标往往会吸引有相应动机的不法分子到该区域实施违法活动,因此这些城市兴趣点潜在的城市功能会吸引更多的发送色情服务类垃圾短信的伪基站,需要相关执法部门有重点地进行区域化管控。而根据理性抉择理论,伪基站在发送垃圾短信时会合理地控制风险成本、规避风险。派出所作为伪基站在发送垃圾短信时需要规避的要素之一,该类POI的存在会对其造成一定的威慑作用,导致该区域接收色情服务类垃圾短信的相对风险降低。

4 结论与讨论

4.1 结论

本文以色情服务类垃圾短信为研究对象,运用零膨胀贝叶斯时空模型探索了精细尺度下2017年2月23日至2017年4月26日北京市主城区伪基站的时空分布及其与城市建成环境间隐含的关联。研究表明,在精细尺度下使用基于零膨胀泊松分布的贝叶斯时空模型探讨伪基站的时空特征和外部影响因素,相比于常见的时空分析方法具有明显的优势:首先,该模型可以有效整合多个时间截面的分析数据、综合考虑伪基站的时空关系和外部影响因素,同时获得伪基站在空间、时间、时空上的相对风险变化以及城市建成环境的影响,兼顾了伪基站移动的时空交互模式及外部影响;其次,模型中的随机效应可以对伪基站在空间、时间、时空分布上的近重复现象进行建模,借助平滑作用避免极端值数据导致不稳定的模型估计结果,同时有助于解释伪基站活动的集聚现象;最后,通过对零数据和非零数据建立混合模型,零膨胀贝叶斯时空模型可以解决精细尺度下垃圾短信数据集中的零膨胀问题,在模型复杂性和预测能力方面优于基于泊松分布的贝叶斯时空模型。因此,在精细尺度下依托零膨胀贝叶斯时空模型对具有零膨胀问题的垃圾短信数据进行分析能更准确地模拟伪基站的活动规律,为全面了解伪基站的时空变化规律和影响因素提供参考依据,值得进一步推广与应用。
伪基站与目标人群、相关执法部门以及外部环境间的时空交互产生了其时空分布特征及其影响因素:① 色情服务类垃圾短信的相对风险高值区域主要在北京市主城区的东部聚集,相对风险异常高的地区均属于朝阳区;② 周四、五、六接收色情服务类垃圾短信的相对风险趋势会相对增加,且18:00至次日02:00为短信的高发时期;③ 伪基站一般18:00左右从主城区的西南部开始,以房山区的长阳镇和大兴区的芦城乡为起点,向东北方向移动,最终凌晨01:00聚集在朝阳区的西北部区域; ④ 商务住宅与住宿服务类设施相较于其他地物类别,其潜在的城市功能意味着存在更多的目标人群,可以吸引发送色情服务类垃圾短信的伪基站,而派出所类设施的存在会对伪基站造成一定的威慑作用。综合以上特点,相关部门对发送色情服务类垃圾短信的伪基站进行打击和治理时,可以从2个角度出发:一方面根据伪基站活动的时空分布模式针对性地调整巡逻盘查地点,或直接在时空高风险区提高巡逻的频次,以提高伪基站的打击成效;另一方面,在不影响社会正常秩序的情况下适当地控制和调节利于伪基站发送垃圾短信或逃脱的外部环境因素,限制伪基站的行为,减少其出现的机会,从而达到预防伪基站的效果。

4.2 讨论

已有的研究[8-9]基于所有类型的垃圾短信数据,系统探讨了伪基站的时空分布规律及其与地理要素间的定量关系,却并没有在精细尺度综合分析其时空关系和外部影响因素。本文从环境犯罪学理论的角度,分析了精细尺度下色情服务类伪基站的时空分布特征及影响因素,丰富了伪基站的研究内容。
从色情服务类垃圾短信接收风险的时空分布上看,已有的研究发现色情服务类垃圾短信主要集中在每天晚上晚上20:00至次日02:00的朝阳区西部以及西城区。本文从空间、时间以及时空交互3个方面探究该类垃圾短信的时空规律,发现色情服务类垃圾短信的伪基站不仅呈现以上的分布特征,还表现出在每天晚上18:00至次日02:00时段内,从房山区和大兴区向朝阳区西北部移动的规律。结合日常活动理论、近重复理论对该现象做出解释:垃圾短信高发区域即朝阳区在北京各区中拥有最多的常住人口,居民数量及人口密度最大;垃圾短信高发时段均是下班、放学等人们出行的高峰期,道路上人流量较高。不论是对色情服务或是其他类型的伪基站来说,此时发送垃圾短信能够增加与潜在目标的接触机会,保证足够的短信发送量,因此伪基站活动呈时空交互性。
城市建成环境的外部影响情况也基本与以往的研究结论保持一致:商务住宅类与派出所设施点的分布分别呈正、负相关。但是相比于前人研究中住宿服务类设施对伪基站活动呈显著负相关的结论,本文聚焦于色情服务类垃圾短信,发现住宿服务类设施对此类垃圾短信呈显著正相关。根据理性抉择理论,城市设施点潜在的城市功能会对伪基站的非法活动和规避风险行为产生影响,在垃圾短信高发时段,区域内发达的交通、密集的人群以及相关地理环境均会提升伪基站发送垃圾短信的收益,使其活动更频繁,因此住宿服务类城市环境会对发送色情服务类垃圾短信的伪基站活动存在一定的促进作用。
相较以往的研究,本文在研究数据零占比更多、时间尺度更小的情况下,精确详细地描绘了发送色情服务类垃圾短信的伪基站在时空上的移动规律和城市建成环境的影响情况,进一步验证了伪基站的环境犯罪学理论,为未来伪基站时空研究提供了一定的参考。然而,受到数据的限制,本研究也存在一定的局限,首先是空间尺度的划分,仅根据街道以及县级尺度对研究区域进行了划分,没有考虑实际的伪基站活动范围,如果依据伪基站移动过程中发送垃圾短信的半径范围对区域进行合理划分,就能更精确地把握伪基站发送垃圾短信的活动范围和移动规律;其次,仅获取了城市建成环境作为区域接收色情服务类垃圾短信的影响因素,并没有考虑到社会经济因素对伪基站的影响,且只分析了色情服务类垃圾短信的时空分布,而发送不同类型垃圾短信的伪基站其时空分布格局可能是不同的。未来如果能进一步探究不同类型的垃圾短信的时空分布以及社会经济因素对其的影响,就可以得到更完善的伪基站时空分布特征。此外,如果能获取更长时间跨度的垃圾短信数据,就可以在更大的时间尺度上得到伪基站活动的时间演变趋势,进一步探讨未来伪基站的发展趋势。
[1]
高松林, 肖尚成. 网络化背景下伪基站电信诈骗犯罪治理对策研究[C]. 做优刑事检察之网络犯罪治理的理论与实践--第十六届国家高级检察官论坛文集, 2020:274-288.

[ Gao S L, Xiao S C. Research on the countermeasure of telecom fraud crime in pseudo base station under network background[C]. Theory and Practice of Cybercrime Governance in Excellent Criminal Prosecutor-collection of the 16th National Senior Prosecutors Forum, 2020:274-288. ] DOI:10.26914/c.cnkihy.2020.047345

DOI

[2]
360安全中心. 2021年第三季度中国手机安全状况报告[R]. 2021. https://www.360.cn/n/12047.html

[ 360 Security Center. Report on Mobile phone safety in China in the third quarter of 2021[R]. 2021. https://www.360.cn/n/12047.html

[3]
Cohen L E, Felson M. Social change and crime rate trends: A routine activity approach[J]. American Sociological Review, 1979, 44(4):588. DOI:10.2307/2094589

DOI

[4]
Derek C, Ronald C. The reasoning criminal: rational choice perspectives on offending[M]. New York: Transaction Publishers, 2014.

[5]
Youstin T J, Nobles M R, Ward J T, et al. Assessing the generalizability of the near repeat phenomenon[J]. Criminal Justice and Behavior, 2011, 38(10):1042-1063. DOI:10.1177/0093854811417551

DOI

[6]
Townsley M, Homel R, Chaseling J. Repeat burglary victimisation: Spatial and temporal patterns[J]. Australian & New Zealand Journal of Criminology, 2000, 33(1):37-63. DOI:10.1177/000486580003300104

DOI

[7]
唐楷, 赵韦鑫, 蒋宏宇, 等. 基于可视分析的伪基站活动特征分析方法[J]. 西南科技大学学报, 2018, 33(2):72-78.

[ Tang K, Zhao W X, Jiang H Y, et al. A visual analytic method of activity characteristics exploration for pseudo base station[J]. Journal of Southwest University of Science and Technology, 2018, 33(2):72-78. ] DOI: 10.3969/j.issn.1671-8755.2018.02.013

DOI

[8]
汪伟, 陶海燕, 卓莉. 北京主城区伪基站时空规律分析[J]. 地球信息科学学报, 2018, 20(7):978-987.

DOI

[ Wang W, Tao H Y, Zhuo L. Spatio-temporal analysis of pseudo base stations in Beijing downtown[J]. Journal of Geo-Information Science, 2018, 20(7):978-987. ] DOI:10.12082/dqxxkx.2018.170430

DOI

[9]
李旭亮, 陶海燕, 卓莉, 等. 北京主城区伪基站活动时空特征及其影响因素[J]. 热带地理, 2019, 39(1):125-134.

[ Li X L, Tao H Y, Zhuo L, et al. Spatio-temporal characteristics and influencing factors of fake base stations' activity in Beijing[J]. Tropical Geography, 2019, 39(1):125-134. ] DOI:10.13284/j.cnki.rddl.003095

DOI

[10]
Kulldorff M, Hjalmars U. The Knox method and other tests for space-time interaction[J]. Biometrics, 1999, 55(2):544-552. DOI:10.1111/j.0006-341X.1999.00544.x

DOI PMID

[11]
Malizia N, Mack E A. Enhancing the Jacquez k nearest neighbor test for space-time interaction[J]. Statistics in Medicine, 2012, 31(21):2318-2334. DOI:10.1002/sim.5348

DOI PMID

[12]
Neill D B. An empirical comparison of spatial scan statistics for outbreak detection[J]. International Journal of Health Geographics, 2009, 8:20. DOI:10.1186/1476-072X-8-20

DOI PMID

[13]
Law J, Quick M, Chan P. Bayesian spatio-temporal modeling for analysing local patterns of crime over time at the small-area level[J]. Journal of Quantitative Criminology, 2014, 30(1):57-78. DOI:10.1007/s10940-013-9194-1

DOI

[14]
Gelman A, Price P N. All maps of parameter estimates are misleading[J]. Statistics in Medicine, 1999, 18(23):3221-3234. DOI:10.1002/(sici)1097-0258(19991215)18:233.0.CO;2-M

DOI PMID

[15]
Song C, He Y Q, Bo Y C, et al. Risk assessment and mapping of hand, foot, and mouth disease at the County level in mainland China using spatiotemporal zero-inflated Bayesian hierarchical models[J]. International Journal of Environmental Research and Public Health, 2018, 15(7):1476. DOI:10.3390/ijerph15071476

DOI

[16]
Lambert D. Zero-inflated Poisson regression, with an application to defects in manufacturing[J]. Technometrics, 1992, 34(1):1. DOI:10.2307/1269547

DOI

[17]
Arab A. Spatial and spatio-temporal models for modeling epidemiological data with excess zeros[J]. International Journal of Environmental Research and Public Health, 2015, 12(9):10536-10548. DOI:10.3390/ijerph120910536

DOI PMID

[18]
Fernandes M V, Schmidt A M, Migon H S. Modelling zero-inflated spatio-temporal processes[J]. Statistical Modelling, 2009, 9(1):3-25. DOI:10.1177/1471082x0800900102

DOI

[19]
Lewsey J D, Thomson W M. The utility of the zero-inflated Poisson and zero-inflated negative binomial models: A case study of cross-sectional and longitudinal DMF data examining the effect of socio-economic status[J]. Community Dentistry and Oral Epidemiology, 2004, 32(3):183-189. DOI:10.1111/j.1600-0528.2004.00155.x

DOI PMID

[20]
Gschlößl S, Czado C. Modelling count data with overdispersion and spatial effects[J]. Statistical Papers, 2006, 49(3):531-552. DOI:10.1007/s00362-006-0031-6

DOI

[21]
Cheung Y B. Zero-inflated models for regression analysis of count data: A study of growth and development[J]. Statistics in Medicine, 2002, 21(10):1461-1469. DOI:10.1002/sim.1088

DOI PMID

[22]
Winkelmann R. Econometric analysis of count data[M]. 4th ed. Berlin: Springer, 2003.

[23]
Agarwal D K, Gelfand A E, Citron-Pousty S. Zero-inflated models with application to spatial count data[J]. Environmental and Ecological Statistics, 2002, 9(4):341-355. DOI:10.1023/A:1020910605990

DOI

[24]
蒲誉文, 胡海波, 何凌君. 基于多用户垃圾短信数据的伪基站活动轨迹可视分析方法[J]. 计算机应用, 2018, 38(4):1207-1212.

DOI

[ Pu Y W, Hu H B, He L J. Visual analytics on trajectory of pseudo base-stations based on SMS spam collected from mobilephone users[J]. Journal of Computer Applications, 2018, 38(4):1207-1212. ] DOI:10.11772/j.issn.1001-9081.2017102414

DOI

[25]
淳锦, 张新长, 黄健锋, 等. 基于POI数据的人口分布格网化方法研究[J]. 地理与地理信息科学, 2018, 34(4):83-89,124.

[ Chun J, Zhang X C, Huang J F, et al. Study on grid method of population distribution based on POI data[J]. Geography and Geo-Information Science, 2018, 34(4):83-89,124. ] DOI:10.3969/j.issn.1672-0504.2018.04.013

DOI

[26]
Liu D Q, Song W, Xiu C L, et al. Understanding the spatiotemporal pattern of crimes in Changchun, China: A Bayesian modeling approach[J]. Sustainability, 2021, 13(19):10500. DOI:10.3390/su131910500

DOI

[27]
Luan H, Quick M, Law J. Analyzing local spatio-temporal patterns of police calls-for-service using Bayesian integrated nested Laplace approximation[J]. ISPRS International Journal of Geo-Information, 2016, 5(9):162. DOI:10.3390/ijgi5090162

DOI

[28]
Blangiardo M, Cameletti M. Spatial and spatio-temporal bayesian models with R-INLA[M]. Wiley, 2015:188-190.

[29]
Besag J. Spatial interaction and the statistical analysis of lattice systems[J]. Journal of the Royal Statistical Society, 1974, 2(36):192-236. DOI: 10.1111/j.2517-6161.1974.tb00999.x

DOI

[30]
Held L, Rue H. Gaussian markov random fields: Theory and applications[M]. Boca Raton: Chapman & Hall/CRC, 2005:263.

[31]
Jung Y, Chun Y, Griffith D A. Temperature and assault in an urban environment: An empirical study in the city of Seoul, South Korea[J]. Applied Geography, 2020, 124. DOI:10.1016/j.apgeog.2020.102340

DOI

[32]
Carroll R, Lawson A B, Faes C, et al. Comparing INLA and OpenBUGS for hierarchical Poisson modeling in disease mapping[J]. Spatial and Spatio-temporal Epidemiology, 2015, 14(15):45-54. DOI:10.1016/j.sste.2015.08.001

DOI

[33]
Watanabe S. Asymptotic equivalence of Bayes cross validation and widely applicable information criterion in singular learning theory[J]. Journal of Machine Learning Research, 2010, 11:3571-3594. DOI:10.1002/rnc.1572

DOI

[34]
Spiegelhalter D J, Best N G, Carlin B P, et al. Bayesian measures of model complexity and fit[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2002, 64(4):583-639. DOI:10.1111/1467-9868.00353

DOI

[35]
Vehtari A, Gelman A, Gabry J. Practical Bayesian model evaluation using leave-one-out cross-validation and WAIC[J]. Statistics and Computing, 2017, 27(5):1413-1432. DOI:10.1007/s11222-016-9696-4

DOI

[36]
Bo Y C, Song C, Wang J F, et al. Using an autologistic regression model to identify spatial risk factors and spatial risk patterns of Hand, Foot and Mouth Disease (HFMD) in Mainland China[J]. BMC Public Health, 2014, 14:358. DOI:10.1186/1471-2458-14-358

DOI

文章导航

/