Spatio-temporal Analysis of Pseudo Base Stations in Beijing Downtown

The rampant pseudo base stations have become a major public hazard. They undermine the normal telecommunications order, endanger public safety, seriously infringe the property rights of the masses, and violate citizen privacy. How to dig out the spatio-temporal patterns of the pseudo base stations’ activities from massive spam messages, design effective prevention and control programs, and fight against the crime from the source, has become the focus of government agencies and researchers. The traditional methods for identifying pseudo base stations through the user terminal, however, face great challenges in terms of accuracy, comprehensiveness, and analytical ability, which no longer meet the requirements of identifying small-scale and mobile pseudo base stations. Utilizing data on the spam messages from February 23rd, 2017 to April 26th, 2017 in Beijing, this paper analyzes the spatio-temporal distribution of pseudo base stations through non-negative matrix factorization. We also constructed a classification model through TF-IDF (Term Frequency-Inverse Document Frequency) which compares types from different classifiers (k-Nearest Neighbors / K-Support Vector Machine /Random Forest/ Single-Layer Neural Network) and selects the most accurate random forest classification method. Combined with the land use data, we analyzed the spatio-temporal distribution of pseudo base stations that send different types of spam messages. The results of non-negative matrix factorization and spam message classification were analyzed in detail. The results show that most of the spam messages in Beijing are sent along the road network and in the central city. The number of spam messages during the day is much more than that during the evening. As time goes by in the day, the distribution of spam messages along the road network gradually shrinks inward. The pseudo base stations that send different types of spam messages differ in the spatio-temporal distribution, but all of them favor the traffic facilities and residential area within the Fourth Ring. The non-negative matrix factorization, which provides reliable results that match with traditional spam message classification, has shown simplicity in performing the analysis and interpretability in the form and result of the decomposition. It can help understand the spatio-temporal patterns of different types of spam messages and provide evident-based suggestions for government agencies to fight against the pseudo base stations effectively. By targeting the source of the spam messages, it is also beneficial for governments to combat the illegal behaviors based on pseudo base stations.

WANG Wei , TAO Haiyan , ZHUO Li , LI Min , LI Xuliang , WANG Keli , SHI Qingli . Spatio-temporal Analysis of Pseudo Base Stations in Beijing Downtown[J]. Journal of Geo-information Science, 2018 , 20(7) : 978 -987 . DOI: 10.12082/dqxxkx.2018.170430

1 引言

伪基站是由无线电收发设备和笔记本电脑组成的一种移动无线电通讯设备,能够搜集一定半径范围内的手机卡信息,利用GSM(Global System for Mobile Communication)验证漏洞伪装成运营商的基站,冒用银行、运营商、国家机关或他人号码,强行向用户发送诈骗、色情、赌博、广告等垃圾短信[1]。非法伪基站的出现不仅破坏正常电信秩序,危害公共安全,而且严重侵害群众财产权益,侵犯公民个人隐私,已成为社会一大公害。
传统的从客户端对垃圾短信进行过滤拦截这种被动式的治理,缺乏对伪基站移动规律的基本认知,无法从源头上对此类违法行为进行主动式防治。本文拟利用手机卫士应用软件收集的北京市垃圾短信样本数据,首先,利用非负矩阵分解得到伪基站总体时空规律;再基于TF-IDF(Term Frequency-Inverse Document Frequency)构建垃圾短信分类模型,根据垃圾短信的文本内容对其进行分类;然后,利用非负矩阵分解结果与分类结果分析伪基站发送不同类型垃圾短信的时空分布规律以及伪基站的行为模式,为有效的打击伪基站的违法行为提供科学的决策依据。

2 研究区概况与数据源

本研究所使用的垃圾短信数据是来自QHNet公司的手机卫士应用软件收集的北京市被标记为垃圾短信的样本数据,时间跨度为2个月,从2017年2月23日到2017年4月26日,经过预处理后,共有3 341 678条记录。样本数据包含伪基站伪装的发送方电话号码、短信具体正文、垃圾短信接收时间戳、与伪基站的连接时间戳、伪基站发送此条短信时的近似位置经度和纬度等共7个字段,具体字段名称与含义如表1所示。
Tab. 1 The field name and definition of the raw data

表1 原始数据字段名称与含义

字段名称 字段含义
phone 伪基站伪装的发送方电话号码
content 短信具体正文
md5 短信正文MD5
recitime 垃圾短信接收时间戳
conntime 与伪基站的连接时间戳
lng 伪基站发送短信时的近似位置经度
lat 伪基站发送短信时的近似位置纬度
Fig. 1 The study area: Beijing, China

图1 研究区域

3 研究方法

3.1 非负矩阵分解

非负矩阵分解算法(Non-negative Matrix Factorization,NMF)是Lee和Seung的研究成果[8],为处理大规模数据提供一种新的途径,具有实现上的简便性、分解形式和分解结果的可解释性,以及占用存储空间少等诸多优点[9],可使数据的某种潜在结构变得清晰。其基本思想如下:
假设处理nm维空间的样本数据,用矩阵 V m × n 表示,其中 v ij 0 ( i = 1 , 2 , , m ; j = 1 , 2 , , n ) 。对 V m × n 进行线性分解,可以得到:
V m × n W m × r × H r × n (1)
NMF将一个非负矩阵分解成2个非负矩阵的乘积, W m × r 称为基矩阵, H r × n 称为系数矩阵,其中,参数r一般小于nm。原矩阵 V 的一列向量可以解释为基矩阵 W 中所有列向量(基向量)的加权和,而权重系数为系数矩阵 H 中对应列向量中的元素。非负矩阵分解直接将分解问题作为带约束的非线性规划问题。
Min Q W , H ( V , W , H ) w ij 0 , where l i m , l j r h ij 0 , where l i r , l j n (2)
式中: V 是一个m×n维的矩阵; W H 分别表示m×rr×n维矩阵, Q ( V , W , H ) H W × H 之间的距离函数;Min表示求最小值。本研究采用Lagrange multiplier迭代方法使得 V m × n W m × r × H r × n 之间的距离最小,也就是重构误差最小。
NMF基于向量组合的形式具有很直观的解释,可以得到原始数据的潜在结构规律。该算法得到的基非负向量组 W H 具有一定的稀疏性和线性无关性。通过选取合适的r值,能有力表达原始数据的特征及结构[10,11]。在本次研究中,在时间维度上,根据垃圾短信的conntime字段,将时间戳转化为日期,并将一天划分成12个时间段,每2 h作为一个时间段;在空间维度上,将北京六环划分为1 km×1 km的网格,共得到2151个网格;构建2151×12的空间×时间的矩阵(S×T)。由于基向量的数量r直接影响分解结果以及分解结果物理解释的合理性,然而目前并没有成熟的方法确定r的值,往往是依据分解结果的合理性进行人为调整,因此在本研究中,经过多次试验,选择r=3进行非负矩阵分解,得到时间维度和空间维度的分量。

3.2 垃圾短信分类模型

Tab. 2 The classification of spam messages

表2 垃圾短信分类

大类名称 大类编号 小类名称 小类编号
欺诈类 1 银行名义 1
运营商名义 2
其他 3
非法广告 2 违禁物品买卖 4
色情服务类 5
办假证假发票类 6
骚扰 3 恶意骚扰 7
轻度打扰 8
普通广告 4 房产中介类 9
金融理财 10
其他广告 11
其中,TF-IDF是一种关键词自动提取算法,在计算词语的权值中应用较多且效果较好[13,14],其主要的思想是某个词或词组的TF 值在一个文档中高并且在其他文档中较小,那么就认为该词或者词组的类别区分能力强,和其他的词或词组相比,其更适宜用于分类[15]。词频TF(Term Frequency )表示某一给定的词语i在文档d中出现的次数。反文档频率IDF(Inverse Document Frequency)是一个词或者词组的普遍重要性的度量。常用的计算公式如(3)、(4)所示[14]
TF = t / s (3)
IDF = log ( D / d + 0.01 ) (4)
模型分类流程如图2所示。所有实验采用五分交叉验证,即把数据集随机划分成5份,每次取其中4份进行训练,剩下1份进行测试,然后把5次分类结果的平均值作为结果,再整体迭代5次取平均值作为最终结果。本研究使用KNN(k=1)(k-Nearest Neighbors)、线性k-SVM(K- Support Vector Machine)、随机森林RF(Random Forest)和单层神经网络nnet(Single-Layer Neural Network)4种分类器[16,17,18,19,20],得到11类短信分类结果的正确率p、召回率rF1,并将准确率、kappa系数和p值作为整体评价指标,如表3表4所示。通过比较不同分类器的分类精度,本研究最终选用了模型准确率95%和kappa系数93%的RF模型构建分类器进行分类。
Tab. 3 The classification result and its accuracy

表3 分类结果及精度

分类器 指标 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 平均
RF p 0.98 0.95 0.12 1 0.98 0.99 0.98 0.5 0.97 0.98 0.91 0.85
r 1 0.77 0.06 0.69 0.91 0.99 0.85 0.98 0.96 0.93 0.69 0.8
F1 0.99 0.84 0.08 0.8 0.94 0.99 0.91 0.66 0.97 0.96 0.78 0.81
KNN p 0.99 0.9 0.58 0.83 0.99 0.98 0.96 0.16 1 0.95 0.99 0.85
r 0.98 0.51 0.3 0.27 0.88 0.98 0.7 0.67 0.73 0.68 0.36 0.64
F1 0.98 0.65 0.39 0.39 0.93 0.98 0.8 0.25 0.84 0.79 0.52 0.69
KSVM-linear p 0.99 0.92 0.52 0.99 0.98 0.98 1 0.41 0.98 0.99 0.89 0.88
r 1 0.83 0.3 0.73 0.91 1 0.85 0.74 0.96 0.94 0.61 0.81
F1 1 0.86 0.37 0.83 0.94 0.99 0.92 0.52 0.97 0.96 0.72 0.83
nnet p 0.98 0.77 0.13 0.87 0.92 0.98 0.96 0.49 0.91 0.94 0.87 0.8
r 0.99 0.79 0.1 0.68 0.89 0.99 0.89 0.59 0.97 0.95 0.6 0.77
F1 0.99 0.77 0.11 0.74 0.9 0.99 0.92 0.47 0.94 0.94 0.7 0.77
Tab. 4 The accuracy index of the classification

表4 分类评价指标精度

RF KNN KSVM-linear nnet
准确率 Kappa P值 准确率 Kappa P值 准确率 Kappa P值 准确率 Kappa P值
0.95 0.93 0 0.86 0.82 0 0.94 0.92 0 0.93 0.91 0
Fig. 2 The flow chart for the spam messages classification model

图2 垃圾短信分类模型流程图

4 结果与分析

4.1 伪基站时空统计规律

Fig. 3 The spatial distribution of spam messages

图3 垃圾短信空间分布图

将一天划分成12个时间段,统计每个时间段的短信数量,得到如图4所示的垃圾短信随时间的分布图。从图4可以看出,从第一天晚上20:00到第二天8:00,是垃圾短信发送最少的几个时间段。从 8:00-20:00,垃圾短信的数量都比较多,尤其在 8:00-12:00与16:00-20:00,垃圾短信的数量最多。这也比较符合人们作息的实际情况。
Fig. 4 The temporal distribution of spam messages

图4 垃圾短信时间分布图

4.2 非负矩阵分解结果

非负矩阵分解结果的时间分量如图5所示,其中,横轴表示时间,纵轴表示对应时间的概率p,对应的空间分量如图6所示。从时间分量看,r=3时可以将一天分出3个不同的时间段,分别对应工作、傍晚、夜间模式。从不同时间分量分析对应的空间分量的分布情况:T2对应的S2,是工作模式(6:00- 16:00)下对应的垃圾短信分布情况,可以看出此时垃圾短信是沿着路网分布的,四环路是分布密度最高的区域,在北京-拉萨高速公路、京通快速公路、北京-塘沽公路、京开高速等公路均分布较多。因东城区与朝阳区西靠近北京商务中心区,人流量较大,这些区域的垃圾短信密度最高;T1对应的S1,表示的是傍晚模式(16:00-20:00)下的分布情况,与之前的分布相比,短信分布更加集中,沿着四环路的内部密度更高,而外部沿着路网的分布更少,即呈现向内收缩的趋势。T3对应的S3,表示的是夜间模式(20:00-24:00, 0:00-2:00)下的短信分布情况,垃圾短信数量明显下降,主要分布在朝阳区西以及四环路附近区域。
Fig. 5 The temporal component of NMF

图5 非负矩阵分解时间分量

Fig. 6 The spatial component of NMF

图6 非负矩阵分解空间分量

4.3 分类型伪基站时空规律

Fig. 7 The proportion of spam messages by type

图7 垃圾短信分类类型及比例分布

Fig. 8 The spatial distribution of spam messages by type

图8 不同类型垃圾短信空间分布

Fig. 9 The land use map of Beijing within sixth ring

图9 北京六环内土地利用图

Fig. 10 The spam message statistics by types of land use

图10 各土地利用类型垃圾短信统计

Fig. 11 The sending area statistics by types of spam messages

图11 各类型垃圾短信发送地区统计

Fig. 12 The temporal distribution of spam messages by type

图12 不同类型短信随时间分布

对比图5所示的非负矩阵分解时间分量与图12 所示的不同类型短信随时间分布图,可以发现,T1、T2主要由假证假发票类贡献而来,假证假发票类的两个峰值8:00-10:00和18:00-20:00与T1、T2对应,在这段时间,其他类型短信的数量很少(含有部分的欺诈类);同理,可以看出T3主要由色情服务类贡献而来。

5 结论与讨论

研究发现,伪基站在空间上主要沿着路网发送垃圾短信,且越靠近北京中心城区,伪基站分布越密集。从时间上看,垃圾短信主要集中在白天 8:00-20:00发送,晚上发送量较少。从空间上看,伪基站每天随着时间的推移沿着路网逐渐向内收缩;从不同类型垃圾短信来看,假证假发票类、欺诈类、色情服务类、普通广告类、违禁物品买卖类以及骚扰类这六类垃圾短信的时空特征均不相同。但是在空间上都偏向于在四环内的交通设施与住宅区发送,时间上则主要分布在每天的0:00-18:00。在这两种用地类型中,欺诈类与假证假发票类垃圾短信占最大的比例,色情服务也占较大的一部分。在政府机构,垃圾短信的发送数量是最少的,一定程度上说明伪基站更加惧怕在此类型的用地发送垃圾短信。从分类结果与非负矩阵分解结果结合来看,得到的非负矩阵的曲线T1、T2主要是假证假发票类,S1、S2可以看作主要是假证假发票类的分布。T3主要是色情服务类,S3可以看作主要是色情服务类的分布。了解每种类型的垃圾短信时空规律后,有关部门可以有针对性的制定政策从源头上打击发送某种垃圾短信的行为。

