地球信息科学学报 ›› 2018, Vol. 20 ›› Issue (7): 978-987.doi: 10.12082/dqxxkx.2018.170430
汪伟(), 陶海燕*(
), 卓莉, 李敏, 李旭亮, 汪珂丽, 史清丽
收稿日期:
2017-09-17
修回日期:
2018-01-22
出版日期:
2018-07-20
发布日期:
2018-07-13
作者简介:
作者简介:汪 伟(1996-),男,安徽安庆人,本科生,主要从事时空数据挖掘。E-mail:
基金资助:
WANG Wei(), TAO Haiyan*(
), ZHUO Li, LI Min, LI Xuliang, WANG Keli, SHI Qingli
Received:
2017-09-17
Revised:
2018-01-22
Online:
2018-07-20
Published:
2018-07-13
Contact:
TAO Haiyan
Supported by:
摘要:
随着公众移动通信的快速发展,伪基站的泛滥不仅破坏正常电信秩序,危害公共安全,而且严重损害群众财产权益,侵犯公民个人隐私,已成为社会一大公害。如何从垃圾短信大数据中挖掘出伪基站活动的时空规律,寻找有效的防控方案,从源头上进行打击和治理成为管理部门和研究者共同关注的焦点。本文基于北京市垃圾短信数据,利用非负矩阵分解的方法分析伪基站的时空分布规律;并利用TF-IDF构建垃圾短信分类模型,对垃圾短信进行分类,结合土地利用数据,分析伪基站在发送不同类型垃圾短信时的时空分布规律。结果显示:北京市垃圾短信多分布于路网和中心城区;白天垃圾短信数量远远多于晚上;垃圾短信的分布随时间的推移沿着路网逐渐向内收缩;发送不同类型垃圾短信的伪基站的时空分布具有一定的差异;通过非负矩阵分解得到的结果,与垃圾短信分类后得到的结果有很好的匹配。研究表明,非负矩阵分解具有实现上的简便性、分解形式和分解结果上的可解释性等优点,可以有针对性的为有关部门建言打击伪基站的有效方案,对于伪基站违法行为的治理具有一定的意义。
汪伟, 陶海燕, 卓莉, 李敏, 李旭亮, 汪珂丽, 史清丽. 北京主城区伪基站时空规律分析[J]. 地球信息科学学报, 2018, 20(7): 978-987.DOI:10.12082/dqxxkx.2018.170430
WANG Wei,TAO Haiyan,ZHUO Li,LI Min,LI Xuliang,WANG Keli,SHI Qingli. Spatio-temporal Analysis of Pseudo Base Stations in Beijing Downtown[J]. Journal of Geo-information Science, 2018, 20(7): 978-987.DOI:10.12082/dqxxkx.2018.170430
表3
分类结果及精度
分类器 | 指标 | C1 | C2 | C3 | C4 | C5 | C6 | C7 | C8 | C9 | C10 | C11 | 平均 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
RF | p | 0.98 | 0.95 | 0.12 | 1 | 0.98 | 0.99 | 0.98 | 0.5 | 0.97 | 0.98 | 0.91 | 0.85 |
r | 1 | 0.77 | 0.06 | 0.69 | 0.91 | 0.99 | 0.85 | 0.98 | 0.96 | 0.93 | 0.69 | 0.8 | |
F1 | 0.99 | 0.84 | 0.08 | 0.8 | 0.94 | 0.99 | 0.91 | 0.66 | 0.97 | 0.96 | 0.78 | 0.81 | |
KNN | p | 0.99 | 0.9 | 0.58 | 0.83 | 0.99 | 0.98 | 0.96 | 0.16 | 1 | 0.95 | 0.99 | 0.85 |
r | 0.98 | 0.51 | 0.3 | 0.27 | 0.88 | 0.98 | 0.7 | 0.67 | 0.73 | 0.68 | 0.36 | 0.64 | |
F1 | 0.98 | 0.65 | 0.39 | 0.39 | 0.93 | 0.98 | 0.8 | 0.25 | 0.84 | 0.79 | 0.52 | 0.69 | |
KSVM-linear | p | 0.99 | 0.92 | 0.52 | 0.99 | 0.98 | 0.98 | 1 | 0.41 | 0.98 | 0.99 | 0.89 | 0.88 |
r | 1 | 0.83 | 0.3 | 0.73 | 0.91 | 1 | 0.85 | 0.74 | 0.96 | 0.94 | 0.61 | 0.81 | |
F1 | 1 | 0.86 | 0.37 | 0.83 | 0.94 | 0.99 | 0.92 | 0.52 | 0.97 | 0.96 | 0.72 | 0.83 | |
nnet | p | 0.98 | 0.77 | 0.13 | 0.87 | 0.92 | 0.98 | 0.96 | 0.49 | 0.91 | 0.94 | 0.87 | 0.8 |
r | 0.99 | 0.79 | 0.1 | 0.68 | 0.89 | 0.99 | 0.89 | 0.59 | 0.97 | 0.95 | 0.6 | 0.77 | |
F1 | 0.99 | 0.77 | 0.11 | 0.74 | 0.9 | 0.99 | 0.92 | 0.47 | 0.94 | 0.94 | 0.7 | 0.77 |
[1] | 陈焕煜. 使用伪基站群发短信的司法认定[J].人民司法(应用),2016(31):80-83. |
[ Chen H Y.Judicial recognition of sending short messages using pseudo base stations[J]. People's Justice (Application), 2016(31):80-83. ] | |
[2] | Zhao M W, Lin-Zhou X U, Shi Z F, et al. A method for illegal pseudo base station site fast measuring and positioning[J]. Mobile Communications, 2016,40(8):18-21. |
[3] |
李辉,张琦,卢湖川.基于内容的垃圾短信过滤[J].计算机工程,2008,34(12):154-156.
doi: 10.3969/j.issn.1000-3428.2008.12.054 |
[ Li H, Zhang Q, Lu H C.Junk SMS filtering based on context[J]. Computer Engineering, 2008,34(12):154-156. ]
doi: 10.3969/j.issn.1000-3428.2008.12.054 |
|
[4] |
竺吴辉,王美清.基于短信发送模式的垃圾号码过滤算法[J].计算机应用,2012,32(12):3565-3568.
doi: 10.3724/SP.J.1087.2012.03565 |
[ Zhu W H, Wang M Q.Span phone number method based on SMS sumission pattern[J]. Journal of Computer Applications, 2012,32(12):3565-3568. ]
doi: 10.3724/SP.J.1087.2012.03565 |
|
[5] | 邓维维,彭宏.移动环境下的垃圾短信过滤系统的研究[J].计算机应用,2007,27(1):221-224. |
[ Deng W W, Peng H.Research on junk SMS filtering system on mobile environment[J]. Computer Applications, 2007,27(1):221-224. ] | |
[6] |
颜世莹. 基于行为和内容协作分析的垃圾短信过滤系统[J].电信工程技术与标准化,2011,24(9):54-59.
doi: 10.3969/j.issn.1008-5599.2011.09.012 |
[ Xiao Z Y.New applications of IMS network in the future[J]. Telecom Engineering Technics and Standardization, 2011,24(9):54-59. ]
doi: 10.3969/j.issn.1008-5599.2011.09.012 |
|
[7] | 徐英慧,刘梅彦.基于内容的手机端垃圾短信过滤策略研究[J].北京信息科技大学学报(自然科学版),2013,28(1):51-55. |
[ Xu Y H, Liu M Y.Content-based junk short message filtering for mobile phone[J]. Journal of Beijing Information Science and Technology University, 2013,28(1):51-55. ] | |
[8] |
Lee D D, Seung H S.Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999,401(6755):788-91.
doi: 10.1038/44565 pmid: 10548103 |
[9] |
崔艳荣,何彬彬,张瑛,等.非负矩阵分解融合高光谱和多光谱数据[J].遥感技术与应用,2015,30(1):82-91.
doi: 10.11873/j.issn.1004-0323.2015.1.0082 |
[ Cui Y R, He B B, Zhang Y, et al.Fusion of hyperspectral and multispectal data using nonnegative matrix factorization[J]. Remote Sensing Technology and Application, 2015,30(1):82-91. ]
doi: 10.11873/j.issn.1004-0323.2015.1.0082 |
|
[10] |
付仲良,刘进军,李金涛,等.加权端元约束非负矩阵分解的高光谱解混算法[J].测绘地理信息,2016,41(2):58-61.
doi: 10.14188/j.2095-6045.2016.02.014 |
[ Fu Z L, Liu J J, Li J T.Weighted Endmember Constrained non-negative matrix factorization method for hyperspectral unmixing[J]. Journal of Geomatics, 2016,41(2):58-61. ]
doi: 10.14188/j.2095-6045.2016.02.014 |
|
[11] |
Xie J, Douglas P K, Ying N W, et al.Decoding the encoding of functional brain networks: An fMRI classification comparison of non-negative matrix factorization (NMF), independent component analysis (ICA), and sparse coding algorithms[J]. Journal Neurosci Methods, 2017,282:81-94.DOI:10.1016/j.jneumeth.2017.03.008
doi: 10.1016/j.jneumeth.2017.03.008 pmid: 28322859 |
[12] | 曾剑秋,杨光永,董豪.垃圾短信分类治理对策研究[J].北京邮电大学学报(社会科学版),2015,17(6):39-44. |
[ Zeng J Q, Yang G Y, Dong H.Span SMS classification governance strategies[J]. Journal of Beijing University of Posts and Telecommunications (Social Sciences Edition), 2015,17(6):39-44. ] | |
[13] |
李旭青,刘湘南,刘美玲,等.水稻冠层氮素含量光谱反演的随机森林算法及区域应用[J].遥感学报,2014,18(4):923-945.
doi: 10.11834/jrs.20142329 |
[ Li X Q, Liu X N, Liu M L, et al.Random forest algorithm and regional applications of spectral inversion model for estimating canopy concentration in rice[J]. Journal of Remote Sensing, 2014,18(4):923-945. ]
doi: 10.11834/jrs.20142329 |
|
[14] |
Beckschaefer P, Fehrmann L, Harrison R D, et al.Mapping Leaf Area Index in subtropical upland ecosystems using rapideye imagery and the randomforest algorithm[J]. Iforest Biogeosciences & Forestry, 2013,7(1):1-11.
doi: 10.3832/ifor0968-006 |
[15] |
Statnikov A, Wang L, Aliferis C F.A comprehensive comparison of random forests and support vector machines for microarray-based cancer classification[J]. Bmc Bioinformatics, 2008,9(1):1-10.
doi: 10.1186/1471-2105-9-1 pmid: 2265676 |
[16] |
Zhang Y T, Gong L, Wang Y C.An improved TF-IDF approach for text classification[J]. Journal of Zhejiang Universityence A, 2005,6A(1):49-55.
doi: 10.1007/BF02842477 |
[17] | Tu S, Huang M.Mining microblog user interests based on TextRank with TF-IDF factor[J]. Journal of China Universities of Posts & Telecommunications, 2016,23(5):40-46. |
[18] |
周天宁,明冬萍,赵睿.参数优化随机森林算法的土地覆盖分类[J].测绘科学,2017,42(2):88-94.
doi: 10.16251/j.cnki.1009-2307.2017.02.017 |
[ Zhou T N, Ming D P, Zhao R.Land cover classification based on algorithm of parameter optimization randon forests[J]. Science of Surveying and Mapping, 2017,42(2):88-94. ]
doi: 10.16251/j.cnki.1009-2307.2017.02.017 |
|
[19] | 陈凯,刘凯,柳林,等.基于随机森林的元胞自动机城市扩展模拟——以佛山市为例[J].地理科学进展,2015,34(8):937-946. |
[ Chen K, Liu K, Liu L, et al.Urban expansion simulation by random-forest-based cellular automata: a case study of Foshan City[J]. Progress in Geography, 2015,34(8):937-946. ] | |
[20] |
黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864.
doi: 10.3724/SP.J.1016.2011.00856 |
[ Huang C H, Yin J, Hou F.A Text similarity measurement combining word semantic information with TF-IDF Method[J]. Chinese Journal of Computers, 2011,34(5):856-864. ]
doi: 10.3724/SP.J.1016.2011.00856 |
|
[21] |
Long Y, Liu X.Automated identification and characterization of parcels (AICP) with OpenStreetMap and Points of Interest[J]. Environment & Planning B, 2013,43(2):498-510.
doi: 10.1177/0265813515604767 |
[1] | 廖周伟, 关燕宁, 郭杉, 蔡丹路, 于敏, 姚武韬, 张春燕, 邓锐. 基于网格的街区尺度城市绿度度量方法[J]. 地球信息科学学报, 2022, 24(8): 1475-1487. |
[2] | 黄洁, 石雯茜, 陈娱. 居民出行视角下的北京市双枢纽机场可达性研究[J]. 地球信息科学学报, 2022, 24(5): 914-924. |
[3] | 谭德明, 李延欢. 可持续TOD建设视角下的轨道站点客流潜力模型构建[J]. 地球信息科学学报, 2022, 24(12): 2356-2372. |
[4] | 史雨飞, 陶海燕, 卓莉. 基于零膨胀贝叶斯时空建模的精细尺度伪基站垃圾短信分析方法[J]. 地球信息科学学报, 2022, 24(11): 2089-2101. |
[5] | 赵桐, 李泽峰, 宋柳依, 熊美成, 廖一兰, 裴韬. 基于微博大数据的北京市流动人口情绪与职住分布的关系研究[J]. 地球信息科学学报, 2022, 24(10): 1898-1910. |
[6] | 甄卓, 康朝贵. 从多年份出租车出行分布数据中探测城市完备功能子区域的方法研究[J]. 地球信息科学学报, 2022, 24(10): 1982-1992. |
[7] | 李慧香, 潘云, 宫辉力, 孙颖. 机器学习方法在预测泉水潜在出露位置中的应用[J]. 地球信息科学学报, 2021, 23(6): 1028-1039. |
[8] | 施海霞, 韦玉春, 徐晗泽宇, 周爽, 程琪. 高分遥感图像相对辐射校正中的伪不变地物自动提取和优化选择[J]. 地球信息科学学报, 2021, 23(5): 903-917. |
[9] | 赵鹏军, 曹毓书. 基于多源地理大数据与机器学习的地铁乘客出行目的识别方法[J]. 地球信息科学学报, 2020, 22(9): 1753-1765. |
[10] | 张亚, 刘纪平, 周亮, 王勇, 李鹏飞. 基于DBSCAN算法的北京市顺丰快递服务设施集群识别与空间特征分析[J]. 地球信息科学学报, 2020, 22(8): 1630-1641. |
[11] | 赵韶雅, 杨星斗, 戴特奇, 张超. 基于刷卡数据的公共汽车客流网络复杂性日内变化研究[J]. 地球信息科学学报, 2020, 22(6): 1254-1267. |
[12] | 湛东升, 谢春鑫, 张文忠, 丁亮, 许婧雪, 甄茂成. 基于累计机会可达性的北京城市公共服务设施复合功能识别[J]. 地球信息科学学报, 2020, 22(6): 1320-1329. |
[13] | 王姣娥, 杜方叶, 靳海涛, 刘瑜. 基于交通出行链的就医活动识别理论框架与方法体系[J]. 地球信息科学学报, 2020, 22(4): 805-815. |
[14] | 孙杰, 毛智慧, 王乐, 邓磊. 居住区典型地物热环境的日变化及其相互影响分析[J]. 地球信息科学学报, 2020, 22(2): 279-289. |
[15] | 林金煌, 陈文惠, 张岸. 2019年北京市PM2.5人群暴露剂量特征分析[J]. 地球信息科学学报, 2020, 22(12): 2348-2357. |
|