

  • 方志祥 , 1, 2, * ,
  • 于冲 1 ,
  • 张韬 3 ,
  • 冯明翔 1 ,
  • 倪雅倩 1
  • 1. 武汉大学 测绘遥感信息工程国家重点实验室,武汉 430079
  • 2. 地球空间信息技术协同创新中心,武汉 430079
  • 3. 中国移动通信集团湖北有限公司业务支撑中心,武汉 518055


收稿日期: 2017-03-23

  要求修回日期: 2017-06-23

  网络出版日期: 2017-08-20





A mixed Markov Method to Predict the Surfing Time Period of Mobile Phone Users

  • FANG Zhixiang , 1, 2, * ,
  • YU Chong 1 ,
  • ZHANG Tao 3 ,
  • FENG Mingxiang 1 ,
  • NI Yaqian 1
  • 1. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China
  • 2. Collaborative Innovation Center of Geospatial Technology, Wuhan 430079, China
  • 3. Business Support Center, Hubei Mobile, Wuhan 430040, China
*Corresponding author: FANG Zhixiang, E-mail:

Received date: 2017-03-23

  Request revised date: 2017-06-23

  Online published: 2017-08-20


手机用户上网时段研究与预测对手机用户行为与模式分析、网络服务内容设计、网络黏性与心理、移动互联商业智能等具有重要意义。本文结合Markov模型和关联规则模型,提出一种手机用户上网时段的混合Markov预测方法——Lift-Markov(LM)方法,并采用中国某城市4G手机用户流量上网产生的流量收费数据进行实验验证与分析。研究发现:该实验区域37.66%的手机用户个体存在明显的以天为周期的周期性特性;本文所提出的LM方法在10、20、30、40、50、60 min间隔时的平均预测准确率都优于Markov模型和Mostvalue模型,其中在60 min间隔时能达到79.75%的平均准确率,优于Markov模型(74.64%)和Mostvalue模型(64.44%);LM方法的预测准确率分布相比于其他2种模型都要窄,而且密度分布峰值最高、标准差最小,说明本文方法对人群的上网时段预测准确率较为集中与稳定,具有较好的预测性能。


方志祥 , 于冲 , 张韬 , 冯明翔 , 倪雅倩 . 手机用户上网时段的混合Markov预测方法[J]. 地球信息科学学报, 2017 , 19(8) : 1019 -1025 . DOI: 10.3724/SP.J.1047.2017.01019


In recent years, big data of mobile phones has become a great data source for researches and applications. It has been widely used to understand the human behaviors in cyberspace space. Researching and forecasting the surfing time of mobile phone users have great significance for analyzing mobile phone users’ behaviors and patterns, designing network service, and understanding the relationship of surfing behaviors, website stickiness, users’ psychology, mobile Internet intelligent business. We proposed a mixed Markov method (Lift-Markov method. LM), combining the traditional Markov model and association rule model, to predict the surfing time period of mobile phone users. A dataset of surfing records of 4G mobile phone users collected by Hubei Mobile within twenty days is used to demonstrate the capability of predicting web-surfing time periods of users. LM method has a better prediction accuracy when it is compared with the traditional Markov model and the Most-value model. There are two main findings here: the first one is that there is obvious periodicity in surfing time periods of 37.66% mobile phone users in experimental area by Fourier transformation and periodic tests, which could help us understand the surfing characteristics of users. Also, the second one is that the average accuracy of our proposed method is better than the Markov model and the Most-value model in 10 minutes, 20 minutes, 30 minutes, 40 minutes, 50 minutes and 60 minutes intervals. LM method can perform an average accuracy of 79.75% in predicting web-surfing time on a scale of 60 minutes, better than the Markov model (74.64%) and the Most-value model (64.44%). Compared with the other two models, the accuracy distribution of the LM method is narrower, the peak value is higher, and the standard deviation is smaller, which means that the prediction accuracy of the LM method is more concentrated and stable, with good predictive performance.

1 引言

手机位置大数据为手机用户上网行为的分析与预测提供了良好的机遇[15-17],如其数据采样的群体较大、现实与网络空间信息覆盖较全,但对用户个体的属性与行为特性信息仍较为缺乏。目前的手机上网行为研究基本可以包括上网时长、偏好模式、行为预测等方面。在手机上网时长方面,常楠等[18]从不同手机型号角度,分析手机上网时长的分布规律,并用核密度分布与高斯混合模型等理论对手机上网时长进行建模和分析,发现其具有双峰现象。在偏好模式方面,一些研究把上网时间行为偏好总结为4种模式,如午夜、工作时间、傍晚、晚间休息[19],且用户上网偏好存在每天上网次数10~200次,流量1~1000 M的显著区别[20]。在行为预测方面,Hong Cao等认为时间和位置是利用手机数据分析与预测人们在网络空间行为(如APP的使用)的重要特征[21],能帮助人们更好地理解用户的偏好模式,更准确地预测用户与手机的交互行为等;Halvey M等利用时间信息建立时序Markov模型,对移动终端点击行为进行分析与预测,达到60%的准确率[22]。由此可知,目前的研究涉及到面向手机用户上网时段的预测研究相对较少,而这是手机用户上网行为挖掘与应用的基础。本文针对面向手机用户上网行为分析与预测这一研究与应用需求,开展上网时段的预测方法研究,依据历史时段与相邻时段的概率关联规则,建立时段预测的概率提升(Lift)策略,将其与Markov预测理论相结合形成一种混合Markov预测方法,并结合中国某城市的手机上网数据进行实验验证与分析,评价其预测的准确率。

2 手机用户上网时段特征分析

2.1 手机上网活动的时段差异

本文采用中国某城市20 d的手机上网记录数据(2015年8月10日至2015年8月29日)开展研究,该数据集包含了12.3万人的手机4G流量收费数据,记录了用户的一些上网信息,包括该上网的ID、时间、移动通信基站、上网APP或页面URL、发生的流量等,该数据经过脱敏处理。本文只针对不同时段手机用户是否上网进行判断与预测,不涉及隐私信息部分的内容。
以1 h间隔将每天从0时开始划分为24个时间段,根据数据判断手机用户上网记录所发生的时段并做归整,从而统计得到每天每时段具有上网记录的人数时序图。由图1(a)可以发现:① 同一天不同时段手机用户群体的上网人数存在较大的差异,波峰与波谷的上网用户人数相差大约8000人;② 手机用户群体的上网时段存在明显以天的周期性特征,偶有异常(如8月13日);③ 每天的整体波动趋势几乎一样,都表现出双波峰的形态特征,即在12时和18时出现上网人数高峰。
为了探究不同时段的上网活动活跃差异,利用Ward最小方差法[23]对20天各时段的人数进行层次聚类,其结果如图1(b)所示,将上网人数分为20个等级,其中越蓝代表上网人数越少,越红表示人数越多。根据聚类结果,可以将24个时刻分为3个类别:① 1-6时为低频活动期,该时间用户大多处于晚上休息的状态;② 9-21时为高频活动期,该时段手机上网用户较多,大多处于工作或活动的状态;③ 7-8时和22-24时为过渡时期,如7-8时段用户群体从低频活动期过渡到高频活动期,22-24时由高频活动期过渡到低频活动期。本文为这3个时段分别建立上网时段状态转移矩阵,以提高预测准确率。
Fig. 1 The temporal features of surfing by smart phone users

图1 用户手机上网时段分布特征

2.2 用户个体的上网时段周期性检验

图1(a)呈现出了群体的周期性规律,检验个体用户是否也存在上网时段的周期性。将单个手机用户每个时段的上网状态(0和1)构建成一个长度为n的序列,这里的状态0表示在该时段内没有上网,状态1为存在上网行为,n是数据集的时段个数。本文把用户上网状态的时间序列数据看作离散信号,利用傅里叶变换原理[24]来分析用户上网状态序列的周期性,将有限的上网状态序列 x 1 , x 2 , x 3 , , x n 表示为正交三角函数组的线性组合,即:
x t = k = 0 n 2 [ a k cos 2 πkt n + b k sin 2 πkt n ] , t = 1,2 , n (1)
a k = 1 n t = 1 n x t cos 2 πkt n , k = 0 , k = n 2 2 n t = 1 n x t cos 2 πkt n , k = 1,2 , 3 , , n - 1 2 (2)
b k = 2 n t = 1 n x t sin 2 πkt n , k = 1,2 , , n - 1 2 (3)
ω k = 2 πkt n (4)
式中:akbk为傅里叶系数; ω k 为傅里叶频率。根据式(5)生成用户上网状态的周期图[25],如果原序列是具有周期的,则在某些周期频率则会出现较大峰值。
I ω k = n a 0 2 , k = 0 n 2 a k 2 + b k 2 , k = 1,2 , , n - 1 2 n a n 2 2 , 当为偶数的 , k = n 2 (5)
g = Max I ω k k = 1 n / 2 ω k (6)
根据该周期性检验的一般方法,如果某个频率上的g值大于显著性检验Fisher检验表中显著参数为0.05的周期分量g0.05,则认为原序列数据存在 T = n k 的周期,否则认为其在频率 k n 处不存在周期分量。
对数据集中12.3万人的手机上网状态进行周期性检验,其结果表明:手机用户群体具有以天为周期的周期性规律,其中53 367人通过检验具有周期性,占到总人数的43.23%,46 494人存在以天为周期,占总人数的37.66%,在通过周期性检验人数中占87.12%,并且具有以天为周期的这些用户产生了85.68%上网记录。

3 手机上网时段的混合Markov预测方法

3.1 基本思想

Fig. 2 The image of users′ surfing status

图2 用户上网状态示意图

3.2 Lift-Markov混合预测方法

(1)构建用户Ui的上网状态序列。按照一定的时间间隔(如10、20、……,60 min等),生成用户每天的上网状态序列,共得到n天的序列,用 E 来表示这些序列的集合。
(2)计算低频、高频和过渡等时期内t时段到t+1时段用户Ui的3个状态转移概率矩阵Pt,并根据t时段上网状态,确定状态分布St。假设用户的状态集为S={i,j…},用户上网状态变化满足式(4),其中 x t S    t = 1,2 , 3 ,通过式(8)和式(7)计算t时段到t+1时段的状态转移矩阵中的概率。
P X t + 1 = x t + 1 | X t = x t X 1 = x 1 = P X t + 1 = x t + 1 | X t = x t (7)
P t = P ij ,( 0 P ij 1 (8)
其中, P ij = P X t + 1 = i | X t = j i , j S 根据贝叶斯条件概率公式得到:
P ij = P i j P j (9)
式中:Pj是集合Et时段所处时期内用户处于状态j的概率; P i j 表示集合E中所处时期内用户t时段所于状态jt+1时段处于状态i的概率。
C X t + 1 r = j X t + 1 r + 1 = i = Sup X t + 1 r = j , X t + 1 r + 1 = i Sup X t + 1 r = j (10)
L X t + 1 r = j X t + 1 r + 1 = i = C X t + 1 r = j X t + 1 r + 1 = i Sup X t + 1 r + 1 = i (11)
式中: r 1,2 , 3 , , n - 1 , i , j S ; Sup X t + 1 r = j 表示 第rt+1时段处于状态j的概率; Sup X t + 1 r + 1 = i 表示第r+1天t+1时段处于状态i的概率; Sup X t + 1 r = j , X t + 1 r + 1 = i 表示第rt+1时段处于状态j且第r+1天t+1时段处于状态i的概率; C X t + 1 r = j X t + 1 r + 1 = i 表示由第rt+1时段处于状态j到第r+1天t+1时段处于状态i的置信度; L X t + 1 r = j X t + 1 r + 1 = i 表示由第rt+1时段处于状态j到第r+1天t+1时段处于状态i相对于一般情况下的概率。
S t + 1 = S t P t L X t + 1 r = j X t + 1 r + 1 = i , Sup X t + 1 r = j Δs C X t + 1 r = j X t + 1 r + 1 = i Δc S t P t , Sup X t + 1 r = j < Δs C X t + 1 r = j X t + 1 r + 1 = i < Δc (12)
式中: Δs Δc 分别指支持度和置信度的阈值。

4 实验与分析

4.1 实验数据集选取

从12.3万人手机4 G流量收费数据中,针对具有以天为周期的46 494个手机用户的记录,根据上网状态进行过滤,选取出每天都有手机上网记录的2821个手机用户数据作为实验数据集,并分别以不同的时间间隔(10、20、30、40、50、60 min),得到由状态0和1组成的用户上网状态序列。将前10 d的数据划分为训练集,后10 d的数据划分为测试集。每测试一天将该天的测试数据加入到训练数据中,继续进行下一天的测试实验。
P A i = C i PR C i P (13)

4.2 参数选取

在LM混合预测方法中设置的最小置信度 Δc 和最小支持度 Δs 阈值直接关系到方法的预测效果,如果阈值太低,可能会使用不可靠的规则,并且如果阈值太高,则导致使用的规则较少,使预测的准确率降低。本文以预测准确率最优为目标,把支持度和置信度都从0.3到0.7的范围内以步长0.1进行参数组合的探索分析,如表1所示。其探索结果是:当置信度和支持度的阈值分别设置为0.4和0.5时,其准确率最大79.71%。因此,本文选取 Δc = 0.4, Δs = 0.5 作为方法参数。
Tab. 1 Accuracy of LM method in different threshold values

表1 LM方法在不同阈值下的准确率

最小支持度阈值Δs 最小置信度阈值Δc
0.3 0.4 0.5 0.6 0.7

4.3 不同方法对比结果

本文将LM方法同用户状态预测的2种常用方法Markov模型和最频繁状态(Mostvalue)进行对比,其中Markov模型是在行为预测等方面应用较广的[3,21-22],且具有较好预测效果的预测方法;Mostvalue模型(MostFrequent)将下一时刻出现最频繁的行为作为预测值,经常将其视为预测模型中的基准[3],用来对比模型预测能力。3种方法都采取同样的测试和预测实验策略,即每测试一天将该天的测试数据加入到训练数据中,继续进行下一天的测试实验。以60 min为时间间隔,训练并预测,得到如图3所示的3个方法预测准确率。由图3可知,LM方法取得的预测准确率最高,平均准确率达到79.75%。随着预测天数的增加,训练数据也随之增加,此时的LM方法预测准确率从最低78.16%提升到最高82.67%。Markov模型和Mostvalue模型的平均预测准确率分别为74.64%和64.44%,但是随着训练数据集的增大Markov模型的准确率提高了7.22%,说明这种模型对训练集的要求较高;Mostvalue模型的准确率在59.25%到68.18%区间来回波动,其预测准确率稳定性较差。
Fig. 3 Comparison results of three methods for 10 testing days

图3 3种方法在10 天内的准确率对比结果

Fig. 4 Accuracy distribution of three methods

图4 3种方法的预测准率分布

Fig. 5 Increased accuracy of the proposed method in three kinds of time periods, such as high-frequency, low-frequency and transition periods.

图5 高频时期、低频时期和过渡时期时本文方法的准确率提升幅度

4.4 不同时间间隔时的预测准确率比较

图6给出了不同时间间隔(如10、20、30、40、50和60 min)时3种方法的预测结果对比结果。实验发现:① 当间隔分钟数为10 min时,3个方法的平均准确率都处于最大的情形,其中LM方法的平均准确率最高达到92.17%,优于Markov模型(89.31%)和Mostvalue模型(76.16%);② 当时间间隔增大,3种方法的预测准确率都呈现出降低的趋势。当时间间隔从10 min增加到60 min时,LM方法平均预测准确率降低了12.39%;Markov模型和Mostvalue模型的平均预测准确率分别降低了14.67%和11.72%;而本文方法的下降幅度处于中间水平,说明该方法具有较好的预测准确性能。
Fig. 6 Comparison results of average prediction correction in different intervals

图6 不同间隔时间时3种方法的平均预测准确率对比

5 结语

本文针对手机用户上网时段的预测进行了研究,分析了上网时段的周期性检验结果,提出一种Lift-Markov混合的上网时段预测方法。通过对实验数据的检验与预测分析,得出如下结论:① 37.66%的手机用户的上网时段具有以天为周期的规律;② 本文所提出的LM方法在10 min间隔尺度下能达到92.17%的平均准确率,在60 min的间隔尺度下能达到79.75%平均准确率,均优于Markov模型和Mostvalue模型,而且本文方法的预测准确率波动相对较小;③ 相比Markov模型和Mostvalue模型,LM方法在高频活动时期的平均预测准确率仍分别高出7.23%和18.72%,说明所提出的方法具有较好的预测性能。

