Orginal Article

A Study on the User Behavior of Geoscience Data Sharing Based on Web Usage Mining

  • WANG Mo 1, 2 ,
  • WANG Juanle , 1, 3, *
  • 1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
*Corresponding author: WANG Juanle, E-mail:

Received date: 2015-11-06

  Request revised date: 2016-03-16

  Online published: 2016-09-27


《地球信息科学学报》编辑部 所有


Understanding the user behavior of science data sharing is a key step to implement effective and accurate service for science data sharing. This study aims to explore the user behavior of science data sharing using spatial data mining and Web usage mining techniques for the National Earth System Science Data Sharing Platform. At the stage of data preprocessing, procedures of user identification, session identification and user location identification were performed. Spatial hotspot analysis was conducted to analyze the user pageviews, sessions, and dataset visits to explore the geographical variance of user behaviors using the Getis-Ord Gi* method. FP-growth was taken to be the algorithm for mining association rules, and was performed for analyzing data visits and data downloads. Data mining results show that: (1) the user distribution of data sharing platform does not show significant correlation with the overall university population distribution in China, but shows a significant positive correlation with the population of research-oriented universities; (2) the hotspot analysis shows that regions of hotspots were clustering in Beijing, Tianjin, and northern Hebei Province for all three perspectives, whereas the cold spots geographically scattered to a greater extent, e.g. the southern coastal provinces, Henan Province, Shandong Province, Sichuan Province, etc.; (3) the association rules mining reveals a number of frequently visited item sets and rules from the valuable user pageviews. The frequently visited item sets for data downloads were well coincided with the frequently visited data. However, no conspicuous rules occurred in data downloads. Results of the spatial hotspot analysis and association rules mining detected the geographical variance of users’ interests in data and discovered the usage patterns for the frequently visited data, which can be used for designing the personalized recommendation. This study provides a method for mining web user behaviors with the combination of Web usage mining and spatial data mining techniques, which can also be applied to the data mining of websites in other fields.

Cite this article

WANG Mo , WANG Juanle . A Study on the User Behavior of Geoscience Data Sharing Based on Web Usage Mining[J]. Journal of Geo-information Science, 2016 , 18(9) : 1174 -1183 . DOI: 10.3724/SP.J.1047.2016.01174

1 引言


2 数据与方法

2.1 数据

2.1.1 Web服务器日志数据
本文获取了国家地球系统科学数据共享平台2014年的Web服务器日志记录文件以及数据库日志文件。Web服务器日志格式为Apache的NCSA ECLF格式(图1)。全年日志记录共11 062 608条。
Fig.1 An example of Web server log entries

图1 Web服务器日志数据示例

Tab.1 Contents of a Web server log entry

表1 Web服务器日志数据内容

类别 详情
时间 05/Aug/2014:10:26:42 +0800
方法 GET
URL /extra/res/libs/kendo/extensions/kendo.extension.ui.js
协议 HTTP/1.1
状态 200
文件大小 15072
客户端 Mozilla/5.0 (Windows NT 6.3; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0

2.1.2 注册用户服务记录

注册用户服务记录数据记录了注册用户对共享数据的在线下载、离线申请等活动。本文获取了2014年的国家地球系统科学数据共享平台网站注册用户数据下载日志。该日志共有170 809条记录,包含了用户名、IP地址、下载或申请的数据名称等信息。
2.1.3 用户注册信息


2.2 研究方法

2.2.1 数据预处理
① 清理无用的网络请求记录,如对图像文件、声音文件、样式文件的请求。该过程通过检查URL项的后缀名来实现。所有包含“.jpg”、“.gif”、“.map”、“.mp3”、“.css”等后缀名的请求都应被清理。
② 对网络爬虫请求的清理。本文采用3种启发式方法找到爬虫请求日志项:被请求页面为“robots.txt”的日志项;若用户主机识别信息与已知的网络爬虫(百度、谷歌、搜狗等)用户代理匹配,则使用正则表达式识别常见搜索引擎的爬虫请求;通过计算浏览速度判断是否是爬虫请求项。方法是“浏览速度BS=已查看页面数/会话时间”。如果 BS 超过一个阈值 t ,并且一个会话内访问页面数超过一个阈值 n ,就认为该日志项为爬虫请求项。本研究取阈值 t 为2秒/页, n 为100。
③ 错误请求项的清洗。清洗错误请求的方法利用请求状态码来完成。所有日志项状态码小于200或大于400的都是不成功的请求,应被清理。
① 出现一个新的IP地址,假定产生一个新的用户。
② 在步骤1辨别出的用户中,如果同一IP地址对应的浏览器或者操作系统不同,则产生新的用户。
③ 在步骤2辨别出的用户中,如果某一用户请求的URL不能通过任何其在30 min内访问过的网页访问,则产生新的用户。
会话识别是将用户对网站的点击流分割为访问单元的过程。一个会话可定义为一个用户在某段时间对网站进行一次访问所浏览的页面序列。最常用的方法是时间窗口法。设定一个时间阈值法来确定用户会话(如30 min),如果某次用户访问时间超过这个阈值,就开始一个新的会话。Berendt等[25]通过比较研究发现基于来源页面(referrer)启发式算法(Referrer-based heuristic algorithm)有较好的识别率。该方法在一定时间窗口的基础上考虑来源页面是否出现在最近的访问记录中,可视为时间窗口法的改进方法。本文采用该方法进行会话识别。
Web服务器日志数据在经过预处理步骤后,得到一个有n个页面访问的集合, P = p 1 , p 2 , , p n ,以及一个包含m个用户会话的集合,其中T中的 t i P的子集。基于此,可以将每个用户会话t表示为一个长度为l的有序对序列,如式(1)所示。
t = p 1 t , w p 1 t , p 2 t , w p 2 t , , p l t , w p l t (1)
式中: p i t = p j ( j = 1,2 , , n ) ; w p i t 是会话t中的页面访问 p i t 的权重[27]。在本文中,权重取二值型。1表示用户对某一页面的访问,0表示用户对该页面未被访问。基于上述所给出的用户会话t,可以将每个用户的会话表示成一个n维空间的页面访问向量tv,可表示为式(2)。
tv = ( w p 1 t , w p 2 t , , w p n t ) (2)
p j 在会话t中出现,则 w p i t =1, ( j = 1,2 , , n ) ,否则 w p i t =0。所有的用户会话集合可以表示为一个 m × n 的用户页面访问矩阵,如图2所示。
Fig.2 User pageview matrix (in this case, A, B and C represent different webpages)

图2 页面访问会话矩阵示例(A、B、C等表示不同的页面)

图2所示的用户页面访问矩阵能满足普通的用户行为模式挖掘,但若需进行用户行为空间模式挖掘,还需在矩阵中增加用户的位置信息。对于每一个用户会话,一个空间信息增强型的会话向量 st 可表示为式(3)。
st = ( x , y , tv ) (3)
式中:xy表示用户的地理坐标信息;tv为用户页面访问向量。最终的页面访问向量模型可在三维空间里的多维向量,如图3所示。经过上述的数据预处理步骤,将最终的用户行为记录数据储存在MySQL数据库和ArcGIS Geodatabase数据库,以分别满足不同的数据挖掘任务。
Fig.3 An example of a georeferenced user transaction data model, the blue line represents the transaction vector of a user located at 30°E, 45°N

图3 空间信息增强型用户会话向量模型

2.2.2 用户行为空间“热点”分析
空间“热点”分析可用来识别地理空间上有统计显著性的“热点”和“冷点”地区。本文在数据预处理后将用户行为记录储存于空间数据库,视每个用户为一个空间要素,其行为统计数据为其空间属性,采用Getis-Ord Gi*[28]指数方法分别对用户对网站网页的访问次数、产生的会话次数、以及对数据的访问个数进行空间“热点”分析。Getis-Ord Gi*统计也别称为“热点”分析,是General G统计的一种改进方法[29]。该空间聚类分析在流行病学[30]、降水[31]、农业分析[32]等领域得到广泛应用。Getis-Ord Gi*的计算公式可表示为式(4)。
G i * = j = 1 n w i , j - X ¯ j = 1 n w i , j S n j = 1 n w i , j 2 - j = 1 n w i , j 2 n - 1 (4)
式中: w i , j 是要素 i j 之间的空间权重; n 为要素总数。 X ̅ S 的计算方法分别如式(5)和(6)所示。
X ¯ = j = 1 n x j n (5)
S = j = 1 n x j 2 n - X ¯ 2 (6)
式中: x j 是空间要素 j 的属性值。
空间权重 w i , j 采用反距离,即空间距离的倒数。通过式(4)计算所得Gi*值即为每个空间要素 z 的得分。 z 得分越高,则高值(“热点”)的聚类越显著。而统计学显著的负 z 值得分越低,低值(“冷点”)聚类越显著。该分析的结果中需考虑的另一个值是 p 。该值表示所发现的模式是由某一随机过程产生的概率。 p 值本身为正态分布,并与分析结果产生的z值关联。最终可得到一定 p 值范围下的 z 值范围。最终所得的模式的置信度为 ( 1 - p ) 。本文只考虑置信度不低于90%的“热点”或“冷点”模式。
2.2.3 关联规则挖掘
关联规则是最常用的用户行为模式挖掘项目,主要用来发现用户的页面浏览之间的潜在关系。一个典型的关联规则可以表述为式(7)。表示用户在一定的支持度(support)和置信度(confidence)下,访问了 A , B 也会访问 C
A , B C ( support , confidence ) (7)
(1)扫描事务集,找出所有高频项 F ,并用 F 中的项,按支持度计数降序生成高频项头表。

3 结果与分析

3.1 预处理结果

原始的Web服务器日志数据为11 062 608条。经过数据清洗,获得的有效日志记录为2 845 150条,约为原始数据的四分之一;识别的会话数目为448 495;独立用户为76 111,其中可识别用户位置的个数为76 069。详细信息如表2所示。
Tab.2 Statistics of data preprocessing results

表2 数据预处理结果统计

原始日志记录 清洗后记录 用户数 会话数 识别位置
11 062 608 2 845 150 76 111 448 495 76 069
p n = 1.141 × n - 1.966 (8)
拟合方程的确定系数(R2)为0.98, p < 0.001 ,拟合在99%的显著性水平下显著。该结果表明该方程的拟合度极高,用户会话长度概率分布基本符合幂律分布规律,数据预处理的结果可信。
Fig.4 Distribution of the session length probability

图4 用户会话长度概率分布拟合曲线

3.2 用户行为空间分析

3.2.1 用户空间分布
本文识别的国内用户总数为76 111人,成功定位位置的用户为76 069人。用户在全国各省市均有分布,其中用户最多的三个省(市)为北京市(16 432人)、山东省(6424人)、江苏省(4357人)。各省市用户分布如图5所示,图中所示的黑点表示用户的聚集地。聚集点不同的大小表示不同的用户聚集规模。而各省用户数量以橙色的深浅表示,色彩越深表示用户数量越多。
Fig.5 User distribution in China

图5 国内用户数量分布

3.2.2 空间“热点”分析
Fig.6 Hotspot analysis of user pageviews

图6 用户网页浏览数“热点”分析

Fig.7 Hotspot analysis of user sessions

图7 用户会话数“热点”分析

Fig.8 Hotspot analysis of datasets visits

图8 用户数据集浏览数“热点”分析

3.3 关联规则挖掘

3.3.1 数据访问关联规则
Tab.3 Frequent itemsets for datasets visits of all users (S≥10%)

表3 所有用户数据访问高频项目集(S≥10%)

项目集 支持度(S)/(%) 内容描述
100101-22 27.1 中国1:400万地貌图(形态)
100101-2 12.9 中国1:400万资源环境数据(中国地形,1988年)
100101-18 11.6 全国土地利用数据库(分省:1980s,1987-2001年;分县:1980s)
100101-38 10.8 全国1 km网格人口数据(1995,2000, 2003,2005和2010年)
100101-66 10.6 中国1:400万全要素基础数据 (1970s-1990s)
Tab.4 Frequent itemseds for datasets visits ofactive users (S≥25%)

表4 活跃用户数据访问高频项目集(S≥25%)

项目集 支持度(S)/(%) 内容描述
100101-18 34.1 全国土地利用数据库(分省:1980s,1987-2001年;分县:1980s)
100101-38 32.4 全国1 km网格人口数据(1995、2000、2003、2005和2010年)
100101-2 30.7 中国1:400万资源环境数据(中国地形,1988年)
100101-3 29.6 1996年浙江省1:25万数字化土地利用现状图
100101-30 29.2 全国多年平均降雨分布图(1 km)(建站到1996年)
100101-38、100101-18 28.0 全国1 km网络人口数据、全国土地利用数据库
100101-18、100101-2 27.5 全国土地利用数据库、中国1:400万资源环境数据
100101-30、100101-18 27.2 全国多年平均降雨分布图、全国土地利用数据库
100101-66 27.1 中国1:400万全要素基础数据(1970 s-1990 s)
100101-18、100101-3 26.8 全国土地利用数据库、1996年浙江省1:25万数字化土地利用现状图
对活跃用户,满足表4中支持度,且置信度不低于90%关联规则挖掘结果如表5所示。其中置信度最高的关联规则可解读为活跃用户在同时访问100101-30(全国多年平均降雨分布图(1 km))以及100101-3(1996年浙江省1:25万数字化土地利用现状图)后,有高达98.5%的概率会访问100101-18(全国土地利用数据库(分省:1980s,1987-2001年;分县:1980s))。在支持度大于25%,置信度大于90%的情况下,可用的关联规则达18个。这些关联规则可用于对用户进行精准数据推荐服务,以及网站导航设计参考等。
Tab.5 Association rules (C≥90%)

表5 关联规则(C≥90%)

关联规则 置信度(C)/(%)
100101-30 ==> 100101-2 90.4
100101-3==> 100101-18 90.8
100101-38、 100101-18==> 100101-2 91.4
100101-18、100101-2==> 100101-3 92.4
100101-2、100101-18 ==> 100101-38 92.9
100101-30、100101-18==> 100101-3 93.0
100101-30 ==> 100101-18 93.1
100101-18、100101-3==> 100101-30 94.1
100101-18、100101-2==> 100101-30 94.2
100101-18、100101-3 ==> 100101-2 94.6
100101-30、100101-2==> 100101-3 95.4
100101-30、100101-18 ==> 100101-2 95.4
100101-2、100101-3 ==>100101-30 96.9
100101-38、100101-2 ==> 100101-18 97.2
100101-2、100101-3==> 100101-18 97.8
100101-30、100101-3 ==> 100101-2 98.2
100101-30、100101-2 ==> 100101-18 98.2
100101-30、100101-3==> 100101-18 98.5

3.3.2 数据下载或申请关联规则

地球系统科学数据共享平台的共享数据服务分为2种,在线下载和离线申请。本文将注册用户在2014年产生的在线下载或者离线申请数据所产生的记录输入关联规则挖掘算法以挖掘数据使用上的关联规则。挖掘结果显示用户的数据下载或申请并未表现出支持度高的显著高频项目集。以最小支持度10%进行高频项目集挖掘,只有一个数据集满足挖掘条件,且无可用的关联规则。注册用户下载数据中,最受欢迎的是100101-66(中国 1:400万全要素基础数据)。
表6列出了排名前5的高频项目,与表3中所有用户数据浏览高频项目集比较,注册用户最常下载或申请的数据与用户最常浏览的数据有较好的吻合度。在支持度前5的高频项目中,100101-66(中国1:400万全要素基础数据)、100101-38(全国1 km网格人口数据)、100101-18(全国土地利用数据库)同时出现在以上2种高频项目集列表中,表明这3个数据集不论在匿名用户中还是在注册用户中,都最受欢迎。
Tab.6 Frequent itemsets for datasetsdownloads or application (top 5)

表6 注册用户数据下载或申请高频项目集(前5)

项目集 支持度(S)/(%) 内容描述
100101-66 13.7 中国1:400万全要素基础数据(1970s-1990s)
100101-38 9.6 全国1 km网格人口数据(1995、2000、2003、2005和2010年)
100101-11860 8.1 全国1:25万土地覆被数据(1980s,2005年)
100101-18 8.0 全国土地利用数据库(分省:1980s,1987-2001年;分县:1980s)
100101-29 7.3 陆地卫星MSS/TM/ETM+(1973-2008年、覆盖全国)

4 讨论与结论

本文以地球系统科学数据共享平台网站2014年Web服务器日志数据和用户服务记录数据为基础,提取用户行为数据,经过数据预处理并对数据进行建模,输入空间数据库和关系数据库。首先使用空间数据挖掘方法Getis-Ord Gi*指数发现中国境内用户行为的“热点”地区以及区域性差异。然后进一步深入探究用户——数据关系的潜在规律,对活跃用户的数据浏览行为以及数据下载行为进行关联规则挖掘发现一些有价值的关联规则,可进一步用于用户数据推荐等个性化服务。基于数据挖掘结果可得出以下结论:
(3)本文分别对用户数据浏览以及数据下载或申请进行了关联规则挖掘。挖掘结果反映了用户的数据需求特征。对于用户数据浏览,挖掘出多条置信度高的关联规则,可作为知识库,用于数据推荐服务。对于数据下载或申请,挖掘结果显示并无显著的关联规则可用。注册用户最常下载或申请的数据与用户最常浏览的数据有较好的吻合度。在高频项目集的挖掘结果中,100101-66(中国1:400万全要素基础数据)、100101-38(全国1 km网格人口数据)、100101-18(全国土地利用数据库)这3个数据集不论在匿名用户中还是在注册用户中,都是需求度最高的。100101-3(浙江省1:25万数字化土地利用现状图)也以较高的频率出现在数据访问记录中,这可能与浙江省用户数据浏览活跃性较高有关。

