地球信息科学学报 ›› 2016, Vol. 18 ›› Issue (9): 1174-1183.doi: 10.3724/SP.J.1047.2016.01174
收稿日期:
2015-11-06
修回日期:
2016-03-16
出版日期:
2016-09-27
发布日期:
2016-09-27
作者简介:
作者简介:王 末(1987-),男,博士生,研究方向为空间数据挖掘。E-mail:
基金资助:
WANG Mo1,2, WANG Juanle1,3,*()
Received:
2015-11-06
Revised:
2016-03-16
Online:
2016-09-27
Published:
2016-09-27
Contact:
WANG Juanle
摘要:
了解科学数据共享用户行为特征对实现高效、精准的数据共享服务具有重要的参考意义。本文基于国家地球系统科学数据共享平台网站服务器日志及服务记录数据,利用空间数据挖掘及Web使用挖掘技术,探索地球系统科学数据共享用户行为模式。在数据预处理阶段,完成用户识别、会话识别、位置识别,并对数据进行空间建模、空间数据库建库。在数据挖掘阶段,分别对用户产生的网页浏览数、会话数、数据集浏览数为对象进行空间“热点”分析,识别用户行为的地域差异。针对用户数据浏览和下载行为,采用FP-growth算法对用户——数据之间进行关联规则挖掘,发现用户对数据关注和使用的高频规律。分析结果表明:(1)该共享平台用户地在国内各省市均有分布,用户最多的3个省(市)分别为北京市、山东省、江苏省,该分布与国内高校学生分布相关程度不高,但与“211工程”高校学生的空间分布相关度较高;(2)空间“热点”分析表明,北京、天津及河北北部无论在网页浏览、数据浏览还是会话量上都是“热点”区域,但识别的“冷点”区域有较大不同,尤其是数据访问“冷点”分布较广,如南方沿海省份、河南省、山东省、四川省等;(3)关联规则挖掘发现多个数据浏览高频项目集以及关联规则。数据下载高频项与数据浏览高频模式较好吻合,但下载行为未表现出明显关联规则。本文提供了一种结合Web使用挖掘和空间数据挖掘的用户行为模式挖掘方法,该方法也可用于其他类型网站的数据挖掘。
王末, 王卷乐. Web环境下地学数据共享用户行为模式分析[J]. 地球信息科学学报, 2016, 18(9): 1174-1183.DOI:10.3724/SP.J.1047.2016.01174
WANG Mo,WANG Juanle. A Study on the User Behavior of Geoscience Data Sharing Based on Web Usage Mining[J]. Journal of Geo-information Science, 2016, 18(9): 1174-1183.DOI:10.3724/SP.J.1047.2016.01174
表1
Web服务器日志数据内容
类别 | 详情 | fan
---|---|
主机IP | 128.227.49.92 |
时间 | 05/Aug/2014:10:26:42 +0800 |
方法 | GET |
URL | /extra/res/libs/kendo/extensions/kendo.extension.ui.js |
协议 | HTTP/1.1 |
状态 | 200 |
文件大小 | 15072 |
访问来源 | http://www.geodata.cn/extra/TopicsWin2/pro3.jsp |
客户端 | Mozilla/5.0 (Windows NT 6.3; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0 |
表4
活跃用户数据访问高频项目集(S≥25%)
项目集 | 支持度(S)/(%) | 内容描述 |
---|---|---|
100101-18 | 34.1 | 全国土地利用数据库(分省:1980s,1987-2001年;分县:1980s) |
100101-38 | 32.4 | 全国1 km网格人口数据(1995、2000、2003、2005和2010年) |
100101-2 | 30.7 | 中国1:400万资源环境数据(中国地形,1988年) |
100101-3 | 29.6 | 1996年浙江省1:25万数字化土地利用现状图 |
100101-30 | 29.2 | 全国多年平均降雨分布图(1 km)(建站到1996年) |
100101-38、100101-18 | 28.0 | 全国1 km网络人口数据、全国土地利用数据库 |
100101-18、100101-2 | 27.5 | 全国土地利用数据库、中国1:400万资源环境数据 |
100101-30、100101-18 | 27.2 | 全国多年平均降雨分布图、全国土地利用数据库 |
100101-66 | 27.1 | 中国1:400万全要素基础数据(1970 s-1990 s) |
100101-18、100101-3 | 26.8 | 全国土地利用数据库、1996年浙江省1:25万数字化土地利用现状图 |
表5
关联规则(C≥90%)
关联规则 | 置信度(C)/(%) |
---|---|
100101-30 ==> 100101-2 | 90.4 |
100101-3==> 100101-18 | 90.8 |
100101-38、 100101-18==> 100101-2 | 91.4 |
100101-18、100101-2==> 100101-3 | 92.4 |
100101-2、100101-18 ==> 100101-38 | 92.9 |
100101-30、100101-18==> 100101-3 | 93.0 |
100101-30 ==> 100101-18 | 93.1 |
100101-18、100101-3==> 100101-30 | 94.1 |
100101-18、100101-2==> 100101-30 | 94.2 |
100101-18、100101-3 ==> 100101-2 | 94.6 |
100101-30、100101-2==> 100101-3 | 95.4 |
100101-30、100101-18 ==> 100101-2 | 95.4 |
100101-2、100101-3 ==>100101-30 | 96.9 |
100101-38、100101-2 ==> 100101-18 | 97.2 |
100101-2、100101-3==> 100101-18 | 97.8 |
100101-30、100101-3 ==> 100101-2 | 98.2 |
100101-30、100101-2 ==> 100101-18 | 98.2 |
100101-30、100101-3==> 100101-18 | 98.5 |
[1] | Tenopir C, Allard S, Douglass K.Data sharing by scientists: practices and perceptions[J]. PLoS ONE, 2011,6(6):e21101. |
[2] |
刘闯. 美国国有科学数据共享管理机制及对我国的启示[J].中国基础科学,2003(1):34-39.
doi: 10.3969/j.issn.1009-2412.2003.01.008 |
[ Liu C.Regulatory mechanisms of national science data sharing of USA and the inspiration to China[J]. China Basic Science, 2003,1:34-39. ]
doi: 10.3969/j.issn.1009-2412.2003.01.008 |
|
[3] |
徐冠华. 实施科学数据共享增强国家科技竞争力[J].中国基础科学,2003(1):5-9.
doi: 10.3969/j.issn.1009-2412.2003.01.002 |
[ Xu G H.Emhancing national science competitiveness with science data sharing[J]. China Basic Science, 2003,1:5-9. ]
doi: 10.3969/j.issn.1009-2412.2003.01.002 |
|
[4] |
Facca F M, Lanzi P L.Mining interesting knowledge from weblogs: asurvey[J]. Data & Knowledge Engineering, 2005,53(3):225-241.
doi: 10.1016/j.datak.2004.08.001 |
[5] | Sajid N A, Zafar S, Asghar S.Sequential pattern finding: A survey[C]. 2010 International Conference on Information and Emerging Technologies (ICIET), 2010:1-6. |
[6] |
Wang Y T, Lee A J T. Mining Web navigation patterns with a path traversal graph[J]. Expert Systems with Applications, 2011,38(6):7112-7122.
doi: 10.1016/j.eswa.2010.12.058 |
[7] |
Bayir M A, Toroslu I H, Demirbas M, et al.Discovering better navigation sequences for the session construction problem[J]. Data & Knowledge Engineering, 2012,73(2):58-72.
doi: 10.1016/j.datak.2011.11.005 |
[8] |
Chen L, Bhowmick S S, Nejdl W.COWES: Web user clustering based on evolutionary web sessions[J]. Data & Knowledge Engineering, 2009,68(10):867-885.
doi: 10.1016/j.datak.2009.05.002 |
[9] |
Dimopoulos C, Makris C, Panagis Y, et al.A web page usage prediction scheme using sequence indexing and clustering echniques[J]. Data & Knowledge Engineering, 2010,69(4):371-382.
doi: 10.1016/j.datak.2009.04.010 |
[10] |
Narvekar M, Banu S S.Predicting user's Web navigation behavior using hybrid approach[J]. Procedia Computer Science, 2015,45:3-12.
doi: 10.1016/j.procs.2015.03.073 |
[11] | Mobasher B, Cooley R,Srivastava J.Automatic personalization based on Web usage mining[J]. Communications of the ACM, 2000,43(8):142-151. |
[12] | Park D H, Kim H K, Choi I Y, et al.A literature review and classification of recommender systems research[J]. Expert Systems with Applications, 2010,39(11):10059-10072. |
[13] |
Pierrakos D, Paliouras G, Papatheodorou C, et al.Web usage mining as a tool for personalization: a survey. user modeling and user adapted interaction, 2003,13(4):311-372.
doi: 10.1023/A:1026238916441 |
[14] |
Carmona C J, Ramírez-Gallego S, Torres F, et al.Web usage mining to improve the design of an e-commerce website: OrOliveSur com. expert systems with applications, 2012,39(12):11243-11249.
doi: 10.1016/j.eswa.2012.03.046 |
[15] |
Yin P Y, Guo Y M.Optimization of multi-criteria website structure based on enhanced tabu search and web usage mining[J]. Applied Mathematics and Computation, 2013,219(24):11082-11095.
doi: 10.1016/j.amc.2013.05.033 |
[16] |
Song Q, Shepperd M J.Mining Web browsing patterns for E-commerce[J]. Computers in Industry, 2006,57(7):622-630.
doi: 10.1016/j.compind.2005.11.006 |
[17] |
Lopes P, Roy B.Dynamic recommendation system using Web usage mining for e-commerce users[J]. Procedia Computer Science, 2015,45:60-69.
doi: 10.1016/j.procs.2015.03.086 |
[18] |
Hung Y S, Chen K L B, Yang C T, et al. Web usage mining for analyzing elder self-care behavior patterns[J]. Expert Systems with Applications, 2013,40(2):775-83.
doi: 10.1016/j.eswa.2012.08.037 |
[19] |
Munka M, Drl K M.Impact of different pre-processing tasks on effective identification of users' behavioral patterns in Web-based educational system[J]. Procedia Computer Science, 2011,4:1640-1649.
doi: 10.1016/j.procs.2011.04.177 |
[20] |
Romero C, Espejo P G, Zafra A, et al.Web usage mining for predicting final marks of students that use Moodle courses[J]. Computer Applications in Engineering Education, 2013,21(1):135-146.
doi: 10.1002/cae.20456 |
[21] |
王琨,郭风华,李仁杰,等.基于Tripadvisior的中国旅游地国际关注度及空间格局[J].地理科学进展,2014(11):1462-1473.
doi: 10.11820/dlkxjz.2014.09.004 |
[ Wang K, Guo F H, Li R J.Tourism attention degree about China from overseas and its spatial patterns based on Tripadvisor[J]. Progress in Geography, 2014(11):1462-1473. ]
doi: 10.11820/dlkxjz.2014.09.004 |
|
[22] |
Arbelaitz O, Gurrutxaga I, Lojo A, et al.Web usage and content mining to extract knowledge for modelling the users of the Bidasoa Turismo website and to adapt it[J]. Expert Systems with Applications, 2013,40(18):7478-7491.
doi: 10.1016/j.eswa.2013.07.040 |
[23] | Cooley R, Mobasher B, Srivastava J.Data preparation for mining World Wide Web browsing patterns[J]. Knowledge and Information Systems, 1999,1(1):5-32. |
[24] |
Kosala R, Blockeel H.Web mining research: a survey[J]. Sigkdd Explorations, 2000,2(1):1-15.
doi: 10.1145/360402.360406 |
[25] | Berendt B, Mobasherb B, Nakagawa M, et al.The impact of site structure and user environment on session reconstruction in web usage analysis[A]. In: Zaïane O, Srivastava J, Spiliopoulou M, et al (eds.). WEBKDD 2002 - mining web data for discovering usage patterns and profiles[M]. Berlin: Springer Berlin Heidelberg, 2003,2703:159-179. |
[26] |
Levene M, Borges J, Loizou G.Zipf's law for Web surfers[J]. Knowledge and Information Systems, 2001,3(1):120-129.
doi: 10.1007/PL00011657 |
[27] | Liu B.Web data mining (second edition)[M]. Chicago: Springer, 2011:540-542. |
[28] |
Getis A, Ord J K.The analysis of spatial association by use of distance statistics[J]. Geographical Analysis, 1992,24:189-206.
doi: 10.1111/j.1538-4632.1992.tb00261.x |
[29] |
Peeters A, Zude M, K Thner J, et al. Getis-Ord’s hot- and cold-spot statistics as a basis for multivariate spatial clustering of orchard tree data[J]. Computers and Electronics in Agriculture, 2015,111:140-150.
doi: 10.1016/j.compag.2014.12.011 |
[30] |
Feske M L, Teeter L D, Musser J M, et al.Including the third dimension: a spatial analysis of TB cases in Houston Harris county[J]. Tuberculosis, 2011,91(Supplement 1):24-33.
doi: 10.1016/j.tube.2011.10.006 pmid: 22094150 |
[31] |
Luković J, Blagojevć D, Kilibarda M, et al.Spatial pattern of north Atlantic oscillation impact on rainfall in Serbia[J]. Spatial Statistics, 2015,14(Part A):39-52.
doi: 10.1016/j.spasta.2015.04.007 |
[32] |
Chopin P, Blazy J-M.Assessment of regional variability in crop yields with spatial autocorrelation: banana farms and policy implications in Martinique[J]. Agriculture, Ecosystems & Environment, 2013,181:12-21.
doi: 10.1016/j.agee.2013.09.001 |
[33] | Agraval R, Srikant R.Fast algorithms for mining association rules in large data bases[C]. Proceedings of the 20th International Conference on Very Large Data Bases, 1994. |
[34] |
Zaki M J, Parthasarathy S, Ogihara M, et al.Parallel algorithms for discovery of association rules[J]. Data Mining and Knowledge Discovery, 1997,1(4):343-173.
doi: 10.1023/A:1009773317876 |
[35] |
Han J, Pei J, Yin Y.Mining frequent patterns without candidate generation[J]. Sigmod Record, 2000,29(2):1-12.
doi: 10.1145/342009.335372 |
[1] | 杨雅萍, 姜侯, 孙九林. 科学数据共享实践:以国家地球系统科学数据中心为例[J]. 地球信息科学学报, 2020, 22(6): 1358-1369. |
[2] | 徐振, 荆耀栋, 毕如田, 高阳, 王鹏. 基于资源环境数据格网化表达的关联模式发现[J]. 地球信息科学学报, 2018, 20(1): 28-36. |
[3] | 王末, 王卷乐, 赫运涛. 地学数据共享网用户Web行为预测及数据推荐方法[J]. 地球信息科学学报, 2017, 19(5): 595-604. |
[4] | 林慧, 郑新奇. 山西省城镇空间分布特征Voronoi图建模分析[J]. 地球信息科学学报, 2015, 17(1): 62-68. |
[5] | 陈江平, 黄炳坚. 数据空间自相关性对关联规则的挖掘与实验分析[J]. 地球信息科学学报, 2011, 13(1): 109-117. |
[6] | 秦昆, 李振宇, 杜鹢. 基于概念分析的空间数据挖掘研究进展[J]. 地球信息科学学报, 2009, 11(1): 10-17. |
[7] | 王占刚, 庄大方, 邱冬生, 明涛. 林业数据挖掘与可视化的应用分析[J]. 地球信息科学学报, 2007, 9(4): 19-22,141. |
[8] | 梅新, 牛振国, 吴孟泉, 杨小冬. 空间数据挖掘的区域循环经济决策支持框架设计[J]. 地球信息科学学报, 2007, 9(1): 88-92. |
[9] | 陈崇成, 涂建东, 黄洪宇. 可视化空间聚类挖掘算法及系统实现[J]. 地球信息科学学报, 2005, 7(2): 89-93. |
|