An Approach for Prediction of Web User Behavior and Data Recommendation for Geoscience Data Sharing Portals

  • WANG Mo , 1, 2 ,
  • WANG Juanle , 1, 4, * ,
  • HE Yuntao 3
  • 1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. National Science & Technology Infrastructure Center, Beijing 100862, China
  • 4. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
*Corresponding author: WANG Juanle, E-mail:

Received date: 2016-11-02

  Request revised date: 2017-01-22

  Online published: 2017-05-20


Efficient and precise discovery of geoscience data on data sharing websites has been a challenge for years. This study applied Web mining techniques for National Earth Science Data Sharing Platform to derive user searching and visit behaviors using clustering algorithm. We proposed cluster-based approaches for search recommendation and visit recommendation. At data preprocessing stage, data cleaning, user identification, session identification and search terms extraction were performed. At user behavior mining stage, DBSCAN algorithm was employed for session clustering with Jaccard distance metric, considering the binary nature of session vectors. To mine user search patterns, we regard the collection of search term in each cluster as a document of text, and the collection of the whole historical search terms as corpus. Thereby, TF-IDF value of each search term in each cluster was then generated. In the scenario of online search recommendation, the real-time search term is taken to index the TF-IDF values in the clusters, and return the cluster with highest TF-IDF value. The items with top frequency is generated as recommendation list. As in the scenario of online visit recommendation, real-time visit vector is taken to query the clusters by the distance between the visit vector and cluster centroids. The nearest cluster is selected to generate most frequent items in the cluster as recommendation. Results of the experiment revealed the hot research topics of geoscience in recent years. The proposed search recommendation has a fair precision and recall, and visit recommendation was considerably improved compared to frequency-based approach. It can be concluded that: (1) web users of geoscience data sharing are more professional and predictable compared with normal web users; (2) DBSCAN is density-based clustering algorithm. It is vital to specifically define user behavior and chose a proper distance metric; (3) TF-IDF-based approach to predict users' search needs is feasible. The resulted search recommendation could be complementation to keyword-based searching. The outcome of this study would potentially contribute to the development of National Earth Science Data Sharing Platform, and even other science data sharing platform.

Cite this article

WANG Mo , WANG Juanle , HE Yuntao . An Approach for Prediction of Web User Behavior and Data Recommendation for Geoscience Data Sharing Portals[J]. Journal of Geo-information Science, 2017 , 19(5) : 595 -604 . DOI: 10.3724/SP.J.1047.2017.00595

1 引言

国内外学者对Web用户行为挖掘的研究随着互联网的应用而兴起。常用的挖掘分析方法有统计分析、聚类或分类分析、关联规则或频繁项目挖掘、时间序列分析等[3]。由于聚类分析能挖掘相似的用户或者页面特征,用户聚类和页面聚类是最普遍使用的挖掘方法[4]。国内外研究者们采用聚类方法进行Web用户行为模式挖掘,如Mobasher等[5]使用K-means聚类算法对用户进行聚类;Zhang等[6]使用self-organizing maps (SOM) 算法对用户会话进行聚类,并用于在线用户行为预测;邓爱林等[7]将聚类与协同过滤推荐结合,以提高推荐系统的相应速度。但上述聚类算法存在参数选择的问题,如K-means算法,需预先设置聚类个数,而SOM算法也需选择初始参数,且面对大数据集时训练时间过长。

2 数据与方法

Fig. 1 Workflow for search and visit recommendation

图1 搜索和访问推荐技术流程图

2.1 数据

本研究的数据来源于国家地球系统科学数据共享平台2011-2015年的Web服务器日志。Web服务器日志数据记录了访问者的导航行为,它是Web使用记录挖掘中的首要数据来源。每一次对服务器的访问相当于一个HTTP请求,在服务器访问日志里产生一条记录。每条日志记录包含多个部分(由日志格式决定),通常包括请求的时间与日期、客户端的IP地址、所请求的资源、调用的Web应用程序所使用的参数、请求状态、使用的HTTP方法、用户代理、被哪个网络资源调用等。Web服务器日志格式为Apache的NCSA ECLF格式(图2)。
Fig. 2 An example of Web server log entries

图2 Web服务器日志数据示例

Tab. 1 Contents of a Web server log entry

表1 Web服务器日志数据内容

类别 详情
时间 05/Aug/2014:10:26:42 +0800
方法 GET
URL /extra/res/libs/kendo/extensions/kendo.extension.ui.js
协议 HTTP/1.1
状态 200
文件大小 15 072 Byte
客户端 Mozilla/5.0 (Windows NT 6.3; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0

2.2 数据预处理

2.2.1 数据清洗
本研究采用的数据清洗算法包括3个步骤: ① 清理无用的网络请求记录,如对声音文件、图像文件、样式文件的请求。该过程通过检查URL中请求文件的后缀名来实现。② 对网络爬虫请求的清理。通过对日志项中客户端信息来识别搜索引擎的名称(如Baidu、Google)。③ 错误请求项的清洗。清洗错误请求的方法利用请求状态码来完成。所有日志项状态码小于200或大于400的都是不成功的请求,应被清理。
2.2.2 用户识别
2.2.3 会话识别
在用户识别的基础上,还需对用户的对网站的点击流分割为单次的访问,此过程称为会话识别。常用的方法是时间窗口法。设定一个时间阈值法来确定用户会话(如30 min),如果某次用户访问时间超过这个阈值,就开始一个新的会话。Berendt等[22]通过比较研究发现基于来源页面(referrer)启发式算法(Referrer-based heuristic algorithm)有较好的识别率。该方法在一定时间窗口的基础上考虑来源页面是否出现在最近的访问记录中,可视为时间窗口法的改进方法。本研究采用该方法进行会话识别。
2.2.4 搜索词提取
经过上述预处理步骤后的用户会话中URL记录大部分是用户对数据的浏览和下载行为,另一部分是用户使用网站搜索功能记录的搜索行为。地球系统科学数据共享平台提供2种数据搜索方式:① 关键词检索,中文编码采用GB2312;② 检索方式为空间位置检索,中文编码为UTF-8。用户进行检索时,若输入中文搜索词,服务器日志里的URL项会以汉字编码的形式记录搜索词。因此,通过汉字解码可获取用户输入的检索词。表2给出了一个搜索词提取实例。本研究通过对日志URL项进行过滤和解码获取了用户输入的检索词,并将结果关联到用户ID、会话ID,存入数据库。
Tab. 2 Example of search word parsing

表2 搜索词提取示例

类别 详情
URL,200,HTTP/1.1,-,-,"""-""", 2014.7.1, /Portal/mdsearch/regionresult.jsp?sw=%E5%8C%97%E4%BA%AC&sm=1&ps=10,…
搜索词编码 %E5%8C%97%E4%BA%AC
编码类型 utf-8
解码结果 北京

2.3 会话聚类

2.3.1 聚类算法
(1)核心对象(core point)。如果对象p的ε邻域半径范围内至少包含minPts个对象,则p是核心对象。在ε邻域距离范围的这些对象则为p的直接可达对象(directly reachable points)。
(2)密度可达对象(density-reachable points)。如果存在对象链 p 1 , p 2 , , p n ,使得 p 1 = p , p n = q , p i + 1 是从 p i 关于ε邻域和minPts直接可达的,即 p i + 1 p i 的Eps邻域内,则qp密度可达对象。
(3) 噪声对象(outliers)。所有其他非任何对象的密度可达对象为噪声对象。
该算法的执行需要输入ε邻域半径和minPts领域密度阈值2个参数。最佳的参数选择取决于样本点的空间分布特征。基本的方法是探查样本点距其第k近点(kth nearest neighbor)的距离特征[24],该距离被称为k-dist。若样本点属于某聚类,则k-dist的值较小。根据聚类密度的不同和样本点的随机性,所有样本点的k-dist值将表现出一定的随机性。但是若样本聚类密度较为均匀,该随机性不应发生显著波动。若某样本点不属于该聚类,则其k-dist较大。如果将所有样本点的k-dist值计算出,并将其按值从小到大作图描述。若该曲线在某点增长率剧烈变化,则该点处的距离值为理想的ε邻域半径值,k值可作为minPts参数值。ε邻域半径值取决于k值的选取。但ε值不会随k值变化产生大的变化。
2.3.2 距离计算
衡量2个样本间的相似度或者距离是进行聚类模式分析的重要步骤。对于一定的聚类算法,距离函数的选择决定了聚类结果。常用的距离函数包括欧氏距离(Euclidean distance)、曼哈顿距离(Manhattan distance)、余弦距离(Cosine distance)、切比雪夫距离(Chebyshev distance)、杰卡德距离(Jaccard distance)[25]等。对于向量值为二元(0或1)的情形,除了杰卡德距离,不同的学科领域文献中提出了多达数十种距离衡量方法[26]。本研究考虑到数据的高维和稀疏特性,采用在生态学领域较常用的杰卡德距离。集合A和集合B的杰卡德距离可表示为式(1)。
d J A , B = 1 - J ( A , B ) (1)
式中:JA, B)为杰卡德相似系数(式(2)),为集合AB的交集比集合AB的并集。因此,式(1)可表示为式(3)。
J A , B = A B A B = | A B | A + B - | A B | (2)
d J A , B = A B - | A B | | A B | (3)

2.4 实时搜索预测

TF d , t = log 1 + n d , t n d (4)
TF - IDF d , t = TF ( d , t ) / n ( t ) (5)
式中:nd, t)为词语t在文档d中出现的次数;nd)为文档d中包含的词数量;nt)为包含有词语t的文档数量。类似于文本搜索,本研究视每个会话聚类中的用户搜索词集合为一个文档,视所有样本会话搜索词集合为语料库,计算每个搜索词的TF-IDF值。每个聚类中的每个搜索词的TF-IDF值离线计算生成,并储存到数据库。在新用户在网站输入搜索词时,若该词出现在历史记录中,根据该词在各聚类中的TF-IDF值排序给出排名最高的聚类,并根据搜索命中的聚类给出最高频的3个项目作为推荐提供给用户。算法流程为:

2.5 实时访问预测

Fig. 3 User session vector

图3 用户会话向量


2.6 推荐效果评价


3 实验及结果

3.1 实验设计

分别针对用户的搜索和访问行为,预测效果实验分为2个部分:① 搜索模式预测效果实验。将2015年的用户会话进一步划分为“搜索+访问”的行为单元,即在一个会话内以一个搜索词和接下来的网页访问,到出现下一个搜索词为止,为一个行为单元。测试时,将搜索词输入预测算法,获得推荐。将算法推荐的项目与该行为单元内的实际网页访问进行符合度统计,即可得出算法推荐效果。② 数据集访问模式预测效果实验。为验证用户访问预测效果,该实验从测试数据集会话中去除二分之一会话长度的数据集访问,保留用户的前二分之一会话访问。并筛选出剩余会话长度大于或等于3的会话,作为测试数据。将测试数据向量输入用户访问预测算法,输出推荐结果,并计算推荐效果。为对比实验效果,本研究同时按照目前网站已有的基于简单高频统计的推荐计算准确率和召回率,并与本研究的推荐结果进行对比。
由于数据集较大,对实验环境要求较高。实验环境为Windows 10 64位操作系统、Intel Core i7处理器、16 GB内存。程序语言为Python,数据库为MySQL。DBSCAN聚类算法采用scikit-learn提供的开源代码[29]

3.2 数据预处理结果

Tab. 3 Statistics for data preprocessing

表3 数据预处理结果统计

年份 原始日志记录/条 清洗后记录/条 用户数/个 会话数/个 活跃会话/个 搜索次数/次 搜索词数量/次
2011 10 062 608 2 664 473 62 557 219 918 54 121 76 793 4589
2012 9 546 068 2 394 507 76 098 234 585 55 726 82 914 3883
2013 10 584 125 2 708 978 82 302 264 906 58 237 110 056 5426
2014 11 062 608 2 845 150 78 111 348 495 68 562 111 913 6243
2015 12 236 056 2 914 507 89 937 365 752 70 969 122 868 6761

3.3 用户搜索热点

Fig. 4 Word cloud of search terms

图4 搜索热点云图

3.4 聚类结果

Fig. 5 K-dist plot of sample data (sorted by distance to 10th nearest neighbor)

图5 聚类样本的k-dist图(以第10近的样本距离排序)

Tab. 4 Statistics for cluster theme (top 5)

表4 聚类主题统计(前5)

聚类编号 聚类会话数量 数据主题 主题占比/%
01 8355 土地覆被及土地利用 83.6
02 6712 土壤数据 78.4
03 6248 环境与灾害 84.3
04 5471 地形地貌 74.5
05 4676 冰川冻土 69.8

3.5 用户搜索及访问预测

Fig. 6 Comparisons of precision and recall

图6 准确率和召回率对比图

4 结论及展望

本文提出的方法和结论除了地学数据共享服务,还可应用于其他领域的科学数据共享服务。由于数据和实验环境的限制,本研究仍存在一些局限:① 本研究的用户搜索词语料库来源于历史记录,历史搜索词可能未涵盖平台共享数据所有的主题;② 研究实验的验证数据来自历史日志数据。虽然能通过历史数据获取用户的数据兴趣用来评价推荐效果,但真实环境下的用户体验仍无法获得。未来研究将通过数据集的元数据进一步扩展搜索词语料库,并引入同义词、近义词词库,提升搜索推荐的应用场景;同时,将本方法部署到地学及相关领域数据共享平台网络服务器中,通过实际应用进一步进行用户体验评价。

