Personalized Recommendation Method of Thematic Map Products based on Item2Vec with Negative Sampling Optimization

  • MAO Wenshan , 1, 2, 3, 4 ,
  • ZHAO Hongli , 4, * ,
  • SUN Fengjiao 5 ,
  • JIANG Yunzhong 4 ,
  • JIANG Qian 1, 2, 3, 4 ,
  • ZHU Yanru 1, 2, 3, 4
Expand
  • 1. Faculty of Geomatics, Lanzhou Jiaotong University, Lanzhou 730070, China
  • 2. National-Local Joint Engineering Research Center of Technologies and Applications for National Geographic State Monitoring, Lanzhou 730070, China
  • 3. Gansu Provincial Engineering Laboratory for National Geographic State Monitoring, Lanzhou 730070, China
  • 4. Department of Water Resources, China Institute of Water Resources and Hydropower Research, Beijing 100038, China
  • 5. ChiFeng Industry Vocational Technology College, Chifeng 024005, China
* ZHAO Hongli, E-mail:

Received date: 2019-11-07

  Request revised date: 2020-01-10

  Online published: 2021-01-25

Supported by

LZJTU EP(201806)

China Knowledge Center for Engineering Sciences and Technology-Water Conservancy Professional Knowledge Service System(CKCEST-2019-1-6)

Copyright

Copyright reserved © 2020

Abstract

Establishing a user preference recommendation model suitable for thematic map product search is one of the effective ways to improve the quality of the thematic map products. In the thematic map product recommendation scenario, there are serious problems of content cold-start and sparse comment data. The existing recommendation algorithms cannot recommend thematic map products with different features for specific types of users, resulting in users' limited preference for obtaining preference information from the thematic maps. Hence, this paper presents a user preference recommendation method based on the combination of CBOW with Negative Sampling and Iten2Vec based on Word2Vec. Firstly, calculating implicit ratings of the interaction behavior data in the user behavior log, to replace sparse user ratings in thematic disaster scenarios; Secondly, extracting context-aware feature information of central thematic map based on CBOW model with Negative Sampling. By controlling the ratio of positive and negative samples to 1:2, the prediction accuracy of the potential score of the target thematic map is improved; Finally, mapping Thematic CMaps with user behavior characteristics information to vector space via Item2Vec, calculating the user's similarity matrix to the thematic map and completing recommendations based on user preference. Test results on thematic map scoring experiment dataset Thematic CMaps and four validation dataset MovieLens show that, compared with the four traditional recommendation algorithm of LFM, Personal Rank, Content Based, and SVD, this proposed method can effectively improve the precision potential scoring, and the highest recommending performance is 27.85%. Compared with Item2Vec with Huffman sampling method and YouTubeNet two neural network recommendation algorithms, the score prediction accuracy has improved to a certain extent, and the recommendation performance has been continuously improved, reaching the maximums of 2.97% and 5.78%. Taking the singular value decomposition (SVD) of the classic algorithm as an example, in the increasing data subset after the segmentation of MovieLens-20M dataset, the score prediction accuracy and performance of the method used in this paper are better than SVD method.

Cite this article

MAO Wenshan , ZHAO Hongli , SUN Fengjiao , JIANG Yunzhong , JIANG Qian , ZHU Yanru . Personalized Recommendation Method of Thematic Map Products based on Item2Vec with Negative Sampling Optimization[J]. Journal of Geo-information Science, 2020 , 22(11) : 2128 -2139 . DOI: 10.12082/dqxxkx.2020.190668

1 引言

针对严重的“信息过载”问题,推荐算法通过用户基础画像(年龄、性别等)、用户评论数据及物品(商品、APP等)评分信息等进行数据建模,提取语义特征信息,抽象用户个性化需求的偏好程度,为用户推荐满足个性化需求的物品,实现用户偏好推荐。目前,推荐算法已应用到许多领域,如:电商场景中用户购买物品(Amazon、Alibaba等)、信息流场景中用户浏览信息(iGoogle、AMiner等)、位置服务中的用户评分系统(FourSquare、大众点评等)[1]
将推荐算法引入专题地图产品推荐场景是为了快速有效地获得特定类用户的偏好信息,以提升专题地图质量。一些学者采用地学眼动实验方法探求用户对地图的认知机理,通过Web日志获取用户对地图的感兴趣度信息,利用问卷调查法筛选地图相关的情境因素,以设计的推荐案例库和推荐规则为准,为用户推荐满足偏好需求的地图[2,3]。也有学者对相关应急场景构建本体知识库,通过相似度计算工具训练知识库,根据用户检索条目,匹配知识库中相似度较高的内容项,为用户推荐偏好专题地图[4]。相关场景的规则库和知识库需人工前期编制,耗时长且主观性较强,面对专题地图推荐场景中多变的情境信息,这些推荐方法无法真实体现不同类用户的偏好程度且时效性不强。传统推荐算法通过表征用户、物品之间的相似偏好模型挖掘用户对物品的潜在评分,对用户偏好的物品进行召回或排序,如:协同过滤算法[5]、基于内容的推荐算法[6,7]和基于图的推荐算法[8]等,以上方法采用的浅层模型需人工设计用户和物品的偏好关系特征,面对严重的冷启动和数据稀疏问题,算法推荐性能和评分预测精度下降。深度学习有效推动了推荐算法研究,神经网络中输入层与隐层、隐层与输出层之间均是全连接的网络,且激活函数的去线性化,利于从多源异构数据中自动学习用户和物品的潜在特征,有效缓解冷启动和数据稀疏问题,特征抽象能力优于传统推荐算法,推荐准确率较高[9,10]。Oren Barkan等[11]首次将Word2Vec方法中基于负采样的Skip-Gram模型(SGNS)迁移到基于物品的协同过滤(Item-based CF)算法中,使用神经项嵌入算法学习物品的潜在特征,通过计算物品相似度完成个性化推荐;陈晋音等[12]提出一种基于图过滤的快速密度聚类双层网络推荐算法,利用基于图的过滤器快速确定节点执行度阈值,对数据内虚假信息进行过滤,再通过快速密度聚类双层网络完成推荐;黄金超等[13]提出一种基于偏好度特征构造的个性化推荐算法,使用改进的基于内容的推荐算法计算偏好分,构造物品偏好度特征矩阵,最后通过XGBoost非线性分类器对线上旅游业的子房型进行个性化推荐;张敏等[14]提出层叠降噪自动编码器(Stacked Denoising Auto-Encoder,SDAE)与隐含因子模型(Latent Factor Model,LFM)相结合的混合推荐方法,SDAE通过引入商品评论文本,增强了LFM模型分解用户评分矩阵后商品特征矩阵的一般性,有效提升了模型的评分预测精度。该类算法均涉及用户基础画像、用户订单、用户评论等多特征提取、多任务学习的特性,对于富含专题地图产品的信息流场景,相关的统计类特征信息稀少,适用性不强。
以上推荐方法对专题地图产品个性化推荐提供了案例参考,针对专题地图推荐场景中本体规则库编制耗时较长,受用户类型局限性较强,专题地图特征利用不充分等问题,鉴于此,本文提出了面向专题地图产品推荐场景的用户偏好推荐方法。首先,通过Web用户日志数据对特定类用户的偏好兴趣进行建模,计算用户交互行为下每幅专题地图的隐性评分,以减弱真实场景中出现的内容冷启动和稀疏的评论数据问题;基于负采样(Negative Sampling)的连续词袋(Continuous Bag of Words,CBOW)模型对用户行为序列进行建模,提取含用户行为序列特征的地图特征向量,其充分考虑前后地图序列感知特征信息,可有效提高目标地图的预测评分精度;基于CBOW模型优化的Item2Vec方法根据提取的地图特征向量构建相似度矩阵,通过Cosine相似度函数计算专题地图间的相似度,完成特定类用户的个性化推荐。

2 面向专题地图产品推荐场景的用户偏好推荐方法

面向专题地图产品推荐场景的用户偏好推荐方法框架如图1所示,主要包括:基于用户交互行为数据的隐性评分计算、基于负采样的CBOW模型优化和基于CBOW模型优化的Item2Vec方法3个部分。
图1 专题地图检索的用户偏好推荐方法框架

Fig. 1 User preference recommendation method framework for thematic map retrieval

基于用户交互行为数据的隐性评分计算,在PC/Web端采集用户访问专题地图网站的用户日志文件,文件中包含用户ID、专题地图ID及用户对专题地图的具体事件行为(具体专题地图的点击量、收藏、下载等)等隐式反馈数据。按用户点击链接的浏览路径,对各事件行为分类,通过定义用户事件行为隐性评分函数,计算特定类用户对各类专题地图的事件行为评分,获得评分的专题地图为用户感兴趣的专题地图;通过定义时间衰减函数,计算特定类用户对各类感兴趣专题地图的偏好程度[15],另提取各专题地图的描述信息“专题地图名称/分类”,以上提取数据和计算结果构成了专题地图产品推荐场景中用户偏好推荐方法所需的训练样本。
基于负采样的CBOW模型优化将高维的用户行为序列转化为低维的专题地图特征向量,并带有用户行为特征的语义信息[16]。CBOW模型根据前后地图序列预测目标专题地图,相比于Word2Vec中另一种模型Skip-Gram,CBOW模型更新目标专题地图及其前后地图序列的初始化向量,作为正样本;对样本库中前后地图序列的邻近地图序列进行一次负采样,构成负样本。通过控制正负样本比例,提升目标专题地图的预测概率。此外,训练样本中出现较多生僻词时,采样模式为负采样,效率高于原有的霍夫曼方法,有助于提升Item2Vec方法的召回性能。
基于CBOW模型优化的Item2Vec方法从用户日志文件中抽取用户行为序列,按用户点击专题地图链接的最新行为记录构建专题地图特征序列,通过基于负采样的CBOW模型得到专题地图特征向量,用于训练模型参数。借助Word2Vec方法中词向量之间距离远近表示词语义之间距离远近的思想,专题地图特征向量之间距离远近可表征专题地图之间隐语义的距离远近[17],利用Cosine相似度函数构建专题地图语义距离矩阵,根据矩阵预测每幅专题地图的评分,完成特定类用户的专题地图个性化推荐。

2.1 基于用户交互行为数据的隐性评分

计算特定类用户对专题地图的隐性评分,从用户日志文件中检索用户对专题地图的事件行为数据,隐性评分通过不同类型事件行为的交互次数进行计量,MEij为构建的专题地图-事件行为矩阵(式(1))。专题地图产品有多个主题,每个主题下包含多个专题要素集合,用户定位感兴趣专题地图通过一系列点击专题地图链接的事件行为完成。按用户在线浏览路径,用户对各类专题地图的事件行为分为4类:① 网站主页用户对各主题的浏览行为(以下简称“浏览行为”);② 用户对感兴趣主题描述信息的行为(以下简称“描述性行为”);③ 用户对感兴趣专题要素属性信息的行为(以下简称“属性行为”);④ 用户对感兴趣专题地图进行收藏、下载等行为(以下简称“决定性行为”)。通过SQL Script从用户日志文件中检索的包含特定用户ID和内容ID的数据条目格式(表1)。
M E ij = 1 用户 i    对专题地图 j    具有决定性行为 0 用户 i    对专题地图 j    具有其他行为
式中:i为用户;j为含用户事件行为的专题地图; 1表示用户对感兴趣专题地图执行了所有事件行为;0表示用户执行决定性行为之前的其他事件行为。
表1 用于计算专题地图隐性评分的数据格式

Tab. 1 Data format used to calculate thematic map implicit ratings

用户ID 内容ID 事件行为次数 浏览时间/s
浏览行为 描述性行为 属性行为 决定性行为
1494590 60287 1 1 3 1 83
特定类用户对专题地图的隐性评分计算流程如图2所示,包括2个方面:① 用户对感兴趣专题地图执行各事件行为,通过权重系数和衰减系数对特定类用户的偏好兴趣进行建模。不同类型的事件行为分配不同的权重系数,依据各事件行为的权重系数,通过隐性评分函数,计算用户对各专题地图的事件行为评分,对评分数据进行标准化处理,SQL查询返回特定类用户的事件行为评分数据,按各数据项的事件行为时间节点,计算该数据项的衰减系数,基于用户事件行为评分和衰减系数,计算特定类用户对感兴趣专题地图的隐性评分;② 用户对一定量的感兴趣专题地图均执行“决定性行为”,其它各类型事件行为次数不同,则偏好程度存在一定差别。TF-IDF根据用户查询对文档价值进行排序,引入逆用户频率IUF,对①中感兴趣专题地图的隐性评分进行过滤,确定特殊项专题地图的重要性排序,通过逆用户频率IUF值,计算特定类用户对特殊项专题地图的事件行为评分,对评分数据进行标准化处理,获得特定类用户对特殊项专题地图的隐性评分。
图2 特定类用户对感兴趣专题地图隐性评分的计算流程

Fig. 2 The calculation process of the specific users implicit ratings on the thematic map of interest

(1)特定类用户对感兴趣专题地图的隐性评分
特定类用户对专题地图的事件行为评分高低取决于各类型事件行为的权重系数和所占比例[18]。依据带权重系数的专题地图事件行为隐性评分函数(式(2)),对专题地图产品推荐场景中的用户事件行为进行表示:“#event1”表示“决定性行为”、“#event2”表示“属性行为”、“#event3”表示“描述性行为”。对用户事件行为进行权重分配(表2),加权值的确定符合权重分配规则,其中,w1为“决定性行为”的加权值,w2为“属性行为”的加权值,w3为“描述性行为”的加权值。确定各类型事件行为的加权值和交互次数后,计算用户对各专题地图的事件行为评分,利用最高评分对各评分数据进行标准化处理,获得评分范围在(1,10)的同比例评分数据(式(3))。
表2 用户事件行为权重分配

Tab. 2 Weights assignment of user event behavior

事件行为 释义 权重分配
浏览行为 次级评分 50 > (w3×1)
描述性行为 中等评分 50 < (w3×3)
属性行为 积极评分 80 < (w2×1) + (w3×3)
决定性行为 最高评分 100 = (w1*1)
RI ' u , i = ( w 1 × # even t 1 ) + ... + ( w n × # even t n )
SRI ' u , i = 10 × RI ' u , i / max i = 1 m ( RI ' u , i )
式中:u为用户;i为专题地图;w1…wn为各类型事件行为的权重系数;#event1…#eventn为各类型事件行为发生的次数;RI′u,i表示用户关于专题地图的事件行为评分。m为专题地图数量;max(RI′u,i)表示各专题地图事件行为评分的最大值;SRI′u,i表示标准化后各专题地图的事件行为评分。
SQL查询返回特定类用户的事件行为评分数据,通过时间衰减函数(式(4)),计算用户行为过的专题地图的衰减系数,用于测度一定时段内用户对专题地图的偏好程度,衰减系数是对用户长短期行为序列的综合优化,它弱化用户的短期意图,强化用户的长期偏好兴趣,反映用户近期行为与长期行为的相关性,用户期望评分呈缓慢下降趋势,以提升用户对感兴趣专题地图的隐性评分。式(5)是计算特定类用户对感兴趣专题地图的隐性评分。
d f i = 1 / ( ( dt - dc # even t i ) / / timedelta ( days ) )
SR I u , i = SRI ' u , i + w i × d f i
式中:dt为用户当前时间;dc#eventi为用户对第i幅专题地图开始事件行为的时间;timedelta()表示2个时间节点之间的时间差;days为用户规定时段;dfi表示第i幅专题地图的衰减系数。wi为第i幅专题地图的事件行为权重系数;SRIu,i表示特定类用户对感兴趣专题地图的隐性评分。
(2)特定类用户对特殊项专题地图的隐性评分
计算特定类用户对特殊项专题地图的隐性评分,确定用户对具有“决定性行为”的感兴趣专题地图的偏好程度。计算逆用户频率IUF值(式(6)),确定用户感兴趣的专题地图中存在的特殊项专题地图,以对数函数方式计算是确保较少的感兴趣专题地图之间存在较大差别,用户对特殊项专题地图的事件行为次数越多,重要性就越大,IUF值可确定特定类用户对特殊项专题地图的偏好程度[19]。逆用户频率IUF值作为特殊项专题地图的加权值,计算特殊项专题地图的事件行为评分(式(7)),利用最高评分对各评分数据进行标准化处理,获得评分范围在(1,10)的同比例特殊项专题地图的隐性评分数据(式(8))。
IU F u , i log N 1 + n
R I u , i = wRI ' u , i = IU F u , i × RI ' u , i = log N 1 + n × RI ' u , i
SR I u , i = 10 × R I u , i / max i = 1 m ( R I u , i )
式中:n为用户u对特殊项专题地图i执行各类型事件行为的次数;N为数据条目中用户数量;“+1”表示对IUF进行平滑处理,使数据条目中未具有“决定性行为”的特殊项专题地图得到一个合适的IUF值。RIu,i表示特殊项专题地图的加权隐性评分;SRIu,i表示标准化后特定类用户对特殊项专题地图的隐性评分。
至此,专题地图产品推荐场景中(1,10)范围内特定类用户对各专题地图的隐性评分计算完毕,使用其代替显性评分,用户ID、项目ID、专题地图名称/分类和专题地图的隐性评分作为Item2Vec方法训练的语料个体,将由训练语料个体构成的评分实验数据集命名为“Thematic CMaps”。

2.2 基于负采样的CBOW模型优化

CBOW是根据上下文信息预测目标词出现概率的神经网络模型,CBOW神经网络结构分为3层,输入层将用户行为序列构成的item句子中某个中心词的上下文信息初始化,获得相关词对应的词向量,投影层将上下文信息各对应的初始化向量求和,输出层输出目标词的词向量[20]。负采样优化以选定的中心词和设置窗口长度后中心词的上下文信息作为正样本,输入层映射到投影层生成训练样本的词汇表,负采样选取词汇表中其他词作为负样本,通过二元逻辑回归求解每个词对应的待训练参数θ和中心词对应上下文中每个词的词向量[21,22],基于负采样的CBOW模型优化训练流程如图3所示。
图3 CBOW模型优化训练流程

Fig. 3 The training process of CBOW algorithm optimization

从专题地图评分实验数据集“Thematic CMaps”中抽取一个用户行为序列样本,经CBOW模型读取生成专题地图词汇表D,以中心专题地图wt及其前后地图序列Context(wt)为正样本,通过负采样在D中选取neg个特征专题地图作为负样本NEG(wt)。每一个Context(wt)经权重矩阵W初始化,在投影层求和作为语境向量,并与输出权重矩阵W′相乘得到前后地图序列的输出向量,经激活函数处理,得到描述目标专题地图向量的V-dim概率分布,最大概率索引的专题地图为预测的目标专题地图,最大化目标专题地图输出向量v′(wt)拟合语境向量x的目标函数为:
1 K t = 1 K log P ( w t Context ( w t ) )
式中:c为上下文窗口长度;K为负样本数; P ( w t | Context ( w t ) ) P w t | Context w t 表示最大化条件概率函数(Softmax),定义如下:
P ( w t Context ( w t ) ) = exp ( v ' ( w t ) Τ x ) i = 1 K exp ( v ' ( w i ) Τ x ) , x = v ( w i )
式中:v(wt)为输入的专题地图向量;v′(wt)为输出的专题地图向量;v(wt)为逐次输入的专题地图;|v|为专题地图向量的维度;|C|为专题地图词汇表大小;2*|v|*|C|表示模型参数个数;x为语境向量。 P ( w t | Context ( w t ) ) P w t | Context w t 的梯度复杂度与|C|值有关,此时,式(10)无法计算目标专题地图的最大化概率,按照正负样本数比例1:2,通过负采样采集负样本,将原来的|C|分类优化为|K|分类,优化后最大化正样本的似然函数为:
g ( w ( t ) ) = σ ( X w Τ θ u ) L w ( u ) ( 1 - σ ( X w Τ θ u ) ) ( 1 - L w ( u ) )
式中:Xw为正样本中各专题地图的向量和; θ u R m θ u 为待训练参数,指投影层与输出层的向量为待预测目标专题地图u时,二者之间的全连接;Lw(u)为用于分类的判别阈值,判别为中心专题地图时值为1,判别为负样本时值为0。式(11)由2部分组成: σ ( X w Τ θ u ) L w ( u ) 表示前后地图序列时,正样本中预测目标专题地图wt的概率; ( 1 - σ ( X w Τ θ u ) ) ( 1 - L w ( u ) ) 表示前后地图序列时,负样本中预测目标专题地图wt的概率,优化似然函数增大正样本的预测概率同时降低负样本的的预测概率。为计算方便,损失函数采用对数损失函数,最终的优化目标函数为:
L = ( L w ( u ) × log ( σ ( X w Τ θ u ) ) + ( 1 - L w ( u ) ) × log ( 1 - σ ( X w Τ θ u ) ) )
通过随机梯度上升法迭代更新neg个模型所需的参数Xwθu,继而迭代训练样本中每幅专题地图对应的向量,优化目标函数在梯度推导中记为: L(wt,u),分别计算损失函数对参数Xwθu的梯度,Xw为投影层中心专题地图对应的前后地图序列中所有向量的加和,θu共享于正负样本对中每幅专题地图对应的向量。损失函数中Xwθu对偶,损失函数对Xw的偏导数与θu有关系,首先对参数θu求导,根据式(13)和式(14),参数Xwθu的偏导数为:
( w t , u ) θ u = ( L w ( u ) - σ ( X w Τ θ u ) ) X w
( w t , u ) X w = ( L w ( u ) - σ ( X w Τ θ u ) ) θ u
激活函数(Sigmoid)求导后,借助链导法则对参数Xwθu进行梯度推导(式(15)):
σ ' ( X w Τ θ u ) = σ ( X w Τ θ u ) [ 1 - σ ( X w Τ θ u ) ] , [ log σ ( X w Τ θ u ) ] ' = 1 - σ ( X w Τ θ u ) , [ log ( 1 - σ ( X w Τ θ u ) ) ] ' = - σ ( X w Τ θ u )
式中: X w Τ θ u 表示模型输出,激活函数处理后值为(0,1)。参数θu的初始值贡献到e后,完成θu的下一次更新,根据模型学习率计算e值(e初值为0),由式(16)定义:
e = e + α ( L w ( u ) - σ ( X w Τ θ u ) ) θ u
待预测目标专题地图u可能来自正样本,也有可能来自负样本。专题地图词汇表D的词权值α设置为3/4,便于负采样通过二元逻辑回归求解模型参数,训练完正负样本对后,得到关于Xw的总梯度,依据总梯度值Xw完成自身更新,Xwθu的更新公式为:
θ u = θ u + α × ( L w ( u ) - σ ( X w Τ θ u ) ) X w
v ( w Context ) = v ( w Context ) + α × ( L w ( u ) - σ ( X w Τ θ u ) ) θ u
式中:v(wContext)为Xw对正负样本对的梯度加和。前后地图序列中每幅专题地图对应的向量都共享该梯度值,同样地,θu的梯度加和贡献到前后地图序列中每幅专题地图对应的向量上,前后地图序列中每幅专题地图对应的向量根据Xwθu的梯度和完成自身更新,得到的专题地图向量既是用户行为过的内容项的向量,也是用户的事件行为向量。注意的是,Xw依赖于θu存在,正负样本对的梯度加和构成Xw的梯度后,更新每幅专题地图对应的参数Xwθu的时候,先更新Xw自身所占的比例梯度。

2.3 基于CBOW模型优化的Item2Vec方法

借助Word2Vec方法计算词语义距离的思想,从用户日志文件中抽取用户行为序列转化为专题地图特征序列,每个专题地图特征序列表示一次完整的用户行为,将带有用户行为特征的专题地图特征序列放入Word2Vec进行训练,得到专题地图特征序列的隐语义向量,通过Cosine相似度函数计算专题地图特征序列的语义距离矩阵,离线写入KV存储,计算每幅特征专题地图相似度较高的Top k个邻居特征专题地图,完成特定类用户的专题地图个性化推荐[23],Item2Vec方法的训练主流程如图4所示。
图4 Item2Vec训练主流程

Fig. 4 The training main process of Item2Vec

通过Cosine相似度函数计算特征专题地图两两之间的隐语义相关度(式(19)),获得特征专题地图相似度矩阵(Item-Sim)。其中,专题地图的隐性评分被视作n维空间向量,根据向量之间的角度计算特征专题地图之间的相似性(式(20))。专题地图产品协同过滤进行专题地图评分预测时,不需要校正用户的平均评分,预测评分由用户本身对专题地图的事件行为决定。
Si m I cos ( I 1 k , I 2 k ) = I 1 k I 2 k | I 1 k | × | I 2 k | = k = 1 n x u , 1 k x u , 2 k k = 1 n x u , 1 k 2 k = 1 n x u , 2 k 2
S R ˜ I u , 1 k = Sim ( I 1 k , I 2 k ) ( x u , 2 k ) Si m I ( I 1 k , I 2 k )
式中:n为专题地图评分实验数据集中专题地图数目; x u , 1 k , x u , 2 k 为含用户行为特征的专题地图向量的分量; I u , 1 k , I u , 2 k 为专题地图特征向量。

3 实验数据及结果分析

3.1 实验数据

专题地图评分实验数据集“Thematic CMaps”的数据来源是PC端采集的Web Service记录(http://www.onegreen.net/),用户日志文件中详细记录了用户的浏览行为、文件下载等信息。数据预处理后,计算其隐性评分,实验数据集包含1179幅地图的分类描述数据(maps.txt)和个人用户的872条隐性评分数据(ratings.txt),数据示例格式如下:
分类描述数据maps.txt中数据条目格式:
ArticleID , title , genres 49254,107 国道线路地图 , 地图库 | 交通地图 | 国道线路图
隐性评分数据ratings.txt中数据条目格式:
userId , ArticleID , rating , cacheTime 1494590,49254,6.7,432770
本文选取MovieLens(http://movielens.org)收集的电影评分数据集作为验证数据集,目的是为了验证本文构建的面向专题地图产品推荐场景的用户偏好推荐方法和专题地图实验数据集的有效性、可行性[24]。MovieLens-100K、MovieLens-1M、MovieLens-10M和MovieLens-20M 4个数据集的详细信息见表3所示。MovieLens基准数据集是推荐系统中常用的高质量实验数据集,由GroupLens研究组在 University of Minnesot中组织,用户对自己看过的电影进行评分,分值范围:0~5。

3.2 评测指标

采用均方根误差(RMSE)评价模型的预测评分性能(式(21)),RMSE是推荐系统中最受欢迎的用来度量预测评分准确性的指标,RMSE反映预测评分偏离真实评分的程度,值越小,评分预测精度越高[25]。存在数据集D={(uk, ik , SR I u k , i k )},计算RMSE:
RMSE = k = 1 N ( SR I u k , i k - S R ˜ I u k , i k ) 2 N
式中:uk为第k个行为用户ID;ik为第k个含用户行为特征的物品ID; SR I u k , i k ,和 S R ˜ I u k , i k 为第k个用户对物品的真实评分和预测评分;N为数据集评分量。

3.3 参数设置和模型对比

根据实验数据集和验证数据集大小,本文所提面向专题地图产品推荐场景的用户偏好推荐方法Item2Vec中,基于负采样的CBOW模型训练相关的参数设置见表4所示。
表4 模型训练参数设置

Tab. 4 Parameter settings in this article model

参数 释义 Thematic CMaps MovieLens-100K/
MovieLens-1M
MovieLens-10M MovieLens-20M
size item向量维度 5 20/100 128 250
window 上下文窗口长度 3 3/4 6 8
negative 负采样个数 32 64/64 128 256
sg/hs 训练模式/采样模式 0/0 0/0 0/0 0/0
min_count item向量最小频次 3 4/5 6 8
iter 训练迭代次数 5 5/50 100 200
alpha 迭代学习率 0.025 0.025 0.050 0.050
本文选取LFM、Personal Rank、Content Based 3种传统的非神经网络模型与本文提出的用户偏好推荐方法进行比较;选取SVD和CBOW(负采样)作为Item-Item协同过滤的代表模型,比较在信息流场景中数据量不同,生僻词出现次数不同时的评分预测区别;选取以霍夫曼采样方式的Item2Vec基础方法、YouTubeNet 模型作为个性化推荐召回算法的深度学习比较模型。
(1)LFM:通过隐含特征构建用户兴趣和物品关系的潜在因子矩阵,对矩阵分解和评分偏移量模型进行正则化处理,减弱模型的泛化能力。
(2)Personal Rank:基于图的推荐算法将用户行为转化为二分图,依据顶点相关度对用户、物品进行排序,相关度越高的物品在用户推荐列表中越靠前。
(3)Content Based:基于内容的推荐算法分别刻画用户和项目画像,通过多种分类器对不同权重的项目结果进行线性加权,结合用户分类结果进行推荐。
(4)SVD:奇异值分解(Singular Value Decomposition)方法将高维度用户评分矩阵分解为隐藏特性空间中的用户特性矩阵和产品特性矩阵,SVD矩阵分解模型在Netflix Prize比赛中可生成产品建议[26]
(5)YouTubeNet:YouTubeNet推荐模型首先引入了用户的个性化信息(用户点击记录,用户年龄、性别等),在此基础下学习用户特征向量和物品序列特征向量,直接使用内积结果选出用户最感兴趣的物品列表[27]

3.4 结果分析

本文在用于专题地图产品偏好推荐的评分实验数据集“Thematic CMaps”和4种不同数据量的验证数据集MovieLens中运行4种传统推荐模型:LFM、Personal Rank、Content Based和SVD,以及本文提出的推荐方法,以多次实验的预测评分和真实评分的RMSE指标平均值来衡量各模型推荐效果,表5给出了各模型在测试集上的评分预测性能对比结果。从表5可知,本文所提用于专题地图产品推荐场景的用户偏好推荐方法,在专题地图评分实验数据集和验证数据集上的评分预测精度均优于4种传统推荐模型,且推荐性能均有所提升,说明本文所提方法,相比于LFM和SVD,对用户和项目的潜在特征有较好的学习能力;相比于Personal Rank和Content Based,具有有效的特征提取能力,能对用户行为的情景信息进行有效建模。其中,在实验数据集中,基于CBOW模型优化的Item2Vec方法比4种传统推荐模型在预测准确率上提升:16.44%、15.33%、13.80%和1.49%。在4个验证数据集中,总体上本文所提方法的预测准确率优于4种传统推荐模型,相比于LFM模型,本文所提方法预测准确率整体提升27.85%;相比于Personal Rank模型,本文所提方法预测准确率整体提升27.45%;相比于Content Based模型,本文所提方法预测准确率整体提升18.63%;相比于SVD模型,本文所提方法预测准确率整体提升4.95%。按模型在数据集中的实验结果,除Content Based模型外,本文所提方法相比于其余3种模型在提升预测准确率上均为正相关,随数据集中数据量的不断变大,评分预测性能提升越明显。在基于神经网络的推荐模型中,本文所提方法相比于以霍夫曼采样方式的Item2Vec基础方法,实验数据集中提升0.45%,验证数据集中提升0.55%、0.68%、1.88%和2.97%,说明评分预测精度上优于后者,评分预测性能也有了一定的提升;本文对YouTubeNet模型作了改动,在不引入用户个性化信息的情况下,只对具有用户行为特征的物品序列进行建模,结果表明,实验数据集中预测准确率提升0.97%,验证数据集中预测准确率提升1.19%、1.13%、4.24%和5.78%,说明本文所提方法在评分预测精度上优于后者,且评分预测性能有了大幅度提升。为验证本文所提方法在不同比例训练集下的评分预测性能变化差异,本文对MovieLens-20M数据集进行不同大小的切分,实验结果见表6所示。
表5 各模型预测评分性能对比

Tab. 5 Comparison of prediction score performance on each model

模型 Thematic CMaps MovieLens-100K MovieLens-1M MovieLens-10M MovieLens-20M
LFM 1.338 1.221 1.196 1.169 1.130
Personal Rank 1.324 1.212 1.183 1.176 1.122
Content Based 1.297 1.194 1.087 1.007 0.914
SVD 1.135 0.938 0.906 0.886 0.850
YouTubeNet 1.129 0.923 0.885 0.872 0.831
Item2Vec(霍夫曼) 1.123 0.917 0.881 0.851 0.807
Item2Vec(负采样) 1.118 0.912 0.875 0.835 0.783
表6 模型在MovieLens-20M数据集切分下的实验结果

Tab. 6 Experimental results of the model under the MovieLens-10M dataset segmentation

模型 10% 30% 50% 70% 90%
SVD 0.904 0.894 0.886 0.878 0.870
Item2Vec(负采样) 0.867 0.854 0.835 0.814 0.787
从MovieLens-20M数据集中随机抽取5种不同比例的数据子集用于模型训练,由表6可知,本文所提方法在10%、30%和50%的数据子集上的预测准确率,相比于SVD提升了4.09%、4.47%和5.75%,预测准确率提升较低,但在70%和90%的数据子集中,相比于SVD,本文所提方法的预测准确率提升了7.28%和9.50%,预测准确率提升较高,说明随训练量的增多,本文所提方法的评分预测准确率上升,评分预测性能优于SVD模型。
表5表6给出了本文所提方法与其他推荐模型在评分预测性能上的定量比较,针对构建的面向专题地图推荐场景中专题地图检索的实验数据集,进行离线测试,定性比较两种推荐模型的推荐结果(表7)。表7显示获得特定类用户最高预测评分的种子专题地图和相似度排名前5的邻居专题地图,相似度较高的专题地图则是为特定类用户进行推荐的项目。由表7可知,基于CBOW模型优化的Item2Vec方法推荐的专题地图列表相似度较高,基本属于同一地图主题下的各专题指标,推荐效果优于SVD模型,“Thematic CMaps”数据量较少,但仍能很好地推断各专题地图之间的相似关系。
表7 2种模型的推荐结果对比

Tab. 7 Two recommended results comparison between Item2Vec (Negative Sampling) and SVD

种子专题地图 Item2Vec(负采样)—Top5 SVD—Top5
107国道线路
地图——交通
地图|国道
线路图
109国道线路地图——交通地图|国道线路图 全国国道线路图——交通地图|国道线路图
全国国道线路图——交通地图|国道线路图 102国道线路地图——交通地图|国道线路图
全国国道分布图——交通地图|国道线路图 104国道线路地图——交通地图|国道线路图
102国道线路地图——交通地图|国道线路图 318国道全程示意图——交通地图|国道线路图
318国道全程示意图——交通地图|国道线路图 317国道线路地图——交通地图|国道线路图
四川省宜宾市
泸州市交通
地图——交通
地图|公路地图集
四川省雅安市阿垻州交通地图——交通地图|公路地图集 宁夏交通地图全图——交通地图|公路地图集
四川省眉山市乐山市交通地图——交通地图|公路地图集 四川省眉山市乐山市交通地图——交通地图|公路地图集
四川省交通地图全图——交通地图|公路地图集 四川省交通地图全图——交通地图|公路地图集
四川省成都市交通地图——交通地图|公路地图集 湖南省长沙株洲衡阳怀化交通地图——交通地图|公路
地图集
四川南充德阳达州自贡内江交通地图——交通地图|公路
地图集
四川高速公路地图2017版——交通地图|高速公路网
四川高速公路
图2017版—
交通地图|高速
公路网
四川18条高速公路线路规划图2017——交通地图|高速公
路网
四川省收费公路主线站点分布图——交通地图|高速公路网
云南高速公路地图2017版——交通地图|高速公路网 国家高速公路网线路图——交通地图|高速线路图
国家高速公路网规划方案图——交通地图|高速公路网 国家高速公路网布局——交通地图|高速线路图
国家高速公路网线路图——交通地图|高速线路图 四川18条高速公路线路规划图2017——交通地图|高速
公路网
甘肃高速公路地图2017版——交通地图|高速公路网 云南高速公路地图2017版——交通地图|高速公路网

4 结论

面对现有专题地图推荐场景中用户偏好建模案例研究相对较少,专题地图评分实验数据集缺少,通过编制本体规则等传统方法进行地图推荐的时效性不强等问题,本文提出面向专题地图产品推荐场景的用户偏好推荐方法,基于Web Service记录构造专题地图序列的统计类特征,如专题地图的点击量、收藏率等,通过计算专题地图隐性评分,完成用户偏好兴趣建模;基于负采样优化的CBOW模型,可有效提升目标专题地图的评分预测精度;基于CBOW模型优化的Item2Vec方法,充分考虑专题地图序列之间的局部共现关系,根据专题地图预测评分,完成个性化推荐,推荐效果优于传统方法,形成了较为合理的专题地图向量检索式召回策略。主要结论如下:
(1)首先使用特定类用户对感兴趣专题地图隐性评分的计算方法,构建用于专题地图检索的实验数据集“Thematic CMaps”。针对不同类用户形成不同专题地图分类粒度的评分,弥补了用户行为序列中特征专题地图强度无区分性的不足,解决了专题地图产品推荐场景中无专题地图评分实验数据集的不足,根据用户行为日志计算的隐性评分能客观反映检索用户的真实偏好程度。CBOW模型对专题地图的“专题地图名称/分类”标签的多次迭代更新,获得的专题地图的文本特征,可有效避免内容冷启动问题。
(2)基于负采样的CBOW模型优化,控制负样本个数是正样本个数的2倍,可过滤点击序列长度小于5的样本,过滤之后,用户点击序列能覆盖99%的预测专题地图。CBOW模型经负采样改进,降低了梯度下降过程中的计算量,参数Xwθu的迭代更新,可有效提高对大型数据集的训练效率和评分预测性能。
(3)基于CBOW模型优化的Item2Vec方法是将神经项嵌入物品的协同过滤,在类似于专题地图推荐的信息流场景中,数据量较大,生僻词出现次数较多,CBOW模型预测目标专题地图会受到前后地图序列的影响,地图特征向量的跳帧随中心专题地图的前后地图序列对应的地图向量一起调整,多次的前后地图序列对应的向量调整使得预测目标专题地图的向量更加准确,且这种训练方式适用于分类明确、生僻词较多的信息流场景。Item2Vec方法学习出来的专题地图序列向量含用户实时的偏好行为特征,具有较好的相似性,可覆盖10%以上的曝光占比,在专题地图个性化推荐召回层,专题地图点击率提升了1.83%,用户时长提升了1.11%,所以与传统推荐模型相比,基于CBOW模型优化的Item2Vec方法在专题地图推荐场景中能取得较好的推荐效果。
本文所提方法为语义环境下专题地图的Web上下文感知特征提取与建模提供了新的思路,专题地图向不同情境的特定用户传递偏好信息,个性化推荐基于用户认知语义为特定用户快速匹配合理有效的专题地图,量化专题地图推荐场景中不同类用户的知识构成和偏好程度,可促进专题地图服务中专题制图技术的发展,提高适应于不同类用户的专题地图质量,满足专题地图推荐场景中的个性化推荐效率。
[1]
Aleksandra K M, Mirjana I, Nanopoulos A. Recommender systems in e-learning environments: A survey of the state-of-the-art and possible extensions[J]. Artificial Intelligence Review, 2015,44(4):571-604.

[2]
郑束蕾, 陈毓芬, 杨春雷, 等. 地图个性化认知适合度的眼动试验评估[J]. 测绘学报, 2015,44(s1):27-35.

[ Zheng S L, Chen Y F, Yang C L, et al. Quantitative evaluation of personalized cognition suitability on maps by eye movement experiment[J]. Acta Geodaetica et Cartographica Sinica, 2015,44(s1):27-35. ]

[3]
方潇, 李萌, 包芃, 等. 基于眼动实验的个性化地图推荐模型探讨[J]. 地理空间信息, 2015,13(1):167-170.

[ Fang X, Li M, Bao F, et al. Discussion on personalized map recommendation model based on eye movement experiment[J]. Geospatial Information, 2015,13(1):167-170. ]

[4]
冯天文, 李轶鲲, 刘涛, 等. 语义扩散检索方法研究——以火灾应急图组库为例[J]. 测绘科学, 2018,43(12):115-121.

[ Feng T W, Li Y K, Liu T, et al. Research on semantic spreading retrieval method: A case study of fire emergency map base[J]. Science of Surveying and Mapping, 2018,43(12):115-121. ]

[5]
Koren Y, Bell R, Volinsky C. Matrix factorization techniques for recommender systems[J]. Computer, 2009,42(8):30-37.

[6]
Lang K. NewsWeeder: Learning to filter net-news [C]// Proceedings of the Twelfth International Conference on Machine Learning, Tahoe City, California, July 9-12, 1995: 331-339.

[7]
Almahairi A, Kastner K, Cho K, et al. Learning distributed representations from reviews for collaborative filtering [C]// RecSys'15: Proceedings of the 9th ACM Conference on Recommender Systems, September 2015: 147-154.

[8]
姜波, 张晓筱, 潘伟丰. 基于二部图的服务推荐算法研究[J]. 华中科技大学学报(自然科学版), 2013,41(s2):93-99.

[ Jiang B, Zhang X Y, Pan W F. Bipartite graph-based service recommendation method study[J]. Journal of Huazhong University of Science and Technology (Nature Science Edition), 2013,41(s2):93-99. ]

[9]
黄立威, 江碧涛, 吕守业, 等. 基于深度学习的推荐系统研究综述[J]. 计算机学报, 2018,427(7):191-219.

[ Huang L W, JiangB T, Lv S Y, et al. Survey on deep learning based recommender systems[J]. Chinese Journal of Computers, 2018,427(7):191-219. ]

[10]
吴彦文, 刘闯. 基于用户偏好和可疑度的推荐方法研究[J]. 计算机应用研究, 2018,35(12):118-120.

[ Wu Y W, Liu C. Research on recommendation method based on user preference and suspicious degree[J]. Application Research of Computers, 2018,35(12):118-120. ]

[11]
Barkan O, Koenigstein N. Item2Vec: Neural item embedding for collaborative filtering [C]// Proceedings of IEEE International Workshop on Machine Learning for Signal Processing, Washington D.C., USA: IEEEPress, 2016: 1-6.

[12]
陈晋音, 吴洋洋, 林翔. 基于图过滤的快速密度聚类双层网络推荐算法[J]. 控制理论与应用, 2019,36(4):542-552.

[ Chen J Y, Wu Y Y, Lin X. Double layered recommendation algorithm based on fast density clustering with graph-based filtering & Applications[J]. Control Theory & Applications, 2019,36(4):542-552. ]

[13]
黄金超, 张佳伟, 陈宁, 等. 基于偏好度特征构造的个性化推荐算法[J]. 上海交通大学学报, 2018,52(7):770-776.

[ Huang J C, Zhang J W, Chen N, et al. Preference degree based personalized recommendation algorithm[J]. Journal of Shanghai Jiaotong University, 2018,52(7):770-776. ]

[14]
张敏, 丁弼原, 马为之, 等. 基于深度学习加强的混合推荐方法[J]. 清华大学学报(自然科学版), 2017,57(10):1014-1021.

[ Zhang M, Ding B Y, Ma W Z, et al. Hybrid recommendation approach enhanced by deep learning[J]. Journal of Tsinghua University (Science and Technology), 2017,57(10):1014-1021. ]

[15]
陈冬林, 聂规划, 刘平峰. 基于网页语义相似性的商品隐性评分算法[J]. 系统工程理论与实践, 2006,26(11):98-102.

[ Chen D L, Nie G H, Liu P F. An algorithm for goods implicit rating based on web pages semantic similarity[J]. System Engineering Theory and Practice, 2006,26(11):98-102. ]

[16]
Kenter T, Borisov A, De R M. Siamese CBOW: Optimizing word embeddings for sentence representations [C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, August 7-12, 2016: 941-951.

[17]
刘淑涵, 王艳东, 付小康. 利用卷积神经网络提取微博中的暴雨灾害信息[J]. 地球信息科学学报, 2019,21(7):1009-1017.

[ Liu S H, Wang Y D, Fu X K. Extracting rainstorm disaster information from microblogs using convolutional neural network[J]. Journal of Geo-information Science, 2019,21(7):1009-1017. ]

[18]
Yao W, He J, Huang G, et al. A graph-based model for context-aware recommendation using implicit feedback data[J]. World Wide Web, 2015,18(5):1351-1371.

[19]
Breese J S, Heckerman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering [C]// U-AI'98: Proceedings of the Fourteenth conference on Uncertainty in Artificial Intelligence, July 1998: 43-52.

[20]
Kenter T, Borisov A, De R.M. Siamese CBOW: Optimizing word embeddings for sentence representations[J]. ACL 2016, June 2016,2016:941-951.

[21]
Qin P, Xu W, Guo J. A novel negative sampling based on TFIDF for learning word representation[J]. Neurocomputing, 2015,177:257-265.

[22]
Mikolov T, Sutskever I, Kai C, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013,26:3111-3119.

[23]
Bansal B, Srivastava S. Sentiment classification of online consumer reviews using word vector representations [C]// Procedia Computer Science, 2018: 1147-1153.

[24]
Karumur R P, Nguyen T T, Konstan J A. Exploring the value of personality in predicting rating behaviors: a study of category preferences on MovieLens [C]// Proceedings of the 10th ACM Conference on Recommender Systems, 2016: 139-142.

[25]
Aggarwal C C. Recommender Systems || Evaluating Recommender Systems[M]. New York: Recommender Systems, 2016.

[26]
Koren Y. Factorization meets the neighborhood: A multifaceted collaborative filtering model [C]// Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Las Vegas, Nevada, USA, August 24-27, 2008, ACM, 2008: 426-434.

[27]
Christian Ü, Christopher K, Veselin R, et al. Recommendations in a heterogeneous service environment[J]. Multimedia Tools and Applications, 2013,62(3):785-820.

Outlines

/