Fine-grained Semantic Interaction Mining and Pattern Analysis between Tourist Attractions: A Case Study of Yunnan Province, China

  • CHEN Yu ,
  • QIN Kun , * ,
  • YU Xuesong ,
  • XING Lingli
Expand
  • School of Remote Sensing and Information Engineering, Wuhan 430079, China
*QIN Kun, E-mail:

Received date: 2021-10-08

  Revised date: 2021-12-01

  Online published: 2022-12-25

Supported by

National Key Research and Development Program of China(2017YFB0503600)

National Natural Science Foundation of China(42171448)

Abstract

Exploring the semantic interaction and interaction pattern of tourist attractions is useful for optimizing the tourism pattern according to the needs of tourists. Existing semantic interaction mining methods ignore the contextual vocabulary that contains human perception information in texts. And there is a lack of research that analyzes the interaction pattern. Therefore, this paper proposes a framework for fine-grained semantic interaction mining and pattern analysis between attractions. First, the contextual information between two attractions is extracted through the co-occurrence relationship of words based on the online travel notes. Then, the semantic connection between attractions is mined by using the method of keyword analysis based on TF-IDF and the method of semantic network analysis from the perspectives of discussion focus and semantic structure. Finally, we regard attraction interaction as an object and use the Spearman rank correlation coefficient and the Graph Kernel (a method for graph similarity measurement) to calculate the correlation between them. Then the network analysis method is used to explore the interaction pattern. The experiment takes Yunnan Province as the case study area, the results of the text mining using travel notes in 2018 show that: (1) The framework is feasible and applicable. The travel experience can be improved according to the needs of tourists by mining and analyzing the fine-grained semantic interaction between attractions. And the route fragments that play a key role in optimizing the tourism pattern can be found by analyzing the semantic interaction pattern of attractions; (2) Cangshan Mountain-Erhai Lake should focus on improving the natural scenery travel experience; while Dali Old Town-Erhai Lake should consider improving tourists’ insufficient attention to branded tourism resources; (3) The coexistence of the three types of semantic interaction patterns, including single-core agglomeration, single-core radial, and multi-regional cooperation, presents the characteristics of node-axes evolving and diffusing. The high betweenness centrality and cross-regional attraction interactions are important for promoting the transformation of the other two models to multi-regional cooperation to develop "global tourism". The research results can provide references for recommending tourism routes and balancing tourism patterns. In the future work, we will explore the dynamic evolution of the semantic interaction between attractions and apply the results to tourist route recommendation.

Cite this article

CHEN Yu , QIN Kun , YU Xuesong , XING Lingli . Fine-grained Semantic Interaction Mining and Pattern Analysis between Tourist Attractions: A Case Study of Yunnan Province, China[J]. Journal of Geo-information Science, 2022 , 24(10) : 2021 -2032 . DOI: 10.12082/dqxxkx.2022.210613

1 引言

旅游景点是一种重要的地理环境,承载了游客的旅行活动。研究景点交互及交互作用模式,对发现游客旅行需求、优化旅游格局有积极作用。在包含地名的、具有人丰富体验和感受的文本中,词汇间相互联系的聚合关系可以度量景点地名间的语义交互作用[1-2]。这种语义交互作用是物理空间中景点交互在语义空间的映射[3],对从人的感知角度理解景点交互有重要意义。
目前利用文本数据挖掘景点间语义交互作用的研究主要有2类。①利用数值大小表达景点间语义交互作用强度。如不少研究利用语法结构树[4]、频繁模式和关联规则挖掘[5-8]等方法从文本中抽取旅游路线片段,统计景点间的旅游流量以度量景点间的交互作用强度;Yang等[9]利用游记和新闻文本数据,根据景点在文本中的共现频率,度量和分析旅游景点之间的合作水平。但这种单一维度的度量忽略了共现地名的上下文词汇信息,难以反映场所间细粒度的语义交互作用。②利用词汇表达景点之间的语义交互。此类研究主要集中在挖掘景点之间的距离、方位等地理空间关系[5,10-11],常使用三元组的形式表示,如<Batu Caves,13 Kilometers north, Kuala Lumpur>等[10]。少部分学者关注景点间其他类型的语义交互,Kori等[12]利用文本数据挖掘游客关于路线片段的兴趣或话题,但其使用的语料为所有包含某个路线片段的整篇文档,而不是上下文,因此在挖掘某条路线片段语义时引入了其他路线片段的语义;此外,该研究仅保留了名词词性的词,忽略了其他可以反映人的感知的词,如表示游客行为的动词等。上述研究抽取的这类空间关系或名词词性的语义交互,难以反映一定时期内人们对景点之间讨论的焦点、体验、感受和需求。然而,目前利用文本中这种细粒度信息的相关研究,着重于挖掘人们对单个场所的形象感知[7,13-15],如Che等[15]利用词频-逆向文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)、语义网络等方法分析消费者对某购物广场的看法,鲜少研究利用这些信息挖掘景点间细粒度的语义交互作用。此外,相关研究多基于景点间语义交互强度,且多以景点或整体旅游格局为分析对象。如吕琳露等[7]以景点为节点,利用游记提取景点间旅游流量作为边权,构建旅游流网络,分析景点在旅游流网络中扮演的角色;Juan等[16]利用2个景点被游客共同评论的次数度量语义交互强度,并构建景点关联网络分析景点角色和网络结构的演变。以景点交互作为分析对象的研究较少,主要分析对应路线片段的热门程度[6-7]、或景点被同时游玩的可能性[8]
总的来说,现有语义交互作用挖掘方法忽略了包含人感知信息的上下文词汇;此外,目前缺少利用这种细粒度语义交互作用,以景点交互为单位,分析景点间语义交互作用模式的研究。鉴于此,本文提出了一个景点间细粒度语义交互作用挖掘和模式分析的框架。首先抽取共现景点地名及上下文词汇信息,并通过扩展常用于挖掘单个场所语义连接的TF-IDF方法及语义网络分析方法,挖掘景点间丰富的语义连接,从而表征景点间细粒度的语义交互作用,最后结合相关性度量以及网络分析方法,探究景点间语义交互作用的模式。利用2018年云南省游记数据进行实证分析,以验证框架的有效性。

2 研究方法

本文提出了一个挖掘景点间细粒度语义交互作用和交互作用模式的框架,如图1所示。所提框架基于包含景点地名的、经去重、清洗、分词预处理操作的文本数据。首先利用文本中景点地名及上下文关联词的共现关系,抽取景点间交互语境作为挖掘语料。然后利用TF-IDF关键词抽取方法[17]、语义网络分析方法[14],从讨论焦点和语义结构2个角度挖掘景点间细粒度语义交互作用。最后利用Spearman秩相关系数[18-19]和Graph Kernel图相似度度量方法[20],分别计算景点语义交互作用之间的相关性,并结合网络分析方法探究景点语义交互作用的模式。
图1 旅游景点间细粒度语义交互作用挖掘及模式分析框架

Fig. 1 A research framework for fine-grained semantic interaction mining and pattern analysis between tourist attractions

2.1 景点间细粒度语义交互作用挖掘方法

2.1.1 景点间交互语境提取

若2个地名在文本中的词距离小于一个阈值(该阈值被称为最大关联窗口)则认为其对应的场所间有语义关联。根据陆锋等[21]对语境的定义,本文将景点间交互语境定义为:有语义关联的一对景点(称为景点对),其之前、之中和之后上下文窗口范围内共同出现的词语集合,但不包括该景点对名词、且过滤掉停用词(“了”、“的”等)和标点符号。如图2所示,景点对A-B、B-C的词距离小于最大关联窗口W,A-B交互语境不包括该景点对名词A、B,B-C交互语境不包括该景点对名词B、C,但包括其他景点名词,如A;而A-C间的词距离大于W,因此不提取该语境。
图2 景点间交互语境提取示意图

Fig. 2 An example for extracting attraction interaction context

若能从语料中提取2个景点间的语境,则认为2个景点是语义连通的。最大关联窗口的大小会影响景点间语义连通度,且影响景点交互的语境信息。本文结合复杂网络中的渗流理论来确定该窗口大小[22-23]。渗流理论表明,若节点间存在连边的概率为 p c,当 p c达到某一点时,将迅速形成一个巨大连通图,所有弱连接都不存在,但强相关对象仍然紧密地连接[23]图3)。参考Liu等[23]的思想,将关联窗口大小视为 p c,计算关联窗口逐步增大时景点网络最大连通子图的大小。不同的是,本文以最大连通子图扩展速度趋近于零时的窗口大小作为最大关联窗口W,以忽略使景点语义连通速度慢的弱关联。
图3 最大关联窗口选择策略

Fig. 3 The method for the max associated window selection

上下文窗口大小同样影响景点交互的语境。在自然语言处理中,单个单词的上下文窗口往往被设置为2w+1的形式[24],表示以某个词为中心,同时选取该词、w个在该词之前和w个在该词之后的词作为该词的关联词。据此,本文设置上下文窗口为2w的形式,利用自适应窗口大小的方式获取每个景点间交互语境。w表示2个景点名词之间的词距离,则当wW时,景点间交互语境由 w 2个上文词、 w 2个下文词以及景点之间的w个词构成。

2.1.2 语义连接抽取方法

(1)基于TF-IDF的关键词抽取
一篇文档中的关键词可以体现文档的核心内容。TF-IDF方法[17]是无监督的关键词抽取方法,可以计算每一篇文章中各个单词的重要性,TF-IDF值越大的词越关键。该方法常用于提取单个景点的语义连接[25-26],本文中利用该方法从讨论焦点的角度挖掘2个景点间的关键语义连接。
用户可能因为偏好某个景点而在游记中产生大量关于该景点的重复描述。为了避免结果受该情况影响,采用篇频次[27]对词频进行统计:某个词在一篇文章的景点间交互语境中出现,频次记为1。分别合并各个景点交互在各篇文章中提取的语境,将一个景点交互的所有语境当作一篇文档,计算各个词在各个语境中的TF-IDF值。词i在A-B景点间交互语境中的TF-IDF值为:
T F - I D F A , B j ( i ) = T F A , B j i × I D F i
式中: T F A , B j i为词i在A-B景点交互语境中出现的频率; I D F i表示词i在所有语境中的逆向文档词频,使用词i的语境越多该值越小。
(2)基于PMI的语义网络构建
关键词可以反映游客讨论焦点,但无法体现词在语境中的深层语义结构[14],如词之间的相关关系及拓扑关系。网络分析方法可以分析事物之间关系模式[28],由节点和节点之间的连接组成。语义网络以词为节点,常被用于分析单个景点的语义连接[7,13-15,29]。本文结合语义网络分析方法,从语义结构角度挖掘景点间的语义连接。
以语境中的所有词作为节点,利用词之间的点互相关性(Pointwise Mutual Information,PMI)作为节点的连接边权重,并忽略权重小于均值的弱关联边[30],以构建各个景点对的语义网络。PMI越大词之间的关联越强[31]。词i和词j间PMI值为:
P M I A , B i , j = l o g P A , B i , j P A , B ( i ) P A , B ( j )
式中: P A , B i , j表示词i和词j在A-B景点交互语境中同时出现的概率; P A , B ( i )表示词i在该语境中出现的概率。

2.2 景点交互作用模式挖掘方法

2.2.1 相关性度量方法

利用上述从讨论焦点和语义结构角度提取的 2类景点间语义交互作用,本文将景点交互视为一个对象,利用Spearman秩相关系数[18-19]和Graph kernel图相似度[20] 2种相关性度量方法,分别计算景点交互的两类相关性。
(1)基于Spearman秩相关系数的关键词相关性度量
由于词对应的TF-IDF值是可排序的连续型数值,且该分布不是正态分布,本文利用Spearman秩相关系数[18-19]这一无参数相关性检验方法,将各个景点间交互语境中的词及对应的TF-IDF值作为关键词向量,计算关键词向量的Spearman秩相关性系数,该值越大,相关性越强。
(2)基于Graph kernel的语义网络相关性度量
Graph kernel已成为无对齐地量化图之间相似性的流行方法[20]。本文利用Sugiyama等[20]开发的graphkernels工具包,使用目前最先进的、表现最佳的Weisfeiler-Lehman子树内核[32]度量语义网络相似度,计算结果越大,语义网络相似度越高。

2.2.2 网络分析方法

将景点交互视为一个节点,上述两类相关性作为节点连接边权重,忽略权重小于均值的弱关联边,分别构建关键词相关性加权的、语义网络相关性加权的2个景点交互相关性网络,并结合网络分析方法,分析景点交互在网络中的角色和集群模式。其中,加权度中心性、中介中心性用于分析节点扮演的角色和作用,社区发现算法和核心/边缘结构模型可以挖掘节点集群和网络的结构。
(1)加权度中心性
加权度中心性[33]( C D i)可以度量节点在网络中与其他节点的连接程度,相关性网络中该值越大,与其他节点的相关性越强。表示为:
C D i = j N i w i j
式中: N i表示节点i的1阶邻居集合; w i j表示节点i和节点j在网络中连边的权值。
(2)相对中介中心性
中介中心性越大,节点在网络中的桥梁和中转作用越明显[28]。在不同网络中,相同节点i的中转能力大小采用i的相对中介中心性指标( R C B ( i ))来度量和比较, R C B ( i )表示如下:
R C B ( i ) = j , k N g j k i g j k ( N - 1 ) × ( N - 2 ) ( j k i )
式中: g j k i为节点j和节点k之间经过节点i的最短路径数; g j k为节点j和节点k之间的最短路径总数,N为节点数。
(3)社区发现算法
社区发现算法是节点聚类算法,可以分析节点集群模式和网络子结构。本文利用经典的、非监督的Louvain算法[34]发现网络中的潜在社区,并利用模块度确定该算法的唯一参数(解析度),模块度越大社区划分效果越好[35]
(4)核心/边缘结构模型
核心/边缘结构模型认为,网络可以被划分为一个密集的、有凝聚力的核心层和一个稀疏的、弱相连的边缘层[36]。本文利用UCINET6软件[37]计算网络的核心/边缘结构。

3 研究区概况与数据来源

3.1 研究区概况

云南省位于中国西南方,拥有丰富的自然资源和人文景观。2018年云南省共接待旅客约6.88亿人次,旅游业已成为其核心经济产业[38]。该地区旅游特色鲜明、典型,可获得的数据数量大,因此选取云南省作为研究区域进行数据收集及实证分析。

3.2 数据来源与预处理

游记文本包含了景点地名及人丰富的体验信息,为景点间语义交互作用的度量和分析提供了新的数据和视角。本文的数据来自于:主打游记分享的马蜂窝网(www.mafengwo.cn)、2018年占有中国在线旅游网站较大市场份额的携程网(www.ctrip.com)和去哪儿网(www.qunar.com)。考虑到游记的时间敏感性,且2019年末以来旅游出行受新冠疫情影响较大,最终爬取了云南省2018年全年的游记数据和旅游景点信息。
通过对3个网站爬取到的数据进行合并及数据预处理操作,最终获得7258篇游记文本数据,包括游记ID、出发日期和游记正文等字段,以及1970条云南省旅游景点信息数据,包括景点名称、景点经度、景点纬度、所属市行政区等字段。

4 结果与分析

4.1 景点间交互语境提取结果

根据3.1,本文中将最大关联窗口大小设为21,最终提取到22 671个景点间交互语境(图4)。由 图5所示,景点交互篇频次呈长尾分布,热门景点交互集中在云南省西北部的大理市、丽江市、迪庆市以及中部的昆明市。
图4 最大关联窗口大小选择

Fig. 4 Selection of the max associated window size

图5 景点交互篇频次及空间分布

Fig. 5 Frequencies and spatial distribution of attraction interactions

4.2 景点细粒度语义交互作用

以讨论篇频次排前两名的景点对苍山-洱海、大理古城-洱海为例,分析景点间细粒度的语义交互作用,并对比交互作用的差异。

4.2.1 基于关键词的景点间语义连接

提取TF-IDF值倒序排名前50的词作为关键词[39],篇幅有限仅展示前20项关键词,如表1所示。人工将关键词划分到7类主题中(自然风光、人文景观、地理位置、旅行活动、行程计划、住宿及其他),统计各类主题TF-IDF值占比(图6),以分析游记文本中景点交互的焦点和主题。
表1 苍山-洱海和大理古城-洱海前20项关键词提取结果

Tab. 1 Keyword extraction results (Top 20) of CangShan mountain-Erhai and Dali Old Town-Erhai

苍山-洱海 大理古城-洱海
TF-IDF TF-IDF TF-IDF TF-IDF
0.339 古城 0.114 0.302 双廊 0.099
洱海月 0.328 索道 0.112 苍山 0.274 0.095
上关花 0.247 喜洲 0.101 大理 0.238 小时 0.093
下关风 0.199 0.095 古城 0.202 南门 0.091
雪月 0.165 关风 0.095 客栈 0.173 租车 0.085
大理古城 0.150 崇圣寺 0.091 0.153 电动车 0.084
大理 0.131 0.089 0.139 车站 0.079
0.128 天龙八部 0.085 崇圣寺 0.137 入住 0.079
0.116 风景 0.084 喜洲 0.126 0.077
背靠 0.116 上关 0.080 环游 0.108 火车 0.077
图6 前50项关键词主题分布分析示例

Fig. 6 An example of the thematic distribution analysis of the top 50 keywords

2018年苍山与洱海交互的首要话题为自然风光,占比高达39.3%,体现了游客对其自然环境类旅游资源的强烈感知,如“雪”(0.339)、“洱海月”(0.328)等。此外,地理位置描述共占13.6%,“大理”、“上关”、“背靠”等词体现了游客关于苍山-洱海所处地理空间的认知。而在大理古城和洱海之间的景点交互中,旅行活动和人文景观主题的关键词权重占比之和接近45%。游客对大理古城、洱海以及附近的“崇圣寺”、“双廊”等历史文化景点的体验和感受,比如“环游”、“逛”等,是该交互的重要组成部分。大理古城和洱海的交互中地理位置描述占比相比苍山-洱海更少,游客关于大理古城-洱海的地理空间特征感知更弱。此外,在住宿与行程计划两类主题中,苍山-洱海与大理古城-洱海的交互呈现相反的特点。前者两类主题的关键词权重占比之和仅为2.3%,而后者则达到了23.6%,说明在大理古城-洱海的交互中,游客对住宿体验、旅行规划等方面感知比较强烈。这可能是因为2对景点对的旅游资源和游客需求差异较大。前者以提供自然风光的游玩体验为主,而后者反映了游客对住宿功能、高交通可达性的需求。

4.2.2 基于语义网络的景点间语义连接

选取TF-IDF值排名前50的词作为节点,词之间的PMI值作为连接边权重,可视化两对景点对的语义网络,从语义结构角度分析景点间交互。当解析度分别为1和1.3时,2个网络的社区划分结果模块度最大。由图7可知,2个语义网络均呈现出明显的核心-边缘结构。苍山-洱海语义网络表现出以与旅行活动和人文景观主题(红色社区)为核心,自然风光等其他主题(橙、绿和蓝色社区)为边缘的结构。该核心层内的词体现了地理临近以及空间层次结构对景点间语义交互的影响,如“洗马潭”、“天龙八部”、“影视城”等相应的景点位于苍山景区内部,“大理古城”居于苍山之下、洱海之滨。而大理古城-洱海语义网络的核心层主要为行程计划这一类主题(红色社区),包含较多与远途交通工具、住宿相关的词汇,如“动车”、“休息”等,说明游客对该景点交互交通方面的感知较为强烈,且反映了游客对休憩功能的需求。景点交互在旅游场景下映射为路线片段,游客可能将该路线片段作为一段跨度较大的行程的开始或结束,利用其便捷的交通接驳功能承接其他区域到该路线片段的旅行。但同时,人文景观相关的词位于边缘层,表明在语义网络表达的大理古城-洱海的交互中,游客对大理古城和洱海历史文化类、自然环境类的旅游资源感知比较稀疏和零散。
图7 语义网络分析示例

Fig. 7 The semantic networks of the top 50 keywords of CangShan mountain-Erhai and Dali Old Town-Erhai

景点间细粒度的语义交互作用可以反映游客的体验、感受和需求,旅游管理部门可以考虑针对游客需求,完善或设计具有相关功能的旅游产品。如苍山-洱海应着重开发契合自然遗产特色的旅游活动,不断提升游客的旅行体验;而大理古城-洱海可以考虑适当开发一些具有当地文化特色和民俗风情的民宿、客栈,提升游客对历史文化类的旅游资源的感知,并提升和完善交通接驳功能,满足游客的出行需求。二者语义交互作用差异来自于景点提供的旅游资源和功能、地理位置、游客开展的旅游活动等,通过分析这种差异,可以为探索和开发景点之间的合作提供参考。

4.3 景点语义交互作用模式

将景点交互看作一个对象,以讨论热度前50的景点交互为节点,2类相关性值为边权重,分别构建景点语义交互作用相关性网络。如图8所示,前50项热门景点交互集中在云南西北部的大理、丽江、和迪庆3个城市,热门旅游区集中在大理市中部、丽江市西部。2个网络中加权度中心性较大、处于网络核心层的景点交互,多位于为大理市内部或跨大理市-丽江市西部。若2对景点间语义交互作用相关性较大,其对应的2个路线片段可能都会被游客青睐,这为向游客推荐旅游路线提供了参考。此外,由图9所示,在2个网络中,大部分相对中介中心性较强的景点交互都位于各个市热门景区内部,以承接临近景点交互为主,如大理市中部的洱海-崇圣寺、丽江市西部的丽江古城-拉市海以及迪庆市中部的香格里拉-普达措等。在关键词相关性加权下,一些地理位置跨度较大的景点交互的相对中介中心性较强,如丽江古城-洱海等,对应的路线片段起到衔接2个区域内部旅游路线片段的重要作用。
图9 景点语义交互作用在相关性网络中的相对中介中心性

Fig. 9 Relative betweenness centrality of attraction interaction in the two correlation networks

根据上述景点间语义交互作用格局,结合社团划分结果,分析语义交互作用模式,发现优化旅游格局的关键路线片段。当解析度为1时,2个网络社区划分结果的模块度都达到最大。可以将该时期云南省热度排名前50景点语义交互的模式总结为以下3类。
(1)单核心集聚型
单核心集聚型的语义交互作用模式在语义网络相关性加权的网络中,表现为以大理市中部景点交互为核心的红色社区(图8(c)和图8(d))。该社区内的景点语义交互在地理空间上临近,呈现出小范围的区域集聚性。核心交互包括大理古城-苍山、苍山-洱海、洱海-双廊等,集中在云南省重点开发的“大理苍洱旅游区”。旅游管理部门可以借助这种模式,结合社区内景点间的细粒度语义交互作用,把握游客的需求痛点,为游客打造小范围深度游的旅游产品。比如,通过苍山-洱海和大理古城-洱海细粒度语义交互作用的对比分析,针对游客对2个路线片段、3个景点的多元化需求,打造资源和功能互补型旅游区,为游客提供自然风光与民俗文化交叉的旅行体验和服务。
(2)单核心辐射型
单核心辐射型模式表现为某个区域热门的景点交互结合一些小众或更具特色的景点交互,体现2个网络划分出的黄色社区中。前者以大理中部景点交互群为核心、向丽江西部辐射,主要辐射的交互为大理古城-丽江古城、洱海-丽江古城。后者主要包括分别以大理中部、丽江西部为核心向迪庆中部辐射的景点交互,具体表现为大理古城-洱海这类热门路线片段搭配洱海-香格里拉等路线片段。针对这些由核心旅游景区向其他景区辐射的路线片段,相关部门可以利用核心景区的辐射带动作用,促进与香格里拉等西北方向的景点交互,平衡旅游格局。
(3)多区域合作型
多区域合作型的语义交互作用模式符合云南省“全域旅游发展”的旅游转型理念,主要包括4个子区域的三角网合作模式(图8(b))和大理中部-丽江西部-丽江北部的三角形合作模式(图8(d))。特别地,在这类模式中,游客更可能通过中介中心性较大的、跨区域的路线片段,如丽江古城-洱海、洱海-玉龙雪山、玉龙雪山-香格里拉等,从一个旅游区中转到其他旅游区。有关部门通过分析这些景点交互的细粒度语义,可以面向游客需求建立跨区域的旅游合作,推动“全域旅游”的转型进程。
图8 景点语义交互作用相关性网络及社区空间分布

Fig. 8 The two correlation networks of attraction interaction and the spatial distribution of communities

3种类型的模式共存体现了云南省旅游经济发展中的点轴渐进扩散过程,单核心集聚型模式带动并通过不断拓延形成单核心辐射型模式,再以点成线并带动全域旅游地位升级,形成多区域合作型模式。

5 结论与讨论

5.1 结论

本文提出了一个景点间细粒度语义交互作用挖掘及模式分析的框架,以景点交互为研究对象,研究了交互作用的细粒度语义和模式。利用云南省2018年游记文本数据进行实证分析,主要结论如下:
(1)本文提出的框架可以挖掘和分析景点间细粒度语义交互作用,从单个路线片段出发根据游客需求提升旅游体验。此外,可以进一步分析景点语义交互作用模式,发现优化旅游格局的关键路线片段,再分析细粒度的语义交互作用,结合游客意见制定相应的策略,优化旅游格局。该框架具有较高的可行性和实用性。
(2) 2018年云南省苍山-洱海语义交互的重要组成部分是自然风光为主的游玩体验,而大理古城-洱海语义交互的核心为旅行功能。前者应考虑如何进一步提升自然风光旅行体验;而后者在完善住宿、高交通可达性的旅行功能时,还应着重改善游客对品牌旅游资源关注不足的问题。二者语义交互作用差异来自于景点对提供的旅游资源和功能、游客进行的旅游活动等,此外,地理空间位置及空间层次结构对苍山-洱海间语义交互作用的影响相比大理古城-洱海更大。
(3)云南省该时期热度排名前50景点语义交互模式包括单核心集聚型、单核心辐射型、多区域合作型,呈现出点轴渐进扩散特征。多区域合作型使旅游业发展更加平衡和可持续,是未来旅游业管理的重点。旅游管理部门可以考虑利用丽江古城-洱海等中介中心性较高且跨区域的景点交互,推动单核心集聚型和单核心辐射型交互模式向多区域合作型转化,以推进“全域旅游发展”战略实施。

5.2 讨论

本文所提出的框架考虑了现有研究忽略的、可以反映人体验和感受的景点间细粒度语义交互作用,并在此基础上,以景点间语义交互作用为单位分析其模式,为及时把控游客对旅游结构的认知,面向游客需求优化旅游格局提供可行路径。然而,目前研究框架侧重于“静态”的细粒度语义交互作用挖掘和模式分析,还需要将时间方面的潜在影响纳入研究框架,进一步探究景点间语义交互作用的动态演变。此外,还可以考虑对不同用户进行聚类,利用不同用户组的游记文本数据挖掘景点间的语义交互作用,结合协同过滤原理将框架应用于游客路线推荐中。

目前利用文本数据挖掘景点间语义交互作用的研究主要有2类。①利用数值大小表达景点间语义交互作用强度。如不少研究利用语法结构树[4]、频繁模式和关联规则挖掘[5-8]等方法从文本中抽取旅游路线片段,统计景点间的旅游流量以度量景点间的交互作用强度;Yang等[9]利用游记和新闻文本数据,根据景点在文本中的共现频率,度量和分析旅游景点之间的合作水平。但这种单一维度的度量忽略了共现地名的上下文词汇信息,难以反映场所间细粒度的语义交互作用。②利用词汇表达景点之间的语义交互。此类研究主要集中在挖掘景点之间的距离、方位等地理空间关系[5,10-11],常使用三元组的形式表示,如<Batu Caves,13 Kilometers north, Kuala Lumpur>等[10]。少部分学者关注景点间其他类型的语义交互,Kori等[12]利用文本数据挖掘游客关于路线片段的兴趣或话题,但其使用的语料为所有包含某个路线片段的整篇文档,而不是上下文,因此在挖掘某条路线片段语义时引入了其他路线片段的语义;此外,该研究仅保留了名词词性的词,忽略了其他可以反映人的感知的词,如表示游客行为的动词等。上述研究抽取的这类空间关系或名词词性的语义交互,难以反映一定时期内人们对景点之间讨论的焦点、体验、感受和需求。然而,目前利用文本中这种细粒度信息的相关研究,着重于挖掘人们对单个场所的形象感知[7,13-15],如Che等[15]利用词频-逆向文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)、语义网络等方法分析消费者对某购物广场的看法,鲜少研究利用这些信息挖掘景点间细粒度的语义交互作用。此外,相关研究多基于景点间语义交互强度,且多以景点或整体旅游格局为分析对象。如吕琳露等[7]以景点为节点,利用游记提取景点间旅游流量作为边权,构建旅游流网络,分析景点在旅游流网络中扮演的角色;Juan等[16]利用2个景点被游客共同评论的次数度量语义交互强度,并构建景点关联网络分析景点角色和网络结构的演变。以景点交互作为分析对象的研究较少,主要分析对应路线片段的热门程度[6-7]、或景点被同时游玩的可能性[8]

[1]
Rada R, Mili H, Bicknell E, et al. Development and application of a metric on semantic nets[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1989, 19(1):17-30. DOI: 10.1109/21.24528

DOI

[2]
Resnik P. Using information content to evaluate semantic similarity in a taxonomy[C]. Proceedings of the 14th International Joint Conference on Artificial Intelligence, 1995, 1:448-453

[3]
张郴, 黄震方. 旅游地三元空间交互理论模型建构[J]. 地理研究, 2020, 39(2):232-242.

DOI

[ Zhang C, Huang Z F. Constructing the theoretical model of "tri-space" interaction in the tourism context[J]. Geographical Research, 2020, 39(2):232-242. ]

DOI

[4]
Moncla L, Gaio M, Nogueras-Iso J, et al. Reconstruction of itineraries from annotated text with an informed spanning tree algorithm[J]. International Journal of Geographical Information Science, 2015, 30(6):1137-1160. DOI: 10.1080/13658816.2015.1108422

DOI

[5]
Haris E, Gan K H. Mining graphs from travel blogs: A review in the context of tour planning[J]. Information Technology & Tourism, 2017, 17(4):429-453. DOI:10.1007/s40558-017-0095-2

[6]
Yuan H, Xu H L, Qian Y, et al. Make your travel smarter: summarizing urban tourism information from massive blog data[J]. International Journal of Information Management, 2016, 36(6):1306-1319. DOI: 10.1016/j.ijinfom gt.2016.02.009

DOI

[7]
吕琳露, 李亚婷. 游记文本中的知识发现与聚合——以蚂蜂窝旅行网杭州游记为例[J]. 情报杂志. 2017, 36(7):176-181.

[ Lv L L, Li Y T. Knowledge discovery and aggregation of travel notes about Hangzhou on mafengwo.cn[J]. Journal of Intelligence, 2017, 36(7):176-181. ]

[8]
Liu T, Zhang Y, Zhang H, et al. A methodological workflow for deriving the association of tourist destinations based on online travel reviews: A case study of Yunnan province, China[J]. Sustainability (Basel, Switzerland), 2021, 13(9):4720. DOI: 10.3390/su13094720

DOI

[9]
Yang Y. Understanding tourist attraction cooperation: an application of network analysis to the case of Shanghai, China[J]. Journal of Destination Marketing & Management, 2018, 8:396-411. DOI: 10.1016/j.jdmm.2017.08.003

DOI

[10]
Haris E, Gan K H. Extraction and visualization of tourist attraction semantics from travel blogs[J]. ISPRS International Journal of Geo-information, 2021, 10(10):710. DOI: 10.3390/ijgi10100710

DOI

[11]
Haris E, Gan K H, Tan T. Spatial information extraction from travel narratives: analysing the notion of co-occurrence indicating closeness of tourist places[J]. Journal of Information Science, 2020, 46(5):581-599. DOI: 10.1177/0165551519837188

DOI

[12]
Kori H, Hattori S, Tezuka T, et al. Automatic generation of multimedia tour guide from local blogs[C]. Berlin, Heidelberg: Springer Berlin Heidelberg, 2006

[13]
李萍, 陈田, 王甫园, 等. 基于文本挖掘的城市旅游社区形象感知研究——以北京市为例[J]. 地理研究, 2017, 36(6):1106-1122.

DOI

[ Li P, Chen T, Wang F Y, et al. Urban tourism community image perception and differentiation based on online comments: A case study of Beijing[J]. Geographical Research, 2017, 36(6):1106-1122. ]

DOI

[14]
Liang F, Pan Y, Gu M, et al. Cultural tourism resource perceptions: analyses based on tourists' online travel notes[J]. Sustainability (Basel, Switzerland), 2021, 13(2):519. DOI: 10.3390/su13020519

DOI

[15]
Che S, Nan D, Kamphuis P, et al. A cluster analysis of lotte young plaza using semantic network analysis method[C]. Seoul, Korea (South): IEEE, 2021. DOI: 10.1109/IMCOM51814.2021.9377390

DOI

[16]
Hernández J M, Santana-Jiménez Y, González-Martel C. Factors influencing the co-occurrence of visits to attractions: The case of Madrid, Spain[J]. Tourism Management, 2021, 83:104236. DOI: 10.1016/j.tourman.2020. 104236

DOI

[17]
Salton G, Buckley C. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988, 24(5):513-523. DOI: https://doi.org/10.1016/0 306-4573(88)90021-0

DOI

[18]
Spearman C. The proof and measurement of association between two things[J]. International Journal of Epidemiology, 2010, 39(5):1137-1150. DOI: 10.1093/ije/dyq191

DOI PMID

[19]
Zar J H. Significance testing of the spearman rank correlation coefficient[J]. Journal of the American Statistical Association, 1972, 67(339):578-580. DOI: 10.1080/01621459. 1972.10481251

DOI

[20]
Sugiyama M, Ghisu M E, Llinares-López F, et al. Graphkernels: R and Python packages for graph comparison[J]. Bioinformatics, 2018, 34(3):530-532. DOI: 10.1093/bioinformatics/btx602

DOI PMID

[21]
余丽, 陆锋, 刘希亮, 等. 稀疏地理实体关系的关键词提取方法[J]. 地球信息科学学报, 2016, 18(11):1465-1475.

DOI

[ Yu L, Lu F, Liu X L, et al. A method of context enhanced keyword extraction for sparse geo-entity relation[J]. Journal of Geo-information Science, 2016, 18(11):1465-1475. ]

[22]
Li M, Liu R R, L, et al. Percolation on complex networks: theory and application[J]. Physics Reports, 2021, 907:1-68. DOI: 10.1016/j.physrep.2020.12.003

DOI

[23]
Cao W P, Dong L, Wu L, et al. Quantifying urban areas with multi-source data based on percolation theory[J]. Remote Sensing of Environment, 2020, 241:111730. DOI: 10.1016/j.rse.2020.111730

DOI

[24]
Jabeen S, Gao X Y, Andreae P. Probabilistic associations as a proxy for semantic relatedness[M]. Cham: Springer International Publishing, 2014,512-522. DOI:10.1007/978-3-319-11749-2_38

[25]
谢永俊, 彭霞, 黄舟, 等. 基于微博数据的北京市热点区域意象感知[J]. 地理科学进展, 2017, 36(9):1099-1110.

DOI

[ Xie Y J, Peng X, Huang Z, et al. Image perception of Beijing's regional hotspots based on microblog data[J]. Progress in Geography, 2017, 36(9):1099-1110. ]

DOI

[26]
周佳颖, 王俊蓉, 张景秋. 微博用户的中国传统节日感知及区域差异研究[J]. 地球信息科学学报, 2019, 21(1):77-85.

DOI

[ Zhou J Y, Wang J R, Zhang J Q. Perception and regional differences of Chinese traditional festivals by Weibo users[J]. Journal of Geo-information Science, 2019, 21(1):77-85. ] DOI: 10.12082/dqxxkx.2019.180228

DOI

[27]
Liu Y, Wang F H, Kang C G, et al. Analyzing relatedness by toponym co-occurrences on web pages[J]. Transactions in GIS, 2014, 18(1):89-107. DOI: 10.1111/tgis.12023

DOI

[28]
Freeman L C. Centrality in social networks conceptual clarification[J]. Social Networks, 1978, 1(3):215-239. DOI: https://doi.org/10.1016/0378-8733(78)90021-7

DOI

[29]
Hou Z P, Cui F S, Meng Y H, et al. Opinion mining from online travel reviews: a comparative analysis of Chinese major OTAs using semantic association analysis[J]. Tourism Management (1982), 2019, 74:276-289. DOI: 10.1016/j.tourman.2019.03.009

DOI

[30]
Wang Z F, Liu Q F, Xu J H, et al. Evolution characteristics of the spatial network structure of tourism efficiency in China: A province-level analysis[J]. Journal of Destination Marketing & Management, 2020, 18:100509. DOI: 10.10 16/j.jdmm.2020.100509

DOI

[31]
Peng H C, Long F H, Ding C. Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8):1226-1238. DOI: 10.1109/TPAMI.2005.159

DOI PMID

[32]
Shervashidze N, Schweitzer P, van Leeuwen E J, et al. Weisfeiler-Lehman graph kernels[J]. Journal of Machine Learning Research, 2011, 12:2539-2561

[33]
Guo S Z, Lu Z M, Chen Z, et al. Strength-strength and strength-degree correlation measures for directed weighted complex network analysis[J]. IEICE Transactions on Information and Systems, 2011, 94-D(11):2284-2287

[34]
Blondel V D, Guillaume J L, Lambiotte R, et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008, 2008(10): P10008. DOI: 10.1088/1742-5468/2008/10/P10008

DOI

[35]
Jin M H, Gong L S, Cao Y Q, et al. Identifying borders of activity spaces and quantifying border effects on intra-urban travel through spatial interaction network[J]. Computers, Environment and Urban Systems, 2021, 87:101625. DOI: 10.1016/j.compenvurbsys.2021.101625

DOI

[36]
Borgatti S P, Everett M G. Models of core/periphery structures[J]. Social Networks, 1999, 21(4):375-395

DOI

[37]
Borgatti S P, Everett M G, Freeman L. UCINET for Windows: software for social network analysis[M]. Harvard: Analytic Technologies, 2002

[38]
云南省统计局. 云南省2018年国民经济和社会发展统计公报[EB/OL]. 14.

[ Yunnan Provincial Bureau of Statistics, China. The statistical bulletin of the economic and social development of Yunnan of the year 2018[EB/OL]. 14. ]

[39]
Zhang S, Zhu H. An adaptive tracking algorithm for micro-blog topic based on association semantic network[M]. Cham: Springer International Publishing, 2018,194-206. DOI: 10.1007/978-3-319-98776-7_22

DOI

Outlines

/