行为时空规律揭示与方法探索

网络游记文本中旅游行程链提取方法

  • 阮陵 , 1, 3, * ,
  • 葛军莲 2 ,
  • 张翎 2 ,
  • 王黎淑 1 ,
  • 王晓宣 1
展开
  • 1.安徽师范大学地理与旅游学院,芜湖 340200
  • 2.南京师范大学地理科学学院,南京 210023
  • 3.滁州学院实景地理环境安徽省重点实验室,滁州 239000

阮 陵(1990— ),男,安徽铜陵人,博士,讲师,主要研究方向为旅游大数据分析、旅游地理分析等。 E-mail:

Copy editor: 蒋树芳 黄光玉

收稿日期: 2023-09-21

  修回日期: 2024-02-05

  网络出版日期: 2024-03-27

基金资助

国家自然科学基金项目(42301258)

国家自然科学基金项目(42171403)

A Method of Itinerary Chain Extraction from Online Travel Notes

  • RUAN Ling , 1, 3, * ,
  • GE Junlian 2 ,
  • ZHANG Ling 2 ,
  • WANG Lishu 1 ,
  • WANG Xiaoxuan 1
Expand
  • 1. School of Geography and Tourism, Anhui Normal University, Wuhu 340200, China
  • 2. School of Geography, Nanjing Normal University, Nanjing 210023, China
  • 3. Anhui Province Key Laboratory of Physical Geographic Environment, Chuzhou University, Chuzhou 239000, China
*RUAN Ling, E-mail:

Received date: 2023-09-21

  Revised date: 2024-02-05

  Online published: 2024-03-27

Supported by

National Natural Science Foundation of China(42301258)

National Natural Science Foundation of China(42171403)

摘要

网络游记是旅游者在互联网上发布的自述性旅游过程记录,描述了旅游的前后过程和感受体验。从网络游记文本中提取旅游行程链,分析行程结构,能给游客的行程制定、线路设计提供重要的参考。传统的游记文本行程提取大多依赖于人工识别文本中的行程节点,再进行串联、合并处理,工作量较大。自动提取游记文本中的旅游行程链,能够提高数据处理和分析效率。本文基于自然语言处理技术,在深入分析游记网络文本的段落结构和表达特点的基础上,归纳了行程节点和节点次序关系的句法表达规则,构建了行程节点触发词表,进而提出了基于句法规则的旅游行程链提取方法,主要包含行程节点的识别、节点次序关系的识别和旅游行程链的生成,能实现网络游记文本的旅游行程重构。本文采集了蚂蜂窝平台17 226篇南京市网络游记文本数据,采用最长公共子序列算法,开展了本文方法的试验验证。通过对比分析,本文方法提取的旅游行程链和人工识别的真实行程链相似度达到86.14%,高于实体关系抽取领域的BERT-BiLSTM-CasRel深度学习模型的83.1%。相比现有关系提取类深度学习方法需要开展大量的数据标注,本文方法计算更加便捷,准确率相对较高,仅需构建区域旅游点名录,即可实现网络游记文本中行程信息的自动提取。

本文引用格式

阮陵 , 葛军莲 , 张翎 , 王黎淑 , 王晓宣 . 网络游记文本中旅游行程链提取方法[J]. 地球信息科学学报, 2024 , 26(2) : 477 -487 . DOI: 10.12082/dqxxkx.2024.230570

Abstract

. Online travel notes are self-reported records published by tourists on the Internet, which describe the process of their trip and experience. Extracting itinerary chain from online travel notes and analyzing itinerary structure, can provide important reference for tourists' itinerary formulation and route design. The traditional itinerary extraction mostly relies on manual recognition, and some methods proposed in current studies require extensive data annotation, which is a large workload. Automatic extraction of itinerary chain from online travel notes accurately can improve the efficiency of data processing, which is an open issue and worth of study. In this paper, a syntactic rule-based travel chain extraction method was proposed based on natural language processing technology, which includes the identification of travel nodes, the recognition of nodes order and the generation of itinerary chain. First of all, the paragraph structure and expression characteristics of itinerary in online travel notes were analyzed, and the syntactic expression rules of travel nodes and nodes order were summarized based on word segmentation and dependency syntax analysis of related statements. Secondly, the travel nodes matched by syntactic rules, can be divided into deterministic travel nodes, uncertain travel nodes and non-travel nodes. Thirdly, through regular expression and syntactic rules match, the order of travel nodes was recognized from the specific itinerary description statement. Finally, the uncertain travel nodes were distinguished based on nodes context analysis, and the sequential and cross-arranged travel nodes were merged and connected in series. Meanwhile, the order of nodes in the connected series were verified and adjusted based on previously recognized node orders, and the itinerary chain was generated. In order to verify the effectiveness of proposed method, 17 226 online travel notes text data of Nanjing city were collected on Mafengwo platform, and the longest common subsequence algorithm was used to carry out the experimental verification. Through comparative analysis, the similarity between the extracted result by this method and the real travel chain identified by manual is 86.14%, which is higher than the BERT-BiLSTM-CasRel deep learning model in the field of entity relation extraction (83.1%). Compared with the existed relation extraction method in deep learning field, the proposed method is more convenient in calculation and does not require extensive data annotation. The limitation of method is the construction of regional travel site directory. In the future work, the strong semantic understanding ability of large language model would be carried out to improve the accuracy and data processing efficiency in itinerary chain extraction.

1 引言

网络游记是旅游者在互联网上发布的自述性旅游过程记录,描述了旅游的前后过程和感受体验。目前,网络游记文本已成为旅游地理分析中的一种重要数据源,基于此开展了目的地形象[1-2]、旅游体验[3]、旅游行为[4]、旅游流网络结构[5-6]等方面的研究,给区域旅游规划设计、服务质量提升提供了重要的支撑。网络游记文本中蕴含了丰富的行程信息,提取游客的行程链,分析节点特征[7]、行程结构[8-9]、活动偏好[10],可为游客的目的地推荐、行程制定、线路设计提供决策参考[11-12]。然而,传统的游记数据处理大多是通过人工识别游记文本中的信息[13-15],一旦游记数量多时,其处理工作量非常大。部分研究采用基于本体库信息抽取[16]、关键词提取[17]或Rost CM6软件进行分词处理[18],存在着数据误差大的问题,影响分析结论的适用性。网络游记文本中,语句逻辑关系不严谨,部分信息表达模糊、上下文相互关联,如何准确的自动提取行程信息,是一个值得深入研究的问题。
旅游行程链是按照时间顺序线性排列的旅游者停留节点有序集合[19-20],而网络游记文本正是旅游行程链的自然语言描述和表达。网络游记文本描述较为随意,一方面,游记文本中包含了很多旅游点名称,但只有一部分是旅游者真正去的旅游点,可称之为行程节点,识别到的地名并不全是行程节点,例如“夫子庙两旁是集市,售卖南京雨花台产的雨花石和云锦”中,雨花台不是行程节点;另一方面,部分游记文本中,同一个旅游点在多个段落中描述,作者没有严格按照游览次序去描述旅游点,导致按照次序识别的行程节点,其顺序并非真正的行程顺序,例如,依次识别的行程节点为“中山陵→明孝陵→中山陵→明孝陵→美龄宫→灵谷寺→中山陵”,存在节点交叉、重复的问题,还需要进行加工处理。这种信息冗余、模糊表达、上下文关联的文本描述特点,给旅游行程链的自动提取带来了较大的困难。
自然语言处理(Natural Language Processing, NLP)技术是当前人工智能的核心议题之一[21]。自然语言处理技术日趋成熟,已经应用在网络文本的地理信息提取过程中[22],其技术实现主要有基于规则匹配、基于深度学习这两大类提取方法。其中,条件随机场、BERT、BERT-BiLSTM-CasRel模型等深度(机器)学习方法基本解决了文本中地理实体及其关系的识别,取得了较高的准确率。但是,在地理实体属性、地理事件等复杂地理信息的提取研究中,规则匹配仍然是常用的方法[23-25]。在现有的文本行程提取研究中, Moncla等[26]在文本标注的基础上,提出了基于生成树的文本行程重构方法; Budig等[27]在隐马尔科夫模型中融入了地名词典和旅行距离实现了行程重构;高原等[28]提出了基于一阶马尔可夫性、先验知识和空间特征的模型实现行程重构[28],初步解决了文本信息的行程信息提取问题。但是,现有方法依赖于大量的数据标注、外部先验知识或者历史行程统计模型,方法的应用普适性还有待提升。
围绕上述不足,本文从网络游记文本中行程信息的描述表达特征出发,系统分析网络游记文本的段落结构和行程节点的表达模式,归纳行程节点及其次序关系表达的句法规则,提出了基于句法规则的旅游行程链提取方法。为了检验方法的有效性,本文采集了蚂蜂窝平台17 226篇南京市网络游记文本数据,开展了试验分析,将算法自动提取结果与人工提取的行程进行了相似度对比,验证本文方法的有效性,并探究本文方法与实体关系抽取深度学习模型、“文言一心”语言大模型在行程提取方面的优劣势,最终论述本文方法的局限性。

2 研究方法

2.1 总体思路

从网络游记这样复杂的长文本中提取出旅游行程链,就是从众多的旅游点名称中,准确的识别出行程节点,再按照游览次序将行程节点串联起来。尽管不同网络游记作者的写作方式和风格不同,但是游记文本中行程节点及其次序关系的表达,有着较为明显的句法结构特征。因此,本文在详细分析网络游记文本段落结构和表达特点的基础上,归纳了行程节点和节点次序关系的句法表达规则,进而提出了基于句法规则的旅游行程链提取方法,其技术框架如图1所示,主要过程包含句法规则的归纳、行程节点的识别、节点次序关系的识别、旅游行程链的生成4大部分。
图1 旅游行程链提取的总体技术框架

Fig. 1 The overall technical framework of travel chain extraction

(1) 句法规则的归纳:开展网络游记的去重、文本字符去噪,剔除文本字数过少的低质量游记,再依次对游记文本进行分句、分词、词性标注和依存句法分析,继而归纳行程节点、节点次序关系的句法表达规则,构建行程节点触发词表。
(2) 行程节点的识别:基于区域旅游点名录和句法规则匹配方法,从总体行程描述语句、单一行程节点描述语句、混合行程节点描述语句和非行程节点描述语句中,将游记文本中的旅游点划分为确定性行程节点、不确定性行程节点和非行程节点。
(3) 节点次序关系的识别:通过文本结构匹配方法,识别游记文本的总结行程描述语句,提取出连续排列的行程节点及其次序关系,基于归纳的句法规则,从行程节点先后关系描述语句中,识别和存储节点的次序关系。
(4) 旅游行程链的生成:从游记全文叙事视角出发,分辨与处理不确定性行程节点,再根据节点上下文特征,对顺序排列型、交叉排列型行程节点列表进行合并与串联,最后基于已识别的节点次序关系对行程链进行校验与调整,生成旅游行程链。

2.2 行程节点的识别

网络游记文本会提及较多地理实体,这些实体不仅仅是旅游点,还包括住宿点、餐饮点、交通枢纽等地,而本文识别的行程节点对象仅限于旅游点。但是,在网络游记文本中,只有一部分旅游点是旅游者真正到达的,可称之为行程节点。还有一部分旅游点,尽管文本中提到了其名称,但旅游者并未真正前往,主要用于方位描述、语义关联等方面。为准确识别游记文本中的行程节点,本文首先构建区域旅游点名录,再采用了哈工大社会计算与信息检索研究中心研制的语言技术平台(LTP),对游记文本进行分句和分词处理,开展词性标注和依存句法分析,在此基础上分析旅游行程节点的表达形式和句法结构特征,进而归纳句法规则。LTP平台是NLP领域成熟应用的第三方平台,提供了一系列中文自然语言处理工具,在中文文本的分词、词性标注、依存句法分析方面有着较高的准确率[29]
旅游点在网络游记文本中的表达形式可分为表1中的4大类,包含总体行程描述、单一行程节点描述、非行程节点描述和混合行程节点描述。① 总体行程描述,是指多个旅游点在一句话中连续排列,部分作者经常会在游记的引言部分或者段落的开头部分描述整体行程或者单日行程,其句法结构是通过连接字符来串联多个旅游点。② 单一行程节点描述,指在一个句子中,只出现一个描述行程节点的旅游点,其句法表达形式通常有两类:其一,“去、逛、前往、来到、到”等行程触发词和旅游点构成动宾关系,这是一种最为典型的行程节点句法表达结构;其二,旅游点是句子的主语或主语的定语,句法结构为主谓关系,旅游点作为主语单独成句也是一种特殊的行程节点表达方式。③ 非行程节点描述,指当句子中旅游点前有“计划、相比”等关键词或者否定词时,该旅游点不是行程节点,其句法结构为行程否定词加旅游点。④ 混合行程节点描述,指多个旅游点在一个语句中相互交错,旅游点之间存在递进关系、方位关系、包含关系,其语义关系相对复杂,只有部分旅游点是行程节点,其句法表达结构通常是行程触发词和旅游点构成动宾关系。
表1 旅游点在游记文本中的表达形式

Tab.1 The expression of scenic spots in online travel notes

序号 类型 示例语句 句法结构特征
1 总体行程 (1)第一天,中山陵,明孝陵,美龄馆,音乐台
(2)中山陵-明孝陵-灵谷寺-美龄宫
多个旅游点在一句话中连续排列
2 单一行程
节点
(1)办理完取车后续后,直接去了夫子庙景区。
(2)吃完早餐,出发去了总统府
“去、前往、逛”等助动词和旅游点构成动宾关系
(1)栖霞山是个好地方,环境清幽,空气好,人少
(2)牛首山的景色确实不错,景区里面有游览车,不想走路可以坐游览车
(3)南京庙山湖。适合喜欢拍照的人前往打卡,没有人没有店没有喧嚣,只有一片
安静的风景
旅游点是主语或者主语的定语,结构为主谓关系
3 非行程
节点
(1)我是下午2点左右到明孝陵,后边没有时间去音乐台和中山陵了
(2)今天计划是去南京博物院,却发现门票已经预约完了
(3)本来打算跟我妈去旁边的瞻园逛逛,老妈兴趣不大,拉着我要去买咸水鸭
“没有、计划、本来、打算”等排除词衔接旅游点
4 混合行程
节点
(1)玄武湖公园西靠明城墙,是中国最大的皇家园林湖泊
(2)音乐台在中山陵的东南角,非常近,从中山陵出来往前走一会便是
旅游点作为空间参照,方位词的定语
(1)可能很多人去过中山陵、明孝陵,未必知道旁边藏着这美龄宫
(2)莫愁湖位于南京水西门外,相比于玄武湖,这里的人流量要少的多
旅游点用于语义对比,语义关联,句法结构不明显
通过对上述4类表达形式的词性标注和依存句法分析,本文归纳的旅游行程节点句法规则如表2所示,构建的行程触发词表和行程否定词表,如表3所示。同时,本文设计了行程节点识别的具体步骤,如图2所示,针对行程节点的句法结构非常鲜明,容易识别,本文将此类旅游点标记为确定性行程节点,但是还有一部分旅游点的句法规则不明显,难以分辨是否是行程节点,本文先行将此类旅游点标记为不确定性行程节点,在后期的行程节点连接时,再根据上下文关系进行判断。
表2 旅游点识别的句法规则

Tab. 2 The syntactic rules of tourist spot recognition

编号 规则名称 句法化 句法规则
1 总体行程描述 <旅游点>+<连接字符>+<旅游点> tp/cs/tp/cs
2 行程触发词加旅游点 <行程触发词>+<助动词>+<旅游点> iw/u/tp
3 旅游点单独成句 <旅游点> tp
4 旅游点是句子的主语 <旅游点>+<动词>+<名词> tp/v/n
5 旅游点是主语的定语 <旅游点>+<助动词>+<名词> tp/u/n
6 行程否定词加旅游点 <排除词>+<动词>+<旅游点> nw/v/tp

注:tp表示旅游点;iw表示行程触发词;nw表示行程否定词;cs表示连接字符;u表示助动词;n表示名词。

表3 行程触发词和行程否定词

Tab.3 Travel trigger words and travel negative words

词表类别 主要内容
行程触发词 前往,逛,站在,到,来,回,去,奔,上,爬,转,走,步,至,游,看,玩,经过,路过,离开,出来,走后,出去,走完,逛完,看完,去过,到达
行程否定词 本来,打算,计划,可能,忘,忘记,忘了,没有
图2 旅游行程节点的识别流程

Fig.2 The process of travel itinerary nodes identification

(1) 构建区域旅游点名录,包含旅游点的别称、简称,将其作为自定义词典载入到LTP平台,再对网络游记文本进行分句和分词,并与区域旅游点名录进行文本匹配,识别和存储包含指定旅游点的语句。
(2) 针对游记文本中初步提取的旅游点集合,根据正则表达式,剔除表达总体行程的旅游点,同时,基于“没有、计划、本来、打算”等排除词集合,剔除非行程节点的旅游点。
(3) 针对单一行程节点描述语句,即仅有一个旅游点的句子,进行词性标注和依存句法分析,归纳行程触发词表,如果语句中存在行程触发词,并和旅游点构成动宾关系,或者旅游点是句子的主语或者主语的定语,结构为主谓关系,则标识该旅游点为确定性行程节点。
(4) 针对混合行程节点描述语句,进行词性标注和依存句法分析,判断语句中的行程触发词是否和旅游点构成动宾关系,如果存在动宾关系,标识该旅游点为确定性行程节点,删除其它旅游点。
(5) 针对混合行程节点描述语句,判断语句中是否包含方位词,即识别词性为方向名词,然后通过判断依存关系是定中关系,删除作为空间参照的旅游点,保留的旅游点标识为确定性行程节点。
(6) 将集合中剩余的旅游点,即不满足句法规则的旅游点,都标识为不确定性行程节点,然后按照次序输出所有标识的行程节点。

2.3 节点次序关系的识别

旅游行程链是旅游点按照时间顺序线性排列的有序集合[19-20]。通常来说,游记作者在文本撰写过程中,会按照游览次序依次介绍景点,但是,不同作者的文本描述风格不同,部分游记文本在前言部分介绍了前往的旅游点,在中间段落描述了该旅游点的详细内容,在结尾部分还提及了该旅游点,没有严格按照时间顺序描述旅游行程,导致按照次序识别的行程节点,其顺序并非真正的行程顺序。因此,有必要开展节点次序关系的识别,以提高旅游行程链生成的准确性。
本文主要基于总结行程描述语句、行程节点先后描述语句来识别行程节点的次序关系。① 总结行程描述语句的识别。部分游记文本中,作者会在引言部分或者段落的开头部分,描述本次行程的主要旅游点,例如“中山陵-明孝陵-灵谷寺-美龄宫”、“第一天,中山陵,明孝陵,美龄馆,音乐台,灵谷塔”、“游览古鸡鸣寺→明城墙景区→玄武湖公园→南京博物馆→六朝博物馆”。旅游点在这些语句中的结构通常是“节点名称-节点名称-节点名称-节点名称”、“节点名称、节点名称、节点名称、节点名称”等。② 行程节点先后描述语句的识别。网络游记文本中,“从某节点到某节点”、“离开某节点去某节点”等句法结构的语句,表达了部分行程节点的先后关系,例如“从中山陵出来,坐上观光车至明孝陵”、“从总统府出来,走几百米可以看到南京1912民国风情街”、“出了总统府我们地铁到达南京大屠杀遇难同胞纪念馆”等,归纳的行程节点次序关系识别句法规则如表4所示。
表4 节点次序关系识别的规则

Tab.4 Rules for travel node sequence relation identification

编号 规则名称 句法规则
1 总体行程
描述
正则表达式:[\u4e00-\u9fff]+(?:[-,→、→])[\u4e00-\u9fff]+(?:[-,→、→])*[\u4e00-\u9fff]+
2 先后次序
描述
“从”+<旅游点>+“到”+<旅游点>,“离开”+<旅游点>+“到”+<旅游点>,“出了”+<旅游点>+“到”+<旅游点>,<旅游点>+“至”+<旅游点>,<旅游点>+“之后”+“到”+<旅游点>,“过了”+<旅游点>+“就是”+<旅游点>等
具体的行程节点次序关系识别方法,如图3所示。针对总结行程描述语句,主要通过文本结构匹配算法来识别,首先提取出大于等于3个旅游点的语句,再根据行程节点和特殊字符连续排列的正则表达式规则,判定是否为总体描述行程,再分别存储节点的次序关系;针对行程节点先后关系的语句识别,首先提取出旅游点数量为2的语句,再进行句法分析和语义依存分析,根据归纳的句法规则,判断语句中2个行程节点是否有先后承接关系,最后存储节点的次序关系。通过节点次序关系的识别,一方面,提及的旅游点必然是确定性行程节点,对行程节点的识别具有一定的补充作用;另一方面,可为提取的行程次序进行校正处理,对于明确节点的次序关系具有重要的价值。
图3 行程节点次序关系的识别

Fig.3 The identification of travel nodes sequence relation

2.4 旅游行程链的生成

按照正确的游览次序将提取的旅游行程节点进行合并、串联,就构成了旅游行程链。但是,在识别旅游行程节点、节点次序关系之后,行程列表中还有一部分节点名称被标识为不确定性行程节点,同时,顺序识别游记文本中的行程节点,普遍存在重复、交叉的现象,如图4所示。其中,有些语句识别到了一个行程节点,有些语句能识别到多个,还有部分语句没有识别到符合规则的旅游点,例如“语句1”识别出了“节点1”,“语句3”识别出了“节点2”和“节点3”,“语句4”没有识别到行程节点,从而行程列表中“节点1”多次重复,与其他节点交叉。因此,应在已识别行程节点列表、节点次序关系的基础上,根据上下文语句关系,对这些不确定性行程节点进行分辨,对旅游点列表进行处理和串联,以准确的生成旅游行程链。
图4 行程节点的重复和交叉现象

Fig.4 The repetition and crossing of travel nodes

针对不确定性行程节点的处理,需要从游记全文叙事视角来衡量这些节点的取舍情况。首先,判断不确定性行程节点是否在已识别的节点次序关系表中,如果在次序关系表中,那么这个旅游点必然是行程节点之一,应标识为确定性行程节点;如果该节点不在节点次序关系表中,再判断游记文本中该节点出现的次数是否大于一次,即文本中其他位置是否也提到了该节点,如果文本中多次提到了该节点的名称,那么该节点大概率为行程节点,可将其标识为确定性行程节点,反之,则从列表中删除该节点。
针对旅游行程节点的串联,主要是根据提取到的节点上下文特征,结合识别的节点次序关系,连接行程节点。通常来说,同一旅游点在行程链中只可能出现一次,因此,本文需要将多次出现的行程节点,进行合并处理。同时,在节点次序关系的识别过程中,只有极少的游记文本,能识别到完整的行程次序,大多数只能识别到局部的节点关系。这种局部节点关系,可用于校验和调整行程链的节点顺序。识别到的行程节点排列模式可归纳为2类:① 顺序排列型,高质量的网络游记文本一般是按照游览次序来顺序描述旅游点,其节点排列结构为“L1L1L2L2L3L3L4”,即同一旅游点连续重复出现,文本连续描述该行程节点的内容、感受等信息;② 交叉排列型,由于互联网平台游记文本写作较为随意,导致识别的行程节点列表中,节点交叉重复现象较多,其节点排列结构为“L1L1L2L2L1L3L4L4L4L3”,即同一旅游点交叉重复出现,通常是在游记下文描述描述一个旅游点时,又提到了上文的其他旅游点的信息。
顺序排列型行程节点的连接方式较为简单,直接合并连续重复的行程节点即可,将“L1L1L2L2L3L3L4”的结构,合并为“L1L2L3L4”。面向交叉排列型,其处理方式如图5所示,首先合并行程节点列表中的连续重复节点,将“L1L1L2L2L1L3L4L4L4L3”,合并为“L1(S1)→L2(S2)→L1(S3)→L3(S4)→L4(S5)→L3(S6)”,其中,连续重复的L1L2L4被合并,S1为节点L1L2之间的描述语句。其次,再根据节点对应描述语句的文字数,进行交叉重复节点的合并,将文字数量较少的节点合并到较多的节点位置。针对“L1(S1)→L2(S2)→L1(S3)→L3(S4)→L4(S5)→L3(S6)”,面向节点L1,比较S1S3描述语句的文字数,面向节点L3,比较S4S6描述语句的文字数,可合并为“L1(S1, S3)→L2(S2)→L4(S5)→L3(S4, S6)”。最终,再根据识别到的局部节点次序关系,对连接的行程节点进行调整。
图5 行程节点的串联处理过程

Fig. 5 The concatenation process of the travel nodes

3 实验及结果分析

3.1 实验结果

本研究采集了蚂蜂窝平台17 226篇南京市网络游记文本数据和566个旅游点名录数据,剔除了文本字数小于500的低质量游记,最终得到13 608篇有效网络游记文本。通过本文方法,依次提取了每篇网络游记文本的旅游行程链,其空间分布和网络结构如图6所示。整体来看,网络游记文本提取的行程线路主要聚集在主城区的核心景区,其与栖霞山片区、牛首山片区构成了“一主两副”的分布格局。浦口、六合、高淳、溧水这些辖市区之间的内部线路联系较少,主要依靠主城区的单向辐射。行程频次前50条的线路如图6(b)所示,玄武湖、明孝陵、中山陵、夫子庙、南京博物馆、先锋书店、南京大屠杀遇难同胞纪念馆、总统府、南京博物院、老门东等地成为了南京旅游行程链网络中的核心节点。一方面,距离较近的旅游点,容易出现在同一行程中,例如,中山路-明孝陵-音乐厅-美龄宫-和夫子庙-老门东-瞻园-白鹭洲公园这两大片区;另外一方面,城市的核心旅游吸引物之间在同一行程中串联较多,中山陵、夫子庙、总统府、南京博物院、南京大屠杀遇难同胞纪念馆等旅游点之间的共现频次较大。
图6 案例区域提取的旅游行程链分布

Fig. 6 The distribution of extracted travel chains

为验证本文方法的有效性,本研究随机选择了300篇网络游记,人工提取的这些文本中的旅游行程链,采用最长公共子序列算法[30],计算了本文方法提取和人工识别旅游行程链的相似度,最终的相似度为86.14%,不同节点数量游记文本中行程链提取的相似度如图7所示。整体来看,网络游记中节点数量较少或过多的行程链提取准确率都相对较低,如表5所示。节点数为1~4的行程链提取相似度为82.23%,节点数为18以上的行程链提取相似度为85.36%,都低于平均值86.14%,而节点数为8~10的行程链提取相似度最高。其原因主要在于节点数量较少的网络游记文本仅仅描述几个旅游点,语句的连贯性、逻辑性较差,作者撰写的质量较低,而长篇网络游记的撰写,涵盖内容多,作者大多提前整理材料,文字逻辑更加明确,游览次序衔接清晰,其准确率相对较高。但是过长的游记文本,其节点识别、次序关系识别的误差累计更多,进而影响了准确率。
图7 不同节点数量游记文本中行程链提取的相似度分布

Fig. 7 The similarity between automatic and manual extracted in different number of nodes

表5 基于句法规则提取的行程节点和真实行程节点的对比(部分实例)

Tab. 5 The comparison of extracted and real travel nodes (partial sample)

序号 来源 行程节点 相似度/%
1 提取行程 南京大排档→先锋书店→夫子庙→南京大屠杀纪念馆→美术馆 100.00
真实行程 南京大排档→先锋书店→夫子庙→南京大屠杀纪念馆→美术馆
2 提取行程 总统府→中山陵→明孝陵→美龄宫→乌衣巷→江南贡院→牛首山 87.50
真实行程 总统府→中山陵→明孝陵→美龄宫→乌衣巷→江南贡院→夫子庙→牛首山
3 提取行程 中山陵→明孝陵→美龄宫→夫子庙→南京博物院→南京大屠杀纪念馆 85.71
真实行程 中山陵→明孝陵→美龄宫→夫子庙→南京博物院→南京大屠杀纪念馆→南京长江大桥
4 提取行程 秦淮河→夫子庙→鸡鸣寺→总统府→南京博物院→大报恩寺 85.71
真实行程 秦淮河→夫子庙→白鹭洲公园→鸡鸣寺→总统府→南京博物院→大报恩寺
5 提取行程 总统府→1912街区→夫子庙→音乐台→中山陵→美龄宫→鸡鸣寺→玄武湖 88.89
真实行程 总统府→1912街区→夫子庙→秦淮河→音乐台→中山陵→美龄宫→鸡鸣寺→玄武湖
6 提取行程 大报恩寺→南京大牌档→夫子庙→江南贡院→秦淮河→颐和路→西桥→老门东→明孝陵→石象路→梅花山→鸡鸣寺 90.90
真实行程 大报恩寺→南京大牌档→夫子庙→江南贡院→秦淮河→颐和路→西桥→老门东→明孝陵→石象路→梅花山
7 提取行程 明孝陵→石象路→翁仲路神道→孙权纪念馆→孝陵殿→中山陵→音乐台→灵谷寺→美龄宫 69.23
真实行程 明孝陵→长生鹿苑→石象路→翁仲路神道→孙权纪念馆→碑殿→孝陵殿→中山陵→音乐台→灵谷寺→
灵谷塔→无梁殿→美龄宫

注:表中红色字表示真实行程中漏提取的节点。

3.2 结果讨论

整体来看,本文方法中影响行程链提取准确率的主要因素包含以下: ① 网络游记文本的描述方式,部分作者编写游记时,没有按照通常的游览次序去描述行程节点,文本中节点之间关系性不强,进而造成提取的行程链顺序关系,与真实的行程顺序存在较大的出入; ② 一些行程节点所在语句的句法结构复杂,多个旅游点在一个句子中,已归纳的句法结构有时无法识别到行程节点,有时将正确的行程节点排除了,尽管可以通过多加一些节点识别规则,但是规则较多时,会相互干扰,影响整体准确率; ③ 旅游点名录数据不够完整,造成了部分行程节点无法识别,旅游点名录不仅仅要包含所有旅游景区,还要收纳景区的简称和别称。因此,在使用本文方法时,应开展数据筛选,尽可能筛除低质量的网络游记文本数据,同时构建相对完善的旅游区点名录。
为了进一步验证本文方法的适用性,本研究开展了对比实验。首先,在标注18 129个行程节点与16 104个节点关系的基础上,本文采用了实体关系抽取领域的BERT-BiLSTM-CasRel深度学习模型,对游记文本的节点及其关系进行了提取,并构建了行程链,与人工提取结果的相似度为83.1%,略低于本文方法的86.14%。同时,本文尝试应用“文言一心”语言大模型开展行程提取,但是由于问题文字长度限制,无法直接处理长篇游记文本生成旅游行程链,难以直接对比。但是通过文本分段识别,发现“文言一心”具备较好语义理解能力,在短文本的行程节点识别方面,尤其面向含行程触发词的语句,准确率高。但是,分段识别导致上下文信息利用较少,进而存在生成的行程链次序误差大、存在重复等问题;此外,“文言一心”还会基于推理能力,在行程中纳入一些不属于游记文本中描述的旅游点,其提取的行程节点也不仅仅是旅游点,包含的冗余信息较多,还需要进一步的筛选和处理。总的来说,相比BERT-BiLSTM-CasRel深度学习模型需要开展大量的数据标注,工作量较大,本文基于句法规则开展行程提取,方法准确率相对较高,计算更加方便。“文言一心”语言大模型在短文本行程节点识别上准确率高,长文本的上下文关系处理还有待提升,是本文接下来的重要研究方向。但是,本文方法也有一定的局限性,句法规则不够灵活,依赖于旅游点名录,需要在提取前构建较为完整的旅游点名录,同时准确率提升有一定的上限。

4 结论

针对以往依赖于人工提取网络游记文本行程信息工作量较大的问题,本文在深入分析网络游记文本段落结构和表达特点的基础上,归纳行程节点和节点次序关系的句法表达规则,提出了基于句法规则的旅游行程链提取方法,主要包含行程节点的识别、节点次序关系的识别和旅游行程链的生成。同时,本文采集了蚂蜂窝平台17 226篇南京市网络游记文本数据,采用最长公共子序列算法,开展了本文方法的试验验证。通过对比分析,本文方法提取的旅游行程链和人工识别的真实行程链相似度达到86.14%,高于实体关系抽取领域的BERT-BiLSTM-CasRel深度学习模型的83.1%。
相比实体关系抽取深度学习模型依赖于大量的信息标注,本文方法具有较强的适用性,仅需要构建区域旅游点名录,就能完成游记文本的行程重构。对比“文言一心”语言大模型,其在短文本行程节点识别中准确率高,但存在上下文关联不足、提取信息冗余等问题,还需要进一步的筛选和处理。但是,本文方法基于句法规则,有一定的局限性,灵活度较差,需要构建较为完整的旅游点名录数据集,准确率提升有一定的上限。下一步,将充分利用大语言模型良好语义理解能力的特点,基于大语言模型开展行程提取研究,进一步提高准确率和数据处理效率。
[1]
陈培, 张红, 杜雪楠. 基于网络游记的城市旅游目的地形象探究——以西安市为例[J]. 资源开发与市场, 2014, 30(11):1401-1404.

[ Chen P, Zhang H, Du X N. Travel destination image exploration based on the network—Taking Xi’an city as an example[J]. Resource Development & Market, 2014, 30(11):1401-1404. ] DOI:10.3969/j.issn.1005-8141.2014.11.030

[2]
郎朗. “地方” 理论视角下的网络游记研究——以北京三里屯游记分析为例[J]. 旅游学刊, 2018, 33(9):49-57.

[ Lang L. Study of online travel writings with the perspective of place theory: A case study of sanlitun, Beijing[J]. Tourism Tribune, 2018, 33(9):49-57. ]

[3]
胡传东, 李露苗, 罗尚焜. 基于网络游记内容分析的风景道骑行体验研究——以318国道川藏线为例[J]. 旅游学刊, 2015, 30(11):99-110.

[ Hu C D, Li L M, Luo S K. Cycling tourists' experience of scenic byways based on content analysis of travel blogs: A case study of the sichuan-tibet section of national highway 318[J]. Tourism Tribune, 2015, 30(11):99-110. ] DOI:10.3969/j.issn.1002-5006.2015.11.014

[4]
梁嘉祺, 姜珊, 陶犁. 基于网络游记语义分析和GIS可视化的游客时空行为与情绪关系实证研究——以北京市为例[J]. 人文地理, 2020, 35(2):152-160.

[ Liang J Q, Jiang S, Tao L. Empirical research on the relationship between spatial-temporal behavior and emotion of tourists based on semantic analysis of online travel blogs and GIS visualization: A case of Beijing[J]. Human Geography, 2020, 35(2):152-160. ] DOI:10.13959/j.issn.1003-2398.2020.02.017

[5]
周李, 吴殿廷, 虞虎, 等. 基于网络游记的城市旅游流网络结构演化研究——以北京市为例[J]. 地理科学, 2020, 40(2):298-307.

DOI

[ Zhou L, Wu D T, Yu H, et al. Evolution of urban tourism flow network structure based on network travel notes: A case study of Beijing city[J]. Scientia Geographica Sinica, 2020, 40(2):298-307. ] DOI:10.13249/j.cnki.sgs.2020.02.015

[6]
闫闪闪, 张河清, 靳诚. 都市区国内旅游流网络空间关联特征[J]. 热带地理, 2021, 41(6):1313-1324.

DOI

[ Yan S S, Zhang H Q, Jin C. Space association features of domestic tourist flow network in the Shanghai metropolitan area[J]. Tropical Geography, 2021, 41(6):1313-1324. ] DOI: 10.13284/j.cnki.rddl.003394

[7]
柯景怡, 周子涵, 张高军. 传统节点与新型节点:深圳旅游流网络结构[J]. 陕西师范大学学报(自然科学版), 2023, 51(2):47-58.

[ Ke J Y, Zhou Z H, Zhang G J. Traditional nodes and new nodes: The network structure of Shenzhen tourism flow[J]. Journal of Shaanxi Normal University (Natural Science Edition), 2023, 51(2):47-58. ]

[8]
Bendle L J. The structures and flows of a large tourist itinerancy network[J]. Current Issues in Tourism, 2018, 21(1):103-122. DOI:10.1080/13683500.2015.1092948

[9]
刘大均. 基于游记文本的成都市亲子旅游流网络结构特征[J]. 经济地理, 2022, 42(10):224-230.

DOI

[ Liu D J. Network structure characteristics of parent-child tourism flow in Chengdu city based on travel notes[J]. Economic Geography, 2022, 42(10):224-230. ] DOI:10.15957/j.cnki.jjdl.2022.10.026

[10]
Vu H, Li G, Law R. Discovering implicit activity preferences in travel itineraries by topic modeling[J]. Tourism Management, 2019, 75:435-446. DOI:10.1016/J.TOURMAN.2019.06.011

[11]
da Silva A A, Morabito R, Pureza V. Optimization approaches to support the planning and analysis of travel itineraries[J]. Expert Systems with Applications, 2018, 112:321-330. DOI:10.1016/j.eswa.2018.06.045

[12]
Cai G C, Lee K, Lee I. Itinerary recommender system with semantic trajectory pattern mining from geo-tagged photos[J]. Expert Systems with Applications, 2018,9432-40. DOI:10.1016/j.eswa.2017.10.049

[13]
高翔, 陈炜. 旅游目的地游客满意度模型新释——基于桂林网络游记的扎根分析[J]. 旅游研究, 2017, 9(5):78-86.

[ Gao X, Chen W. New interpretation of tourists' satisfaction model of tourism destination: Based on grounded analysis of Guilin network travels[J]. Tourism Research, 2017, 9(5):78-86. ] DOI:10.3969/j.issn.1674-5841.2017.05.007

[14]
曹李梅, 曲颖. 热带海岛型目的地情境下旅游者地方依恋:心理归因及其形成机理[J]. 人文地理, 2019, 34(5):135-141,158.

[ Cao L M, Qu Y. Psychological attributions and its formation mechanism of tourists' place attachment in tropical island destination[J]. Human Geography, 2019, 34(5):135-141,158. ] DOI:10.13959/j.issn.1003-2398.2019.05.017

[15]
周慧玲, 许春晓. 基于游记行程的湖南旅游流空间网络结构特征[J]. 经济地理, 2016(10):201-206.

[ Zhou H L, Xu C X. Study on spatial network structure of human tourist flow based on travel arrangement[J]. Economic Geography, 2016(10): 201-206.] DOI:10.15957/j.cnki.jjdl.2016.10.028

[16]
李艳. 网络游记中地方热度特产信息的抽取方法研究[J]. 微型电脑应用, 2017, 33(10):33-36.

[ Li Y. Research on the extraction method of local hot product information in the network travel[J]. Microcomputer Applications, 2017, 33(10):33-36. ] DOI:10.3969/j.issn.1007-757X.2017.10.012

[17]
姚占雷, 许鑫, 李丽梅, 等. 网络游记中的景区共现现象分析——以华东地区首批国家5A级旅游景区为例[J]. 旅游科学, 2011, 25(2):39-46,72.

[ Yao Z L, Xu X, Li L M, et al. An analysis of the co-occurrence phenomenon of scenic areas in online travel notes[J]. Tourism Science, 2011, 25(2):39-46,72. ] DOI:10.16323/j.cnki.lykx.2011.02.008

[18]
廖启鹏, 刘超, 李维. 游客记忆视角的景观关注度研究——以黄山风景区为例[J]. 人文地理, 2019, 34(6):129-135.

[ Liao Q P, Liu C, Li W. Research on landscape attention from tourists' memory perspective: A case study of Huangshan scenic area[J]. Human Geography, 2019, 34(6): 129-135. ] DOI:10.13959/j.issn.1003-2398.2019.06.015

[19]
曹阳. 城市旅游规划行程链的模型构建及其应用研究[D]. 南京: 南京师范大学, 2014.

[ Cao Y. The Design and Application of Urban Tourism Planning Itinerary Chain Model[D]. Nanjing: Nanjing Normal University, 2014. ]

[20]
曹阳, 葛军莲, 龙毅, 等. 时空协同的城市旅游行程规划模型构建[J]. 地球信息科学学报, 2019, 21(6):814-825.

DOI

[ Cao Y, Ge J L, Long Y, et al. Urban tourism itinerary planning from a spatiotemporal perspective[J]. Journal of Geo-information Science, 2019, 21(6):814-825. ]

[21]
李洋, 李实. 自然语言处理入门[M]. 北京: 清华大学出版社, 2024.

[ Li X, Li S. Introduction to Natural Language Processing[M]. Beijing: Tsinghua University Press, 2024. ]

[22]
余丽, 陆锋, 张恒才. 网络文本蕴涵地理信息抽取:研究进展与展望[J]. 地球信息科学学报, 2015, 17(2):127-134.

DOI

[ Yu L, Lu F, Zhang H C. Extracting geographic information from web texts: Status and development[J]. Journal of Geo-Information Science, 2015, 17(2):127-134. ] DOI: 10.3724/SP.J.1047.2015.00127

[23]
曹青, 洪必文, 张翎, 等. 基于自然语言空间关系描述的地图近似表达方法[J]. 地球信息科学学报, 2018, 20(11):1541-1549.

DOI

[ Cao Q, Hong B W, Zhang L, et al. Map approximate expression method based on spatial relationship description in natural language[J]. Journal of Geo-Information Science, 2018, 20(11):1541-1549. ] DOI:10.12082/dqxxkx.2018.180288

[24]
Yousaf M, Wolter D. Spatial Information Extraction from Text Using Spatio-Ontological Reasoning[C]// In 10th International Conference on Geographic Information Science (GIScience 2018). Leibniz International Proceedings in Informatics (LIPIcs), 2018, 114:71-76. DOI:10.4230/LIPIcs.GISCIENCE.2018.71.

[25]
Haris E, Gan K H, Tan T P. Spatial information extraction from travel narratives: Analysing the notion of co-occurrence indicating closeness of tourist places[J]. Journal of Information Science, 2020, 46(5):581-599. DOI:10.1177/0165551519837188

[26]
Moncla L, Gaio M, Nogueras-Iso J, et al. Reconstruction of itineraries from annotated text with an informed spanning tree algorithm[J]. International Journal of Geographical Information Science, 2016, 30(6):1137-1160. DOI:10.1080/13658816.2015.1108422

[27]
Budig B,van Dijk T C. Journeys of the past: A hidden Markov approach to georeferencing historical itineraries[C]// Proceedings of the 11th Workshop on Geographic Information Retrieval. ACM, 2017:1-10. DOI:10.10.1145/3155902.3155906

[28]
高原, 施元磊, 张蕾, 等. 基于游记文本的游客游览行程重构[J]. 数据分析与知识发现, 2020, 4(2):165-172.

[ Gao Y, Shi Y L, Zhang L, et al. Reconstructing tour routes based on travel notes[J]. Data Analysis and Knowledge Discovery, 2020, 4(2):165-172. ] DOI:10.11925/infotech.2096-3467.2019.0640

[29]
Che W X, Li Z H, Liu T. LTP: A Chinese language technology platform[C]. COLING '10: Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations, 2010:13-16.

[30]
于海英, 赵俊岚. 最长公共子序列算法在程序代码相似度度量中的应用[J]. 内蒙古大学学报(自然科学版), 2008, 39(2):225-229.

[ Yu H Y, Zhao J L. Application of longest common subsequence algorithm in similarity measurement of program source codes[J]. Journal of Inner Mongolia University (Acta Scientiarum Naturalium Universitatis NeiMongol), 2008, 39(2):225-229. ] DOI:10.3969/j.issn.1000-1638.2008.02.022

文章导航

/