M2T多源知识图谱融合的空间场景描述文本自动生成框架

陈晖萱; 郭旦怀; 葛世寅; 王婧; 王彦棡; 陈峰; 杨微石

doi:10.12082/dqxxkx.2023.230034

地球信息科学学报 >

2023 , Vol. 25 >Issue 6: 1176 - 1185

DOI: https://doi.org/10.12082/dqxxkx.2023.230034

专刊：地理时空知识图谱理论方法与应用

M2T多源知识图谱融合的空间场景描述文本自动生成框架

陈晖萱 ^,¹^,² ,
郭旦怀 ^,³^,^* ,
葛世寅 ¹^,² ,
王婧 ¹ ,
王彦棡 ¹^,² ,
陈峰 ⁴ ,
杨微石 ⁵^,⁶

展开

1.中国科学院计算机网络信息中心，北京 100190
2.中国科学院大学，北京 100049
3.北京化工大学信息科学与技术学院时空数据智能实验室北京 100029
4.亚利桑那大学东亚系，美国图森市 85721-0105
5.北京大学城市规划与设计学院，深圳 518055
6.深圳市自然资源和不动产评估发展研究中心，深圳 518034

*郭旦怀（1973— ），男，江西南康人，博士，教授，主要从事地理人工智能理论与应用研究。E-mail: gdh@buct.edu.cn

陈晖萱（1999— ），女，山西临汾人，硕士生，主要从事地理人工智能应用研究。E-mail: hxchen@cnic.cn

收稿日期: 2023-01-28

修回日期: 2023-04-01

网络出版日期: 2023-06-02

基金资助

国家自然科学基金项目(41971366)

国家自然科学基金项目(91846301)

中央高校基本科研业务费项目(BUCTRC:202132)

收起

M2T: A Framework of Spatial Scene Description Text Generation based on Multi-source Knowledge Graph Fusion

CHEN Huixuan ^,¹^,² ,
GUO Danhuai ^,³^,^* ,
GE Shiyin ¹^,² ,
WANG Jing ¹ ,
WANG Yangang ¹^,² ,
CHEN Feng ⁴ ,
YANG Weishi ⁵^,⁶

Expand

1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China
2. University of Chinese Academy of Sciences, Beijing 100049，China
3. Spatial Temporal Data Intelligence Research Lab, College of Information Sciences and technology, Beijing University of Chemical Technology, Beijing 100029, China
4. Department of East Asian Studies, The University of Arizona, Tucson 85721-0105, USA
5. School of Urban Planning and Design, Peking University, Shenzhen 518055, China
6. Center for Shenzhen Natural Resources and Real Estate Evaluation and Development Research, Shenzhen 518034, China

*GUO Danhuai, E-mail: gdh@buct.edu.cn

Received date: 2023-01-28

Revised date: 2023-04-01

Online published: 2023-06-02

Supported by

National Natural Science Foundation of China(41971366)

National Natural Science Foundation of China(91846301)

Fundamental Research Funds for the Central Universities(BUCTRC:202132)

Fold

摘要

面向自然语言的地理空间场景描述一直是地理信息科学的重要研究方向，传统方法更注重空间关系的遍历性描述，难以融合人类空间认知，与人类自然语言有较大的差距。地理空间场景自然语言描述的本质是地理空间二维向量转换词空间一维向量的过程。本文提出M2T空间场景自然语言表达框架，通过空间场景理解、语言合成和注意力感知3个知识图谱，在多源知识图谱的融合机制下，生成自然语言空间场景描述文本。其中空间场景描述知识图谱解决遍历空间关系剪枝难题，同时通过建立空间关系图谱建立空间场景之间关联，支持空间场景连续表达；自然语言风格知识图谱建立空间表达与语言风格的关联，实现了贴切于空间自然语言表达的多样化语言风格；空间关注度知识图谱根据空间场景主体和客体交互状态，建立注意力矩阵捕捉自然语言空间表达的细微之处。以北京故宫为例设计的原型系统，实验表明系统生成结果与人类游记接近，且内容覆盖更完整，风格更多样，验证了M2T框架的有效性，并展现了空间场景自然语言描述应用的潜在价值。

关键词： 空间场景描述; 地理知识图谱; 自然语言生成; 空间认知; 空间注意力; 空间表达; 空间理解

本文引用格式

陈晖萱 , 郭旦怀 , 葛世寅 , 王婧 , 王彦棡 , 陈峰 , 杨微石 . M2T多源知识图谱融合的空间场景描述文本自动生成框架[J]. 地球信息科学学报, 2023 , 25(6) : 1176 -1185 . DOI: 10.12082/dqxxkx.2023.230034

Abstract

Natural language is an effective tool for humans to describe things, with diversity and ease of dissemination, and can contain human spatial cognitive results. How to use natural language to describe geographic spatial scenes has always been an important research direction in spatial cognition and geographic information science, providing important application values in personalized unmanned tour guides, blind navigation, virtual space scene interpretation, and so on. The essence of natural language description of geographic spatial scenes is the process of transforming the two-dimensional vector of geographic space into a one-dimensional vector in word space. Traditional models perform well in handling spatial relationships, but are somewhat inadequate in natural language description: (1) spatial relationship description models are one-way descriptions of the environment by humans, without considering the impact of the environment on the description; (2) spatial scenes emphasize traversal-based descriptions of spatial relationships, where each set of spatial relationships is equally weighted, which is inconsistent with the varying attention paid by humans to geographic entities and spatial relationships in the environment; (3) the spatial relationship calculation of traditional models is a static description of a single scene, which is difficult to meet the requirement of dynamic description of continuous scenes in practical applications; (4) the natural language style of traditional models is mechanical, lacking necessary knowledge support. This article proposes a spatial scene natural language generation framework Map2Text (M2T) that integrates multiple knowledge graphs. The framework establishes knowledge graphs for spatial relationships, language generation style, and spatial attention, respectively, and realizes the fusion of multiple knowledge graphs and the generation of natural language descriptions of spatial scenes within a unified framework. The spatial scene description knowledge graph solves the pruning problem of traversing spatial relationships, and establishes the relationship between spatial scenes by building a spatial relationship graph, supporting continuous expression of spatial scenes; the natural language style knowledge graph establishes the relationship between spatial expression and language style, achieving diversified language styles that are appropriate for spatial natural language expression; the spatial attention knowledge graph captures the nuances of natural language spatial expression by establishing an attention matrix based on the interaction state between the subject and object of the spatial scene. An experimental prototype system designed based on the Beijing Forbidden City demonstrates that the system-generated results are close to human travel notes, with more complete content coverage and more diverse styles, verifying the effectiveness of the M2T framework and demonstrating the potential value of natural language description of spatial scenes.

Key words： spatial scene description; geographic knowledge graph; natural language generation; spatial cognition; spatial attention; spatial expression; spatial understanding

1 引言

自然语言是人类描述事物的有效工具，具有多样性、便于传播等特点，能够蕴含人类的空间认知结果。如何运用自然语言描述地理空间场景一直是空间认知和地理信息科学的重要研究方向^[1]，在个性化无人导游、盲人导航、虚拟空间场景解读等具有重要的应用价值。地理空间场景自然语言描述的本质是地理空间向量转换为词空间向量的过程，即将二维或三维地理空间场景映射为自然语言词序列，对生成的词序列进行相似度计算等可以较为便捷地实现空间场景的相似性评估^[2]及相关研究^[3]或空间场景索引。

地图是地理空间的经典表达方式，地图将空间实体通过一定的映射模型投影在二维或三维空间中，使用约定的制图方式使得映射结果具有标准化和统一性的特点^[4]。由于语言自身的多样性等特点，加之表述人的空间认知能力、语言习惯、语境风格不同，空间场景的自然语言文本描述存在较大的不确定性^[5]。如何以接近人类自然语言表达的方式对空间场景进行描述存在着较大的技术挑战。其挑战性来自：人类对空间的感知过程^[6]抽象难以量化，将其进行数学表征困难较大。其次，地图作为空间场景最常见载体，是与自然语言不同的模态，存在着“语义鸿沟”的问题，如何实现这2种模态之间的平滑转换需要更复杂的规则设计和更丰富的知识支撑。

在计算机视觉领域，图像描述生成技术指利用计算机提取图像的视觉特征转换为高层语义信息的过程。随着深度学习的引入，图像描述生成技术日渐成熟，尤其是编码器-解码器、注意力机制等方法的运用，较好地解决了“语义鸿沟”和“异构鸿沟”的问题，实现了二维图像向一维词向量的转换^[7]。2015年，Google Brain提出了自动图像描述系统Show and Tell，采用编码器-解码器网络架构，可根据图像自动生成描述文本^[8]。同年，斯坦福大学的Karpathy等^[9]提出Neural Talk模型，使用VGGnet^[10]作为图像的特征提取器，利用片段图像生成局部区域的描述。然而，这些模型在图像语义理解的同时，忽略了目标对象之间的空间关系，同时也忽略了地图对象中地物之间的投影关系。2018年，李飞飞等^[11]提出了场景图（Scene Graph）的概念，指出理解一个视觉场景不只是要理解单个物体，物体之间的关系也能提供丰富的场景语义信息。在这项工作中，使用场景图明确地对物体及其关系进行了建模。

空间关系描述是将空间关系以数学或者逻辑方法加以区分并形式化表述。自然语言处理领域已有结合知识的摘要生成模型^[12-13]及基于预训练语言模型^[14]方法对文本生成过程中融入事实知识进行研究，而空间关系知识是地理领域的特有知识。Egenhofer^[15]等运用交叉方法提出了九交模型用以刻画空间拓扑关系。Randel^[16-17]等提出ROC模型，运用逻辑演算方法描述空间区域之间的八种空间关系，形成了一套基于空间逻辑方法的推理机制。SketchMapia^[18]框架基于一系列定性地图分析方法，包括空间关系、视觉元素和符号，以及地图的内容和用途。上述模型在处理空间关系的描述上表现良好，但在面向自然语言的描述中略显不足：① 空间关系描述模型是人对环境的单向描述，不考虑环境对描述的影响；② 空间场景着重在空间关系的遍历式描述，每组空间关系是等权的，与人类对于地理环境中的地理实体及空间关系受关注度影响不一致； ③ 传统模型的空间关系计算为单一场景的静态描述，难以满足实际应用中连续场景的动态描述需求；④ 自然语言风格单一机械，缺乏必要的知识支撑。

本文提出一种融合多源知识图谱的空间场景自然语言生成框架M2T（Map2Text），对空间关系、语言生成风格、空间关注度分别建立知识图谱，在统一框架下完成多源知识图谱的融合并生成空间场景的自然语言描述。贡献主要如下：① 将多源知识图谱引入空间场景描述和文本生成任务；② 用注意力机制统一主体关注度、客体重要性等属性，模型更简洁；③ 实现了贴近自然语言风格的空间场景描述文本生成。

2 M2T框架

M2T通过融入多源知识图谱对主体的空间认知进行自然语言文本还原，统一了人脑心象地图生成和自然语言表达的过程（图1）。M2T共分3个部分。① 基于空间注意力机制的空间场景提取，即从地图中提取空间场景并形成概念图，哪些空间对象和空间关系被提取，取决于空间关注度知识图谱，包括空间对象本身的重要性、主体主观注意程度和观测主体处在何种状态。② 空间三元组抽取，即从上述空间概念图中抽取并组成空间关系三元组，其背后的支撑是空间关系知识图谱。③ 语言生成，即将离散的空间关系三元组根据语言习惯生成文本，其基础是语言生成风格知识图谱。

显示原图|下载原图ZIP|生成PPT

图1 M2T框架

Fg.1 The framework of M2T

2.1 空间注意力机制驱动下的多源知识图谱融合

认知科学认为人类处理信息的能力是有限的，为了高效信息处理，人脑采用注意力机制选择性处理对象。这种注意力机制同样体现在人类的空间认知过程中，当人类观察某个地理空间场景时，总能优先注意到那些更为重要的地理对象而忽视其他对象，如广场地标、醒目的标牌等。不同个体对于同一空间场景中的地理实体和空间关系有着不同的关注度分布。描述空间场景时，对关注度较高的地理实体，人们倾向于使用大篇幅对其地理特征进行细粒度的描述，而对于关注度较低的地理实体，常会简要说明或直接忽略。

与根据地物本身的大小、形状确定关注度不同，本文提出空间关注度知识图谱更偏向刻画空间认知的重要属性，由描述人属性、POI热度等因素共同影响，在关注度知识图谱指导空间注意热力图和文本风格的生成。模型根据空间关注度值区分地理实体的重要程度，还原人类的空间认知，使得空间描述文本更加符合人的空间认知习惯。

2.1.1 空间关注度知识图谱

空间关注度知识图谱中的节点表示空间关注度与各个影响因素如主观注意因素、POI热度分布等，边表示“影响因子”。设空间场景中地理实体集合S由N个地理实体组成：

（1）

S = s p o t 1, s p o t 2, …, s p o t N (S ∈ S G)

式中：S表示空间场景中的地理实体集合；

{s p o t 1, …, s p o t i, …, s p o t N}

表示每个地理实体，

i = 1,2, …, N;

S为空间场景图SG的子集。

认知科学认为人脑有“自上而下”目标驱动的刻意关注事物的能力，称为“有意关注（Targeted Attention，TA）”。例如，在一段行程中，车内的司机会更加关注十字路口、天桥、高架、环岛等交通要塞，而行人会刻意关注公交车站、地铁站、人行横道等出行工具类地理实体。尽管两者视线范围内的空间场景客观分布一致，对不同地理实体的关注程度也会有所不同。可见对于同一个空间场景，观察者因目的和身份不同，其空间关注度分布也不同。对于同一类个体，也会由于其行为意图不同而有不同的关注度分布。除此之外，来自社交软件的POI访问数据也会影响空间场景的关注度分布，是主观、客观因素共同作用的结果。社交网络上的签到数据、讨论热度可用以衡量地理实体差异化的流行程度，受关注的地理实体会有更高的热度。例如，同样位于天安门广场，人们对人民大会堂耳熟能详，而对于正阳门则稍显陌生，这样的现象在商圈、旅游景点等空间场景中也很普遍。空间场景关注度属性表示为一个一维矩阵x，是多个因素共同作用的结果，不同因素之间也会相互影响。

（2）

x = x i n d i v i d u a l_a t t r i b u t e, x P O I_p o p u l a r i t y, x t a r g e t e d_a t t e t i o n, x m o t i o n

式中：

x

表示空间场景关注度属性矩阵，矩阵中的每个元素代表影响空间关注度的不同因素，如

x i n d i v i d u a l_a t t r i b u t e

表示描述人属性，

x P O I_p o p u l a r i t y

表示POI热度分布等。

函数

g

计算特定空间场景的关注度分布：

（3）

g = S x = ∑ α ∙ x

式中：S为上文提到的空间场景地理实体集合；

S x

计算影响因子矩阵x在各地理实体

s p o t i

上的具体影响，其中α=[α_{individual_attribua,}α_{POI_popularity,αtarg_eted_attetion,}α_motion]表示不同影响因子的作用权重。

人类空间认知机制的影响因子复杂多样，且对空间认知结果起着重要作用。M2T引入空间关注度知识图谱（Spatial Awareness Graph）以更好地还原人脑的空间认知过程。

2.1.2 空间关系知识图谱

空间关系是空间查询、分析和推理的基础。描述空间场景通常需要结合多种空间关系，从多个认知角度刻画，图2构建空间关系知识图谱SRG，其节点表示不同的空间关系属性，边表示“包含”。空间关系包含拓扑关系、方向关系和距离关系。在日常生活中，人类经常还用可视关系和可达关系对空间场景进行描述。在空间关注度的作用下，空间场景中的空间关系也呈现出不同的注意力分布。

显示原图|下载原图ZIP|生成PPT

图2 空间关系知识图谱

Fg. 2 Spatial relation knowledge graph

（1）方位关系

方位关系指2个地理实体之间方向与位置的相对关系，包含南、北、东、西、东南、西南等8个方位。对于不同方位的地理实体，人脑处理顺序也有着一般性的规律。面朝某一方位时，前方的地理实体总是能够占据更多的注意，而对两侧和身后的空间分布则经常记忆模糊。

（2）距离关系

距离关系一般指空间距离，其关注度分布为若干同心圆，关注程度随着距离的增大而线性递减。距离越近，给予更高的关注程度，距离越远，关注程度越低。现实生活中，人类一般会由近及远对某一空间场景进行观察。在描述自己身处的空间环境时，也会从附近的地物开始，向远处延伸。此外，

（3）拓扑层级关系

拓扑层级关系指多个地理实体之间存在层级关系时，低层级的地理实体通常会被层级更高的地理实体替代表示。举例来说，当我们想要描述北京化工大学所在地理环境的分布时，首先会将北京化工大学抽象为一个点进行观察，而不是直接关注到北京化工大学内的某一具体建筑。具有包含关系的多个地理实体中，人们总是直接关注更具代表性的、层级更高的地理实体。

（4）可视关系

传统地理学中，可视性是指位于某个地理位置时，能够观测到的地形范围或与其他地理实体的可见程度。在M2T模型中，将可视关系表示为一个模糊集合。设定个体O，当前建筑A和目标建筑B，问题定义为个体O在当前建筑A处，对目标建筑B的可视情况，如图3所示。

显示原图|下载原图ZIP|生成PPT

图3 空间关系知识图谱中可视关系定义示意图

Fg. 3 Schematic diagram of visibility relationship definition in spatial relation knowledge graph

对可视关系的计算公式如式（4）所示。

（4）

v i s i b i l i t y = α ∙ μ A (x O A), α ∈ (0,1)

（5）

v i s i b i l i t y = 0 α = 0, 不 可 视 μ A α = 1,0 < μ A < 1, 确 定 度 为 μ A 下 的 可 视

式中：

x' O A

为实验中根据两点间通视性的预先设定值，表示现实场景中个体观察目标建筑时的一般最大距离（实验中取值

x' O A = 150 m

）。

α

为传统可视关系计算得到的变量，计算如下：

（6）

α = 0 a r c t a n h A - h O x' O A > m a x 1 其 他

人类站立时存在一个有效的可视范围，个体能够以较为舒适的微小视角转换观察该范围内的物体，因此使用模糊集A的隶属度函数定义可视关系。根据两点间通视性原理，将

x O A = x O A'

作为 “以较为舒适的方式对目标建筑可视”的分界点。如图4函数所示，当

x O A < x' O A

时,个体对目标建筑的可视性较为明确；当

x O A > x' O A

时，随着

x O A

的增大，可视性越来越模糊。当

x O A ≥ d i s m a x

时，则需要距离目标建筑非常远才可以看到其最高点，在人类的空间认知中，这种情况通常被认为“不可视”（图4）。可视关系的运用使得模型更好地学习人类的空间认知习惯。

显示原图|下载原图ZIP|生成PPT

图4 可视关系隶属度函数

Fg. 4 Membership function of visibility relationship

（5）可达关系

随着交通和城市规划学科的不断发展，空间可达性的衡量方式趋向多样化和精确化。总的来说，空间可达性是指从一个地点到另一个地点的容易程度，通常需要结合路网信息、交通方式等地理数据进行计算。人类处于某个地理空间时，对周围环境的可达性认知通常局限于其邻居节点，即人类的空间移动一般是连续的、非跳跃的，恰好对应了空间三元组的数据形式。因此，在M2T框架空间关系知识图谱中加入可达关系以生成自然语言文本。两地间的可达关系可由步行、公共交通、驾车等多种交通方式来衡量。在连续空间场景描述过程中，可达关系将多个地理实体连接起来，突破了单空间场景描述的局限。

2.1.3 语言合成风格知识图谱

语言习惯、认知差异等多方面因素往往会影响到空间认知的自然语言表达。语言风格化知识图谱使得模型能够生成风格各异的文本，满足各个人群和应用场景的需求。M2T通过构建空间关系与自然语言文本的对应规则形成知识图谱，实体表示空间关系及相应的自然语言短句，边表示“对应”关系，将空间关系与不同风格的自然语言描述连接起来。由空间关注度值决定生成文本的语言风格，随后使用文本生成模型生成文本，从而实现语言的风格化表达。

构建空间描述语法树，即根据空间描述语言习惯定义语法规则。模型通过构建知识图谱跨越空间关系的精确性与自然语言的不确定性这道“鸿沟”，实现空间场景描述语法的良好匹配。在M2T的文本生成阶段，模型根据空间场景图-路线R的空间关系属性自动匹配对应的语法规则，根据预定义的语法树生成语法，输出符合人类习惯的空间描述文本（图5）。

显示原图|下载原图ZIP|生成PPT

图5 基于规则的空间描述语言风格化生成过程

Fg. 5 Rules-based stylization generation process of spatial description text

由于空间关系描述语料缺乏，结合知识的文本摘要生成模型和预训练语言模型在空间关系描述文本生成任务上表现欠佳，本文选用基于规则的文本生成方法对空间场景进行描述。M2T架构通过引入语言合成风格化知识图谱，使用基于规则的文本生成模型能够生成描述精确空间关系的自然语言文本。

2.2 空间场景描述文本的生成

2.2.1 空间场景注意热力图

空间场景图作为人类形成空间认知的媒介，在地图描述中起着决定性的作用。本文扩展传统地图的表示方法，将空间场景中的地理实体表示为节点，地理实体间的空间关联表示为边，形成若干个空间关系三元组（Spatial Relation Triple）。为了精确地表示空间关系中的相对关系，空间三元组有序且严格区分主宾语。本文定义三元组的表示形式为(subject, relationship, object)。空间关系三元组集合可以构成空间场景的概念图，在一个特定空间场景中，表示地理实体的节点集V（Vertex）和表示空间关系的边集E（Edge）共同组成了空间场景图SG（Spatial Graph）。在空间关注度的作用下，空间场景图呈现如图6所示的空间注意力热度分布。

显示原图|下载原图ZIP|生成PPT

图6 基于空间关注度计算的空间场景注意力热度分布

Fg. 6 Spatial attention heat distribution of spatial scene graph based on spatial awareness calculation

本文将空间场景图划分为3个级别：空间场景图SG、子空间场景图SG*、路线R。有别于传统图数据结构，本文的空间场景图赋予了节点和边不同的属性，即图的空间信息不仅存储在节点上，也存储在边上。空间场景图SG表示待描述的整个空间场景图。

（7）

S G = < V, E >

式中：V为

所 有 地 理 实 体;

E为

一 一 对 应 空 间 关 系

。

子空间场景图SG*是空间场景图SG的子图，是由空间关注度计算得到的重要程度较高的地理实体构成的。在空间场景图中2个地理实体之间可能存在不同的关系，且会随着观察者的位移而发生变化。因此，子空间场景图对空间场景图中的节点进行扩展，如“太和殿”节点扩展为“太和殿西南角”、“太和殿东南角”等多个节点，从而对空间场景图进行多种视角的完整描述。

（8）

S G * = < V *, E * >

式中：

S G * ⊆ S G, V * ⊆ V, E * ⊆ E

路线R则是模型生成描述文本时，需要遍历的地理实体序列构成的有向场景图，也是人类空间认知中的连续空间场景路径。

（9）

R = < V R, E R >

式中：

R ⊆ S G *, V R ⊆ V *, E R ⊆ E *

场景图的节点表示空间场景中的地理实体，其包含了序号（id）、名称（name）、类别（architecture）、描述（description）等地理属性。数据结构如下所示：

Spots: [...
['id': id,
'name': name,
'type':[transit, spot],
'architecture': [dian, gong, tang, ge, lou, men, zhai, xuan, guan, ting, qiao, huayuan, else]
'description':... ]
... ]

空间场景图的边集表示地理实体间的空间关系，2个节点之间有边相连说明可能会在当前节点关注到另一节点。本文根据实际应用扩充了地理实体间的空间关系，形成空间关系矩阵。具体包含关注程度（attention）、距离关系（distance）、方向关系（direction）、可视关系（visibility）、可达关系（reachability）等多种属性。数据结构如下所示：

Palacerelationship: [...
['subjectid': subjectid,
'objectid': objectid,
'reationshipid': relationshipid,
'relationship': [direction, attention, distance, higher, visibility, reachability]
]
... ]

传统的地图数据一般为矢量或栅格结构，表现地理实体的静态属性。然而人类对空间的观察是动态的，并且会随着观察者的位移形成连续场景的空间认知。在移动过程中，行人一般使用地物之间的可视关系、方位关系等相对空间关系作为定向依据。M2T将地图转换为空间场景图，边上存储的数据详尽地提供了2个节点之间的空间关系信息，从而提供了连续空间场景的动态描述数据基础。同时，空间关注度决定了空间场景图中各地理实体及空间关系的空间注意力分布，还原了人类的心象地图。

2.2.2 连续空间场景的动态文本生成

人们通常通过“移步换景”的方式对连续空间场景进行表述，具体为在行进的路线上对变换的场景进行连续观察并描述。因此，本文采用广度优先图遍历算法进行寻路。模型遍历路线R上的每一个节点，根据节点类型调用相应的动作函数，执行相应的文本生成过程，从而实现连续空间场景的动态文本生成。具体地，在人类的空间认知中，对路线上每个空间场景的关注度并不总是相等的。人们习惯将一些地标性地理实体作为2个空间场景之间的过渡和连接，往往也只对面积较大或结构完整的空间场景进行观察和描述。为了还原游客的 “移步换景”过程，模型定义了3个动作函数：前进(forward( ))、到达(arrive( ))、环望(lookarround( ))。在图遍历过程中，模型根据不同的节点类型执行不同的动作函数。具体流程如算法1所示。

算法1：空间场景描述文本生成算法
输入：POI路线 R 输出：空间场景描述句子 1 while q.empty( )=0 do 2 u=q.get( ); 3 ard=AttnSort(u.adjacent( )); 4 for v in ard do 5 if u.type='transit' then 6 do action(arrive); 7 do action(forward) 8 end 9 else 10 do action(arrive); 11 do action(lookaround); 12 do action(forward) 13 end 14 end 15 end

对3类动作函数的定义如下，当执行“前进”动作时，模型自动匹配语言合成风格化知识图谱执行“前进”动作的句子生成，同时当前节点出队列；当执行“到达”动作时，模型自动匹配知识图谱执行“到达”动作的句子生成；当执行“环望”动作时，广度遍历当前节点的邻居节点，根据注意程度值由大到小按序访问，匹配相应的知识图谱生成文本。

3 实验分析

3.1 实验环境

基于M2T框架搭建了一个用户交互友好的空间场景描述文本生成原型系统VoiceOfMap，融合多种地理知识图谱对输入的空间场景进行描述，生成的文本还原了人类的空间认知，实现了连续空间场景的动态描述过程。

系统开发使用因特尔酷睿i7-1165G7 CPU硬件配置，Windows 10操作系统。多源知识图谱的构建基于高性能的NOSQL图形数据库Neo4j，并可视化展示。空间场景图数据存储格式为JSON，在MySQL5.7存储数据，使用Navicat客户端工具。系统基于Python程序设计语言进行开发，使用Flask Web应用框架搭建系统框架。

3.2 实验区域

故宫景区空间对象多样化且有布局紧凑的空间场景，游客一般采用“定点描述”与“移步换景”相结合的方式撰写游记。本文以故宫作为实验区域，使用M2T框架生成游记，验证M2T模型的有效性。

以太和宫部分宫殿群为例，如图7所示，涵盖太和门步道到保和殿的区域。按照建筑类型，将故宫内的地理实体分为殿、宫、堂、阁、楼、门、斋、轩、馆、亭、桥、花园、其他13种类别，基本涵盖游客可能到访的故宫内所有建筑或POI点。随后，构建节点集和边集的JSON文件，分别存储节点和边的属性信息。遍历边集信息，将所有的主语节点作为头节点，指针指向所有与该主语节点连通的宾语节点。

显示原图|下载原图ZIP|生成PPT

图7 VoiceofMap原型系统截图

Fg. 7 Screenshot of VoiceOfMap

3.3 实验系统

VoiceOfMap是基于M2T框架的空间场景描述原型系统。为了验证框架的有效性，用户进入地图界面后，可以在地图上依次点击路线上的建筑进行视角的转换，随后屏幕下方输出相应的描述文本。表1是太和门起点的描述文本生成对比。系统选取太和门南侧步道作为路线的起点，保和殿作为路线的终点，途径节点包括太和门南侧步道、太和门、太和殿广场、弘义阁、体仁阁等。根据空间关系知识图谱构建空间三元组共13个，根据前述广度优先遍历算法及游客动作函数，自动生成自然语言文本，如表1所示。

表1 M2T系统与网络游记输出文本对比

Tab. 1 Comparison between M2T system and online travel notes

书面语(M2T)	文言文(M2T)	儿语版(M2T)	传统游记
步行离开了午门后沿着当前方向继续走,很快可以到达太和门。离开太和门后继续前进,到达了太和殿广场。太和殿广场是故宫中最大的广场，广场上空旷宁静，十分庄严肃穆。朝着太和殿广场的正西方向坐落着弘义阁。太和殿广场距离弘义阁很远。弘义阁相比于太和殿广场高出很多	道过午门前而行,遂至太和门。前过太和门后遂进,则见太和殿广场。上旷静，严肃肃清。望之太和殿广场之西立弘义阁。太和殿广场与弘义阁久之乃至。弘义阁比于此太和殿广场需仰而望之	蹦蹦跳跳经过午门后继续前进,到达了太和门。小朋友们手拉手走过太和门接着活力满满地继续前进,很快可以到达太和殿广场。太和殿广场好大呀，站在广场上觉得自己很渺小。小脚丫迈着步伐继续向前进太和殿广场之正西方向出现了弘义阁。从太和殿广场到弘义阁要走很长一段路。弘义阁比起太和殿广场好高呀	今年暑假，我怀着快乐的心情来到了故宫。进入午门，绕过太和门，就来到了广场。这里据说是当年百官朝拜的地方
面向太和殿后方的正北方向出现了中和殿。两者距离不是很远，高度相当，能够步行到达	望之太和殿后方之北见中和殿。不出数步乃至。中和殿前相之太和殿后方高庶几乎。在太和殿后方,能以通此	小脑袋朝北方向看见了中和殿前。太和殿后方跟中和殿前距离不是很远，走一会就到了。中和殿前相比于太和殿肩并肩，高度差不多。停下脚步站在太和殿后方,小朋友可以直接走路就能到达	我们穿过太和门，来到太和殿。太和殿后面是中和殿，中和殿是皇帝上朝前休息的地方

从对比实验可以看出，VoiceOfMap生成的文本和人类书写的游记基本相似，且内容更加翔实，风格更加多样。

4 结论与展望

本文构建的M2T框架，融合了空间关系、空间关注度、风格化自然语言等多源知识图谱，协同指导空间场景描述文本的生成过程。通过北京故宫原型系统验证了M2T框架的可行性，验证了其对多源知识融合的能力和自然语言生成效果。M2T在个性化导游导览、盲人导航、元宇宙空间场景搭建等诸多场景具有应用潜力，对生成的词序列进行相似度计算等可以较为便捷地实现空间场景的相似性评估或空间场景索引。本研究存在不足包括基于模板文本生成方法的有一定的局限性等，下一步将融合深度学习方法，将空间关系纳入到空间关系理解中。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	杜清运, 任福. 空间信息的自然语言表达模型[J]. 武汉大学学报·信息科学版, 2014, 39(6):682-688. [ Du Q Y, Ren F. Representation model of spatial information in natural language[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6):682-688. ] DOI:10.13203/j.whugis20140111 DOI

[2]	Guo D H, Ge S Y, Zhang S, et al. DeepSSN: A deep convolutional neural network to assess spatial scene similarity[J]. Transactions in GIS, 2022, 26(4):1914-1938. ] DOI:10.1111/tgis.12915 DOI

[3]	郭旦怀. 基于空间场景相似性的地理空间分析[M]. 北京: 科学出版社, 2016. [ Guo D H. Geospatial analysis based on spatial scene similarity[M]. Beijing: Science Press, 2016. ]

[4]	赵伟, 吴金娜. 浅谈地图的发展史[J]. 城市勘测, 2022(5):111-116. [ Zhao W, Wu J N. Talking about the development history of map[J]. Urban Geotechnical Investigation & Surveying, 2022(5):111-116. ] DOI:10.3969/j.issn.1672-8262.2022.05.024 DOI

[5]	马耀峰, 李君轶. 旅游者地理空间认知模式研究[J]. 遥感学报, 2008, 12(2):378-384. [ Ma Y F, Li J Y. Study on schemes mode of Tourists'Geospatial cognition[J]. Journal of Remote Sensing, 2008, 12(2):378-384. ] DOI:10.3321/j.issn:1007-4619.2008.02.026 DOI

[6]	王晓明, 刘瑜, 张晶. 地理空间认知综述[J]. 地理与地理信息科学, 2005, 21(6):1-10. [ Wang X M, Liu Y, Zhang J. Geo-spatial cognition: an overview[J]. Geography and Geo-Information Science, 2005, 21(6):1-10. ] DOI:10.3969/j.issn.1672-0504.2005.06.001 DOI

[7]	张卫锋. 跨媒体数据语义分析技术研究[D]. 杭州: 杭州电子科技大学, 2019. [ Zhang W F. Semantic analysis for cross-media data[D]. Hangzhou: Hangzhou Dianzi University, 2019. ] DOI:10.27075/d.cnki.ghzdc.2019.000202 DOI

[8]	Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. 2015:3156-3164. DOI:10.1109/CVPR.2015.7298935 DOI

[9]	Karpathy A, Li F F. Deep visual-semantic alignments for generating image descriptions[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. 2015:3128-3137. DOI:10.1109/CVPR.2015.7298932 DOI

[10]	Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014: arXiv: 1409.1556. https://arxiv.org/abs/1409.1556

[11]	Johnson J, Gupta A, Fei-Fei L. Image generation from scene graphs[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. 2018:1219-1228. DOI:10.1109/CVPR.2018.00133 DOI

[12]	Zhu C, Hinthorn W, Xu R, et al. Enhancing factual consistency of abstractive summarization[EB/OL]. 2020: arXiv: 2003.08612. https://arxiv.org/abs/2003.08612

[13]	Rush A M, Chopra S, Weston J. A neural attention model for abstractive sentence summarization[EB/OL]. 2015: arXiv: 1509.00685. https://arxiv.org/abs/1509.00685

[14]	Miao N, Zhou H, Mou L, et al. Cgmh: Constrained sentence generation by metropolis-hastings sampling[C]// Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01):6834-6842. DOI:10.1609/aaai.v33i01.33016834 DOI

[15]	Egenhofer M J. A model for detailed binary topological relationships[J]. Geomatica, 1993, 47(3-4):261-273.

[16]	Randell D A, Cui Z, Cohn A G. A spatial logic based on regions and connection[J]. KR, 1992, 92:165-176.

[17]	Cui Z, Cohn A G, Randell D A. Qualitative and topological relationships in spatial databases[C]// Advances in Spatial Databases: Third International Symposium, SSD'93 Singapore, June 23-25, 1993 Proceedings 3. Springer Berlin Heidelberg, 1993:296-315. DOI:10.1007/3-540-56869-7_17 DOI

[18]	Schwering A, Wang J. SketchMapia-A framework for qualitative mapping of sketch maps and metric maps[C]// Las Navas 20th Anniversary Meeting on Cognitive and Linguistic Aspects of Geographic Spaces. 2010:11-13.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 M2T框架

图1 M2T框架

2.1 空间注意力机制驱动下的多源知识图谱融合

2.1.1 空间关注度知识图谱

2.1.2 空间关系知识图谱

图2 空间关系知识图谱

图3 空间关系知识图谱中可视关系定义示意图

图4 可视关系隶属度函数

2.1.3 语言合成风格知识图谱

图5 基于规则的空间描述语言风格化生成过程

2.2 空间场景描述文本的生成

2.2.1 空间场景注意热力图

图6 基于空间关注度计算的空间场景注意力热度分布

2.2.2 连续空间场景的动态文本生成

3 实验分析

3.1 实验环境

3.2 实验区域

图7 VoiceofMap原型系统截图

3.3 实验系统

表1 M2T系统与网络游记输出文本对比

4 结论与展望

参考文献