关键词: 自然语言 ; 地理实体 ; 定性空间关系 ; “文-图”转换; ; 近似表达


With the further development of mobile GIS, intelligent GIS and socialized GIS, the geospatial information service based on natural language processing is an inevitable trend in the field of geographical information science. The intelligent conversion from text to map is one of the important research directions. Both natural language and maps have the ability to express spatial relationship of geographical entities. Natural language has the natural characteristic of usability and is highly abstract, while map language is more intuitive and revealing. The ubiquitous natural language contains a great deal of geographic information. Converting natural language to map language can help people intuitively understand the geographic space environment and bring out new discoveries. The current research difficulties focus on that how to make a computer construct graphical information from natural language and have the intelligent spatial cognitive thinking ability. This paper proposes a method that using point coordinated pairs, straight line segments and rectangular/circular shapes to quantitatively represent point, polyline and polygon geographical entities in natural language respectively. First the spatial relations description types in natural language between point and point, point and line, point and surface, line and line, line and surface, surface and surface geographic entities are summarized. Second, approximate transformation model of spatial relationships in natural language which considering the geometric types of geographical entities is constructed, and an approximate expression strategy based on spatial relationships description in natural language is proposed. Third, a prototype system is designed to implement "text-map" conversion, and scenic spot travel notes are selected as the experimental text to finish the experiment. The experimental results showed that the method mentioned above was feasible, the goal that converting qualitative spatial relationships in natural language to quantitative (or approximately quantitative) graphical spatial relationships could be achieved. This paper lays a foundation for the study of the conversion from natural language to map.

Keywords: natural language ; geographical entity ; qualitative spatial relationship ; "text - map" conversion ; approximate expression


1 引言


近年来,针对自然语言空间关系的研究集中在2个方面:①自然语言空间关系定量化,其中拓扑关系中较成熟的是四交模型[1]和九交模型[2]。 Egenhofer等[3]、Mark等[4]和Shariff等[5]利用九交模型研究了拓扑关系的定性描述及其与空间认知的关系;许珺[6]从线状实体空间关系出发,选取了角度、分裂度等度量指标,结合拓扑关系定量指标,形式化描述了自然语言空间关系词汇。方向关系中有锥形方法[7,8]、投影方法[9]、最小外接矩形方法[10,11]等。Frank[8]基于投影方法提出用东、南、西、北等八方向,再加上“同一”方向描述空间对象间方向关系;Clementini[12]指出若没有参照物的描述信息,其方向关系词汇的含义不明确,因此他为方向关系和其相关参照物确定了统一的参考框架,并构建方向关系和五交模型之间的映射函数;杜世宏等[13]提出一种新的细节方向关系,结合外部方向关系和拓扑关系,提出了更全面的自然语言描述方式。距离关系描述方式包括定量和定性描述。Minock等[14]对“远”、“近”距离关系进行探索,在传统的赋值受限文本方法上加以改进,对一组无约束的阈值参数设定规则,通过固定参数算法获得与上下文描述“远”和“近”场景训练语料一致的参数,应用于自然语言模糊查询。②自然语言空间关系可视化,该类研究旨在从自然语言描述中提取空间关系并将其转换为合理的草图,近年来在位置描述的空间定位[15,16,17]、路径描述[18,19,20,21,22,23]和场景描述[24]的图形可视化方面取得了一些初步成果,把自然语言描述的地理实体统一抽象为点或一个特定符号,没有顾及到自然语言描述的地理实体的几何类型、形状、大小等空间特征。


2 自然语言空间关系描述的类型与特点


由于自然语言的灵活性、多样性、模糊性和不确定性,自然语言空间关系描述也表现出相应的特性,体现在:① 地理实体描述一般为特殊名词或短语标识,这种实体的信息通常不全面,即使某些语句会对实体的属性加以说明,但大多数情况下仍无法准确获得地理实体的大小、形状等空间形态特征;② 拓扑关系描述词汇丰富,同一拓扑关系有多个拓扑词汇对应,而部分拓扑词汇在不同语境中能表达不同的拓扑关系;③ 方向关系描述可分为绝对方向关系和相对方向关系描述,其中相对方向关系需要根据人的朝向将其转换为绝对方向才能准确定位,而绝对方向描述的“东”与“北”、“东”与“南”等方位之间也无法划定一条截然分明的界限;④ 距离关系描述包括定量距离、定性距离、时间距离描述,其中定性距离描述的“远”与“不远”、“近”与“不近”之间的界限并不明确,即使是同一定性距离词汇,在不同语境中对应的距离也不同,如“南京离合肥较近”对应“距离170公里左右”,而“南师大离警官学院较近”对应“距离200米左右”,二者描述尺度不同,对应的距离存在数量级上的差异,因此,需要根据实验区域的尺度特征或通过对人群进行认知实验将其近似转换为定量距离;而时间距离也无法精确计算,需根据词语含义将其近似转换为定量时间,进而转换为定量距离,如“一袋烟”对应3-5 min,步行大概350 m 。

3 基于自然语言空间关系描述的地图近似表达方法

3.1 地理实体近似表达



① 点状实体:若实体为独立个体,面积占比小且无重要属性时,无论将其抽象为点或面都不影响其与其他实体的空间关系,可将该实体抽象为点实体;

② 线状实体:若实体外接矩形的长宽比明显较大时,可将该实体抽象为线实体,如桥、长廊、河流等;

③ 面状实体:若实体不是独立个体,其内部还包含其他需要表达的实体,则将其抽象为面实体;若实体是独立个体,面积占比大时,将其抽象为面实体;若实体是独立个体,面积占比小,但有重要属性时,将其抽象为面实体。


对点实体而言,本文采用(x , y)坐标对其近似表达。



3.2 空间关系近似转换


3.2.1 相离关系



图1   “在参照物A和B之间”关系模型

Fig. 1   Relationship model of “Between reference object A and B”




点状参照物:采用八方向锥形模型,将二维空间平分为八个区域,如图2(a),设定北方向为[0º, 22.5º] ∪ [337.5º, 360º],沿着顺时针方向每隔45°设定为一个方向,则各个方向的划分顺序依次为北、东北、东、东南、南、西南、西、西北。

图2   “方向关系”模型

Fig. 2   “Direction Relation” model




点状参照物:人们对空间的认知存在一定偏差,用自然语言描述的距离通常不完全与实际相符,因此在对距离的位置估算中,引入误差参数e, e随着定量描述数值(用d表示)的增大而增大,但由于个体的空间认知能力存在差异,需要通过不同个体空间位置判断能力测试来确定ed之间的关系。如图3(a),深色圆环区域表示目标物距离参照物长度为d的候选位置。

图3   “距离关系”模型

Fig. 3   “Distance Relation” model





图4   “方向+距离关系”模型

Fig. 4   “Direction and Distance Relation” model

3.2.2 包含关系

自然语言中包含关系描述分4类:① 线穿过点(图5(a));② 点在面内,按描述中是否提及方向,分为“点在面内任意方向”(图5(b))和“点在面内某个特定方向”(图5(c));③ 线在面内,按描述中是否提及方向,分为“线在面内任意方向”(图5(d))和“线在面内某个特定方向”(图5(e));④ 一个面在另一个面内,按描述中是否提及方向,分为“在面内任意方向”(图5(f)和“在面内某个特定方向”(图5(g))。

图5   “包含关系”模型

Fig. 5   “Inclusion Relation” model

3.2.3 相接关系

自然语言中相接关系描述分3类:① 点与线相接,通常与方向词汇组合描述,如东起,西至、南毗、北邻等(图6(a));② 点与面相接,与方向词汇组合描述,表示为点在面的某个方向的边界上(图6(b));③ 线与线相接,表现为线的某个端点在另一条线上(图6(c));④ 线与面相接关系与方向词汇组合描述,表示为线与面的某个方向的边界相接(图6(d)); ⑤ 面与面相接,表示一个面的一条边与另一个面的一条边重合(图6(e))。

图6   “相接关系”模型

Fig. 6   "Meet Relation" model

3.2.4 相交关系

自然语言中相交关系描述分3类:① 线与线相交与某个交点处,如图7(a)所示;② 线与面相交,通常与方向词汇组合描述,如图7(b)所示;③ 面与面相交,如图7(c)所示。

图7   “相交关系”模型

Fig. 7   “Intersection Relation” model

3.3 地图近似表达策略



(2)提取描述文本中地理实体序列GG={ G1 , G2 , … , Gn })以及空间关系序列RR={ R12 , Rij… }),其中Rij表示GiGj的自然语言空间关系,默认G中实体的初始角色为目标物;




(6)判断空间关系记录中与Gk有关系的参照物个数,若Gk仅有1个角色为参照物的关联实体Gm,则根据Rkm选择3.2中对应模型计算Gk位置范围,并在对应范围内绘制Gk;若Gk有多个角色为参照物的关联实体Gm , Gn , Gl,则根据Rkm , Rkn , Rkl选择3.2节中对应模型分别计算Gk范围,然后将其交集作为Gk位置范围,并在对应范围内绘制Gk;



4 实验与分析

4.1 实验案例实现

利用C#编程语言,采用基于GDI的程序实现方法,在Visual Studio 2010集成开发环境下开发原型系统,系统包含“语义解析”和“文-图转换”两大功能。语义解析采用关键词匹配及人工辅助方法,从自然语言文本中提取地理实体及空间关系序列;文-图转换包含3步:① 根据本文近似表达策略,计算各地理实体相对位置范围;② 根据自然语言描述的地理实体符号化方法(本文不做阐述),确定各地理实体符号;③ 将确定的地图符号随机绘制在所求空间位置范围内,实现地理实体空间关系的近似拟表达。为验证本文方法可行性,选取一段颐和园导游词作为实验文本,对系统功能进行验证,部分案例实现如表1所示。

表1   地图近似表达案例

Tab. 1   Map approximate expression case



4.2 实验结果分析

为客观评价本文方法的有效性,选取“地图相似性”作为评价指标,计算本文系统随机生成的5幅地图(图5(a)、(b)为其中的2幅)和颐和园官网的1幅导览图(图5(c))之间的平均相似度,根据相似度大小对实验结果进行定量评估。地图相似性计算综合考虑地理实体的相似性和实体间空间关系的相似性,其中实体相似性选取了“几何形态、线实体与横轴的夹角、线实体长度与地图幅面对角线长度的比值、面实体最小外接矩形面积与地图幅面面积的比值”等7类指标,空间关系相似性选取了“拓扑类型、点与点连线与横轴的夹角、点与点距离与地图幅面对角线长度的比值、点与线的起点连线与横轴的夹角、点与线的最短距离与地图幅面对角线距离的比值、点与面左上角顶点距离与地图幅面对角线距离的比值” 等33类指标,具体方法本文不做探讨。最终计算结果显示本文生成的地图与导览图的地图相似性在76%~81.5%范围内,总平均相似度为79.50%,地理实体平均相似度为86.86%(点状实体平均相似度为1、线状实体平均相似度为62.20%、面状实体平均相似度为58.47%),空间关系平均相似度为74.59%。

由此可见,本文方法能较准确地模拟人的 认知,与导览图较为相似。由于空间关系较地理实体更为复杂,空间关系平均相似度明显弱于地理实体的平均相似度;面状实体形态特征最复杂,点状实体形态最单一,因此点状实体的平均相似度最高、线状实体的相似度次之、面状实体平均相似度最低。

图8   模拟表达结果与导览图的对比

Fig. 8   Comparison between simulated results and guide map

5 结论与展望


