

  • 余靖毅 ,
  • 邬伦 ,
  • 高勇 *
  • 北京大学遥感与地理信息系统研究所,北京 100871
*通讯作者:高勇(1974 -),男,辽宁抚顺人,副教授,研究方向为地理信息检索、空间数据挖掘。E-mail: gaoyong@pku.edu.cn

作者简介:余靖毅(1990 -),男,湖北武汉人,硕士生,研究方向为地理大数据计算与挖掘。E-mail: harryyu1018@pku.edu.cn


收稿日期: 2015-04-15

  要求修回日期: 2015-05-29

  网络出版日期: 2015-12-20



A Geocoding Engine Based on Storm

  • YU Jingyi ,
  • WU Lun ,
  • GAO Yong *
  • Institute of Remote Sensing and Geographical Information System, Peking University, Beijing 100871, China
*Corresponding author: GAO Yong, E-mail:

Received date: 2015-04-15

  Request revised date: 2015-05-29

  Online published: 2015-12-20


近年来,随着Web 2.0和具有位置感知能力的移动计算设备的普及应用,带来了大量含有时空语义的地理大数据。在这个背景下,以地图厂商人工方式和半自动方式更新地名地址库为基础的传统地理编码服务,已难以满足新的应用需求。本文提出一种地理大数据驱动的自适应地理编码引擎的构建思路和方法,通过引入实时计算和流式计算平台Storm,实现对网络中的多源地理大数据的爬取与实时处理,加速地名地址库及相关资源的生成与更新过程,并给出了相适应的地理编码匹配方法。在实时流式计算框架基础上,通过JTS Topology Suite实现流式并行的空间操作,设计并实现了基于Storm的地理编码引擎原型系统,满足多源地理大数据的高效处理和地理编码要求。实验结果表明,该引擎通过实时流式处理可加速地址库的扩充与更新过程,并且利用地址库持续更新的方法,提升了地理编码的匹配率和定位准确度。


余靖毅 , 邬伦 , 高勇 . 基于Storm的地理编码引擎[J]. 地球信息科学学报, 2015 , 17(12) : 1431 -1441 . DOI: 10.3724/SP.J.1047.2015.01431


The explosion in geographical data with spatio-temporal characteristics has led a surge in the demand of adaptive geocoding engine construction driven by Big Geo-Data, when Web 2.0 techniques popularize and mobile devices that are capable of location-awareness become prevalent. The traditional geocoding service, which maintains gazetteers manually or semi-automatically by authoritative mapping agencies, cannot satisfy the needs of the latest researches. In order to solve the problems related to efficient storage and manipulation of massive Geo-Data in GIScience and related fields, our research proposes a method to build the adaptive geocoding engine in a geo-data-driven approach using Storm, a real-time and stream computing platform, thus to process multi-source network spatio-temporal data in real-time and accelerate the progression of building and maintaining gazetteers. Based on these data, an adaptive matching method of geocoding is built on the next stage. A prototype system of geocoding engine based on Storm is designed and implemented, which can process and geocode the multiple-source Geo-Data effectively. Experiments that were conducted on the POI datasets from Baidu reveals a high matching rate, which is more than 98%, and a accuracy rate of above 95%, while the average corresponding time per geocoding is about 75ms, which is practically applicable. The cases certify that real-time Storm-based streaming spatial operations not only consume an order of magnitude less time than traditional desktop stand-alone operations, but also enhance the matching rate and improve the positioning precision, which implies that the proposed solution is both feasible and practically effective. Our work offers new insights on collecting and processing POI datasets, enriching and building gazetteers, improving geocoding results in real-time with the use of Storm clusters. It makes contributions to apply real-time streaming computation methods to GIS for the state-of-the-art of Geo-Data computing, analytics and mining.

1 引言

目前,常见的地址编码方法主要有3种:点模型(Point Geocoding)、街道模型(Street Geocoding)和面模型(Parcel Geocoding)[5]。街道模型利用每段街道中存储的门牌开始编号和终止编号,通过插值算法估算出某个门牌号的地理坐标[6]。街道模型的地址匹配精度受街道门牌号排列规则性影响较大,当城市门牌编号混乱时,该模型的插值匹配效率较差。但由于街道地址编码获取成本较低,数据质量较高,因此,在欧美等国家至今仍然有广泛的应用。
近年来,Web 2.0和具有位置感知能力的移动计算设备的普及应用,带来大量具有个体标记和时空语义信息的地理大数据[13]。Facebook、Twitter、Foursquare、新浪微博、大众点评等主流应用也产生了大量地名、地点描述,以及根据发布者经历的带有空间语义的评论,为地名地址的采集提供了丰富的素材和背景知识[14-15]。在地理大数据背景下,以地图厂商人工方式更新地名库为基础的传统地理编码服务,已很难满足新的需求,迫切需要一种更加实时的、自适应的新型地理编码服务。然而,利用大数据驱动的方式获取来自互联网中的自发性地理信息(Volunteered Geographic Information,VGI),并用于构建地名地址库已成为一种新的方向和选择[16]

2 Storm计算平台简介


2.1 Storm的工作机制

Storm集群中有2种节点:主控节点(Master Node)和工作节点(Worker Node)。主控节点通过Nimbus后台程序,负责在集群里面分配计算任务和监控集群状态。工作节点通过Supervisor的后台程序,负责监听分配给它所属机器的执行任务,根据需要启动/关闭工作进程[18]。Nimbus和Supervisor之间所有的协调工作和状态管理都通过Zookeeper(http://zookeeper.apache.org)集群完成,保证了Storm极高的可靠性和稳定性。

2.2 Storm的关键概念

(1) 计算拓扑(Topologies):在Storm中运行的一个实时应用程序,由各个组件间的消息流动所形成逻辑上的运算拓扑。
(2) 消息元组(Tuple):一个消息传递的基本单元。
(3) 消息流(Streams):是Storm中最关键的抽象。一个消息流是一个没有边界的Tuple(元组)序列,而这些Tuples会被以一种分布式的方式并行地创建和处理。
(4) 消息源(Spouts):是Topology中的消息和流数据的生产者。
(5) 消息处理者(Bolts):是处理所有消息和流数据的逻辑业务组件,可完成过滤、聚合、查询数据库等工作。
(6) 消息分发策略(Streaming Groupings):定义了一个Topology中每个Bolt将会接受什么样的流作为输入。Storm提供了7种分发策略:随机分组(Shuffle Grouping)、按字段分组(Fields Grouping)、广播分组(All Grouping)、全局分组(Global Grouping)、不分组(Non Grouping)、直接分组(Direct Grouping)、本地或随机分组(Local or Shuffle Grouping)。
Fig. 1 The relationship between components in Storm

图1 Strom平台中各种组件之间关系

3 基于Storm的地理编码引擎设计

3.1 系统架构

Fig. 2 System architecture

图2 系统架构

3.2 数据获取


3.3 实时流处理

3.3.1 地理数据的预处理
3.3.2 Storm集群上实现基本空间处理
Storm是一个通用计算平台,默认不支持空间数据格式和相关操作。需先解决读入多种常用空间数据格式的数据源。WKT(Well-Known Text)和WKB(Well-Know Binary)是OGC制定的空间数据组织规范,使用WKT和WKB能很好地实现与其他空间数据格式和系统进行数据交换。
为了使Storm上的业务处理Bolt可完成基本的空间操作,引入JTS Topology Suite(http://www.vividsolutions.com/jts/JTSHome.htm)。它是一套开放源码的Java API,提供了整套完整的空间数据操作的核心算法。Storm优秀的架构设计,使得实现具体业务时基本不需考虑任务的分发和可靠性处理。因此,基于JTS Topology Suite可方便快捷地开发出分布式空间数据操作的API和相关具体 业务。
Fig. 3 The processing stream for spatial classification in Storm

图3 Storm平台中空间分类的流处理过程

算法1 根据空间分布对点进行划分
输出:对应<PolygonID, ContainerPointIDs>列表,以及每个多边形中包含的点的数量
PolygonIDs getFeatures(PolygonSet)
< pointID, longitude, latitude>ϵPointSet
/* 分组检测所属多边形过程 */
Contain(pointID, longitude, latitude, PolygonIDs)
point new Point(pointID, longitude, latitude)
for iϵPolygonIDs do
/* 判断是否在多边形内 */
if PolygonSet[i]contains point then
tuple createTuple(i, point)
emit(tuple) /* 发送消息单元tuple */
/* 空间划分过程 */
Classify(polygonID, pointID)
if polygonIDϵPolygonIDs then
count, pointIDs polygonKeyMap.get(polygonID)
countcount + 1
polygonKeyMap.store(count, pointIDs)
emit(polygonIDs, count, pointIDs)
/* 合并统计过程 */
polygonMap是一个由polygonID作为键值,<包含点数, 点ID集合>为键的结构
Merge(polygonID, count, pointIDs)
if polygonID ϵPolygonIDs then
polygonKeyMap polygonMap .get(polygonID)
polygonKeyMap.store(count, pointIDs)
polygonMap.set(polygonID, polygonKeyMap)
return PolygonIDs, ContainerPointIDs, counts

3.4 地理编码中间件

Fig. 4 Addresses matching process

图4 地址匹配的流程

3.4.1 精确匹配
3.4.2 模糊匹配
由于用于地理编码的地址数据存在多样性、复杂性和地址要素弱有序性,很难仅仅通过精确匹配的方法完成高质量的地理编码工作。因此,在地理匹配环节引入全文检索的文本匹配方法,以提升匹配率和准确度。模糊匹配部分使用TF-IDF模型和编辑距离(Levenshtein distance)[23]2种方法综合评判地址之间的相似度。

3.5 数据存储

这个模块主要是持久化引擎运行所需的各种数据资源,包括实现地理编码所依赖的地名地址库和特征词库、作为背景知识进行地址关联学习的 知识库,以及用于词频统计和训练的语料库等。为了实现普通属性和空间特征的共同管理,本引擎采用PostgreSQL(http://www.postgresql.org)完成数据存储。

4 地理编码匹配实验与结果

4.1 数据集和Storm集群

本文使用网络爬虫收集百度的POI数据并存储在PostgreSQL数据库中。本次实验共爬取中国范围内4 065 884个POI记录。其中,POI的元数据包括ID、name、address、type、telephone、zipcode、longitude和latitude(表1)。通过对数据的分布进行基本分析可看出,POI数据覆盖范围较为全面,基本涵盖了中国所有省(区)(图5)。其中,广东、江苏、浙江和四川所包含的数据较多,而海南、宁夏和澳门的POI数据较少,不同省(区)之间POI数据量差距较大。这种数据量的差异也一定程度上造成不同省(区)地理编码结果匹配率的差异。
Fig. 5 The spatial distribution of POI based on Chinese provinces

图5 POI数据按省区市(地区)分布情况

Tab. 1 The metadata structure of Baidu POI data

表1 从百度爬取的原始POI元数据结构

字段 含义 举例
ID 唯一标识码 05324af8fb50b53e210220b1
Name 名称 北京大学
Address 地址 北京市海淀区颐和园路5
Type 类型/标签 高等教育,教育
Telephone 电话 (010)62752114
Zipcode 邮编 100871
Longitude 经度 116.298518
Latitude 纬度 39.993301
基于前面介绍的系统架构,在服务端安装部署Storm集群(Storm 0.9.3;Zookeeper 3.4.6;Kafka 2.10),在服务器集群上虚拟化出相应的节点(默认5个)并对其分配不同的角色:Nimbus、Supervisor、Zookeeper、Kafka(表2)。这种方法使整个系统的部署和扩展得到很大的提升,同时根据实际计算需求动态扩容服务节点,提供弹性计算资源。另外,这种方法使整个引擎可较为轻松方便地从本地迁移到Amazon EC2、Windows Azure和阿里云等主流云服务平台上。
Tab. 2 The roles and configurations of 5 servers

表2 Storm集群中服务器的角色和配置

服务器IP 角色 操作系统 配置信息 Nimbus;Kafka;Zookeeper Ubuntu 14.04 1G内存;2.4GHz处理器;40G存储, Supervisor Ubuntu 14.04 1G内存;2.4GHz处理器;40G存储, Supervisor;Zookeeper Ubuntu 14.04 1G内存;2.4GHz处理器;80G存储

4.2 实时流处理的空间划分

Fig. 6 The spatial distributions of POI with different types

图6 各类型POI数据的空间分布

Tab. 3 Extracting and classifying POI

表3 抽取分类POI数据

POI类型 标识 关键字 数量
住宅 Residence 住宅,小区 99 722
餐饮 Catering 餐饮,休闲餐饮,西式快餐 294 106
公园 Park 公园 6118
景点 Scenic 风景区,旅游区,文物古迹,旅游景点 42 935
自然山 Mountain 自然山 262 859
高速公路 Highway 国道,高速道路 8795
Fig. 7 Comparison of time efficiency for single desktop PC and Storm clusters

图7 数据处理速度对比图

4.3 地理编码原型

Fig. 8 The results of geocoding engine

图8 地理编码引擎效果图

为了衡量本引擎在地理编码方面的有效性,使用匹配率和准确率2个指标来衡量算法的优劣。地理编码实验中以爬取的4 065 884个全国范围POI为基础的地址数据,根据上述的方法对数据进行预处理,生成符合地理编码的标准地址模型。另外,选用全国省级、市级、县级、乡级和村级5级行政区划单元制作成地名库。这使地名库能覆盖大部分地址中出现的行政地名要素,提升准确匹配的概率。
Tab. 4 Geocoding matching results

表4 地理编码匹配实验结果

地址来源 条数 匹配率(%) 准确率(%) 耗时(s/条)
随机抽取地址 10 000 100 97.3 0.075
人工构造地址 500 98.6 95.6 0.075
实验表明,本引擎地理编码的匹配率和准确率均超过95%。通过分析发现,导致地址匹配失败的主要原因是背景知识不能很好地处理同一地点多种地址描述的匹配要求。而分词不正确也是地址数据在计算全文检索的相似度和排序时出现匹配错误的另一个重要因素。宋子辉[22]做过类似的中文地址匹配实验,其结果为匹配率98%,准确率93%,速度0.2 s/条。本引擎由于采用网络中的地理大数据作为地址库来源,使得地址库可以拥有数据来源丰富、质量高、覆盖范围广的数据。并且通过引入Storm实时流处理框架加速了由地理大数据到地址库的持续扩充过程,保证地址库数据的丰富性和时效性。由于地址匹配算法对地址库的质量由较强的依赖性,随着本引擎地址库持续丰富可有效地提升匹配的精度。

5 结论


The authors have declared that no competing interests exist.

