互联网文本蕴含道路交通信息抽取的模式匹配方法

仇培元; 张恒才; 陆锋

doi:10.3724/SP.J.1047.2015.00416

地球信息科学学报 >

2015 , Vol. 17 >Issue 4: 416 - 422

DOI: https://doi.org/10.3724/SP.J.1047.2015.00416

互联网文本蕴含道路交通信息抽取的模式匹配方法

仇培元 ^,¹^,² ,
张恒才 ^,¹^,^* ,
陆锋 ¹

展开

1. 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室, 北京 100101
2. 中国科学院大学, 北京 100101

*通讯作者：张恒才（1985-）,男,山东济南人,博士后,研究方向为互联网空间信息搜索、轨迹数据管理与数据挖掘。E-mail:zhanghc@lreis.ac.cn

作者简介：仇培元（1986-）,男,山东青岛人,博士生,研究方向为互联网空间信息搜索。E-mail:qiupy@lreis.ac.cn

收稿日期: 2014-05-04

要求修回日期: 2014-06-25

网络出版日期: 2015-04-10

基金资助

国家“863”计划课题（2012AA12A211、2013AA120305）

收起

A Pattern Matching Method for Extracting Road Traffic Information from Internet Texts

QIU Peiyuan ^,¹^,² ,
ZHANG Hengcai ^,¹^,^* ,
LU Feng ¹

Expand

1. State Key Lab of Resources and Environmental Information System, IGSNRR, CAS, Beijing 100101, China
2. University of Chinese Academy of Sciences, Beijing 100101, China

*Corresponding author: ZHANG Hengcai, E-mail:zhanghc@lreis.ac.cn

Received date: 2014-05-04

Request revised date: 2014-06-25

Online published: 2015-04-10

Copyright

《地球信息科学学报》编辑部所有

Fold

摘要

互联网页面和社交网络文本中蕴含丰富的道路交通信息,是其他交通信息采集平台的有效补充。然而,自然语言文本形式的交通信息多以线性参考或地标方位描述交通事件空间位置,且大量存在事件元素缺失或隐含现象,对交通信息的自动化抽取有着较大影响。考虑到交通信息的自然语言表达方式虽然自由随意,但表达模式相对固定,提出一种从互联网文本中抽取道路交通信息的模式匹配方法。首先,基于道路交通事件描述的语言特征构建模式库;然后,以特征词词性序列的形式表达互联网文本和抽取模式,利用DTW距离度量序列相似度,实现抽取模式匹配;最后,在匹配抽取模式和填补规则指导下获取结构化的道路交通信息。由上海市城市交通相关门户网站和微博客平台的实验过程显示,本文所提出的模式匹配方法,抽取道路交通信息的准确率和召回率分别达到90%和80%以上,表明该方法能有效抽取互联网文本蕴含的道路交通信息,且实现过程相对简单,易于扩展,具有可用性。

关键词： 互联网文本; 道路交通信息; 模式匹配; DTW距离; 信息抽取

本文引用格式

仇培元 , 张恒才 , 陆锋 . 互联网文本蕴含道路交通信息抽取的模式匹配方法[J]. 地球信息科学学报, 2015 , 17(4) : 416 -422 . DOI: 10.3724/SP.J.1047.2015.00416

Abstract

Internet pages and microblog messages usually contain a great amount of road traffic information that can become an important data source for city road traffic collection. However, current information extraction technology for Chinese natural language text is not applicable to extract road traffic information from Internet texts for two reasons: (1) the location descriptions in these texts are usually in the form of linear reference methods; and (2) some information elements are missing or ignored in the expressions. In this paper, we propose a pattern matching method for extracting road traffic information from Internet texts. This method focuses on obtaining the location element and event element of road traffic information, due to the fact that these elements are often associated with the above issues. Firstly, extraction pattern is defined as a sequence in which each item contains two parts: part of speech (POS) of the road traffic feature words, and information attribute type. Then an extraction pattern library is established based on the linguistic features of the road traffic event description. Secondly, the Internet text after pre-progressing and the extraction patterns are both represented by POS sequences. Thirdly, the method of measuring similarity between sequences with dynamic time warping (DTW) theory is used in pattern matching to look for the most suitable extraction pattern for this text from the library. Finally, the elements and attributes of traffic information are extracted from the text under the guidance of the matching pattern. To add the missing or ignored elements, special filling rules based on the syntactic structure of information expression are introduced into this extraction process. In an experiment that takes relevant Internet texts for road traffic in Shanghai as the test data, whose sources are mainly from the official traffic information websites and Sina microblog platform, the precision and recall rate of road traffic information extraction is analyzed to be over 90% and 80% respectively. The result verifies the effectiveness of the presented approach. This method satisfies the requirement since the data accuracy is higher than average in real world public traffic service, and could effectively exact structure road traffic information from texts in any websites of different cities, by using the corresponding road lexicons.

Key words： Internet text; road traffic information; pattern matching; DTW; information extraction

1 引言

道路交通状态的实时监测与分析是智慧城市建设的重点。现有的基于固定传感器或浮动车的实时交通信息采集技术虽然得到广泛应用,但无法采集突发性较强的交通事故、临时交通管制、交通限制、实时交通环境等信息^[1]。与此同时,互联网作为便捷高效的信息载体,已成为政府机构、企业、公众发布和共享实时道路交通信息的重要渠道。这些交通信息类型丰富、时效性强,能够与其他交通信息采集技术获取的信息形成互补,可在政府规划决策、公众出行服务方面发挥重要作用。

互联网渠道发布与共享的交通信息,多以自然语言描述的非结构化文本形式存在,需要通过信息抽取转换为结构化信息方可实现软件应用。信息抽取是识别出自然语言文本中指定类型事件或关系实例,获取这些实例的相关参数,组织为结构化数据格式的技术^[2]。信息抽取技术已在获取文本蕴含医学信息^[3]、生物学信息^[4]、商业信息^[5]、突发事件信息^[6-7]等方面发挥重要作用。文本蕴含地理信息抽取也日益引起关注^[8-11]。

然而,对于互联网文本蕴含道路交通信息抽取,现有信息抽取技术存在以下问题：

（1）道路交通事件位置描述一般采用基于线性参照方法（LRM）,且表达形式多样^[12]。如“南浦大桥浦东主引桥东向西方向2号车道内”,“南北高架路东侧广中路上匝道至中环路共和新路立交桥出口匝道南向北”等,即空间位置主要通过多个道路实体的空间关系反映出来。现有信息抽取技术无法正确识别和处理这些空间关系。

（2）交通信息的文本描述过程可能省略重复内容。如“#夜间封道#7月15日24:00至次日5:00封道养护路段：内环外侧武夷路出口至漕溪立交入口,内侧新华路出口至金沙江路入口、广中路出口至大柏树入口”描述了3个封闭养护交通事件,通过列举句式省略了对事件类型和道路名称的重复叙述。现有抽取技术填补省略内容能力较弱。

针对上述问题,本文将道路交通事件描述的语言特征引入信息抽取过程,提出一种互联网文本蕴含道路交通信息抽取的模式匹配方法。

2 道路交通信息模式匹配方法

道路交通信息由定位信息、时间信息和事件信息组成。定位信息反映交通事件发生的位置,采用LRM描述,映射到确定的道路路段和方向。时间信息为交通事件开始与结束时间。交通信息的时效性依事件类型差异决定。事件信息描述了道路交通事件类型和状态,如“道路路况”为“拥堵”、“交通事故”为“相撞”、“路面环境”为“积水”等。每一类信息又包含具体的属性（表1）。本文将文本中所蕴含道路交通事件的词汇或短语作为道路交通特征词,以填充道路交通信息属性。表2是道路交通特征词词性的具体分类,据此建立道路交通特征词库。

Tab. 1 Attributes of road traffic information

表1 道路交通信息属性

信息类型	属性名称	属性代码
定位信息	所在道路	rm
	定位起点	rs
	定位终点	re
	起始方向	fs
	终止方向	fe
	偏移量	os
时间信息	事件发生时间	ts
时间信息	事件结束时间	te
事件信息	事件类型	ty
事件信息	事件状态	sts

Tab. 2 Parts of speech (POS) of feature words for road traffic

表2 道路交通特征词词性

特征词词性	词性代码	示例
道路名称词	ndsr	“人民路”、“鲁班立交桥”等
附属定位词	ndrs	“内侧”、“北侧”、“匝道入口”等
方向描述词	fd	“东”、“南”、“西”、“北”、“东北”等
数词	m	“100”,“1500”等
量词	q	“米”、“公里”等
介词	pd	“到”、“往”、“向”等
事件类型词	ndte	“临时管制”、“道路施工”等
事件状态词	adrs	“行驶缓慢”、“压力较大”等
一般词	co	与表达道路交通事件特征无关的词汇

模式匹配是通过抽取模式指导进行文本蕴含事件信息抽取的方法^[13]。抽取模式构建包括知识工程方法和自动训练方法^[14]。前者基于特定领域知识,人工编制抽取模式,后者则利用机器学习方法从标注语料中自动获取抽取模式。自动训练方法需要足够规模的标注语料才能得到理想的抽取结果,否则易产生数据稀疏问题^[15]。道路交通领域缺乏可直接利用的文本标注语料,因而自动训练方法难以直接应用。同时,知识工程方法虽然需要一定的人工介入,但准确率较高^[16-17]。因此,本研究尝试利用知识工程方法构建互联网文本蕴含道路交通信息抽取系统,重点在于利用抽取模式获取定位信息和事件信息,其抽取流程如图1所示。

View original graphic|Download|PPT slide

Fig. 1 Flow chart of extracting road traffic information from Internet texts

图1 互联网文本蕴含道路交通信息抽取流程

2.1 创建抽取模式

抽取模式用于识别互联网文本中描述道路交通事件的特征词汇,并将这些词汇填充至对应的道路交通信息属性。抽取模式EP定义为：EP={e₁,e₂,…,e₃,…,e₄},e_i={pos_i,type_i}。其中,e为EP的n个序列项,pos为道路交通特征词词性,type为信息属性。提取各序列项的

po s i

可组成特征词词性序列,用于识别文本中的道路交通特征词汇。特征词词性序列反映出文本表达的句法结构,因而能够通过特征词词性序列的调整,将交通事件描述的语言特征引入特征词识别过程,从而减少无关词干扰,提高识别准确性。type_i声明pos_i对应特征词汇在道路交通信息中的属性。

本文首先结合文献^[12]所述基于LRM的道路位置表达特点,制订定位信息抽取模式(表3);然后,根据道路交通信息描述的句式特点,在定位信息抽取模式基础上自动填充事件信息抽取模式,得到用于文本蕴含道路交通信息抽取的模式库。使用的填充方法包括：（1）在定位信息抽取模式的道路名称词后添加附属定位词;（2）在（1）中抽取模式之前或之后添加一般词;（3）在（2）中抽取模式之前或之后添加事件类型词;（4）在（3）中抽取模式之前或之后添加事件状态词。利用该方法依次对表3中的定位信息抽取模式进行自动填充,最终得到2700条抽取模式。

Tab. 3 Extraction patterns of location information

表3 定位信息抽取模式

抽取模式	实例
{{ndsr,rm},{ndsr,rs},{pd,NULL},{ndsr,re}}	延安北侧延西立交至虹桥枢纽
{{ndsr,rm},{ndsr,rs),{pd,NULL},{ndsr,re},{fd,fs}}	浦东济阳路东侧中环至卢浦大桥入口双向
{{ndsr,rm},{ndsr,rs},{pd,NULL},{ndsr,rs},{fd,fs},{pd,NULL},{fd,fe}}	延安高架路南侧虹井路上匝道至虹许路下匝道西向东
{{ndsr,rs},{pd,NULL},{ndsr,re}}	……,真南路出口至金沙江路入口
{{ndsr,rm},{fd,fs},{m,os},{q,os}}	逸仙路往北500 米
{{ndsr,rs),{pd,NULL},{ndsr,re},{fd,fs}}	外滩至华山路双向
{{ndsr,rs},{pd,NULL},{ndsr,re},{fd,fs},{pd,NULL},{fd,fe}}	……,娄山关路上匝道至延西立交出口匝道西向东
{{ndsr,rm},{fd,fs},{pd,NULL},{fd,fe}}	鲁班路南向北
{{fd,fs},{pd,NULL},{fd,fe}}	……,东向西
{{ndsr,rm}}	迎宾三路地道
{{ndsr,rm},{fd,fs}}	人民路隧道双向

2.2 互联网文本预处理

首先,对输入的互联网文本进行中文分词和词性标注,结合道路交通特征词库识别文本中出现的道路交通特征词;其次,检查文本是否同时满足至少含有一个道路名称词和一个事件类型词或事件形态词,以判断文本有效性,若为无效文本则不做抽取处理;然后,由识别出的道路交通特征词生成特征词词性序列,其中,将多个连续的一般词合并标记为1个一般词;最后,根据输入文本的断句对词性序列分割,获得与输入文本各句子对应的特征词词性序列集合。

2.3 模式匹配

比较输入文本的特征词词性序列集合中各词性序列与模式库中各抽取模式的特征词词性序列的相似程度,选择相似度最大的特征词词性序列所对应的抽取模式,作为该输入文本词性序列的匹配抽取模式。因此,模式匹配过程转化为序列相似度计算过程,由于文本的特征词词性序列与抽取模式的特征词词性序列长度往往不同,故采用动态时间弯曲（Dynamic Time Warping,DTW）距离度量2个特征词词性序列间的相似度。DTW最早应用于语音数据处理,后被引入时间序列研究中^[18-19]。特征词词性序相似度Sim（C,T）的计算公式为：

(1)

式（1）中,C={c₁,c₂,…,c_i,…,c_m }表示输入文本生成的特征词词性序列;T={t₁,t₂,…,t_j,…,t_n }表示抽取模式中的特征词词性序列;Size(T)为T中序列项的个数;γ(i,j)为序列{c₁,c₂,…,c_i}与{t₁,t₂,…,t_j}间的DTW距离;d(c_i,t_j)为序列项c_i与t_j间的特征差异值。

同时,在本研究中为进一步突出不同特征词词性间的差异,规定：

若c_i=t_j,d(c_i,t_j)=0;

若c_i≠t_j,且t_j为道路名称词、事件类型词或事件状态词,d(c_i,t_j)=2;

若c_i≠t_j,,且t_j为除道路名称词、事件类型词和事件状态词外的特征词词性,d(c_i,t_j)=1。

断句所得特征词词性序列集合中的词性序列普遍较短,易出现最大相似度对应多个抽取模式的情况,需从这些抽取模式候选集中进一步筛选出唯一的匹配抽取模式：

（1）比较输入特征词词性序列与候选集中各特征词词性序列的道路名称、方向描述、事件类型和事件形容词的个数,过滤掉对应词性个数大于输入序列的抽取模式。

（2）优先选择序列项数量与输入序列相同的抽取模式;其次,选择序列项数量大于输入序列的候选抽取模式,且数量最少;最后,选择序列项数量小于输入序列的抽取模式,且数量最多。

（3）若候选集合中仍有一个以上的抽取模式,则取第一个作为匹配抽取模式。

如果输入文本蕴含多条道路交通信息,则每条信息对应的描述文本可生成一个特征词词性序列。若每个词性序列均能得到唯一的匹配抽取模式,则模式匹配结果为输入文本的匹配抽取模式集合。

2.4 信息属性抽取

由于互联网文本描述存在内容省略现象,需要对提取的部分交通信息属性进行填补。同时,借助抽取模式只是获取了道路交通事件的位置、方向和事件类型等,还需要从输入文本中抽取出交通事件对应的发生时间和持续时长信息。

（1）缺失信息填补

交通信息位置描述常采用“[所在道路] [定位起点/起始方向]、[介词]、[定位终点/终止方向]”形式,如“南北高架路鲁班立交至永兴路”。若文本中连续交通事件描述所在道路相同,则需要对后续信息进行道路名称填补。首先正向遍历道路交通信息集合{I₁,I₂,…,I_n},若道路交通信息I_i缺少道路名称,且I_i匹配抽取模式EP_i中各序列项的信息属性组成的序列TYPE_i={type₁,type₂,…,type_i,…,type_n}整体上符合序列结构“定位信息”或“定位信息事件信息”,则读取前一条交通信息I_i-1及TYPE_i_-₁;若TYPE_i-1整体上符合序列结构“事件信息定位信息”,且I_i-1含有所在道路名称,则将I_i-1的道路名称赋予I_i。

文本对同一类型交通事件不同位置的列举描述也经常出现省略,如“封道养护路段有[位置1],[位置2],……,[位置n]”,“[位置1],[位置2],……,[位置n]等较为拥堵”。缺失的事件信息可利用前后信息相关属性填补。首先,正向遍历道路交通信息集合{I₁,I₂,…,I_n},若道路交通信息I_i缺少事件信息,则读取前一条交通信息I_i-1及TYPE_i-1。若TYPE_i-1整体上符合序列结构“事件信息定位信息”或“定位信息”,且I_i-1含有事件信息,将I_i-1的事件信息赋予I_i。然后,逆向遍历道路交通信息集合,若道路交通信息I_i缺少事件信息,则读取后一条交通信息I_i+1及TYPE_i+1。若TYPE_i+1整体上符合序列结构“定位信息事件信息”或“定位信息”,且I_i+1含有事件信息,则将I_i+1的事件信息赋予I_i。

（2）时效信息抽取

对道路交通信息时间信息的抽取采用正则表达式匹配的方法。根据互联网文本中对时间的不同表达形式,如“2013-7-17 9:15”、“7月17日晚24:00至次日5:00”、“2013年07月23日09时10分”等,建立正则表达式集合。通过正则表达式匹配从输入文本识别出交通事件起始终止时间,并利用文本元数据填补可能缺失的时间要素。对文本中缺少终止时间描述的交通信息,根据事件类型设置离散或连续的效应衰减函数,表达交通信息的时效性。

3 实验结果与分析

实验使用的互联网文本来自官方网站和微博客平台。官方网站包括上海交通出行网（http://www.jtcx.sh.cn/）的“城市快速路”、“干线公路”和“地面道路”版块,以及上海市路政局网站（http://www.shlzj.sh.cn/）的“高架封路信息”版块,采用网络爬虫方式采集。微博客来源于新浪微博平台（http://weibo.com）,通过API调用方式获取。本文从2013年7月15日至2013年9月6日的采集文本中分别随机抽取2000条文本作为实验数据,其中,官方网站文本包含2034条道路交通信息,新浪微博文本包含2595条道路交通信息。

实验程序采用Java语言实现,其中分词处理使用了ik-analyzer 2012 u6（http://code.google.com/p/ik-analyzer/）和ansj（https://github.com/ansjsun/ansj_seg）开源分词工具。前者是基于词典的分词方法,用于从输入文本中严格切分出道路名称词;后者基于Google语义模型和条件随机场模型,通过统计分词方法提高输入文本中除道路名称外其他词汇的切分精度。程序测试运行环境为Windows 7 操作系统,处理器为2核Intel(R) Core(TM) i5-2400 3.10 GHz,内存为4 G。

图2为实验使用的官方网站发布交通信息短文本及抽取结果示例,图3为新浪微博发布消息文本及抽取结果示例。

View original graphic|Download|PPT slide

Fig. 2 Example of messages for road traffic and extracted information from official websites

图2 官方网站发布交通信息短文本及抽取结果示例

View original graphic|Download|PPT slide

Fig. 3 Example of messages and extracted information from microblog

图3 微博消息文本及抽取结果示例

采用准确率（P）、召回率（R）和F-值对信息抽取性能进行评价^[20]。3个指标的计算公式如下：

p = 正确抽取的道路交通信息数量 抽取的所有道路交通信息数量

(2)

R = 正确抽取的道路交通信息数量 应被抽取的道路交通信息数量

(3)

F - 值 = 2 ∙ P ∙ R P + R

(4)

实验结果如表4所示,文本集合A为官方网站发布交通信息短文本,文本集合B为新浪微博消息文本。信息抽取的准确率均高于90%。召回率均高于80%。对抽取失败文本进行分析,原因为：（1）实验文本出现的少量道路名称或交通事件名称没有收录在道路交通特征词库中,主要为不规范路名、缩略词、口语化形容词等未登录词。由于这些词汇未被识别为特征词,从而生成错误的特征词词性序列,造成抽取模式匹配错误或匹配失败,影响准确率或召回率;（2）文本中部分基于LRM的位置描述形式没有出现在本文所构建的抽取模式库中,因而缺少对应的抽取模式,如“G2往江苏方向近万镇路车流量大”、“五洲大道【翔殷路隧道】西向东发生单车抛锚”、“S5中环路立交至外环立交(S5出城方向)”等。

Tab. 4 Performance of road traffic information extraction from Internet texts

表4 互联网文本蕴含道路交通信息抽取实验结果

文本集合	蕴含交通信息总数	抽取交通信息数量	抽取正确信息数量	准确率(%)	召回率(%)	F-值(%)
A	2034	1827	1794	98.19	88.20	92.93
B	2595	2301	2160	93.87	83.24	88.24

此外,官方网站发布交通信息文本的抽取效果优于微博消息文本。其原因在于,官方交通信息文本对道路交通事件描述的规范性较强,且不含交通无关信息,有益于提高信息抽取的准确率和召回率。而微博消息文本,一方面,其交通事件描述的用词和句式结构较为随意,上文所述导致抽取错误的现象多出现于该类文本中;另一方面,微博消息文本常含有新闻报道、热门话题、生活指南等内容,本文方法易将其中描述的历史交通事件错误抽取为实时交通信息,导致抽取效果略有下降。

对于导致抽取错误的未登录特征词和抽取模式缺失这2个问题,可以通过不断丰富道路交通特征词库和抽取模式库解决。例如,自动记录提取错误的文本及其特征词词性序列,当某一特征词词性序列出现频率或出现次数超过给定阈值时,人工判断该序列所有对应文本是否与道路交通事件相关,或是否含有与道路交通相关的未登录特征词。若判断为是,则以该序列为基础构建抽取模式至抽取模式库,或添加未登录词至道路交通特征词库。

由于本文是基于道路交通事件描述的语言特征来构建抽取模式,所提出的方法同样适用于从其他交通信息发布网站的文本中抽取道路交通信息。同时,只需引入相关路名库便可实现对不同城市道路交通信息的抽取,具有良好的移植性。

4 结论

本文提出一种互联网文本蕴含道路交通信息抽取的模式匹配方法,将道路交通事件描述的语言特征引入抽取模式构建和信息抽取过程中,利用信息描述的句法结构及规律识别互联网文本中基于LRM的定位信息,以及处理信息描述的属性省略现象。通过真实获取的互联网文本的实验,结果表明本文方法能有效抽取互联网文本蕴含的道路交通信息,具有可行性。后续工作中将引入机器学习方法,实现对未登录特征词和抽取模式的自学习过程,提高对含有未登录特征词或不规范LRM位置描述文本的信息抽取效果。此外,利用本文所提出的方法,可在所抽取的大量道路交通信息基础上,实现标注语料集合的自动构建,并不断丰富,解决目前由于缺乏道路交通领域语料库资源,使得机器学习无法依赖大量标注语料训练模型参数的难题,减少将自动训练方法引入互联网文本蕴含道路交通信息抽取的条件限制。

The authors have declared that no competing interests exist.

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	陆锋, 郑年波, 段滢滢, 等. 出行信息服务关键技术研究进展与问题探讨[J]. 中国图象图形学报,2009,14(7):1219-1229.

[2]	Grishman R.Information extraction: Techniques and challenges[C]. In Information Extraction (International Summer School SCIE-97), 1997:10-27.

[3]	Uzuner Ö, Solti I, Cadag E.Extracting medication information from clinical text[J]. Journal of the American Medical Informatics Association, 2010,17(5):514-518.

[4]	Jensen L J, Saric J, Bork P.Literature mining for the biologist: from information retrieval to biological discovery[J]. Nature reviews genetics, 2006,7(2):119-129.

[5]	He W, Zha S, Li L.Social media competitive analysis and text mining: A case study in the pizza industry[J]. International Journal of Information Management,2013,33(3):464-472.

[6]	Verma S, Vieweg S, Corvey W J, et al.Natural language processing to the rescue? Extracting "Situational Awareness" tweets during mass emergency[C]. Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media (ICWSM 2011), 2011:385-392.

[7]	Piskorski J, Tanev H, Atkinson M, et al.Online news event extraction for global crisis surveillance[C]. In Transactions on computational collective intelligence V, 2011:182-212.

[8]	张春菊,张雪英,朱少楠,等.基于网络爬虫的地名数据库维护方法[J].地球信息科学学报,2011,13(4):492-499.

[9]	Strötgen J, Gertz M, Popov P.Extraction and exploration of spatio-temporal information in documents[C]. Proceedings of the ACM 6th Workshop on Geographic Information Retrieval, 2010:1-8.

[10]	Tahrat S, Kergosien E, Bringay S, et al.Text2Geo: From textual data to geospatial information[C]. Proceedings of the 3rd ACM International Conference on Web Intelligence, Mining and Semantics, 2013:182-212.

[11]	王曙,吉雷静,张雪英,等.面向网页文本的地理要素变化检测[J].地球信息科学学报,2013,15(5):625-634.

[12]	陈传彬,陆锋,励惠国,等.自然语言表达实时路况信息的路网匹配融合技术[J].中国图象图形学报,2009,14(8):1669-1676.

[13]	姜吉发. 自由文本的信息抽取模式获取的研究[D].北京:中国科学院计算技术研究所,2004.

[14]	Appelt D E.Introduction to information extraction[J]. AI Communications, 1999, 12(3):161-172.

[15]	高强,游宏梁.事件抽取技术研究综述[J].情报理论与实践,2013,36(4):114-117,128.

[16]	许旭阳,韩永峰,宋文政.事件抽取技术的回顾与展望[J]. 信息工程大学学报,2011,12(1):113-118.

[17]	赵妍妍. 中文事件抽取的相关技术研究[D].哈尔滨:哈尔滨工业大学, 2007.

[18]	Berndt D J, Clifford J. Using dynamic time warping to find patterns in time series[C]. Proceedings of AAAI-94 workshop on knowledge discovery in databases, 1994:359-370.

[19]	Keogh E J, Pazzani M J.Derivative dynamic time warping[C]. Proceedings of the 2001 SIAM International Conference on Data Mining (SDM-2001), 2001:1-11.

[20]	程显毅,朱倩,王进.中文信息抽取原理及应用[M].北京:科学出版社,2010:19-20.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 道路交通信息模式匹配方法

Tab. 1 Attributes of road traffic information

Tab. 2 Parts of speech (POS) of feature words for road traffic

Fig. 1 Flow chart of extracting road traffic information from Internet texts

2.1 创建抽取模式

Tab. 3 Extraction patterns of location information

2.2 互联网文本预处理

2.3 模式匹配

2.4 信息属性抽取

3 实验结果与分析

Fig. 2 Example of messages for road traffic and extracted information from official websites

Fig. 3 Example of messages and extracted information from microblog

Tab. 4 Performance of road traffic information extraction from Internet texts

4 结论

参考文献