Public Security Event Themed Web Text Structuring

  • PEI Tao , 1, 2, 7 ,
  • GUO Sihui 1, 2 ,
  • YUAN Yecheng , 1, * ,
  • ZHANG Xueying 3, 7 ,
  • YUAN Wen 1 ,
  • GAO Ang 4 ,
  • ZHAO Zhiyuan 5 ,
  • XUE Cunjin 6
Expand
  • 1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. Key Laboratory of Virtual Geographic Environment, Nanjing Normal University, Ministry of Education, Nanjing 210023, China
  • 4. China National Institute of Standardization, Beijing 100088, China
  • 5. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing of Wuhan University, Wuhan 430079, China
  • 6. Key Laboratory of Digital Earth Science, Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100094, China
  • 7. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
*Corresponding author: YUAN Yecheng, E-mail:

Received date: 2018-12-01

  Request revised date: 2018-12-24

  Online published: 2019-01-20

Supported by

National Natural Science Foundation of China, No.41525004,41421001

Copyright

《地球信息科学学报》编辑部 所有

Abstract

The information of public security event contained in text can be the data source of the evaluation and the relief if it can be structured into a relational database. Although previous research can extract the information of events into different attributes, the determination on the attribution of the attribute information to specific event remains unsolved. To solve the problem, this paper proposes a theoretical frame of public security event themed web text structuring, which is composed of three parts. First, an event semantic model is used to construct the seismic event semantic framework which defines abstract elements of event and their semantic relationships. Taking seismicity as an example, spatial element, time element, attribute element, source element are defined as basic elements. Spatial element includes earthquake latitude, longitude, depth and location. Attribute element is further subdivided into four sub-elements: Cause, result, behavior and influence element. Next, an annotation system is applied to typical event materials to label semantic elements, e.g. the place name where an earthquake took place, that is, instantiation of the abstract elements. The key to this step is labeling the relations between elements and specific event. Finally, the event text is structured into event type, event name, event time, event location and other attributes by using the text information extraction algorithm. The algorithm used the labeled materials in the last step as training data to optimize parameters, which can incorporate linked information. The extracted event text (e.g. words, phrases) finally is normalized to structured information for further analysis. An event information mining platform following the whole frame is developed, which includes the modules of webpage searching, text cleaning, event information extraction, visualization and analyzing. The platform processed the whole Chinese webpages of 2014 and found 85 506 seismicity reports. Taking Yunnanludian earthquake as an example, we display the structuring process and result of related web text, which can be the important reference for the relief of the disaster and the analysis of public concern. With the platform, we can demonstrate the seismic text structuring result and its social concern across China, which can be a new tool of event information mining and analyzing.

Cite this article

PEI Tao , GUO Sihui , YUAN Yecheng , ZHANG Xueying , YUAN Wen , GAO Ang , ZHAO Zhiyuan , XUE Cunjin . Public Security Event Themed Web Text Structuring[J]. Journal of Geo-information Science, 2019 , 21(1) : 2 -13 . DOI: 10.12082/dqxxkx.2019.180680

1 引言

中国城市化进程的加剧导致人口、资源的过度集中,公共安全事件频发,由此产生的风险日益受到关注。目前针对公共安全事件的研究可大致分为2种:① 从现实空间进行研究,对事件的发生过程进行观测,例如对地震和干旱进行各种致灾因子的监测;② 从网络空间进行感知与分析。随着网络和无线通讯技术的发展,公共安全事件发生会在较短的时间内以文字、图像等信息形式出现在网络上。虽然现实空间的研究更加直接,但借助网络空间对公共安全事件的研究也不可替代。首先,除可用观测设备直接观测的事件(如地震、暴雨)外,不少事件无法或者难以被设备直接观测和记录,例如,食品安全、旅游意外等事件,而以观察者身份发布的文本信息则有可能迅速地出现在网络上。其次,除了事件时空属性之外,非时空属性信息往往难以被仪器直接捕获,例如,地震的震中、发震时间与震级信息可通过地震台网实时记录,但其灾情却往往无法通过对地观测设备直接获得,从而成为后续评估和救援的“盲点”。与基于硬件设备的观测不同,由现场传输到网上的文本(如新闻报道、微博等)包含大量的信息,可用于提取灾情[1]。最后,公共安全事件除了造成直接损失之外,还会产生间接影响,即对公众心理造成的影响,乃至由此产生的舆论导向甚至是社会恐慌。这些影响的程度和范围往往难以直接获取,但却隐匿在网络信息及其访问热度之中。网络上的各种信息表现形式,包括:文本、图像、视频和音频等,以文本最为普遍,同时也是其他信息分析的基础。由此可见,记录公共安全事件的文本大数据内含非常有价值的信息,对于公共安全事件的监控、预警和处置具有重要的意义。
对文本大数据中的公共安全事件信息进行系统研究的关键在于如何将涉及公共安全事件的文本进行结构化,即将文本分解为以事件为核心的各要素信息,并以此构建结构化数据库,才能使用数据挖掘方法提取其中的知识。简言之,将涉及事件的非结构化文本转化为结构化数据库是问题的关键。目前文本挖掘研究虽然在时空信息、特定属性的提取等方面取得了突破性的进展,但已有研究尚难以将事件文本转换为完整的结构化信息,其核心难点主要有:① 需要确定公共安全事件所包含的要素框架,即针对特定的公共安全事件需要明确从文本中提取哪些信息;② 如何将文本中提取的信息进行甄别,形成完整的结构化的事件记录,即如何确定提取的零散信息属于同一个事件,进而形成每个事件的结构化信息;③ 如何构建相应的数据库结构,完成文本信息存储、查询和可视化。本文的目的就是通过解决上述难点,实现面向公共安全事件的文本信息结构化。

2 相关研究进展

从网络文本中抽取公共安全事件信息的研究属于自然语言处理和地理信息科学的交叉领域。网络文本信息的提取主要集中在主题、地名、时间、非时空属性和空间关系等方面;而信息提取方法大致分为2种:基于规则的抽取模型、基于统计的抽取模型[2]。前者的依据是中文语言本身所具有的显式特征,而后者的基础则是根据训练集所得到的隐式规则[3,4]。本文整理了面向地理事件的文本信息提取的主要研究进展,按照研究方法和提取内容2个维度进行了总结(表1)。
Tab. 1 Tasks of Chinese text mining and their corresponding methods

表1 中文信息挖掘的任务及对应方法

主题分类及提取 时间与地名提取 属性信息抽取 空间关系提取
基于规则的方法 Rafea等[5] 、Petkos等[6] 谭红叶等[7]、肖计划[8] 丁效[9]、吴家皋等[10] 马林兵等[11]、乐小虬等[12]、乐小虬等[13]、蒋文明[14]
最大熵模型 Li等[15]、李荣陆等[15]
肖雪[17]
王江伟[18]、王胜等[19]、钱晶等[20] - Kambhatla等[21]
支持向量机 Kumar等[22]、冯永等[23]
王金华等[24]
李丽双等[25]、李丽双等[26] 、唐晋韬[27] 周凡坤[28] Wang等[29]、Jiang等[30]、Bunescu等[31]、ZHOU等[32]、项乐安[33]
马尔科夫模型 张春元[34]、梁吉光等[35] 、史庆伟等[36] 马龙[37]、高国洋等[38]、邬伦等[39] Scheffer等[40]、Ojokoh等[41]、梁吉光等[35]、Zhou等[42]、吴家皋等[10] 董静等[43]、张春菊[44]
贝叶斯分类 Sankaranarayanan等[45] ,路金泉等[46]、武建军等[47] 刘杰[48] - 顾雪峰 [49]
神经网络 杨俊等[50]、吕淑宝等[51] 、郭东亮等[52] 欧嘉致等[53] 李帅等[54]、吕国英等[55]、叶开[56] -
最邻近方法KNN Jiang等[57]、周庆平等[58]、戚后林等[59] - - -
表1可以看出,基于规则的方法在信息提取的所有方面都有应用,其中针对主题的信息提取主要根据主题建模和特征词组组合等规则;而针对时空及非时空属性的信息提取主要是根据地名、事件以及特征词的表达规则;面向空间关系的信息提取则主要依赖于实体-关系模型、短语组合和句法模式、空间词汇的关系模板等规则。规则法的优点是方法的原理显性,且容易实现;而缺点是只适用于简单的关系表述句型,若句型中包含较多嵌套或修饰词,识别能力则大为下降,即对于较为复杂的文本难以适应。
为解决上述问题,基于统计学习的方法通过学习潜在的规则,提高了识别复杂信息的能力。基于统计的方法种类较多,目前应用较多的包括最大熵模型、支持向量机、基于马尔科夫模型的分类模型、贝叶斯分类器、神经网络、最邻近方法等。相比于基于规则的方法,基于统计的方法在文本挖掘中占主导地位。对照表1,横向上看,支撑向量机与基于马尔科夫的模型(条件随机场和隐马尔可夫模型)可适用于各种不同信息的提取,也显示出这两种模型的适用性较强。纵向上看,对于主题信息的提取及分类研究,上述方法均有较多成果,但对于时空、非时空属性以及时空关系的提取仍存在较多的研究空间。针对于公共安全事件属性信息的提取,主题分类研究是其他属性提取的前提和基础,但从已有文献的分析可以看出,主题方面的研究并未和属性信息的提取进行很好的结合,二者的研究是割裂的。
综上所述,近年来针对地理事件信息的提取在方法上成果颇丰,无论是准确度还是召回率均有较大提升,但现有研究仍然集中在特定信息的提取,对于文本信息所包含的地理过程的解析仍然不够。换句话说,现有研究对于文本信息的识别,类似于盲人摸象,对于事件的不同要素可较准确地提取,但要素与事件的对应关系却无法保证,这也是文本信息尚未在事件分析的研究中得到充分应用的症结所在。对于地理事件尤其是公共安全事件的解析,并不是各个单项信息的简单叠加,不仅需要提取完备的事件要素信息,还需要判断各个要素的类型及与事件的隶属关系。例如,在某地震报道中,不仅需要提取相关的属性信息(包括:震中位置、时间、伤亡人数等),还要判断所提取的属性是否属于该地震,如提取的地名是否是该地震发生的地点。只有同时实现了属性的识别与隶属关系的判定,才能真正地将非结构化文本数据结构化。
由以上分析可知,公共安全事件的完整解析依赖于事件信息提取的完备性和归属的正确性。为此,必须在信息提取的整个过程中引入事件语义框架,并进行相应的建模和解析。其思路为:以事件的语义框架为统领,将之贯穿于语料的训练、文本分类与信息提取模型等文本信息提取流程的各个步骤,最终实现面向公共安全事件的文本信息结构化。基于上述思路,本文提出了面向公共安全事件的网络文本大数据结构化理论框架,并开发了一套公共安全事件的信息挖掘与可视化系统,用以解析不同类别的公共安全事件,通过地理可视化展示其空间分布,定量分析公共安全事件的直接结果与间接影响。

3 公共安全事件的网络文本信息结构化

本文提出面向公共安全事件的网络文本信息解析理论框架,共分为4个部分:① 公共安全事件的分类;② 公共安全事件的语义框架建模;③ 基于事件的信息语料构建;④ 公共安全事件文本的要素提取模型。以上4个部分的有机结合和逐级实现即可产生结构化的事件数据库,最终用于事件的可视化与知识发现(图1)。
Fig. 1 Semantic frame based text iInformation structuring

图1 基于事件语义框架的文本信息结构化思路

3.1 公共安全事件分类

针对公共安全事件的分类,本文参照文献[60]的方案,根据公共安全事件的性质将其分为自然灾害、事故灾难、公共卫生事件、社会安全事件4种类型,每种类型下又有更为细致的划分,其中,自然灾害共分为水旱灾害等9种,事故灾难共包括战争和暴力等14种,公共卫生事件共分为传染病疫情等5种,社会安全事件共分为恐怖袭击事件等8种,共计36种公共安全事件,具体信息参见表2
Tab. 2 Classification of public security events

表2 公共安全事件分类[60]

代码 名称 代码 名称 代码 名称 代码 名称
0100 自然灾害 0200 事故灾难 0300 公共卫生事件 0400 社会安全事件
0101 水旱灾害 0201 战争和暴力 0301 传染病疫情 0401 恐怖袭击事件
0102 气象灾害 0202 工矿商贸安全事故 0302 群体性不明原因疾病 0402 重大刑事案件
0103 地震灾害 0203 交通运输安全事故 0303 食品安全和职业危害 0403 经济安全事件
0104 地质灾害 0204 城市生命线事故 0304 动物疫情 0404 涉外突发事件
0105 海洋灾害 0205 通讯安全事故 0399 其他 0405 规模较大的群体性事件
0106 生物灾害 0206 环境污染和生态破坏 0406 民族宗教
0107 森林草原火灾 0207 严重火灾 0407 反政府和反社会主义骚乱暴动
0108 宇宙灾害 0208 中毒事件 0499 其他
0199 其他 0209 急性化学事故
0210 放射事故
0211 医药事故
0212 探险遇难
0213 旅游事故
0299 其他

3.2 公共安全事件的语义框架

构建公共安全事件语义框架的进程实际上也是将其要素分类和清晰化的过程。该过程既是获取、描述和表达公共安全事件要素信息的基础,也是相关语料标注的依据。公共安全事件分为不同的类型,而不同类型事件包含的要素也不尽相同。为规范事件的要素的表达,需要通过以下步骤完成:首先,针对语料库中已有的专业术语,通过抽象与综合,形成术语集;其次,将术语归纳总结为要素集合;最后,确立集合中要素的关系,形成事件语义框架。总体上,将公共安全事件分为类型、对象、编号、时间、空间、属性和来源7类基本要素。基本要素可以进一步细分为次级要素,以地震事件为例,空间要素包括发震地点、震中纬度、震中经度、地震深度等次级要素;属性可分为原因、结果、行为、影响4个次级要素,而结果、行为和影响又可以分为更细一级的要素类别;来源包括发布时间、网址、可靠性3个子要素。以地震为例,地震事件包含事件类型、地震名称、记录编号、发震时间、发震地点、震中纬度、震中经度、地震深度、发震原因、地震震级、地震烈度、死亡人数、受伤人数、失踪人数、受灾人数、安置人数、建筑损坏、经济损失、受灾范围、记录时间、震感程度、天气状况、救援方式、救援人数、救援资金、发布时间、信息网址、信息可靠性级别等要素信息,不同的要素对应不同的存储层级与类型(表3)。
Tab. 3 Semantic framework of seismic event

表3 公共安全事件/地震事件的语义框架

要素类型名称 地震事件要素 数据类型
类型 事件类型 字符型
对象 地震名称 字符型
编号 记录编号 整数型
时间 发震时间 年-月-日-时-分-秒(时间型)
空间 发震地点 字符型
震中纬度 实数型
震中经度 实数型
地震深度 实数型
属性 原因 发震原因 字符型
结果 地震震级 实数型
地震烈度 整型
死亡人数 整型
受伤人数 整型
失踪人数 整型
受灾人数 整型
安置人数 整型
建筑损坏 整型
经济损失 实数型
受灾范围 实数型
记录时间 年-月-日-时-分-秒(时间型)
行为 震感程度 字符型
天气状况 字符型
救援方式 捐款/实地/安置/重建/
影响 救援人数 整型
救援资金 实数型
来源 发布时间 发布时间 年-月-日-时-分-秒(时间型)
网址 信息网址 字符型
可靠性 信息可靠性级别 国家媒体/地方媒体/企业媒体

3.3 公共安全事件训练语料的关联标注策略

文本标注的目的是为了进行事件要素解析模型的训练与结果的精度验证。现有的研究大多着眼于从文本中识别时间、地名等特定的要素信息,但对于这些要素是否对应于某一具体事件,即要素与事件之间的关联关系鲜有深入探讨。究其根源,是在文本标注的阶段就缺乏相应的措施。为此,本研究采用文献[61]的思路,在语料标注阶段,明晰要素与事件的关系,从而为系统解决文本信息的抽取与关系的识别奠定基础,具体的标注策略步骤如下:
(1)文本预处理。选择合适的中文词法处理工具,对文本进行分词、词性标注等自然语言预处理。制定标注规范,使之与自然语言预处理结果的分词粒度、词性标注体系等保持一致。
(2)设计事件要素的标注体系。标注体系按照事件要素类型分为事件类型标注模式、时间信息标注模式、位置信息标注模式、属性信息标注模式和事件标注模式5大类(图2)。为了使标注结构化,并易于与其他语言进行格式交换,标注采用XML schema的标记方式。
Fig. 2 Framework of information labeling of event attributes

图2 事件要素信息标注基本框架

(3)确定事件要素关联关系标注。对象、时间、空间以及属性是事件信息组成的独立要素单元。只有将事件要素与事件关联起来,才能够组成完整的事件信息。因此,本文实现了基于事件的关联标注体系,即在单个要素单元的标注基础上,实现了时空、属性信息与事件的关联。主要标签包括(图2): “事件-时间”关联(TimeLink)、“事件-位置”关联(LocationLink)、“事件-属性”关联(AttrLink)。通过上述标注,使用该语料训练的模型在文本解析时,不仅可以识别出要素信息,而且还可将其关联到特定的事件上,从而产生系统的事件结构化信息。

3.4 公共安全事件的网页文本信息解析

面向公共安全事件的网页文本解析主要包括五方面的内容:事件类别的识别、事件名称的识别、发生位置的识别、时间信息的提取、事件非时空属性的识别。在公共安全事件关联标注的基础上,通过模型训练,可完成事件各要素的识别,并实现要素与事件的关联。
(1)事件分类
事件分类的任务是确定该文本是否包含目标公共安全事件的类型。事件类别的识别分为2个步骤:语料的准备和模型的训练。在语料的准备中,从标注文本中选取事件触发词汇及其词性等特征,计算其与事件类型的互信息值,根据互信息值进行过滤,生成特征向量用于模型训练。在模型的训练中,选用支撑向量机(Support Vector Machine, SVM)作为分类模型。在对事件进行分类时,根据分词的结果获取待识别文本的特征向量,再应用训练好的SVM分类模型进行判别。
(2)事件名称识别
事件类别确定之后需要识别具体事件的名称,如“5·12地震”、“玉树地震”等。考虑到标注的本文中包含了要素与事件之间的关联关系,本研究采用条件随机场模型进行识别。这是因为条件随机场模型可以引入长距离的特征,故在确定事件名称时,可综合考虑触发词汇、事件描述的左、右指界词等方面的信息,从而得到更加精确的识别结果。
(3)事件要素信息识别
事件要素的识别包括时间信息、空间信息、属性信息的提取。对于时间信息,可采用正则表达式匹配的方法进行抽取。由于采用了面向事件的关联标注策略,时间信息不仅被明确标注,同时还包含了事件-时间的关联信息,使时间信息能够与事件类型、名称相匹配。同样,针对空间信息的识别,由于使用了基于事件-空间信息关联的语料,可确保地名的识别也与事件名称匹配。对于属性的提取,同样是采用了事件-属性信息关联的语料,通过Bootstrapping弱监督学习方法可实现事件属性信息的抽取,并同时获得属性与事件的关联信息。
(4)信息的规范化
至此本文已经识别出事件类别、事件名称、时间要素、空间要素以及非时空属性,并对这些信息进行关联,就可以组成完整的事件语义信息表。为了对后续事件的分析与数据挖掘做准备,需要将文本中日期、数字等各种表述方式进行标准化,以存储到结构化的数据库中(例如:将“2014年九月1号”转换成“2014/9/1”;将伤亡人数的单位统一为“人”;将损失的单位统一为“万元”),最终将文本的非结构化数据转化为结构化的信息。需要说明的是,不是每篇文本都包含所有的要素,如果没有相应的要素值则可以空值表示。

4 系统实现与实例

在国家863计划课题“泛在空间信息关联更新与面向主题空间数据挖掘分析技术研究”的支持下,根据本理论框架,开发了“公共安全事件的网络文本信息挖掘系统”。系统包括3个主要功能:① 将文本信息转化为结构化的信息,为相关事件信息分析和知识发现提供基础;② 对公共安全事件实现了地图可视化,直观显示公共安全事件的空间分布和时间演化过程;③ 对公共事件的新闻报道进行热点和关注度的统计分析。整个系统包括文本搜索、网页清洗、事件信息解析、事件可视化和事件分析等模块。
本系统的文本搜索功能采用中国搜索的服务(http://www.chinaso.com/),并完成了网页清洗和消重;公共安全事件的信息解析根据本文介绍的方法和思路实现,并最终生成了特定专题的结构化事件数据库;在全球地名数据库的基础上,利用地址匹配技术实现了公共安全事件的地图可视化,用户可以通过交互操作查询事件发生的位置、时间以及与事件相关的一系列属性;系统还提供了一系列数据挖掘工具,如聚类分析、关联规则提取等,对事件的特征与模式进行挖掘。下面以地震事件的信息提取为例进行说明。
公共安全事件的网络文本信息挖掘系统解析了互联网2014年所有的中文报道,共检索出85 506篇与地震相关的报道,其中,8月有34 021篇,图3显示了该段时间内地震事件报道的空间分布。图中圆圈的位置标识了地震发生地或报道地点,其数字代表报道的篇数。换句话说,报道篇数就是该事件的媒体关注度。通过点击具体的地震事件点,可以显示每个地震事件信息解析的结果(不同的事件要素信息用不同颜色标识,如图4所示),并可以链接到原始报道网页。
Fig. 3 Seismic event distribution based on extraction result in August 2014

图3 2014年8月地震事件文本解析结果

Fig. 4 Extraction result of seismic event text

图4 地震事件信息解析结果示意

对事件信息的解析和重构后发现,2014年8月地震文本数据包含4起地震事件,分别是“云南鲁甸6.5级地震”、“西藏吉隆5.0级地震”(202篇)、“江苏启东3.0级地震”(22篇)和“美国旧金山6.0级地震”(403篇),其中绝大部分都是“云南鲁甸6.5级地震”的报道。表4为针对鲁甸地震的3个报道解析出的结构化数据。图5(见第10页)显示了全国媒体对鲁甸地震报道的空间分布。该地震因为灾情较为严重,受到全国各地媒体的高度关注,相关报道的来源地几乎覆盖了整个中国。通过DBSCAN聚类分析,可以发现2个明显的丛聚,其中类A位于地震区域,与地震的烈度分布以及受灾地区的范围较为一致;而类B位于四川省成都周围,与震中位置存在一定距离。这是因为文本大数据解析的是媒体的报道,反映的是公众对事件的关注度。除了反映受灾地区的关注度之外(图5中A处所示),由于该地震的受灾地区也包含四川省部分地区,如会东县、宁南县、布拖县、金阳县等,故四川省的省会成都及其周边,对该地震的关注度也很高,从而导致热点B的出现。
Fig. 5 Media concern on Yunnanludian earthquake across China

图5 “云南鲁甸6.5级地震”全国关注度分布

Tab.4 Structural records of ludian earthquake from web texts

表4 鲁甸地震网络文本结构化数据示例

属性列 记录1 记录2 记录3 ……
事件类型 地震 地震 地震 ……
地震名称 邵通鲁甸地震 邵通鲁甸地震 邵通鲁甸地震
记录编号 36 786 64 873 4783
发震时间 2014-08-03-00-00-00 2014-08-03-16-30-00 2014-08-03-00-00-00
发震地点 云南省昭通市鲁甸县 云南省昭通市鲁甸县 云南省昭通市鲁甸县
震中经度 - 103.3 103.725
震中纬度 - 27.1 27.34
震源深度 - 12 000 12 000
发震原因 - - -
地震震级 6.5 6.5 6.5
地震烈度 - - -
死亡人数 367 589 617
受伤人数 1801 2401 3143
失踪人数 5 9 112
受灾人数 - 1 088 400 1 088 400
安置人数 - 229 700 229 700
建筑损坏 - 80 900 -
经济损失 - - -
受灾范围 - - -
记录时间 2014-08-03 2014-08-06-10-30-00 2014-08-21-00-00-00
震感程度 - - -
天气状况 - - -
救援方式 捐款 安置 安置
救援人数 - - -
救援资金 - - -
发布时间 2014-08-05-09-57-00 2014-08-06-12-58-08 2014-08-21-22-47-42
信息网址 http://dl.sina.com.cn/news/wenti/2014-08-05/095732477.html http://news.iqilu.com/china/gedi/2014/0806/2093139.shtml http://news.china.com.cn/rollnews/education/live/2014-08/21/content_28320532.htm
可靠性 企业媒体 地方媒体 国家媒体
除了地震本身的一些信息,如地震震中、发生时间、震级等,系统还对伤亡及救援情况等做了解析。图6展示了2篇针对鲁甸地震救灾的报道,通过对其进行分析与可以了解关于该地震的救援情况。
Fig. 6 Information extraction on reports of Yunnanludian earthquake rescue

图6 “云南鲁甸6.5级地震”救援情况报道举例

5 结论

本研究针对公共安全事件的网络文本信息挖掘提出了基于事件语义框架的文本信息结构化的思路。在对公共安全事件分类的基础上,将事件作为整体进行语义建模,通过基于语义框架的语料标注与信息提取模型,对公共安全事件要素进行系统解析,实现了公共安全事件网络文本信息的结构化。本文所建立的事件语义框架—语料标注—模型训练—信息提取的思路和规范为将文本大数据转化为结构化信息提供了可行的思路。
本研究的意义在于,一方面,可以将与专题事件相关的文本数据进行结构化,从而为事件的结果与影响分析提供新的工具;另一方面,这种结构化为与事件相关的文本数据的地图可视化提供了可能性,从而为下一代的网络搜索工具—空间搜索引擎提供理论和技术上的参考。
需要说明的是,虽然本文针对公共安全事件的文本大数据进行了结构化的尝试,在项目中实现了地震、暴雨、全球流感、南海军演、东盟会议等若干个公共安全事件专题的信息结构化,但每个专题的实施,尤其是语义框架的建立以及语料的构建需要领域专家的参与,研究工作总体处于定制的阶段,对于普适性以及智能化的应用,仍然需要长期的积累并借助人工智能的技术方有实现的可能。

The authors have declared that no competing interests exist.

[1]
Sakaki T, Okazaki M, Matsuo Y.Earthquake shakes Twitter users: Real-time event detection by social sensors[C]. Raleigh: International Conference on World Wide Web, 2010:851-860.

[2]
仇培元,陆锋,张恒才,等.蕴含地理事件微博客消息的自动识别方法[J].地球信息科学学报,2016,18(7):886-893.lt;p>微博客文本蕴含类型丰富的地理事件信息,能够弥补传统定点监测手段的不足,提高事件应急响应质量。然而,由于大规模标注语料的普遍匮乏,无法利用监督学习过程识别蕴含地理事件信息的微博客文本。为此,本文提出一种蕴含地理事件微博客消息的自动识别方法,通过快速获取的语料资源增强识别效果。该方法利用主题模型具有提取文档中主题集合的优势,通过主题过滤候选语料文本,实现地理事件语料的自动提取。同时,将分布式表达词向量模型引入事件相关性计算过程,借助词向量隐含的语义信息丰富微博客短文本的上下文内容,进一步增强事件消息的识别效果。通过以新浪微博为数据源开展的实验分析表明,本文提出的蕴含地理事件信息微博客消息识别方法,识别来自事件微博话题的消息文本的F-1值可达到71.41%,比经典的基于SVM模型的监督学习方法提高了10.79%。在模拟真实微博环境的500万微博客数据集上的识别准确率达到60%。</p>

DOI

[ Qiu P Y, Lu F, Zhang H C, et al.Automatic identification method of micro-blog messages containing geographical events[J]. Journal of Geo-information Science, 2016,18(7):886-893. ]

[3]
袁烨城,刘海江,裴韬,等.基于语义知识的空间关系识别研究[J].地球信息科学学报,2014,16(5):681-690.lt;p>从自然语言文本(新闻报道、博客、论坛、社交网络等)中识别空间关系是大数据时代获取空间信息的重要手段之一。针对现有方法只考虑字词特征,识别过程容易产生匹配歧义的局限,本文提出了一种新的融入词法、句法等语义知识的空间关系识别方法。本方法设计了一个树形结构的抽取模式:树结点代表空间词汇类型,结点之间的关系代表词汇间的依存关系。其中,抽取模式可从标注语料中自主学习得到。模式匹配过程以空间词汇类型和句法依存关系作为硬性约束条件、以词汇语义相似度作为软性约束条件,将模式从树形结构转换成依存序列后,根据有限自动机原理实现匹配。实验结果表明,本方法的识别精度和召回率分别为86.67%和63.11%,与现有其他基于规则的方法相比,有2个优点:(1)模式学习过程无需人工干预;(2)融入了句法依存关系,可消除匹配歧义,提高了识别准确率。</p>

DOI

[ Yuan Y C, Liu H J, Pei T, et al.Spatial relation extraction from Chinese characterized documents based on semantic knowledge[J]. Journal of Geo-Information Science, 2014,16(5):681-690. ]

[4]
余丽,陆锋,张恒才.网络文本蕴涵地理信息抽取:研究进展与展望[J].地球信息科学学报,2015,17(2):127-134.lt;p>互联网的普及产生了大量蕴含着丰富地理语义的文本,为地理信息的深度挖掘和知识发现带来了巨大机遇。同时,蕴含地理语义文本的异构性和动态性,使得地理实体的属性数量和种类激增、地理语义关系复杂,对地理信息检索、空间分析和推理、智能化位置服务等提出了严峻的挑战。本文阐述了网络文本蕴含地理信息抽取的技术流程,从地理实体识别、地理实体定位、地理实体属性抽取、地理实体关系构建、地理事件抽取5个方面总结了网络文本蕴含地理信息抽取的进展和关键技术瓶颈,分析了可用于网络文本蕴含地理信息抽取的开放资源,并展望了未来的发展方向。</p>

DOI

[ Yu L, Lu F, Zhang H C.Extracting geographic information from web texts: Status and development[J]. Journal of Geo-information Science, 2015,17(2):127-134. ]

[5]
Rafea A, Mostafa N A.Topic extraction in social media[C]. San Diego: International conference on collaboration technologies and systems, 2013:94-98.

[6]
Petkos G, Papadopoulos S, Aiello L, et al.A soft frequent pattern mining approach for textual topic detection[C]. Thessaloniki: International conference on web intelligence, Mining and Semantics, 2014:1-10.

[7]
谭红叶,郑家恒,刘开瑛.中国地名的自动识别方法研究[C].北京:全国计算机语言联合学术会议,1999.

[ Tan H Y, Zheng J H, Liu K Y.Chinese place name automatic recognition[C]. Beijing: National Academic Conference on computer languages, 1999. ]

[8]
肖计划. 地名识别与匹配的概率统计方法[J].测绘科学技术学报,2014,31(4):408-412.建立了一个试验用地名库和地理语料库,在此基础上构建对地名用字可信度的统计分析模型。通过分析地名在中文文档中的使用习惯和规律,总结出经常与地名一起使用的且具有地名指示含义的辅助字或词,以此为基础建立地名识别辅助词词库和地名识别的规则库。对地名库和地理语料库的用字进行统计分析,通过设定地名用字可信度概率阈值和辅助词指示作用对文本中潜在地名进行初步的筛选形成候选地名;在粗筛选产生的候选地名基础上结合地名识别规则进一步确认,以提高地名识别的准确率。

DOI

[ Xiao J H.Method of recognition and match of place name based on statistic[J]. Journal of Geomatics Science and Technology, 2014,31(4):408-412. ]

[9]
丁效. 句子级中文事件抽取关键技术研究[D].哈尔滨:哈尔滨工业大学,2011.

[ Ding X.Research on sentence level Chinese event extraction[D]. Harbin : Harbin Institute of Technology, 2011. ]

[10]
吴家皋,周凡坤,张雪英. HMM模型和句法分析相结合的事件属性信息抽取[J].南京师大学报(自然科学版),2014,37(1):30-34.自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其中信息抽取是近年来新兴起的一个研究领域.由于汉语自身结构松散、语法语义灵活等特点,使得中文文本中信息抽取具有较大的难度.本文提出句法分析和隐马尔科夫模型相结合的事件属性抽取方法,其主要思想是先利用句法分析对中文文本进行分析,将得到的句法结构交给隐马尔科夫模型进行学习得到一个抽取模型,然后再由此模型对中文文本进行抽取.实验表明,该方法具有较高的准确率和召回率.

DOI

[ Wu J G, Zhou F K, Zhang X Y.Research of the extraction method of event properties based on the combining of HMM and syntactic analysis[J]. Journal of Nanjing Normal University (Natural Science Edition), 2014,37(1):30-34. ]

[11]
马林兵,龚健雅.空间信息自然语言查询接口的研究与应用[J].武汉大学学报·信息科学版,2003,28(3):301-305.提出了空间信息自然语言查询接口 (SINLQI) ,并讨论了基于E R语义词典的建立、中文分词、查询文法规则及其应用领域等主要问题

DOI

[ Ma L B, Gong J Y.Application of spatial information natural language query interface[J]. Geomatics and Information Science of Wuhan University, 2003,28(3):301-305.]

[12]
乐小虬,杨崇俊,于文洋.基于空间语义角色的自然语言空间概念提取[J].武汉大学学报(信息科学版),2005,30(12):1011-3011.根据空间信息的特点,从定义的空间语义角色入手,通过语义角色标注、短语识别以及概念模式匹配等手段,具体分析了自然语言中的空间实体、实体间空间关系以及空间过程的表达与提取方法.

DOI

[ Le X Q, Yang C J, Yu W Y.Spatial concept extraction based on spatial semantic role in natural language[J]. Geomatics and Information Science of Wuhan University, 2005,30(12):1011-3011. ]

[13]
乐小虬,杨崇俊.非受限文本中深层空间语义的识别方法[J].计算机工程,2006,32(4):36-38.利用地理空间描述模型中的相关概念扩展自然语言中空间语义角色,通过空间语义角色标注、短语识别以及句法模式分析达到识别非受限文本中深层空间语义的目的。实验表明,该方法具有较好的准确率、召回率与通常的信息提取性能相当。

DOI

[ Le X Q, Yang C J.Recognition of deep spatial semantics from unrestricted text[J]. Computer Engineering, 2006,32(4):36-38. ]

[14]
蒋文明. 面向中文文本的空间方位关系抽取方法研究[D].南京:南京师范大学,2010.

[ Jiang W M.Automatic Extraction of Spatial Relations in Chinese text[D]. Nanjing: Nanjing Normal University, 2010. ]

[15]
Li R, Tao X, Tang L, et al.Using maximum entropy model for Chinese text categorization[C]. Hangzhou: Asia-Pacific Web Conference, 2004:578-587.

[16]
李荣陆,王建会,陈晓云,等.使用最大熵模型进行中文文本分类[J].计算机研究与发展, 2005,42(1):94-101.随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Bayes,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.

DOI

[ Li R L, Wang J H, Chen X Y, et al.Using maximum entropy model for Chinese text catagorization[J]. Journal of Computer Research and Development, 2005,42(1):94-101. ]

[17]
肖雪. 基于最大熵模型的中文文本层次分类方法[J].计算机与网络,2015(9):36-38.针对文本信息海量增加的现状,快速、准确、全面地获取有用信息的大规模信息处理应用技术越来越受到关注。本文将中文文本分类的类别体系构建为层次结构,并把最大熵模型引入中文文本的层次分类,该模型用于得到未知事件分布的最大熵。实验证明,最大熵模型方法的层次分类性能在很多时候优于平面分类,是一种有效的中文文本分类方法。

DOI

[ Xiao X.Hierarchical text categorization methods based on maximum entropy model[J]. Computer & Network, 2015(9):36-38. ]

[18]
王江伟. 基于最大熵模型的中文命名实体识别[D].南京:南京理工大学,2005.

[ Wang J W.Research on Chinese named entity recognition based on maximum entropy model[D]. Nanjing: Nanjing University of Science and Technology, 2005. ]

[19]
王胜,朱明.基于最大熵马尔可夫模型的地址信息抽取[J].计算机工程与应用,2005,41(21):192-194.互联网的迅速发展,以及人们对于信息需求的提高,使得网络信息的自动处理和挖掘成为了研究热点。在与网络文本相关的信息抽取任务中,观察值序列都是给定的,所以不需要考虑得到观察值的概率,而只需要关注观察值引起的状态转移的概率。最大熵马尔可夫通过改变概率转移函数,使得状态的转移与输入值以及前一状态相联系,很好地体现了序列的上下文信息。通过最大熵马尔科夫模型进行地址信息抽取,精确度和召回率都得到了很大的改进。

DOI

[ Wang S, Zhu M.Address information extraction based on MEMM[J]. Computer Engineering and Applications, 2005,41(21):192-194. ]

[20]
钱晶,张玥杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765.构建了一个基于最大熵原理的汉语人名地名自动识别混合模型.该模型分为训练和识别两个模块.先从训练语料中抽取特征,利用最大熵方法对特征进行训练.然后使用经过训练的特征,并结合动态词表和少量规则,对测试文本中的汉语人名地名进行识别.达到了比较满意的识别效果.最后对实验结果进行了分析.

DOI

[ Qian J, Zhang Y J, Zhang T.Research on Chinese person name and location name recognition based on maximum entropy model[J]. Mini-Micro Systems, 2006,27(9):1761-1765. ]

[21]
Kambhatla N.Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]. Barcelona: Association for Computational Linguistics, 2014:22.

[22]
Kumar M A, Gopal M.A comparison study on multiple binary-class SVM methods for unilabel text categorization[J]. Pattern Recognition Letters, 2010,31(11):1437-1444.Multiclass support vector machine (SVM) methods are well studied in recent literature. Comparison studies on UCI/statlog multiclass datasets suggest using one-against-one method for multiclass SVM classification. However, in unilabel (multiclass) text categorization with SVMs, no comparison studies exist with one-against-one and other methods, e.g. one-against-all and several well-known improvements to these approaches. In this paper, we bridge this gap by performing empirical comparison of standard one-against-all and one-against-one, together with three improvements to these standard approaches for unilabel text categorization with SVM as base binary learner. We performed all our experiments on three standard text corpuses using two types of document representation. Outcome of our experiments partly support Rifkin and Klautau (2004) statement that, for small scale unilabel text categorization tasks, if parameters of the classifiers are well tuned, one-against-all will have better performance than one-against-one and other methods.

DOI

[23]
冯永,李华,钟将,等.基于自适应中文分词和近似SVM的文本分类算法[J].计算机科学, 2010,37(1):251-254.中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。基于二元统计模型的分词算法能很好地适应不同的语料信息,且时间和精度都能满足文本知识管理的应用需要。近似支持向量机是将问题归结成仅含线性等式约束的二次规划问题,该算法的时间复杂度和空间复杂度比传统SVM算法的均有降低。在利用自适应分词算法进行分词的基础上,再利用近似支持向量机进行文本分类。实验表明,该方法能够自动适应行业领域的知识管理,且满足文本知识管理对训练时间敏感和需要处理大量文本的苛刻环境要求,从而具备较大的实用价值。

DOI

[Feng Y, Li H, Zhong J, et al. Text classification algorithm based on adaptive Chinese word segmentation and proximal SVM[J]. Computer Science, 2010,37(1):251-254. ]

[24]
王金华,喻辉,产文,等.基于KNN+层次SVM的文本自动分类技术[J].计算机应用与软件,2016,33(2):38-41.针对大规模文本的自动层次分类问题,K近邻(KNN)算法分类效率较高,但是对于处于类别边界的样本分类准确度不是很高。而支持向量机(SVM)分类算法准确度比较高,但以前的多类SVM算法很多基于多个独立二值分类器组成,训练过程比较缓慢并且不适合层次类别结构等。提出一种融合KNN与层次SVM的自动分类方法。首先对KNN算法进行改进以迅速得到K个最近邻的类别标签,以此对文档的候选类别进行有效筛选。然后使用一个统一学习的多类稀疏层次SVM分类器对其进行自上而下的类别划分,从而实现对文档的高效准确的分类过程。实验结果表明,该方法在单层和多层的分类数据集上的分类准确度比单独使用其中任何一种要好,同时分类时间上也比较接近其中最快的单个分类器。

DOI

[ Wang J H, Yu H, Chan W, et al.Integrating KNN and Hierarchical SVM for Automatic Text Classification[J]. Computer Applications and Software, 2016,33(2):38-41. ]

[25]
李丽双,黄德根,陈春荣,等.用支持向量机进行中文地名识别的研究[J].小型微型计算机系统,2005,26(8):1416-1419.用支持向量机(SVM)方法对中文地名的自动识别进行了探讨 ,对于含特征词的地名和非地名用支持向量机进行分类:结合中文地名的特点,抽取地名构词可信度及其前后词的词性作为特征向量的属性,建立了一定规模的训练 集,并通过对不同kern el函数的测试,得到了地名分类的机器学习模型.实验表明,对于切分正确的地名,本方法具有良好的效果.

DOI

[ Li L S, Huang D G, Chen C R, et al.Research on method of automatic recognition of Chinese place names based on support vector machines[J]. Mini-Micro Systems, 2005,26(8):1416-1419. ]

[26]
李丽双,黄德根,陈春荣,等.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57.By analyzing the characteristics of place names in Chinese texts, a method of automatic recognition of Chinese place names is presented, which combining support vector machines (SVMs) with rules. Firstly, feature vectors based on characters are extracted, and transferred into binary vectors. A training set is established, and the machine learning models for automatic identification of Chinese place names are obtained using polynomial kernel functions. Then, through careful error analysis, a rulebase is constructed and a post-processing step based on it is used, to overcome the shortcoming of low recall of machine learning model. The results show that the method is efficient for identifying Chinese place names. In open test, the recall, precision and F-measure reach 89.57% , 93.52% and 91.50% respectively.

DOI

[ Li L S, Huang D G, Chen C R, et al.Identifying Chinese place names based on support vector machines and rules[J]. Journal of Chinese Information Processing, 2006,20:51-57. ]

[27]
唐晋韬,王挺,周会平.面向中文文本的时间本体构建和自动扩充[C].北京:全国信息检索与内容安全学术会议, 2005.

[ Tang J T, Wnag T, Zhou H P.Time ontology construction and auto-population towards Chinese text[C]. Beijing: NCIRCS, 2005. ]

[28]
周凡坤. 面向领域的文本信息抽取方法研究[D].南京:南京邮电大学,2014.

[ Zhou F K.Research of domain-oriented extraction method of text information[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2014. ]

[29]
Wang T, Li Y, Bontcheva K, et al.Automatic extraction of hierarchical relations from text[M]. Budva: Springer Berlin Heidelberg, 2006.

[30]
Jiang J, Zhai C X.A systematic exploration of the feature space for relation extraction[C]. Rochester: Proceedings of NAACL HLT 2007, 2007:113-120.

[31]
Bunescu R C, Mooney R J.Subsequence kernels for relation extraction[C]. International Conference on Neural Information Processing Systems, 2005:171-178.

[32]
Zhou G D, Zhang M, Ji D H, et al.Tree kernel-based relation extraction with context-sensitive structured parse tree information[C]. Prague: 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007.

[33]
项乐安. 基于多标签分类的空间关系抽取研究[D].南京:南京师范大学,2013.

[ Xiang L A.Spatial relation extraction based on multi-label classification[D]. Nanjing: Nanjing Normal University, 2013. ]

[34]
张春元. 基于CRFs的新闻网页主题内容自动抽取方法[J].广西师范大学学报(自然科学版),2011,29(1):138-142.针对当前新闻网页主题内容抽取 方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法。该方法首先将待抽取网页解析成DOM 树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特 征和相邻块间类别转移特征,通过CRFs模型对数据序列进行类别标注来实现网页主题内容的抽取。实验表明,该方法对新闻网页主题内容的抽取具有较高检准率 和较强适应能力,引入块间关联特性可改善新闻网页主题内容的抽取。

DOI

[ Zhang C Y.Automatic web news content extraction based on CRFs[J]. Journal of Guangxi Normal University:Natural Science Edition, 2011,29(1):138-142. ]

[35]
梁吉光,田俊华,姜杰.基于改进HMM的文本信息抽取模型[J].计算机工程,2011,37(20):178-179.提出一种基于改进隐马尔可夫模型(HMM)的文本信息抽取模型。给出一个新假设,使用绝对平滑算法对模型参数进行平滑,利用Viterbi算法对观察值序列进行正序和逆序解码,基于N-Gram模型对2次解码结果进行对比消歧,得到较准确的状态序列。实验结果表 明,该信息抽取模型能提高信息抽取的准确率。

DOI

[ Liang J G, Tian J H, Jiang J.Text information extraction model based on improved HMM[J]. Computer Engineering, 2011,37(20):178-179. ]

[36]
史庆伟,郭朋亮.基于LDA的条件随机场主题模型研究[J].计算机工程与应用,2015,51(7):131-135.使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于&ldquo;段袋&ldquo;假设&mdash;&mdash;文本中的段落具有相同的主题,且连续的段落更倾向于具有相同的主题。对于文章的段落,采用条件随机场(CRF)模型划分并判断它们是否具有相同主题。实验表明,新模型相比LDA模型能更好得提取主题并具有更低的困惑度,同时,能够较好地进行词性标注和文本分类工作。

DOI

[ Shi Q W, Guo P L.Conditional random fields topic model based on LDA model[J]. Computer Engineering and Applications, 2015,51(7):131-135. ]

[37]
马龙. 基于条件随机域模型的中文地名识别的研究[D].大连:大连理工大学,2009.

[ Ma L.A study on chinese location names recognition based on conditional random fields[D]. Dalian: Dalian University of Technology, 2009. ]

[38]
高国洋,戚银城,潘德锋.基于条件随机场与规则相结合的中文地名识别[J].电脑开发与应用,2009,22(8):26-28.对中文地名识别进行了研究,提出了一种结合多知识的地名识别方法,该方法首先以条件随机场模型为框架,充分利用地名的外部特征和内部颗粒特征,将局部特征、复合特征以及专家知识相融合进行中文地名识别;在此结果上,利用构建的专家规则库对实验结果进行修正。实验结果表明,本文的方法是有效的,实验语料为1998年1月的《人民日报》,开放测试准确率、召回率、和F-值分别达到了93.64%、90.36%、92.03%。

DOI

[ Gao G Y, Qi Y C, Pan D F.Recognition of Chinese location name based on combination of conditional random fields with Multi-rules[J]. Computer Development & Applications, 2009,22(8):26-28. ]

[39]
邬伦,刘磊,李浩然,等.基于条件随机场的中文地名识别方法[J].武汉大学学报·信息科学版,2017,42(2):150-156.在互联网迅速发展的现代化信息社会,大量地理信息都以非结构化的文本形式存在,而地名识别是挖掘这些地理信息的重要基础。目前已有的地名识别方法主要是从自然语言处理的角度来实现,并没有充分考虑到地名的构成和使用习惯等特征,造成识别率偏低或过拟合等问题。本文引入语言学相关知识,分析中文地名用字特征,在传统的地名专名+通名的结构上,更细致地划分地名的词素类型,总结归纳各词素类型的特征,将这些特征融入条件随机场的方法中,使地名识别问题转化为序列标注问题。并根据中文地名的特征,制定形式化规则,设计基于字的标注规范。在此基础上,设计中文地名特征模板,通过条件随机场模型训练和预测,识别自然语言文本中的中文地名。采用170万字的人民日报标注语料进行实验验证,结果表明本文方法对中文地名识别的召回率、准确率和F值分别达到92.69%、96.73%和94.67%,优于已有研究成果,能为地理信息科学领域的研究和应用提供更有效的地名服务。

DOI

[ Wu L, Liu L, Li H R, et al.A Chinese toponym recognition method based on conditional random field[J]. Geomatics and Information Science of Wuhan University, 2017,42(2):150-156. ]

[40]
Scheffer T, Decomain C, Wrobel S.Active hidden markov models for information extraction[C]. Cascais: International Conference on Advances in Intelligent Data Analysis, 2001:309-318

[41]
Ojokoh B, Zhang M, Tang J.A trigram hidden Markov model for metadata extraction from heterogeneous references[J]. Information Sciences, 2011,181(9):1538-1551.Our objective was to explore an efficient and accurate extraction of metadata such as author, title and institution from heterogeneous references, using hidden Markov models (HMMs). The major contributions of the research were the (i) development of a trigram, full second order hidden Markov model with more priority to words emitted in transitions to the same state, with a corresponding new Viterbi algorithm (ii) introduction of a new smoothing technique for transition probabilities and (iii) proposal of a modification of back-off shrinkage technique for emission probabilities. The effect of the size of data set on the training procedure was also measured. Comparisons were made with other related works and the model was evaluated with three different data sets. The results showed overall accuracy, precision, recall and F1 measure of over 95% suggesting that the method outperforms other related methods in the task of metadata extraction from references. (C) 2011 Elsevier Inc. All rights reserved.

DOI

[42]
Zhou D, He Y.Biomedical events extraction using the hidden vector state model[J]. Artificial Intelligence in Medicine, 2011,53(3):205-213.Biomedical events extraction concerns about events describing changes on the state of bio-molecules from literature. Comparing to the protein–protein interactions (PPIs) extraction task which often only involves the extraction of binary relations between two proteins, biomedical events extraction is much harder since it needs to deal with complex events consisting of embedded or hierarchical relations among proteins, events, and their textual triggers. In this paper, we propose an information extraction system based on the hidden vector state (HVS) model, called HVS-BioEvent, for biomedical events extraction, and investigate its capability in extracting complex events. HVS has been previously employed for extracting PPIs. In HVS-BioEvent, we propose an automated way to generate abstract annotations for HVS training and further propose novel machine learning approaches for event trigger words identification, and for biomedical events extraction from the HVS parse results. Our proposed system achieves an F-score of 49.57% on the corpus used in the BioNLP’09 shared task, which is only 2.38% lower than the best performing system by UTurku in the BioNLP’09 shared task. Nevertheless, HVS-BioEvent outperforms UTurku's system on complex events extraction with 36.57% vs. 30.52% being achieved for extracting regulation events, and 40.61% vs. 38.99% for negative regulation events. The results suggest that the HVS model with the hierarchical hidden state structure is indeed more suitable for complex event extraction since it could naturally model embedded structural context in sentences.

DOI PMID

[43]
董静,孙乐,冯元勇,等.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85,91.命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测

DOI

[ Dong J, Sun L, Feng Y Y, et al.Chinese automatic entity relation extraction[J]. Journal of Chinese Information Processing, 2007,21(4):80-85,91. ]

[44]
张春菊. 中文文本中事件时空与属性信息解析方法研究[D].南京:南京师范大学,2013.

[ Zhang C J.Interpretation of event spatio-temporal and attribute information in Chinese Text[D]. Nanjing: Nanjing Normal University, 2013. ]

[45]
Sankaranarayanan J, Samet H, Teitler B E, et al.TwitterStand:news in tweets[C]. ACM Sigspatial International Conference on Advances in Geographic Information Systems, 2009:42-51.

[46]
路金泉,徐开勇,戴乐育.基于文本过滤的贝叶斯分类算法的改进[J].计算机与现代化,2016(9):100-103.针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词-贝叶斯分类算法(Multi Word-Bayes,MWB)。该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视。实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能。

DOI

[ Lu J Q, Xu K Y, Dai L Y.Improvement of bayes classification algorithm based on text filtering[J]. Computer and Modernization, 2016(9):100-103. ]

[47]
武建军,李昌兵.基于互信息的加权朴素贝叶斯文本分类算法[J].计算机系统应用,2017,26(7):178-182.文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性.

DOI

[ Wu J J, Li C B.Mutual information-based weighted naive bayes text classification algorithm[J]. Computer Systems & Applications, 2017,26(7):178-182. ]

[48]
刘杰. 基于动态贝叶斯网的中文专有名词识别[D].太原:山西大学,2006.

[ Liu J.Chinese proper names recognition based on dynamic bayesian network[D]. Taiyuan: Shanxi University, 2006. ]

[49]
顾雪峰. 基于动态粒度思想的实体关系识别方法研究[D].太原:山西大学,2006.

[ Gu X F.Research on entity relation recognition based on dynamic granulation theory[D]. Taiyuan: Shanxi University, 2006. ]

[50]
杨俊,陈贤富.基于KPCA和RBF网络的文本分类研究[J].微电子学与计算机,2010,27(3):122-125.基于词空间的分类方法很难处理 文本的高维特性和复杂相关性,为此文中提出了基于核的主成分分析和径向基神经网络的文本分类算法.首先利用核主成分分析选择合适的核函数从高维特征空间中 提取文本向量的主成分,实现了文本输入空间的降维和语义特征空间的抽取,然后在语义特征空间中训练径向基神经网络分类器,并利用训练得到的分类器进行文本 分类工作.实验结果表明:核主成分分析不仅实现了降维,而且能在大幅减减少径向基神经网络训练时间的基础上显著提高其分类精度.

[ Yang J, Chen X F.Text categorization based on KPCA and RBF neural network[J]. Microelectronics & Computer, 2010,27(3):122-125. ]

[51]
吕淑宝,王明月,翟祥,等.一种深度学习的信息文本分类算法[J].哈尔滨理工大学学报,2017,22(2):105-111.针对传统文本分类算法准确率低和正确率分布不均匀的问题,提出了基于深度学习的文本分类算法.深度信念网络具有强大的学习能力,可以从高维的原始特征中提取高度可区分的低维特征,不仅能够更全面的考虑到文本信息量,而且能够进行快速分类.采用TF-IDF方法计算文本特征值,利用深度信念网络构造分类器进行精准分类.实验结果表明,与支持向量机、神经网络和极端学习机等常用分类算法相比,该算法有更高的准确率和实用性,为文本的分类研究开拓了新思路.

DOI

[ Lu S B, Wang M Y, Zhai X, et al.An information text classification algorithm based on DBN[J]. Journal of Harbin University of Science and Technology, 2017,22(2):105-111. ]

[52]
郭东亮,刘小明,郑秋生.基于卷积神经网络的互联网短文本分类方法[J].计算机与现代化,2017(4):78-81.互联网短文本的分类是自然语言处理的一个研究热点。本文提出一种基于卷积神经网络(Convolutional Neural Networks,CNNs)互联网短文本分类方法。首先通过Word2vec的Skip-gram模型获得短文特征,接着送入CNNs中进一步提取高层次特征,最后通过K-max池化操作后放入Softmax分类器得出分类模型。在实验中,该方法和机器学习方法以及DBN方法相比,结果表明本文方法不仅解决了文本向量的维数灾难和局部最优解问题,而且有效地提高了互联网短文本两级分类准确率,证实了基于CNNs的互联网短文本分类的有效性。

DOI

[ Guo D L, Liu X M, Zheng Q S.Internet short-text classification method based on CNNs[J]. Computer and Modernization, 2017(4):78-81. ]

[53]
欧嘉致,陈凯江.基于NN/HMM混合模型的汉语地名识别系统[J].计算机工程与应用,2002,38(23):220-222.文章介绍了一个基于 NN/HMM混合模型的汉语地名识别系统,该系统能自动判别并拒识词表之外的词。文中训练的基于HMM的模型,包括关键词模型、填充模型和“反关键词”模 型。笔者对识别器的输出结果进行验证,把基于HMM的统计特征送到神经网络处理,由网络的输出来判断是否为词表之外的词。该文在实验中建立了一个基于传统 N-Best方法的基准模型并试验了三种不同的网络拓扑结构,包括前馈后向传播网络、Elman后向传播网络以及可训练级联前导后向传播网络。实验结果表 明前馈后向传播网络的性能最好,与基准模型比较平均错误率下降54.4%。

DOI

[ Ou J Z, Chen K J, Li Z G.Hybrid neural-network/HMM Based mandarin place name recognition system[J]. Computer Engineering and Applications, 2002,38(23):220-222. ]

[54]
李帅,黄玺瑛,董家瑞.一种基于神经网络的特定文本信息提取方法[C].郑州:中国科协年会,2008.

[ Li S, Huang X Y, Dong J R.An extracting measure of the specific text information based on neural-network[C]. Zhengzhou: The annual meeting of China Association for Science and Technology, 2008. ]

[55]
吕国英,冯艳,李茹.基于中文框架语义的信息抽取研究[C].北京:全国信息检索与内容安全学术会议,2008.

[ Lv G Y, Feng Y, Li R.Research of information extraction based on Chinese FrameNet[C]. Beijing: NCIRCS, 2008. ]

[56]
叶开. 基于词向量的在线评论话题及其特征抽取研究[D].成都:电子科技大学,2016.

[ Ye K.Topic and feature extraction in online reviews based on Word2Vec[D]. Chengdu: University of Electronic Science and Technology of China, 2016. ]

[57]
Jiang S, Pang G, Wu M, et al.An improved K-nearest-neighbor algorithm for text categorization[J]. Expert Systems with Applications, 2012,39(1):1503-1509.Text categorization is a significant tool to manage and organize the surging text data. Many text categorization algorithms have been explored in previous literatures, such as KNN, Na ve Bayes and Support Vector Machine. KNN text categorization is an effective but less efficient classification method. In this paper, we propose an improved KNN algorithm for text categorization, which builds the classification model by combining constrained one pass clustering algorithm and KNN text categorization. Empirical results on three benchmark corpora show that our algorithm can reduce the text similarity computation substantially and outperform the-state-of-the-art KNN, Na ve Bayes and Support Vector Machine classifiers. In addition, the classification model constructed by the proposed algorithm can be updated incrementally, and it has great scalability in many real-word applications.

DOI

[58]
周庆平,谭长庚,王宏君,等.基于聚类改进的KNN文本分类算法[J].计算机应用研究, 2016,33(11):3374-3377.传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法。但是KNN算法在处理文本分类的过程中需要不断地计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文本分类中的效率,提出一种基于聚类的改进KNN算法。算法开始之前采用改进χ~2统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KNN方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好地进行文本分类。

DOI

[Zhou Q P, Tan C G, Wang H J, et al. Improved KNN text classification algorithm based on clustering[J]. Application Research of Computers, 2016,33(11):3374-3377. ]

[59]
戚后林,顾磊.概率潜在语义分析的KNN文本分类算法[J].计算机技术与发展,2017,27(7):1-5.传统的KNN文本算法在计算文本之间的相似度时,只是做简单的概念匹配,没有考虑到训练集与测试集文本中词项携带的语义信息,因此在利用KNN分类器进行文本分类过程中有可能导致语义丢失,分类结果不准确.针对这种情况,提出了一种基于概率潜在主题模型的KNN文本分类算法.该算法预先使用概率主题模型对训练集文本进行文本-主题、主题-词项建模,将文本携带的语义信息映射到主题上的低维空间,把文本相似度用文本-主题、主题-词项的概率分布表示,对低维文本的语义信息利用KNN算法进行文本分类.实验结果表明,在训练较大的训练数据集和待分类数据集上,所提算法能够利用KNN分类器进行文本的语义分类,且能提高KNN分类的准确率和召回率以及F1值.

DOI

[ Qi H L, Gu L.KNN text classification algorithm with probabilistic latent Semantic Analysis[J]. Computer Technology and Development, 2017,27(7):1-5. ]

[60]
高昂,程越,李进,等.网络新闻事件分类体系及事件本体建模语料库标准化研究[J].情报工程,2017,3(5):43-52.本文基于线分类法构建网络突发性新闻事件分类体系,提出常见网络新闻事件信息分类体系的类目划分原则和分类代码定义方法,并以地震专题新闻事件为例,给出事件本体语料库的建设流程以及新闻事件本体模型的构建方法,为网络新闻事件信息分类和本体语料库建模提供思路和借鉴.

DOI

[ Gao A, Cheng Y, Li J, et al.The standardization study of netnews events classification system and the events ontology modeling corpus[J]. Discovery and Research, 2017,3(5):43-52.]

[61]
张春菊,张雪英,王曙,等.中文文本的事件时空信息标注[J].中文信息学报,2016,30(3):213-222.基于文本数据源的地理空间信息解析研究侧重于地名实体、空间关系等空间语义角色的标注和抽取,忽略了丰富的时间信息、主题事件信息及其时空一体化信息。该文通过分析中文文本中事件信息描述的语言特点和事件的时空语义特征,基于地名实体和空间关系标注研究成果,制定了中文文本的事件时空信息标注体系和标注模式,并以GATE(General Architecture for Text Engineering)为标注平台,以网页文本为数据源,构建了事件时空信息标注语料库。研究成果为中文文本中地理信息的语义解析提供标准化的训练和测试数据。<br/>

[ Zhang C J, Zhang X Y, Wang S, et al.Annotation of Spatio-Temporal Information of Event in Chinese Text[J]. Journal of Chinese Information Processing, 2016,30(3):213-222. ]

Outlines

/