地球信息科学理论与方法

基于联合主题特征的网络新闻文本蕴含环境污染事件检测

  • 黄宗财 1, 2 ,
  • 仇培元 3 ,
  • 陆锋 2, 3 ,
  • 吴升 , 1, 2, *
展开
  • 1. 福州大学数字中国研究院(福州),福州 350002
  • 2. 海西政务大数据应用协同创新中心,福州 350002
  • 3. 中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101;
*吴 升(1972-),男,福建松溪人,博士,教授,研究方向为时空数据分析与可视化、信息共享与智慧政务、应急信息系统等。E-mail:

黄宗财(1992-),男,江西兴国人,硕士生,主要研究方向为地理信息抽取、时空数据挖掘与可视化研究。E-mail: 1262686237@qq.com

收稿日期: 2019-01-21

  要求修回日期: 2019-06-21

  网络出版日期: 2019-10-29

基金资助

国家自然科学基金重点项目(41631177)

数字福建建设项目(闽发改网数字函)([2014]191号)

数字福建建设项目(闽发改网数字函)([2016]23号)

数字福建建设项目(闽发改网数字函)([2016]77号)

福建省科技创新平台项目(2015H2001)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Detection of Environmental Pollution Events in News Corpora based on Joint Thematic Features

  • HUANG Zongcai 1, 2 ,
  • QIU Peiyuan 3 ,
  • LU Feng 2, 3 ,
  • WU Sheng , 1, 2, *
Expand
  • 1. Digital China Research Institute of Fuzhou University (Fujian), Fuzhou 350002, China
  • 2. Fujian Collaborative Innovation Center for Big Data Applications in Governments, Fuzhou 350002, China
  • 3. State Key Lab of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China;
*WU Sheng, E-mail:

Received date: 2019-01-21

  Request revised date: 2019-06-21

  Online published: 2019-10-29

Supported by

National Natural Science Foundation of China(41631177)

Digital Fujian Construction Project([2014]191号)

Digital Fujian Construction Project([2016]23号)

Digital Fujian Construction Project([2016]77号)

Fujian Science and Technology Innovation Platform Project(2015H2001)

Copyright

Copyright reserved © 2019

摘要

网络新闻文本在环境污染事件感知方面具有重要的应用价值。然而,由于环境污染事件的“多米诺效应”,网络新闻文本往往存在对多类型污染事件的混合描述,现有事件检测方法容易导致文本分类错误。本文提出一种基于联合主题特征的网络新闻文本蕴含环境污染事件检测方法,通过兼顾环境网络新闻文本的全局特征和主题分布特征来改善检测分类效果。该方法采用词频-逆文档频率向量对文档进行全局特征表示,并结合文档的主题分布特征向量,构建联合主题特征向量作为监督分类模型的输入,实现环境污染事件检测。实验结果表明,使用联合主题特征的支持向量机方法进行事件类别检测平均F1值相较于全局特征提高15%,相较于主题特征提高36%。本文提出的网络新闻文本蕴含环境污染事件检测方法可支持污染事件类型检测和影响信息抽取,有助于环境污染事件的时空统计与变化趋势预测。

本文引用格式

黄宗财 , 仇培元 , 陆锋 , 吴升 . 基于联合主题特征的网络新闻文本蕴含环境污染事件检测[J]. 地球信息科学学报, 2019 , 21(10) : 1510 -1517 . DOI: 10.12082/dqxxkx.2019.190037

Abstract

News have important application value in especially detecting environmental pollution event perceptions. However, due to the "domino effect" of environmental pollution incidents, news corpora often have mixed descriptions of multiple types of pollution incidents, and existing event detection methods easily lead to text classification errors. This paper proposed a new method for detecting environmental pollution events in news corpora based on joint theme features, which accounts for the global features and theme distribution characteristics. In this method, a joint topic feature vector,which combines TF-IDF (Term Frequency-Inverse Document Frequency) and theme distribution feature vector of the document, is constructed as the input of the supervised classification model to detect environmental pollution events. Using joint topic feature vector as the input of SVM (Support Vector Machine) method, the experimental results show that the average F1 value of event classification detection was 15% higher than that of global feature and 36% higher than that of topic feature.Our findings suggest that the proposed method supports the detection of pollution event types and the extraction of information and helps reveal their spatiotemporal statistical characteristics and the temporal trends.

1 引言

近年来随着经济的快速发展,各类环境污染事件的发生率逐年提高,严重危害人民群众的生命财产安全,环境污染事件的快速监测对于环境污染应急管理至关重要。目前针对环境污染监测方法和技术发展迅速,GIS、RS和GPS技术为实现动态环境监测提供了强有力的技术支撑。但是环境监测仍然存在监测技术配套性差和地区发展不平衡的问题,无法做到全区域、全时段、全种类的覆盖[1]。新闻网站、微博、微信、头条等网络媒介为环境污染信息的发布与传播提供了便捷的网络通道,其信息的广泛性、实时性往往可以弥补物理设备监测的不足。网络新闻文本具有来源多样化、内容动态化、存储碎片化的特点,其蕴含的事件信息具有时序性、空间性和语义丰富性等特征,计算机很难直接处理[2,3],所以开展基于网络新闻文本的环境污染事件检测与信息抽取工作对于环境污染监测具有重要的价值。其中网络新闻文本因具有真实性和新鲜性的特点,可以作为环境污染事件感知的可靠文本数据源。
目前网络新闻文本蕴含事件检测研究主要集中在自然灾害[4,5]、生物医学[6]、道路交通[7]、公共卫生安全、金融领域[8]等。检测方法可分为2种类型: ① 基于触发词的方法,通过句子中包含以动词或者带有动词性质的名词是否为触发词来判断句子的事件类型。例如,Buyko等[9]人工统计句子或文本中的所有触发词构建触发词典,再与语料中的词语进行相关匹配;Andreas Vlachos等[10]利用一个触发词典和一系列规则对生物事件进行识别,这种基于规则匹配的方法准确率高但是可移植性差,无法解决多种类型事件触发词的混合表达造成文本分类错误的情况。② 基于监督学习的方法,常见的方法包括K近邻[11]、支持向量机(Support Vector Machine, SVM)[12,13]、逻辑回归[14]、随机森林[15]等,这些方法能够很好地利用文本特征进行模型学习从而实现文本的事件检测。例如,Piskorski等[16]基于分类方法采用bootstraping组合策略实现25 000个新闻网站上万篇文本进行分类,从中发现暴力事件和自然灾害事件信息;Wang等[17]尝试从新闻报道中发现和获取暴雪、飓风、洪水、龙卷风和林火事件属性信息。但是此方法受限于标注语料的匮乏,特征的选择对于识别精度影响很大,所以针对不同应用场景的特征选择还需要进行深入探索。
环境污染事件往往存在“多米诺效应”,反映到新闻长文本中则易出现多种类型事件表达共存的现象,如一篇以固废污染事件为主题的报道中存在句子“居民长期将垃圾倾倒在空地上,旁边的小河变成一条臭水沟,散发出刺鼻的味道”,基于触发词的方法容易将其归类为水体污染事件、大气污染事件多个类别,而使用传统的文本全局特征向量作为监督分类方法的输入,使得模型学习的特征大多数与事件主题无关,导致训练的分类器对于事件分类检测失效。因此,本文提出一种综合文档全局特征和主题分布特征构建联合主题特征向量作为输入,能够兼顾文本的事件主题特征和上下文语境,然后使用监督分类方法实现环境污染事件类型检测。将模型应用于海量文本进行环境污染事件检测,信息抽取后进行统计分析,进一步说明方法在环境污染事件检测的实用价值。

2 研究方法

环境新闻报道可以分为政策宣传类、环保报道类和污染事件类。政策宣传类和环保报道类主要是描述政府出台的相关政策和治理环境采取的相关实际行动,如“为了治理雾霾,北京实行空气污染防治计划”;污染事件类是主要描述某个时间、某个地点发生了环境污染事件,如“今天(14日)白天,北京霾又卷土重来,南部地区有轻度到中度霾”。本文提出的事件检测方法目的是从环境新闻报道文本集合中识别出环境污染事件描述文本并将划归所属类别。算法流程如图1所示,具体步骤为:① 构建环境污染主题词库,作为构建事件主题特征的词库;② 构建基于联合主题特征的分类器,实现环境污染事件类型检测。
图1 网络新闻文本蕴含环境污染事件检测算法流程

Fig. 1 Flowchart of the detection algorithm of environmental pollution events in news corpora

2.1 环境污染事件主题词库构建

环境污染主题词库主要是由与事件主题相关的名词、动词等词汇组成,如水体污染事件主题词汇包括:废水、绿藻、富营养化等。构建环境污染主题词库是为了支持计算文档中各主题词出现的频率来构建文档主题分布特征向量。本文根据环境污染类别代码(GB/T16705-1996)将环境污染事件划分为水体污染、大气污染、固废污染和土壤污染 4种事件类别,参考国家环境保护标准中的土壤质量词汇、空气质量词汇、水质词汇构建环境污染事件初始主题词库。但是初始主题词库其词汇量往往较小,无法满足应用需求,故本文采取图2所示的方法对初始主题词库进行扩展。
图2 环境污染事件初始主题词库扩展方法

Fig. 2 Method for extending the initial thesaurus of environmental pollution events

首先,利用现有的词典—同义词林和知网进行扩展。根据词语的最短路径以及它们最近公共父结点在层次树中的深度,计算初始主题词库中词语与同义词林中词语义项的相似度获得同义词[18];考虑知网中义项所处的深度与节点数的关系,基于多重继承与信息内容计算词语义项的相似度[19]来获得初始主题词的扩展词汇。
其次,基于同义词林和知网获取的同义词仍然受限于词典的规模以及初始主题词库中的种子词汇,所以使用环境污染事件语料和大规模通用语料训练的词向量(word2vec)获取其同义词,可以大大扩展主题词的覆盖范围。主要方法是计算语料中词语与初始主题词库中词语的余弦距离来获取高相似度的词语作为扩展词语。
使用同义词林、知网、环境污染事件语料和大规模通用词向量对环境污染事件初始主题词表进行扩展,以大气污染事件中的“粉尘”为例,扩展效果如表1所示。最后汇聚初始主题词及其扩展词汇,构建水污染事件词典 D water 、大气污染事件词典 D air 、固废污染事件词典 D waste 、土壤污染事件词典 D soil 。由于词语数量较小且应用简单,每类别事件的主题词库使用一个字典文件存储。
表1 初始主题词及其扩展词

Tab. 1 Initial thesaurus and its extensions

初始主题词 扩展主题词
粉尘 污垢、烟尘、浮灰、沙尘、尘埃、灰尘、纤尘、火山灰、宇宙尘、灰原子尘、煤灰、烬、烟灰、藏污纳垢、污痕、粉煤灰、尘、秽土、浮尘、尘烟、埃、炮灰、污、黄尘、垢、尘垢、泥垢、灰渣、尘暴、污渍、油垢、污秽、污点、垢污、灰烬、油泥、浮土、肮脏、灰土、香灰、油污、矿尘、污浊、黄埃、炉灰、水垢、风尘、飘尘、粉尘、煤尘、尘土、煤尘、飘落、带起、粉尘

2.2 环境污染事件类别检测方法

环境污染事件类型检测是从海量文本中发现与环境污染事件相关的文本,进而将其划分到具体的污染事件类别中。本文将结合文本的全局特征向量与主题分布特征向量构建联合主题特征向量作为输入向量,采用常用的监督分类算法逻辑回归模型和SVM模型进行环境污染事件类型检测对比实验。
(1)文本全局特征向量构建
文本全局特征是指能够通过向量表达文本中每一个词汇在文本甚至文本集合中的重要程度。文本全局特征向量可以使用词频-逆文档频率 (Term Frequency-Inverse Document Frequency, TF-IDF)向量表示[20]。TF-IDF采用一种统计方法,根据词语在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。其公式如下:
TF - ID F i , j = T F i , j × ID F j T F i , j = n i , j n i , k ID F j = log D i : t j d i + 1
式中: T F i , j 表示关键词 j 在文档 i 中的出现频率; n i , j 表示关键词 j 在文档 i 中出现的次数; ID F j 表示词语 j 的反文档频率; D 表示文档总数; i : t j d i 表示出现词语 j 的文档总数。
(2)文档主题分布特征向量构建
主题分布特征是指文档中词汇在各种事件主题类型的分布情况,可以将环境污染事件主题词库作为检索库构建文本在各环境污染事件主题的词频分布,如式(2)计算每个文档中出现各事件主题词汇的概率分布,根据环境污染事件类别构建特征 F water F air F waste F soil ,形成环境污染事件主题分布特征向量 x t = x F water , x F air , x F waste , x F soil
x j , F i = N D i N w i water , air , soil , waste
式中: N D i 表示文档中属于 D i 的词汇数量; N w 表示词汇总数; x j , F i 表示文档 j 特征 F i 的概率。
(3)联合主题特征向量构建
TF-IDF模型依靠词汇在文本中的频率构建向量,其中与主题无关的高频词容易导致向量并不能很好地表现事件特征,而对文本中出现的主题词进行加权处理,依然无法突出其细粒度事件特征,所以仅仅依靠文本的全局特征识别事件类型效果欠佳。主题分布特征向量能够很好地反映文档的主题特性,但在文本主题事件特征分布均衡情况下往往导致分类失效,文档全局特征蕴含的上下文信息有助于实现文本的事件类别分类。
所以,本文尝试综合文档的全局特征向量和主题分布特征向量,构建联合主题特征向量进行环境污染事件的检测。由于大样本数据所得TF-IDF向量的维数过大且特征稀疏,简单将主题向量与文本TF-IDF向量联合后主题特征容易被稀释。因此,采用主成分分析法(Principal Component Analysis, PCA)[21]将文本全局TF-IDF向量压缩到k维,只保留数据中的较为关键的信息,PCA算法流程如下:
① 将原始数据按列组成nm列矩阵X;
② 将X的每一行(每一列代表一个属性字段)进行零均值化,即减去这一行的均值;
③ 求出协方差矩阵;
④ 求出协方差矩阵的特征值及对应的特征向量;
⑤ 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P;
Y=PX即为降维到k维后的数据。
TF-IDF向量降维后与主题特征向量联合,构建联合主题特征向量 x mix = x F water , x F air , x F waste , x F soil , x TF - ID F k
(4)监督分类器
将构建的联合主题特征向量作为输入,进而采用2种常用文本分类监督学习算法:逻辑回归模型与SVM分类模型进行环境污染事件类别检测对比。
逻辑回归是一种广义的线性回归分析模型,其算法是假设随机变量Y的取值集合为{1, 2, 3, , n 那么多元分类逻辑回归模型,如式(3)、(4)所示。
P Y = k | x = exp ( w k × x ) 1 + k = 1 n - 1 exp w k × x ( k = 1,2 , , n - 1 )
P Y = K | x = 1 1 + k = 1 n - 1 exp ( w k × x )
式中: x R n + 1 , w R n + 1
SVM是基于统计学习理论中结构风险最小化原则建立起来的一种针对小样本的学习算法,如式(5)所示。
min 1 2 ω 2 2 + C i = 1 m ξ i
y i ω × ϕ x i + b 1 - ξ i ( i = 1,2 , , m )
ξ i 0 ( i = 1,2 , , m )
式中:m为样本个数;xi为样本i的输入值;yi为样本i的输出值; ω b 是分离超平面的 ω × ϕ x i + b = 0 系数; ξ i 为第i个样本的松弛系数; C 为惩罚系数; ϕ x i 为低维到高维的映射函数。
逻辑回归模型简单易解释,训练速度很快,但是容易欠拟合。SVM模型鲁棒性较强,可以很好地处理高维数据集,理论上SVM模型更适用于长文本的多元分类。

2.3 模型精度评价指标

本实验的事件类别检测性能利用准确率 P 、召回率RF1值3个指标进行评价,其定义分别为:
P i = TP ( i ) FP ( i ) + TP ( i ) × 100 %
R i = TP ( i ) TP ( i ) + FN ( i ) × 100 %
F 1 i = 2 × P i × R i P i + R i × 100 %
式中: TP ( i ) 表示第 i 类中判断正确的样本数量; FP ( i ) 表示被误判为第 i 类样本的数量; FN ( i ) 表示第 i 类样本被误判为其他类别的数量。

3 实验设计与结果

3.1 实验设计

实验利用爬虫技术从环保114资讯网、新浪环保、中国环境要闻、人民网环境曝光台、中国环保在线等网站中获得关于环境专题新闻报道总共20 821篇,其中选取与环境污染事件相关性较强的中国环境要闻、中国环保在线的环境新闻报道1282篇,然后利用LDA主题聚类方法生成每篇文本的主题类别,将主题类别映射到4种环境污染事件类别并手动进行类别校正,实现语料的快速事件类别标注。
本文采用分层抽样法划分将标注语料划分75%为训练集,25%为测试集,使用提出的基于联合主题特征的分类算法对文本进行环境污染事件类型检测。为了验证联合主题特征应用于SVM算法进行事件检测的优势,实验采用文本全局特征、主题分布特征和联合主题特征向量作为逻辑回归模型和SVM模型的输入进行实验对比。

3.2 精度评估结果

实验中采用文档全局特征、主题特征与联合主题特征为对比试验,比较在3种不同特征选择方案下逻辑回归模型和SVM的分类效果,实验效果如图3所示。从图3可看出:
图3 环境污染事件检测精度结果对比

注:P表示准确率,R表示召回率。

Fig. 3 Comparison of the experimental results of environmental pollution time detection

(1)在使用逻辑回归模型情况下,对比图3(a)、(c)、(e),全局特征的准确率和召回率比较低但都相对稳定。选择联合主题特征作为输入,实验召回率和准确率都比全局特征和主题特征情况下有较大幅度提升,同时主题混合模型在各主题的平衡性较好。
(2)在使用SVM模型进行事件检测时,对比 图3(b)、(d)、(f),全局特征下各类型准确率和召回率都总体均衡。而联合主题特征下,固废污染事件相比全局特征下召回率提高近30%,图3(f)的F1值对比全局特征总体有接近15%的提升,比主题特征提升36%。
(3)对比联合主题特征下图3(e)、(f),SVM模型相比逻辑回归模型所有事件类别的准确率和召回率均值都有所提高。特别是在相同的标注语料下,回归模型对土壤污染事件类型的召回率较低,而SVM对土壤污染事件的识别非常有效。图3(f)中各类别的准确率都在68%以上,各类型准确率和召回率总体均衡。
在特征选择和分类模型2个维度对各类型事件的分类准确率和召回率进行对比,基于联合主题特征的SVM算法应用于环境污染事件类型检测效果更佳。

4 方法实际应用

为了验证提出方法的应用价值,将基于联合主题特征的SVM模型对海量网络新闻文本进行环境污染事件检测和信息抽取工作,从20 821篇新闻报道中检测出环境污染事件文本9093篇,各类别环境污染事件文本数量分布如图4所示。
图4 1996-2018年各类别环境污染事件文本数量

Fig. 4 Numbers of texts on environmental pollution events of various types during 1996-2018

在此基础上开展环境污染事件信息抽取工作,事件信息包括事件时间、地点、污染源、污染事件涉及方等,如图5所示。环境污染事件语句中,其自然语言描述的形式大多存在一定的规律,事件时间地点名词与事件动词触发词存在一定的句法关系,如句子“7月1日江苏省太湖强制隔离戒毒所范围内倾倒垃圾事件发生以后,苏州吴中区与太湖国家旅游度假区高度重视,迅速采取措施”,句子中事件触发词、时间和地点之间存在形如“时间短语-状中结构-谓语动词-状中结构-位置短语”的句法结构[22]。所以可以通过触发词的句法结构获取事件时间地点信息,而属性信息在文本中往往离触发词较近,可以通过设置触发词检索窗口大小来获取相关名词,根据大量语料的调查,检索窗口设置为10较为合理,然后使用环境污染事件主题词库进行过滤,从而实现环境污染事件时空属性信息的获取。
图5 环境污染事件信息抽取案例

Fig. 5 An example of information extraction of environmental pollution events

对抽取出的环境污染事件信息进行统计分析,按照年份统计如图6所示,可以看出,2010年和2011年环境污染事件曝光较多,且水体污染事件和大气污染事件相关报道最多。其中水污染中事发地点较多出现海、湖、江、河的名词,如较多的长江(130篇)、滇池(45篇)、黄河(43篇)、洞庭湖(38篇),同时地点中还出现不是热点城市的“福岛”,主要是2011年福岛核电站发生泄漏事故引发,所以事件检测和信息抽取的工作可支持热点环境污染事件发现。
图6 1996-2018年环境污染事件网络新闻文本数量

Fig. 6 Total number of detected environmental pollution events during 1996-2018

统计出1996-2018年环境污染报道最多的12个城市(表2),其中环境污染事件最多网络新闻文本的城市是北京,进一步分析可得到其中较多的污染类型依然是水体污染事件594篇,其次是大气污染事件312篇,固废污染事件111篇。由获取的数据发现新闻报道中,水体污染事件受到关注度最高,而固废污染和土壤污染事件发生率较小。
表2 1996-2018年城市环境污染事件新闻数量Top12

Tab. 2 Top12 Number of news on urban environmental pollution events during 1996-2018

城市 新闻数量/篇 城市 新闻数量/篇
北京 1017 香港 70
上海 331 天津 60
广州 203 杭州 59
深圳 158 成都 53
南京 136 福岛 51
重庆 78 西安 46

5 结论与讨论

近些年随着自然语言处理技术的发展,网络新闻文本因具有覆盖广泛、真实有效、及时反馈等特点,广泛运用于获取自然灾害、犯罪案件等信息,使用网络新闻文本作为环境污染事件感知的相关研究与应用目前较为缺乏,利用网络新闻文本开展环境污染事件类型检测工作具有重要应用价值。
环境污染事件网络新闻文本存在的细粒度事件表达共存现象严重影响事件检测效果,本文充分考虑了环境污染事件在新闻长文本中描述的特点,综合网络新闻文本全局特征和主题分布特征,提出了一种基于联合主题特征的SVM分类模型用于环境污染事件检测方法。实验结果对比分析表明,本文方法在各类别的准确率、召回率和F1值较高且总体平衡,相较于全局特征和主题特征,平均F1值分别有15%和36%的提升。本文方法运用于海量网络新闻文本进行事件检测应用,进一步验证了本文方法的实际应用有效性。其后的数据统计分析展现了可利用网络新闻文本进行环境污染事件的数据挖掘,如热点城市和热点事件的发现、环境污染事件的时空变化趋势等。
但本文方法仍受以下因素影响:① 不同污染事件类别的语料文档数量存在不平衡,一定程度上影响监督学习方法的分类效果。后续研究尝试采用主动学习方法筛选各事件类别的代表性文档构建平衡训练语料;② 由动词、形容词、名词等混合而成的主题词库构建的主题特征,无法很好地反映属于同一主题的事件和非事件文本的区别,加强分词性主题词库的使用,可改善文本主题事件的识别效果。
[1]
但德忠 . 我国环境监测技术的现状与发展[J]. 中国测试技术, 2005,31(5):1-5.

[ Dan D Z . Status and trends for development of environmental monitoring technology in China[J]. China Measurement Technology, 2005,31(5):1-5. ]

[2]
余丽, 陆锋, 张恒才 . 网络新闻文本蕴涵地理信息抽取:研究进展与展望[J]. 地球信息科学学报, 2015,17(2):127-134.

DOI

[ Yu L, Lu F, Zhang H C , et al. Extracting geographic information from web texts: Status and development[J]. Journal of Geo-information Sciences, 2015,17(2):127-134. ]

[3]
韩雪华, 王卷乐, 卜坤 , 等. 基于Web文本的灾害事件信息获取进展[J]. 地球信息科学学报, 2018,20(8):1037-1046.

[ Han X H, Wang J L, Bu K, Wang Y J . Progress in information acquisition of disaster events from web texts[J]. Journal of Geo-information Science, 2018,20(8):1037-1046. ]

[4]
梁晗, 陈群秀, 吴平博 . 基于事件框架的信息抽取系统[J]. 中文信息学报, 2006,20(2):40-46.

[ Liang H, Chen Q X, Wu P B , et al. Information extraction system based on event frame[J]. Journal of Chinese Information Processing, 2006,20(2):42-48. ]

[5]
杨腾飞, 解吉波, 李振宇 , 等. 微博中蕴含台风灾害损失信息识别和分类方法[J]. 地球信息科学学报, 2018,20(7):906-917.

[ Yang T F, Xie J B, Li Z Y , et al. A method of typhoon disaster loss ide.pngication and classification using micro-blog information[J]. Journal of Geo-information Science, 2018,20(7):906-917. ]

[6]
张仲华, 苏方方, 姬东鸿 . 生物医学事件触发词识别研究[J]. 计算机应用研究, 2017,34(3):661-664.

[ Zhang Z H, Su F F, Ji D H . Research on ide.pngication of biomedical event trigger[J]. Application Research of Computers, 2017,34(3):661-664. ]

[7]
仇培元, 张恒才, 余丽 , 等. 微博客蕴含交通事件信息抽取的自动标注方法[J]. 中文信息学报, 2017,31(2):107-116.

[ Qiu P Y, Zhang H C, Yu L , et al. Automatic event labeling for traffic information extraction from microblogs[J]. Journal of Chinese Information Processing, 2017,31(2):107-116. ]

[8]
李江龙, 吕学强, 周建设 , 等. 金融领域的事件句抽取[J]. 计算机应用研究, 2017(10):2915-2918.

[ Li J L, Lyu X Q, Zhou J S, Liu X L , et al. Event sentence extraction in financial field[J]. Application Research of Computers, 2017(10):2915-2918.]

[9]
Buyko E, Faessler E, Wermter J , et al. Event extraction from trimmed dependency graphs[J]. Bionlp Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing, 2009: 19-27.

[10]
Vlachos A, Buttery P, Séaghdha D O, et al. Biomedical event extraction without training data[C]// Proceedings of the BioNLP 2009 Workshop Companion Volume for Shared Task, 2009: 37-40.

[11]
Jiang S, Pang G, Wu M , et al. An improved k-nearest neighbor algorithm for text categorization[J]. Expert Systems with Applications, 2003,39(1):1503-1509.

[12]
Kumar M A, Gopal M . A comparison study on multiple binary-class SVM methods for unilabel text categorization[J]. Pattern Recognition Letters, 2010,31(11):1437-1444.

[13]
Burbidge R, Trotter M, Buxton B , et al. Drug design by machine learning: Support vector machines for pharmaceutical data analysis[J]. Computers & Chemistry, 2002,26(1):5-14.

[14]
Genkin A, Lewis D D, Madigan D . Large-scale Bayesian logistic regression for text categorization[J]. Technometrics, 2007,49(3):291-304.

[15]
Chaudhary A, Kolhe S, Kamal R . An improved Random Forest Classifier for multi-class classification[J]. Information Processing in Agriculture, 2016,3(4):215-222.

[16]
Piskorski J, Tanev H, Atkinson M , et al. Online news event extraction for global grisis surveillance: Transactions on Computational Collective Intelligence V, 2011[C].

[17]
Wang W, Stewart K . Spatiotemporal and semantic information extraction from web news reports about natural hazards[J]. Computers Environment & Urban Systems, 2015(50):30-40.

[18]
陈宏朝, 李飞, 朱新华 , 等. 基于路径与深度的同义词词林词语相似度计算[J]. 中文信息学报, 2016,30(5):80-88.

[ Chen H C, Li F, Zhu X H , et al. A path and depth-based approach to word semantic similarity calcalation in CiLin[J]. Journal of Chinese Information Processing, 2016,30(5):80-88. ]

[19]
张波, 陈宏朝, 朱新华 , 等. 基于多重继承与信息内容的知网词语相似度计算[J]. 计算机应用研究, 2018(10):2975-2979.

[ Zhang B, Chen H C, Zhu X H , et al. Calculating word semantic similarity on HowNet based on multi-inheritance and IC approach[J]. Application Research of Computers, 2018(10):2975-2979. ]

[20]
Soucy P, Mineau G W. Beyond TFIDF weighting for text categorization in the vector space model[C]. International Joint Conference on A.pngicial Intelligence, 2005.

[21]
Baldi P, Hornik K . Neural networks and principal component analysis: Learning from examples without local minima[J]. Neural Networks, 1989,2(1):53-58.

[22]
张春菊, 张雪英, 王曙 , 等. 中文文本的事件时空信息标注[J]. 中文信息学报, 2016,30(3):213-222.

[ Zhang C J, Zhang X Y, Wang S , et al. Annotation of spatial-temporal information of event in Chinese text[J]. Journal of Chinese Information Processing, 2016,30(3):213-222. ]

文章导航

/