地球信息科学学报 ›› 2019, Vol. 21 ›› Issue (10): 1510-1517.doi: 10.12082/dqxxkx.2019.190037
收稿日期:
2019-01-21
修回日期:
2019-06-21
出版日期:
2019-10-25
发布日期:
2019-10-29
作者简介:
黄宗财(1992-),男,江西兴国人,硕士生,主要研究方向为地理信息抽取、时空数据挖掘与可视化研究。E-mail: 1262686237@qq.com
基金资助:
HUANG Zongcai1,2,QIU Peiyuan3,LU Feng2,3,WU Sheng1,2,*()
Received:
2019-01-21
Revised:
2019-06-21
Online:
2019-10-25
Published:
2019-10-29
Contact:
WU Sheng
Supported by:
摘要:
网络新闻文本在环境污染事件感知方面具有重要的应用价值。然而,由于环境污染事件的“多米诺效应”,网络新闻文本往往存在对多类型污染事件的混合描述,现有事件检测方法容易导致文本分类错误。本文提出一种基于联合主题特征的网络新闻文本蕴含环境污染事件检测方法,通过兼顾环境网络新闻文本的全局特征和主题分布特征来改善检测分类效果。该方法采用词频-逆文档频率向量对文档进行全局特征表示,并结合文档的主题分布特征向量,构建联合主题特征向量作为监督分类模型的输入,实现环境污染事件检测。实验结果表明,使用联合主题特征的支持向量机方法进行事件类别检测平均F1值相较于全局特征提高15%,相较于主题特征提高36%。本文提出的网络新闻文本蕴含环境污染事件检测方法可支持污染事件类型检测和影响信息抽取,有助于环境污染事件的时空统计与变化趋势预测。
黄宗财,仇培元,陆锋,吴升. 基于联合主题特征的网络新闻文本蕴含环境污染事件检测[J]. 地球信息科学学报, 2019, 21(10): 1510-1517.DOI:10.12082/dqxxkx.2019.190037
HUANG Zongcai,QIU Peiyuan,LU Feng,WU Sheng. Detection of Environmental Pollution Events in News Corpora based on Joint Thematic Features[J]. Journal of Geo-information Science, 2019, 21(10): 1510-1517.DOI:10.12082/dqxxkx.2019.190037
[1] | 但德忠 . 我国环境监测技术的现状与发展[J]. 中国测试技术, 2005,31(5):1-5. |
[ Dan D Z . Status and trends for development of environmental monitoring technology in China[J]. China Measurement Technology, 2005,31(5):1-5. ] | |
[2] |
余丽, 陆锋, 张恒才 . 网络新闻文本蕴涵地理信息抽取:研究进展与展望[J]. 地球信息科学学报, 2015,17(2):127-134.
doi: 10.3724/SP.J.1047.2015.00127 |
[ Yu L, Lu F, Zhang H C , et al. Extracting geographic information from web texts: Status and development[J]. Journal of Geo-information Sciences, 2015,17(2):127-134. ]
doi: 10.3724/SP.J.1047.2015.00127 |
|
[3] | 韩雪华, 王卷乐, 卜坤 , 等. 基于Web文本的灾害事件信息获取进展[J]. 地球信息科学学报, 2018,20(8):1037-1046. |
[ Han X H, Wang J L, Bu K, Wang Y J . Progress in information acquisition of disaster events from web texts[J]. Journal of Geo-information Science, 2018,20(8):1037-1046. ] | |
[4] | 梁晗, 陈群秀, 吴平博 . 基于事件框架的信息抽取系统[J]. 中文信息学报, 2006,20(2):40-46. |
[ Liang H, Chen Q X, Wu P B , et al. Information extraction system based on event frame[J]. Journal of Chinese Information Processing, 2006,20(2):42-48. ] | |
[5] | 杨腾飞, 解吉波, 李振宇 , 等. 微博中蕴含台风灾害损失信息识别和分类方法[J]. 地球信息科学学报, 2018,20(7):906-917. |
[ Yang T F, Xie J B, Li Z Y , et al. A method of typhoon disaster loss ide.pngication and classification using micro-blog information[J]. Journal of Geo-information Science, 2018,20(7):906-917. ] | |
[6] | 张仲华, 苏方方, 姬东鸿 . 生物医学事件触发词识别研究[J]. 计算机应用研究, 2017,34(3):661-664. |
[ Zhang Z H, Su F F, Ji D H . Research on ide.pngication of biomedical event trigger[J]. Application Research of Computers, 2017,34(3):661-664. ] | |
[7] | 仇培元, 张恒才, 余丽 , 等. 微博客蕴含交通事件信息抽取的自动标注方法[J]. 中文信息学报, 2017,31(2):107-116. |
[ Qiu P Y, Zhang H C, Yu L , et al. Automatic event labeling for traffic information extraction from microblogs[J]. Journal of Chinese Information Processing, 2017,31(2):107-116. ] | |
[8] | 李江龙, 吕学强, 周建设 , 等. 金融领域的事件句抽取[J]. 计算机应用研究, 2017(10):2915-2918. |
[ Li J L, Lyu X Q, Zhou J S, Liu X L , et al. Event sentence extraction in financial field[J]. Application Research of Computers, 2017(10):2915-2918.] | |
[9] | Buyko E, Faessler E, Wermter J , et al. Event extraction from trimmed dependency graphs[J]. Bionlp Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing, 2009: 19-27. |
[10] | Vlachos A, Buttery P, Séaghdha D O, et al. Biomedical event extraction without training data[C]// Proceedings of the BioNLP 2009 Workshop Companion Volume for Shared Task, 2009: 37-40. |
[11] | Jiang S, Pang G, Wu M , et al. An improved k-nearest neighbor algorithm for text categorization[J]. Expert Systems with Applications, 2003,39(1):1503-1509. |
[12] | Kumar M A, Gopal M . A comparison study on multiple binary-class SVM methods for unilabel text categorization[J]. Pattern Recognition Letters, 2010,31(11):1437-1444. |
[13] | Burbidge R, Trotter M, Buxton B , et al. Drug design by machine learning: Support vector machines for pharmaceutical data analysis[J]. Computers & Chemistry, 2002,26(1):5-14. |
[14] | Genkin A, Lewis D D, Madigan D . Large-scale Bayesian logistic regression for text categorization[J]. Technometrics, 2007,49(3):291-304. |
[15] | Chaudhary A, Kolhe S, Kamal R . An improved Random Forest Classifier for multi-class classification[J]. Information Processing in Agriculture, 2016,3(4):215-222. |
[16] | Piskorski J, Tanev H, Atkinson M , et al. Online news event extraction for global grisis surveillance: Transactions on Computational Collective Intelligence V, 2011[C]. |
[17] | Wang W, Stewart K . Spatiotemporal and semantic information extraction from web news reports about natural hazards[J]. Computers Environment & Urban Systems, 2015(50):30-40. |
[18] | 陈宏朝, 李飞, 朱新华 , 等. 基于路径与深度的同义词词林词语相似度计算[J]. 中文信息学报, 2016,30(5):80-88. |
[ Chen H C, Li F, Zhu X H , et al. A path and depth-based approach to word semantic similarity calcalation in CiLin[J]. Journal of Chinese Information Processing, 2016,30(5):80-88. ] | |
[19] | 张波, 陈宏朝, 朱新华 , 等. 基于多重继承与信息内容的知网词语相似度计算[J]. 计算机应用研究, 2018(10):2975-2979. |
[ Zhang B, Chen H C, Zhu X H , et al. Calculating word semantic similarity on HowNet based on multi-inheritance and IC approach[J]. Application Research of Computers, 2018(10):2975-2979. ] | |
[20] | Soucy P, Mineau G W. Beyond TFIDF weighting for text categorization in the vector space model[C]. International Joint Conference on A.pngicial Intelligence, 2005. |
[21] | Baldi P, Hornik K . Neural networks and principal component analysis: Learning from examples without local minima[J]. Neural Networks, 1989,2(1):53-58. |
[22] | 张春菊, 张雪英, 王曙 , 等. 中文文本的事件时空信息标注[J]. 中文信息学报, 2016,30(3):213-222. |
[ Zhang C J, Zhang X Y, Wang S , et al. Annotation of spatial-temporal information of event in Chinese text[J]. Journal of Chinese Information Processing, 2016,30(3):213-222. ] |
[1] | 李玉洁, 江洪, 刘宣广. 基于CatBoost的植被总初级生产力遥感模拟方法及在福建省的应用[J]. 地球信息科学学报, 2023, 25(9): 1908-1922. |
[2] | 黄帅元, 董有福, 李海鹏. 黄土高原区SRTM1 DEM高程误差校正模型构建及对比分析[J]. 地球信息科学学报, 2023, 25(3): 669-681. |
[3] | 周侯伯, 肖桂荣, 林炫歆, 尹玉环. 基于特征筛选与差分进化算法优化的滑坡危险性评估方法[J]. 地球信息科学学报, 2022, 24(12): 2373-2388. |
[4] | 熊皓丽, 周小成, 汪小钦, 崔雅君. 基于GEE云平台的福建省10 m分辨率茶园专题空间分布制图[J]. 地球信息科学学报, 2021, 23(7): 1325-1337. |
[5] | 邢晓语, 杨秀春, 徐斌, 金云翔, 郭剑, 陈昂, 杨东, 王平, 朱立博. 基于随机森林算法的草原地上生物量遥感估算方法研究[J]. 地球信息科学学报, 2021, 23(7): 1312-1324. |
[6] | 张春森, 贾欣, 吴蓉蓉, 崔卫红, 史书, 郭丙轩. 面向对象高分遥感影像典型自然地物半自动提取[J]. 地球信息科学学报, 2021, 23(6): 1050-1062. |
[7] | 赵泉华, 冯林达, 李玉. 基于最优极化特征组合的SAR影像湿地分类[J]. 地球信息科学学报, 2021, 23(4): 723-736. |
[8] | 李广洋, 寇卫利, 陈帮乾, 代飞, 强振平, 吴超. 多核学习算法及其在高光谱图像分类中的应用研究进展[J]. 地球信息科学学报, 2021, 23(3): 492-504. |
[9] | 毛亚萍, 房世峰. 基于机器学习的参考作物蒸散量估算研究[J]. 地球信息科学学报, 2020, 22(8): 1692-1701. |
[10] | 崔成, 任红艳, 赵璐, 庄大方. 基于街景影像多特征融合的广州市越秀区街道空间品质评估[J]. 地球信息科学学报, 2020, 22(6): 1330-1338. |
[11] | 杜培军, 王欣, 蒙亚平, 林聪, 张鹏, 卢刚. 面向地理国情监测的变化检测与地表覆盖信息更新方法[J]. 地球信息科学学报, 2020, 22(4): 857-866. |
[12] | 杨浩, 孟娜, 王婧, 郑燕, 赵莉. 基于支持向量机的京津冀城市群热环境时空形态模拟[J]. 地球信息科学学报, 2019, 21(2): 190-200. |
[13] | 李翔, 朱江, 尹向东, 姚江春, 黄嘉玲, 李密滔. 基于珞珈一号夜间灯光数据的广州市建设用地识别[J]. 地球信息科学学报, 2019, 21(11): 1802-1810. |
[14] | 李远远, 梅红波, 任晓杰, 胡旭东, 李梦迪. 基于确定性系数和支持向量机的地质灾害易发性评价[J]. 地球信息科学学报, 2018, 20(12): 1699-1709. |
[15] | 单治彬, 孔金玲, 张永庭, 李欢, 关红, 胡永新, 李健锋, 张文博. 面向对象的特色农作物种植遥感调查方法研究[J]. 地球信息科学学报, 2018, 20(10): 1509-1519. |
|