地球信息科学理论与方法
陈文君, 周陈新, Tom Lotz, 封宇乾, 朱明宇, 陈旻, 贺斌
【目的】地理学研究,尤其是对新兴地理概念的研究,受限于学科固有的复杂性以及多元研究视角,不同研究主体在认知取向和关注重点上常常存在差异,进而导致概念表述呈现多样化与异质性,影响领域知识的有效检索与系统整合。以文本主题模型为代表的地理研究主题提取方法为解决上述问题提供了关键技术路径,然而现有模型在语义解析与表达过程中存在可解释性不足的问题,呈现出“黑箱”特征,限制了该方法的实际应用。【方法】本研究以具有多学科交叉特征的“小微湿地”概念为例,提出一种基于BERT-LDA集成模型的地理研究主题提取方法。该方法融合BERT模型在长文本语义理解方面的优势与LDA模型在主题可解释性方面的能力,从大量期刊论文中提取并揭示小微湿地的研究主题及其内在关联,并通过构建论文检索规则,促进领域知识的深化与拓展。【结果】将论文中词语的高维语义特征向量有效嵌入低维主题空间,并在关键词主题影响力的计算过程中,引入特征融合调节因子,能够提升文本主题模型的语义解析与表达能力,克服现有模型的“黑箱”局限性。同时,所提出的模型迭代运行方式,能够逐步提升输出主题的区分度和代表性,并优化关键词在对应主题语义空间中的分布结构。基于万方数据库检索的 2012—2022年出版的4 606篇中文期刊论文,集成模型识别出“湿地污染净化” “城市湿地公园” “池塘水产养殖”是小微湿地的三大研究主题,进一步提取并构建由“植物” “去除” “污水” “微生物” “城市” “景观”等11个关键词构成的112条论文检索规则,实现在不依赖具体术语和命名的条件下,对领域相关论文的有效检索。【结论】在地理学综合性与交叉性的研究背景下,本文提出的方法能够从知识工程角度,有效整合因术语多样化和命名异质性而造成的分散化的领域知识,为提升学术知识挖掘方法的可解释性提供可行路径。同时,研究成果对小微湿地的保护与管理实践具有一定参考价值。