联合词汇增强的中文细粒度地理命名实体识别模型研究

李发东; 王海起; 孔浩然; 刘峰; 王志海; 王琼; 徐建波; 单宇飞; 周啸宇; 闫峰

doi:10.12082/dqxxkx.2023.220464

地球信息科学学报 >

2023 , Vol. 25 >Issue 6: 1106 - 1120

DOI: https://doi.org/10.12082/dqxxkx.2023.220464

专刊：地理时空知识图谱理论方法与应用

联合词汇增强的中文细粒度地理命名实体识别模型研究

李发东 ,
王海起 ^,^* ,
孔浩然 ,
刘峰 ,
王志海 ,
王琼 ,
徐建波 ,
单宇飞 ,
周啸宇 ,
闫峰

展开

中国石油大学（华东）海洋与空间信息学院，青岛 266580

*王海起（1972— ），男，河南南阳人，博士，副教授，主要从事地理信息与机器学习，空间和时空统计分析研究。 E-mail: wanghaiqi@upc.edu.cn

李发东（1999— ），男，湖北咸宁人，硕士生，主要从事主题模型研究与地理命名实体识别研究。 E-mail: 931792091@qq.com

收稿日期: 2022-07-01

修回日期: 2022-07-27

网络出版日期: 2023-06-02

基金资助

山东省自然科学基金项目(ZR2021MD068)

收起

Research on Chinese Fine-grained Geographic Entity Recognition Model based on Joint Lexicon Enhancement

LI Fadong ,
WANG Haiqi ^,^* ,
KONG Haoran ,
LIU Feng ,
WANG Zhihai ,
WANG Qiong ,
XU Jianbo ,
SHAN Yufei ,
ZHOU Xiaoyu ,
YAN Feng

Expand

College of Oceanography and Space Informatics, China University of Petroleum ( East China ), Qingdao 266580, China

*WANG Haiqi, E-mail: wanghaiqi@upc.edu.cn

Received date: 2022-07-01

Revised date: 2022-07-27

Online published: 2023-06-02

Supported by

Shandong Natural Science Foundation(ZR2021MD068)

Fold

摘要

命名实体识别（NER）是自然语言处理众多研究基础，其可以被定义为分类任务，旨在从非结构化文本中定位出命名实体，同时将命名实体分类成预定义类别。与英文相比，中文构词灵活、不具有边界性，且缺乏高质量中文NER数据集，导致中文命名实体识别难度较大。细粒度实体是粗粒度实体的细分类型，中文细粒度命名实体尤其是地理命名实体识别难度更大。中文地理命名实体识别无法同时兼顾精度和召回率，改善中文细粒度地理命名实体识别性能至关重要。因此，本文提出2种联合词汇增强模型的中文细粒度地理命名实体识别模型。首先，将词汇作为“知识”注入模型，基于词汇增强方式探究适合细粒度命名实体识别方法，并找出适合细粒度命名实体识别方法BERT-FLAT以及LEBERT；其次，为进一步提升细粒度地理命名实体识别性能，针对上述2种方法在预训练模型、对抗训练以及随机权重平均3个方面进行改进，形成联合词汇增强模型RoBERTa-wwm-FLAT以及LE-RoBERTa-wwm；最后，对联合词汇增强模型进行消融实验，探究不同改进策略对于地理命名实体识别性能影响。基于CLUENER数据集和1个微博数据集的实验表明：① 与无词汇增强功能模型相比，具有词汇增强功能模型在细粒度命名实体识别任务中F1-score提升了10%左右； ② 针对词汇增强方法进行的3处改进使模型在细粒度地理命名实体识别任务中F1-score提升了0.36%~2.35%； ③ 与对抗训练改进、随机权重平均改进相比，预训练模型改进对地理命名实体识别精度的影响最大。

关键词： 命名实体识别; 自然语言处理; 中文细粒度实体; 地理命名实体识别; 词汇增强; 预训练模型; 对抗训练; 随机权重平均

本文引用格式

李发东 , 王海起 , 孔浩然 , 刘峰 , 王志海 , 王琼 , 徐建波 , 单宇飞 , 周啸宇 , 闫峰 . 联合词汇增强的中文细粒度地理命名实体识别模型研究[J]. 地球信息科学学报, 2023 , 25(6) : 1106 -1120 . DOI: 10.12082/dqxxkx.2023.220464

Abstract

Named Entity Recognition (NER) is the basis of many researches in natural language processing. NER can be defined as a classification task. The aim of NER is to locate named entities from unstructured texts and classify them into different predefined categories. Compared with English, Chinese have the features of flexible formation and no exact boundaries. Because of the features of Chinese and the lack of high-quality Chinese named entity datasets, the recognition of Chinese named entities is more difficult than English named entities. Fine-grained entities are subdivisions of coarse-grained entities. The recognition of Chinese fine-grained named entities especially Chinese fine-grained geographic entities is even more difficult than that of Chinese named entities. It is a great hardship for Chinese geographic entity recognition to take both accuracy and recall rate into account. Therefore, improving the performance of Chinese fine-grained geographic entities recognition is quite necessary for us. In this paper we proposed two Chinese fine-grained geographic entity recognition models. These two models are based on joint lexical enhancement. Firstly, we injected the vocabulary into the experimental models. The vocabulary was considered as the 'knowledge' in the models. Then we explored the appropriate fine-grained named entity recognition method based on vocabulary enhancement. And we found two models, BERT-FLAT and LEBERT, that were suitable for fine-grained named entity recognition. Secondly, to further improve the performance of these two models in fine-grained geographical named entities recognition, we improved the above two models with lexical enhancement function in three aspects: pre-training model, adversarial training, and stochastic weight averaging. with these improvements, we developed two joint lexical enhancement models: RoBERTa-wwm-FLAT and LE-RoBERTta-wwm. Finally, we conducted an ablation experiment using these two joint lexical enhancement models. We explored the impacts of different improvement strategies on geographic entity recognition. The experiments based on the CLUENER dataset and one microblog dataset show that, firstly, compared with the models without lexical enhancement function, the models with lexical enhancement function have better performance on fine-grained named entities recognition, and the F1-score was improved by about 10%; Secondly, with the improvements of pre-training model, adversarial training, and stochastic weight averaging, the F1-score of the fine-grained geographic entity recognition task was improved by 0.36%~2.35%; Thirdly, compared with adversarial training and stochastic weight averaging, the pre-trained model had the greatest impact on the recognition accuracy of geographic entities.

Key words： named entity recognition; natural language processing; Chinese fine-grained geographic entity; geographic entity recognition; vocabulary enhancement; pre-training model; adversarial training; stochastic weight averaging

1 引言

互联网时代海量文本信息应运而生，包括社交文本在内的网络信息呈现非结构化、碎片化特点，自然语言处理能够从非结构化文本中挖掘结构化信息，被誉为人工智能皇冠上的明珠。命名实体识别（Named Entity Recognition，NER）是自然语言处理众多研究如知识图谱、机器翻译^[1]、问答系统^[2-3]等的基础。命名实体识别可以被定义为分类任务，旨在从非结构化文本中定位出命名实体，同时将命名实体分类成预定义类别。与英文相比，中文构词灵活、不具有边界性，且缺乏高质量中文NER数据集，导致中文命名实体识别难度较大，细粒度实体是粗粒度实体的细分类型^[4]，如省市区为粗粒度实体，而详细地址、特定机构名称则为细粒度实体，中文细粒度命名实体识别尤其是地理命名实体识别难度更大。地理命名实体识别（Geographic Entity Recognition）无法兼顾识别精度和召回率^[5]，改善中文细粒度地理命名实体识别表现至关重要。

中文命名实体识别可分为基于规则的方法、基于统计机器学习的方法以及基于深度学习的方法。① 基于规则。基于规则的方法依靠汉语语言中的关键字、标点符号等规则模板^[1]，Wang等^[6]在1992年利用子语言特性提出一种中文人名识别方法。② 基于统计机器学习。基于统计机器学习的方法需要手工设置相应的语言特征，通过统计类或机器学习模型对特征完成实体标签分类任务。Fresko等^[7]提出基于最大熵马尔科夫模型（MEMM）的命名实体识别方法，采用MEMM作为分类器进行实体识别任务；Lafferty等^[8]采用条件随机场（CRF）概率模型，对序列标签在概率上进行分类；Xu等^[9]基于CRF模型建立起中文分词、命名实体识别以及词性标注的系统。③ 基于深度学习。基于深度学习的中文实体识别框架可分为输入表示层、上下文编码层、标签解码层，在输入表示层中，汉语通常以字或词语作为最小单位，其输入方式分为字符级嵌入与词汇级嵌入。Zhu等^[10]采用医学语料库，通过word2vec方式训练了词汇级别嵌入；由于中文分词存在误差，中文NER方法往往基于字符级作为嵌入，Ye等^[11]提出了一种结合词汇向量以及字符向量的中文命名实体识别模型CWVF-BiLSTM-CRF，使用word2vec生成字向量以及词向量，通过双向LSTM上下文学习，最后利用CRF解码；Zhang等^[12]提出了一种格网化LSTM结构，通过对词汇边界的关注提升实体识别表现，此后基于词汇增强^{[13⇓⇓-16]}的方法在中文命名实体识别中发展迅速。上下文编码层部分以基于RNN、CNN以及Transformer的模型为主，Wang 等^[17]提出一种基于卷积神经网络的门控思路，分别使用多个数据集对繁体中文和简体中文进行识别；Chen等^[18]提出一种基于卷积神经网络的门控关系网络（GRN），在捕捉长距离相关性方面弥补了卷积神经网络的不足；Li等^[19]提出一种基于循环神经网络的命名实体识别模型，该方法将词汇和字符信息组合在一起。随着Transformer的兴起，基于Transformer的结构在NER中得到飞速发展，Wu等^[15]提出了一种基于字符、词汇特征、部首偏旁特性的多元信息融合模型MECT，该方法设计了一种交叉Transformer结构，交叉Transformer中通过交换字符词汇与部首偏旁的Q、K、V算子进行多头注意力学习，最后合并2种输出并采用CRF解码；Liu等^[16]提出一种基于词汇增强LEBERT模型，该方法采用词典适配器方式将词汇信息融入BERT编码的字向量，通过BERT语言模型进行上下文编码。在标签解码层中，条件随机场是中文NER模型中较为常用的方法，Dong等^[20]提出一种基于多通道LSTM-CRF方法，用于识别社交文本中的非正式表达实体；Liu等^[21]在基于CRF的医学临床领域命名实体识别中增加了4个特征，并通过医学词典来学习这些特征。

地理命名实体表示文本中带有地理位置属性信息的命名实体，例如地名、地址、机构名等。地理命名实体识别主要分为基于地名词典的方法与自然语言处理的方法。① 基于地名词典。基于地名词典的方法主要通过词典匹配方式完成地理命名实体识别，因此词典构建尤为重要，Amitay等^[23]提出一个包含世界各地城市的地名录Web-a-Where系统，该系统可从网页上识别地名；由于新的地名与机构名不断出现^[22]，地名词典需不断更新，Twaroch等^[24]提出一个名为人民地名的平台，通过用户贡献当地地名的方式对地名库进行扩充；Gelernter等^[25]开发一种自动方法，该方法可从OpenStreetMap和Wikimapia获取地名录；Hu等^[26]通过房屋广告信息中的当地地名来对地名词典扩充；过量的词典加载会提高模型的运行成本，乐小虬等^[27]通过文本中相关地理编码锁定空间范围进行单句识别，有效的减少了词典的加载量。② 自然语言处理。Finkel等^[28]使用基于条件随机场的Standford NER工具进行地理命名实体识别； Purves等^[29]提出基于语法规则构建地名的上下文识别方法；毛波等^[30]利用序列标注问题代替地面识别问题，结合规则与条件随机场模型实现了对复杂地名的识别任务；Xu等^[31]构建了一个中文细粒度命名实体识别数据集CLUENER，其中细粒度地址信息可以精细到门牌号尺度，该数据集在BERT、RoBERTa-wwm-large-ext以及BiLSTM-CRF上进行了测试，尽管全部实体识别表现良好，但地址实体的识别精度最高仅有63.27%；Hu等^[5]针对飓风灾害社交文本，采用StanfordNER以及 spaCyNER现有工具进行地理命名实体识别，但现有工具认为细粒度地理命名实体如详细地址是由多个地名实体如市区名、街道名等构成，其识别精度虽然达到70%左右，但召回率却低于50%；Ma等^[32]针对社交媒体进行地名识别，提出一种BERT-BiLSTM-CRF方法，实验表明，该模型优于现有中文地理命名实体识别方法，但在细粒度地名实体识别任务中，仅靠挖掘输入文本特征难以确定细粒度实体的准确边界，识别精度与召回率只有60%左右。现有工具与方法实现了地理命名实体的识别任务，但在细粒度地名、机构名识别中无法兼顾精度与召回率。

上述研究表明，过往地理命名实体识别研究中所采用的NLP工具与方法并未将词汇“知识”注入模型，识别过程中实体边界模糊不清，效果较差。词汇增强通过融入外部词典^[33]，加入了传统NER方法不能从文本中直接挖掘出来的词汇“知识”，有助于准确确定实体边界与正确预测实体类型。本文针对具有词汇增强功能的命名实体识别方法进行改进，提出了2种联合词汇增强的中文细粒度地理命名实体识别模型，将联合词汇增强模型同其他具有词汇增强功能模型以及无词汇增强功能模型进行比较，并针对联合词汇增强模型的不同改进进行消融实验，探究不同改进策略对地理命名实体识别性能的影响。

2 细粒度地理命名实体识别研究方法

基于Transformer的预训练语言模型（GPT^[34]、BERT^[35]、XLNet^[36]、RoBERTa^[37]等）的飞速发展为上下文向量表征提供了强有力工具，知识图谱、词典等为命名实体识别模型提供了“知识”辅助，将“知识”注入细粒度地理命名实体识别模型，能够提升模型上下文推理能力。

研究框架如图1所示，首先，对原始模型进行模型筛选，找出适合细粒度命名实体识别的词汇增强模型；其次，为进一步提升地理实体识别性能，针对适合细粒度命名实体识别的词汇增强模型进行相应改进，并对改进后的细粒度地理命名实体识别模型进行模型评估与消融实验，探究影响地理实体识别的关键因素。本章节详细阐述所采用的3种模型优化策略：RoBERTa-wwm-ext预训练模型、FGM对抗扰动策略、随机权重平均，并详述所提出的2种联合词汇增强的中文细粒度地理实体识别模型：LE-RoBERTa-wwm与RoBERTa-wwm-FLAT。

显示原图|下载原图ZIP|生成PPT

图1 细粒度地理命名实体识别模型的筛选与改进流程

Fig. 1 Screening and improving process of fine-grained geographic named entity recognition model

2.1 RoBERTa-wwm-ext预训练模型

RoBERTa-wwm-ext模型具有全词掩码策略，该策略可以连续掩盖住短语或实体词（图2）。此外，该模型在中文维基百科语料的基础上添加了其他百科、新闻作为训练语料补充，与BERT模型相比，有更长的预训练时间以及更大的预训练语料，将适合细粒度实体识别模型中BERT替换为BoBERTa-wwm-ext能有效提高模型的分词能力。

显示原图|下载原图ZIP|生成PPT

图2 全词掩码策略

Fig. 2 The strategy of whole-word mask

2.2 FGM对抗训练策略

由于地理命名实体细粒度程度较高，数据集存在标注错误或漏掉标注的情况，这种微小的误差，对于鲁棒性较差的模型则会大幅影响性能，对抗训练的方式可在一定程度上增强模型的鲁棒性，提升模型泛化能力。

Goodfellow^[38]提出的FGM（Fast Gradient Method）方法通过对抗训练引入噪声，从而对参数进行正则化，以提升模型泛化能力。这种方式的前提是假设训练数据加入扰动后，其分布特征同未加扰动时保持一致。本研究属于有监督学习，并且损失函数为交叉熵损失，通过对抗训练加入扰动

r a d v

后的交叉熵损失函数如式（1）所示。

（1）

F l o s s = - l o g p y ∣ x + r a d v; θ r a d v = a r g m i n r, ∥ r ∥ ≤ ϵ l o g p y ∣ x + r; θ ˆ

式中：

r

为输入的扰动；

θ

为分类器参数；

θ ˆ

是文本分类器当前参数的集合。式（1）表明计算扰动时并不对参数进行更新。通过每次训练，求出当前模型最糟糕情况下的扰动，并将这一扰动加到输入中，以训练模型鲁棒性，FGM具体步骤如下所示：

（1）连续的句子序列，生成字或词嵌入向量

x

传入模型中，计算前向传播

l o s s

，反向传播获得梯度。

（2）根据字或词嵌入矩阵

x

获得的梯度，通过式(1)计算出对抗扰动

r a d v

并添加到嵌入中，即为

x + r a d v

；而此时计算扰动时，不对模型参数更新。

（3）计算

x + r a d v

的前向传播

l o s s

，通过反向传播得到加入对抗扰动后的梯度，将此梯度与（1）中梯度累加。

（4）将变动后字或词嵌入

x + r a d v

恢复到第（1）步时的数值，重复前3步操作。

（5）根据第（3）步累加后的梯度调整参数更新。

2.3 随机权重平均

深层神经网络中，随机梯度下降（Stochastic Gradient Descent，SGD）可使模型优化更快，然而SGD方法作为优化器训练时，很可能会使梯度下降持续振荡，容易陷入局部最优点。随机权重平均方法^[39]（Stochastic Weight Averaging，SWA）是对于SGD优化器的改进，此方法对一个周期内的训练参数取滑动平均值，提升模型训练过程中局部寻优能力。

该改进仅利用SWA对于SGD参数滑动平均的策略，而不进行学习率衰减，以避免SGD优化器振荡的影响，具体步骤为：

（1）算法开始于一个预训练的权重

w ˆ

，并且设置循环轮次为

c

，SWA有着2个权重参数，

w

为每1次迭代过程的参数，而

w S W A

则是每

c

次更新的参数，2种参数均初始化为

w ˆ

。

（2）每一次训练时，模型按照正常的SGD迭代方式训练，更新

w

参数，而达到循环轮次

c

时，则更新

w S W A

，其计算过程如式(2)所示，其中

n m o d e l s

表示这是模型第几次达到循环轮次。

（3）模型收敛后，选择

w S W A

作为训练参数。

（2）

w S W A = w S W A . n m o d e l s + w n m o d e l s + 1

2.4 LE-RoBERTa-wwm模型

LEBERT^[16]将词汇特征信息融入到预训练模型底层编码中，使得词汇特征以及字符特征随着预训练模型进行上下文学习。LE-RoBERTa-wwm方法基于LEBERT^[16]对预训练模型进行了1处改进，将BERT替换为RoBERTa-wwm-ext，如图3所示。给定一句话“中国人民”，可表示为

s c = c 1, c 2, c 3, c 4

，对于每个字符“中”、“国”、“人”、“民”，通过汉语词典

D

，可以找出这句话中所有潜在词汇，分别为：“中国”、“中国人”、“国人”、“人民”，字符与多个词汇构建起了“字符-词汇”映射关系：

s c w = c 1, w s 1, c 2, w s 2, …, c n, w s n

，此映射关系能够充分利用输入文本的词汇信息，有利于模型对实体边界的判断。

显示原图|下载原图ZIP|生成PPT

图3 GER过滤流程

Fig. 3 GER filtering process

为便于Transformer结构接纳字符和词汇信息，字符以及词汇均需要嵌入成向量形式；字符“中”表示为

c 1

，通过预训练模型RoBERTa-wwm-ext编码层嵌入为字向量

h 1 c

，而一个字符对应多个词汇，因而多个词汇通过词嵌入方式构成多个词向量，即为

x 1 w s = x 11 w, x 12 w, …, x 1 m w

，而

x 1 w s

中第j个词向量表示为：

（3）

x 1 j w = e w w 1 j

式中：

w 1 j

表示

w s 1

第j个词汇；

e w

选用腾讯词嵌入表^[40]作为构建词向量的词查询表。

一个字符向量匹配多个词汇向量，并且每一个词汇向量与字符向量维度均不一致，因而需要将每一个词汇向量与字符向量对齐并进行非线性融合，融合公式为：

（4）

v i j w = W 2 t a n h W 1 x i j w + b 1 + b 2

式中：

W

和

b

均为可学习的参数，最终形成的

v i j w

与字符向量有着相同的维度。

采用词典适配器（Lexicon Adapter）的方式融合维度一致的字符向量和多个词汇向量，词典适配器结构如图4所示。字向量

h 1 c

所对应的多个词汇向量

V 1

包含多个词汇嵌入向量，表示为

V 1 = v 11 w, …, v 1 m w

，通过双线性注意力模块可对字符向量和多个词汇嵌入进行融合计算，如式(5)所示。

显示原图|下载原图ZIP|生成PPT

图4 词典适配器融合

Fig. 4 Dictionary adapter fusion

（5）

a 1 = s o f t m a x h 1 c W a t t n V 1 T

其中，

W a t t n

为双线性注意力模块的权重参数，通过双线性注意力模块后，第一个字符“中”的输出可以表示为：

（6）

z 1 w = ∑ j = 1 m a 1 j v 1 j w

加权后的词汇信息与字符特征进行融合，如式（7）所示。

（7）

h ˜ 1 = h 1 c + z 1 w

最终，通过一层CRF解码器，约束相邻标签之间的依赖性，得出“中”的最佳标注序列为 “B-LOC”。

2.5 RoBERTa-wwm-FLAT模型

RoBERTa-wwm-FLAT基于BERT-FLAT^[13]模型进行了3处改进。在预训练模型中，将BERT替换为RoBERTa-wwm-ext；在词嵌入部分，加入对抗训练策略FGM，提升模型鲁棒性；在优化器部分，针对SGD优化器添加了随机权重平均（SWA），以减轻模型训练过程发生的震荡。该模型融合了字符、词汇以及相对位置编码信息，如图5所示。

显示原图|下载原图ZIP|生成PPT

图5 RoBERTa-wwm-FLAT模型结构

Fig. 5 The structure of RoBERTa-wwm-FLAT

字符嵌入通过RoBERTa-wwm-ext预训练语言模型编码生成，而词嵌入同LE-RoBERTa-wwm一致，通过词典嵌入为词向量，同时配合FGM对抗训练策略，字符嵌入同词汇嵌入进行串联、归一化操作。此外，该模型仿照Transformer位置编码特性，设计了一种相对位置编码嵌入方式Lattice Transformer，以更好学习词汇边界信息，每一个字符以及词汇设计了2个位置编码索引，分别为字符头部（Head）以及尾部（Tail），如图6所示。

显示原图|下载原图ZIP|生成PPT

图6 首尾相对位置编码

Fig. 6 Head and tail relative position coding

该模型同时设计了一种具有一定跨度的相对位置编码矩阵，为了增加位置编码多样性，对于第i个字符或词汇以及第j个字符或词汇，分别令二者的头部位置编码和尾部位置编码进行两两交互，如式（8）所示，这样便可以构建4个相对位置编码矩阵。

（8）

d i j h h = h e a d i - h e a d j d i j h t = h e a d i - t a i l j d i j t h = t a i l i - h e a d j d i j t t = t a i l i - t a i l j

式中：

d i j h h

表示第i个字符或词汇的头部编码与第j个字符或词汇头部编码间的距离。为进一步挖掘相对位置编码蕴含的上下文语义信息，对上述4种相对位置编码矩阵进行非线性变换，利用可学习参数进一步挖掘特征，通过一个非线性Relu函数以构建最终的相对位置编码信息，如式（9）所示。

（9）

R i j = R e L U W r p d i j h h ⊕ p d i j t h ⊕ p d i j h t ⊕ p d i j t t

式中：

W r

表示一个可学习权重参数；

⊕

表示concat串联拼接，其中

P d

的运算过程如式（10）所示。

（10）

p d 2 k = s i n d / 10000 2 k / d m o d e l p d 2 k + 1 = c o s d / 10000 2 k / d m o d e l

式中：

d

表示式(8)中的相对位置编码；

k

表示相对位置编码的维度。

相对位置编码特征经过Head以及Tail编码成4个位置编码矩阵，之后经过非线性过程构成上下文相对位置编码信息，为了能够传入Transformer中进行特征抽取学习，非线性输出的相对位置编码需进行一定变动，如式（1）所示。

（11）

A i j * = Q i + u ⊤ K j + Q i + v ⊤ R i j *

式中：

R i j * = R i j ∙ W R

，随后通过式(12)，获得缩放点积映射到的

Q, K, V

注意力特征。

（12）

A t t A *, V = s o f t m a x A * V A i j * = Q i + u ⊤ K j + Q i + v ⊤ R i j * Q, K, V = E x W q, W k, W v

式中

W q ∈ R d m o d e l × d h e a d

,并且

u, v ∈ R d h e a d

，均为可学习参数，最终通过CRF条件随机场进行解码，输出最佳标注序列。

3 实验与分析

本节采用2个细粒度实体数据集，通过对比实验，评估不同模型的细粒度实体识别性能，并进一步对所提出2个地理实体识别模型进行消融实验，探究不同改进因素对于地理实体识别性能影响。

3.1 数据来源

采用数据集为细粒度实体基准数据集CLUENER^[31]和1个自制微博数据集TrafficNER，数据详情见表1。TrafficNER实体类型为地名、机构名、时间、车辆类型实体共4种，而CLUENER实体类别为地址、机构名等共10种。

表1 CLUENER数据集与TrafficNER数据集数据详情

Tab. 1 CLUENER dataset and TrafficNER dataset data details

数据集	数据类型	数据来源	实体标签类别	文本数量/条
CLUENER	新闻文本	CLUENER	10	12 091
TrafficNER	社交文本	网络爬虫	4	4000

微博数据集TrafficNER内容为2009年8月16日——2020年10月30日包含关键词“交通事故”、“道路交通事故”、“车祸”、“发生车祸”的微博文本，共计290余万条，如图7所示，该数据集包含丰富的细粒度实体信息。为构建高质量地理实体识别数据集，对TrafficNER进行以下预处理过程：

显示原图|下载原图ZIP|生成PPT

图7 微博细粒度文本

Fig. 7 Micro-blog fine-grained text

（1）文本筛选。城市主干道路交通事故在微博上受关注较高，其地理位置详细，细粒度程度较高，因而这类高质量文本作为数据筛选的保留对象。为获取包含细粒度地理实体的文本，使用正则表达式缩小范围，利用城市主干道路发生事故时的55个相关词和376个无关词，筛选出42万余条微博，筛选流程如图8所示，相关词、无关词类别见表2。

显示原图|下载原图ZIP|生成PPT

图8 微博文本筛选规则

Fig. 8 The filtering rules of micro-blog text

表2 细粒度地理命名实体筛选词类别

Tab. 2 Fine-grained geographic named entity filter word categories

	类别	实体示例
相关词	事故触发词	发生、碰撞等
	方位词	向东、东侧等
	道路特征词	路、街、交叉口等
	地名特征词	院、馆、楼等
无关词	事发地点模糊	高速、乡道、国道等
	交通宣传	整治、开展、咨询等
	非现实车祸	女主、男主、电影等
	情绪宣泄	人生、情绪、厌倦等
	统计文本	一季度、增幅等

（2）数据清洗。社交文本中掺杂大量网络用语和字符噪声，使用正则表达式剔除TrafficNER数据集上的网址、表情、符号等噪声。

（3）数据标注。为便于命名实体识别任务，随机抽取4 000条微博文本数据，对地名、机构名、时间、车辆类型4种实体进行标注，标注数量分别为：12 163、1 169、3 063、4 284，其中地理实体数量占比为64%，进一步表明TrafficNER是以地理实体为主导的数据集。标注方式依照BIO、BMEOS原则，较长的实体需标注为1个实体，不采取嵌套标注形式，其中B表示实体开始部分，I、M表示实体中间部分，E表示实体结尾部分，S表示单字符实体，O表示无关实体。

（4）数据集划分。按照3:1:1比例随机划分训练、验证、测试集。

CLUENER数据集来源于清华大学公开新闻类数据集THUCNEWS^[41]，部分数据通过细粒度实体标注后生成这一细粒度基准数据集。该数据集只包含训练与测试集，比例约为8:1，实验中同时将训练集作为验证集，该数据集包含10类标签，其中也包含地址实体、组织机构实体两类地理命名实体，并且地址实体粒度可达到门牌号这一尺度，相比于TrafficNER尺度更细，识别难度更大，10类标签信息如表3所示。

表3 CLUENER数据集数据标签

Tab. 3 CLUENER dataset data labels

实体名称	实体示例	实体数量/条
地址（address）	XX省XX市XX区XX街XX门牌号	3 193
书名（book）	小说、教材书、杂志等	1 283
公司（company）	XX公司、XX集团、XX银行等	3 263
政府（government）	中央行政机关以及地方行政机关	2 041
游戏（game）	常见的游戏	2 612
电影（movie）	电影、记录片等	1 259
姓名（name）	一般为人名	4 112
组织机构（organization）	篮球队、足球队、乐团、社团等	3 419
职位（position）	职称等	3 477
景点（scene）	常见的旅游地点	1 661

3.2 实验环境与参数

本次实验所采用运行环境版本、依赖包配置以及相关详细参数如表4所示。

表4 环境配置详情

Tab. 4 Environment Configuration Details

项目	详情
GPU	GTX 1650 GTX 1080Ti
内存	16 GB 128 GB
操作系统	Windows 11 Window server 2012
CUDA	11.2 10.0
编程语言	Python3.7
深度学习框架	Pytorch-gpu 1.7.1 Pytorch-gpu 1.4.0 TensorFlow-gpu 1.14.0

3.3 实验评估指标

为评估不同解码器作用于命名实体识别任务的效果，选用精度（Precision）、召回率（Recall）和宏观调和平均数（F1-score）3类评价指标，具体计算方式如下：

（13）

P r e c i s i o n = T P T P + F P

（14）

R e c a l l = T P T P + F N

（15）

F 1 - s c o r e = 2 × p r e c i s i o n × r e c a l l p r e c i s i o n + r e c a l l

式中：TP为真阳率，表示命名实体识别任务分类正确，模型认为该样本为此类标签，且实际上该样本确实是这一类标签；FP为真阴率，表示命名实体识别任务分类错误，模型认为该样本是这类标签，但实际上该样本并不是这一类标签；FN为假阴率，表示命名实体识别分类错误，模型认为该样本不是这类标签，实际上该样本确实为这类标签。

3.4 模型筛选

3.4.1 细粒度命名实体识别实验

本文所提出的2个联合词汇增强模型，是针对2个具有词汇增强功能模型LEBERT^[16]、BERT-FLAT^[13]改进后的成果。细粒度命名实体识别实验，是为了评估改进前的LEBERT、BERT-FLAT模型，与具有词汇增强功能NER方法Lattice LSTM^[12]、K-BERT^[14]、Soft Lexicon^[42]、MECT^[15]，以及无词汇增强功能NER方法BERT-Softmax、BERT-CRF、BERT-BILSTM-CRF^[32]的性能指标，其中K-BERT模型采用中文维基百科知识图谱三元组，MECT采用汉语拆字词典。采用TrafficNER、CLUENER作为细粒度命名实体数据集，选用精度、召回率和调和平均数评估全部细粒度命名实体识别性能，实验结果如表5所示。

表5 基于词汇增强细粒度实体识别结果

Tab. 5 Fine-grained entity Recognition results based on vocabulary enhancement

方法	TrafficNER			CLUENER
方法	Precision/%	Recall/%	F1-score/%	Precision/%	Recall/%	F1-score/%
LEBERT	94.40	94.85	94.55	80.70	84.32	82.45
BERT-FLAT	94.36	94.61	94.47	83.88	82.50	83.03
Lattice LSTM	87.58	86.99	88.18	71.04	67.71	69.33
K-BERT	88.00	87.20	87.60	79.20	82.50	80.80
Soft Lexicon	87.17	88.11	87.63	75.76	73.44	74.58
MECT	88.06	88.93	88.49	76.75	77.25	77.00
BERT-Softmax	89.76	89.46	89.10	79.42	79.92	79.67
BERT-BiLSTM-CRF	88.73	90.75	89.73	66.81	76.92	71.51
BERT-CRF	89.99	90.82	90.40	79.81	80.96	80.38

由表5可知，LEBERT、BERT-FLAT模型F1-score分别在2个细粒度实体数据集上取得最优结果，并且优于其他具有词汇增强功能NER方法以及无词汇增强功能NER方法，表明上述2个模型适合于细粒度命名实体识别，同时也表明具有词汇增强功能能有效提高模型在细粒度命名实体识别任务中的性能。

K-BERT与MECT均为具有词汇增强功能NER方法，其中，K-BERT因缺乏交通领域知识而采用开放领域知识图谱，导致模型注入过量外部“知识”，过量外部知识的注入会导致模型对句子含义的理解产生偏差。而MECT由于不具有新华字典权限，只能选取较小的拆字词典。词汇规模的不适当导致2个模型识别性能不如无词汇增强功能的BERT系列模型，因此合适的词汇规模对词汇增强模型尤为重要。

3.4.2 细粒度地理命名实体识别实验

本次实验选取所提出的2个联合词汇增强模型：LE-RoBERTa-wwm、RoBERTa-wwm-FLAT，同时选择2个原生词汇增强模型：LEBERT、BERT-FLAT，此外，添加了无词汇增强功能的地理命名实体识别模型：BERT-Softmax、BERT-BiLSTM-CRF以及BERT-CRF。采用2个细粒度实体数据集TrafficNER以及CLUENER，选用精度、召回率和调和平均数评估全部实体、地理命名实体（地名、机构名）的识别性能，实验结果如表6所示。

表6 基于词汇增强联合模型的细粒度地理实体识别结果

Tab. 6 Results of fine-grained geographic entity recognition based on lexicon enhanced joint model (%)

方法	实体类别	TrafficNER			CLUENER
方法	实体类别	Precision	Recall	F1-score	Precision	Recall	F1-score
LE-RoBERTa-wwm	全部实体	94.62	94.98	94.72	82.27	84.02	83.09
	地名	93.65	95.34	94.49	74.93	77.61	76.25
	机构名	95.90	95.10	95.50	79.09	78.06	78.57
LEBERT	全部实体	94.40	94.85	94.55	80.70	84.32	82.45
	地名	94.00	95.37	94.68	73.94	77.67	75.76
	机构名	95.36	96.41	95.88	78.54	79.02	78.78
RoBERTa-wwm-FLAT	全部实体	94.72	93.77	94.23	84.65	84.67	84.57
	地名	93.90	94.48	94.19	77.42	78.14	77.78
	机构名	96.00	92.69	94.32	80.69	75.31	77.91
BERT-FLAT	全部实体	94.36	94.61	94.47	83.88	82.50	83.03
	地名	93.48	94.19	93.83	75.72	75.50	75.61
	机构名	94.80	94.21	94.50	82.44	69.74	75.56
BERT-Softmax	全部实体	89.76	89.46	89.10	79.42	79.92	79.67
	地名	86.16	89.86	87.97	66.85	65.42	66.12
	机构名	81.01	88.48	84.58	79.89	79.02	79.45
BERT-BiLSTM-CRF	全部实体	88.73	90.75	89.73	66.81	76.92	71.51
	地名	88.20	88.81	88.50	53.32	73.19	61.69
	机构名	86.46	91.24	88.79	59.67	69.75	64.32
BERT-CRF	全部实体	88.73	90.75	89.73	66.81	76.92	71.51
	地名	88.20	88.81	88.50	53.32	73.19	61.69
	机构名	86.46	91.24	88.79	59.67	69.75	64.32

由表6可知，LE-RoBERTa-wwm、RoBERTa-wwm-FLAT模型F1-score分别在2个细粒度实体数据集全部实体上取得最优结果，并且优于其他具有词汇增强功能NER方法以及无词汇增强功能的NER方法，表明联合词汇增强模型对于细粒度命名实体识别的先进性。

地理命名实体识别中，无词汇增强功能的NER方法，对于地名实体识别在F1-score上不到70%，识别效果不佳，而LE-RoBERTa-wwm和RoBERTa-wwm-FLAT相比无词汇增强功能的NER方法对于地理命名实体识别在F1-score上提升10%左右，也表明无词汇增强功能NER方法对于地理命名实体识别的不足，而具有词汇增强功能的方法具有一定地理命名实体识别能力。

针对联合词汇增强模型同改进前模型进行对比，可以看出，对于LE-RoBERTa-wwm模型，仅在CLUENER一个数据集上对地名实体识别性能提升了0.49%；对于RoBERTa-wwm-FLAT模型，在TrafficNER和CLUENER上地理命名实体识别均取得显著提升，F1-score提升了0.36%~2.35%。上述实验结果表明，所提出的2个联合词汇增强模型对于地理命名实体识别具有一定优势。

对比所提出的两个模型在不同数据集上的实验结果看出，LE-RoBERTa-wmm在TrafficNER训练集上的结果均优于RoBERTa-wwm-FLAT，而在CLUENER训练集上，RoBERTa-wwm-FLAT地名实体F1得分高于LE-RoBERTa-wmm。CLUENER数据集中地址实体精确到门牌号，而TrafficNER数据集中的地名实体只达到街道路口，相比而言，CLUENER数据集中的地址实体比TrafficNER数据集中的地名实体细粒度更高，识别难度更大。因此若数据集中地名实体细粒度与CLUENER数据集中地址实体细粒度相似时使用RoBERTa-wwm-FLAT，若地名实体细粒度与TrafficNER数据集中地名实体细粒度相似时使用LE-RoBERTa-wmm。

3.5 消融实验

RoBERTa-wwm-FLAT模型进行了3处改进，为进一步探究每一处改进对该模型地理实体识别性能影响，对模型在相同参数下进行消融实验，其中，w/o SWA、w/o FGM和w/o PTM分别表示对于随机权重平均、对抗扰动策略以及预训练模型的消融实验，实验结果如表7所示。

表7 消融实验结果

Tab. 7 Ablation results (%)

方法	实体类别	TrafficNER			CLUENER
方法	实体类别	Precision	Recall	F1-score	Precision	Recall	F1-score
RoBERTa-wwm-FLAT	地名	93.90	94.48	94.19	77.42	78.14	77.78
RoBERTa-wwm-FLAT	机构名	96.00	92.69	94.32	80.69	75.31	77.91
RoBERTa-wwm-FLAT (w/o SWA)	地名	93.62	94.59	94.10	78.65	76.20	77.41
RoBERTa-wwm-FLAT (w/o SWA)	机构名	95.06	92.97	94.00	83.57	69.26	75.74
RoBERTa-wwm-FLAT (w/o FGM)	地名	93.40	94.35	93.87	75.61	78.32	76.94
RoBERTa-wwm-FLAT (w/o FGM)	机构名	95.22	92.07	93.62	82.60	70.84	76.27
RoBERTa-wwm-FLAT (w/o PTM)	地名	93.83	93.51	93.67	77.38	75.38	76.37
RoBERTa-wwm-FLAT (w/o PTM)	机构名	94.52	92.76	93.63	84.13	71.80	77.48

从表7可以看出，对于RoBERTa-wwm-FLAT模型，消除预训练模型改进后，在TrafficNER数据集上地名、机构名实体F1-score指标降幅最大，在CLUNER数据集上地名实体F1-score指标降幅最大。此外，LE-RoBERTa-wwm在消除预训练模型改进后，在TrafficNER数据集上地名、机构名实体F1-score取得下降。实验结果表明预训练模型改进是影响RoBERTa-wwm-FLAT地理命名实体识别性能最为重要因素。

4 讨论

针对中文细粒度地理命名实体识别的研究相对较少，本文对于中文细粒度地理命名实体识别研究存在不完善之处，主要包括以下3点：

（1）针对中文细粒度地理命名实体识别还有许多可改进之处。中文细粒度命名实体识别模型中融入词汇的数量是较为重要的指标，模型筛选过程中使用K-BERT模型时，由于采用了数据量庞大的开放领域三元组，导致模型性能低于BERT，而MECT模型未能获取新华字典权限，采用数据量较少的拆字字典，同样导致模型性能低于BERT，因此选取合适数量的词汇注入模型是值得深入研究的方向。

（2）由于汉语语言结构的特性，导致字符嵌入无法准确表达上下文语义信息，而词汇引入可以获取词语边界信息，若能更好的将字符嵌入同词汇信息融合，同时考虑中文细粒度地理命名实体中嵌套字体、歧义实体等，可进一步提升中文细粒度命名实体识别性能。

（3）本研究仅考虑将对抗学习引入模型优化中，并没有针对地理命名实体识别设计特定的对抗训练策略；而迁移学习、对抗学习均是针对中文命名实体识别语料库匮乏的有效方式，针对中文细粒度地理命名实体识别特点，设计相应改进方案可进一步提升模型性能。

5 结语

本文提出2个联合词汇增强模型RoBERTa-wwm-FLAT和LE-RoBERTa-wwm，用于地理命名实体识别，通过对比具有词汇增强功能的方法以及无词汇增强功能的方法，找出适合于细粒度命名实体识别模型BERT-FLAT、LEBERT。随后，对于上述2种方法进行预训练模型、随机权重平均、对抗训练3处改进，得到所提出的2个联合词汇增强模型。使用基准数据集CLUENER以及微博数据集TrafficNER对比了所提出2个模型与具有词汇增强功能的方法和无词汇增强的方法，以探究地理命名实体识别性能，此外，对改进后模型进行消融实验，探究对地理命名实体识别最为重要影响因素。本文的贡献在于：

（1）采用2种联合词汇增强模型进行地理命名实体识别，使得F1-score相比无词汇增强功能的方法提升10%左右，同时比改进前模型有一定提升，验证了无词汇增强功能的NER方法对于地理命名实体识别的不足，表明了联合词汇增强模型对于细粒度地理命名实体识别的有效性。

（2）对联合词汇增强模型RoBERTa-wwm-FLAT进行消融实验，发现3处改进中预训练模型的改进对地理命名实体识别精度影响最大。

具有词汇增强功能的细粒度地理命名实体识别性能仍可进一步提升，选择合适词汇数量可为模型注入恰当的“知识”，除此之外，针对地理实体数据集匮乏的现状，采取迁移学习、对抗学习策略改进，可进一步提升模型对于地理命名实体识别性能。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Cheng J, Liu J, Xu X, et al. A review of Chinese named entity recognition[J]. KSII Transactions on Internet and Information Systems, 2021, 15(6):2012-2030. DOI:10.3837/tiis.2021.06.004 DOI

[2]	Sharma Y, Gupta S. Deep learning approaches for question answering system[J]. Procedia Computer Science, 2018, 132:785-794. DOI:10.1016/j.procs.2018.05.090 DOI

[3]	Dou Z Y, Wang X, Shi S M, et al. Exploiting deep representations for natural language processing[J]. Neurocomputing, 2020, 386:1-7. DOI:10.1016/j.neucom.2019.12.060 DOI

[4]

Yogatama

, Gillick

, Lazic

. Embedding methods for fine grained entity type classification[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2:Short Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2015:291-296. DOI:10.3115/v1/p15-2048

DOI

[5]	Hu Y J, Wang J M. How do people describe locations during a natural disaster: An analysis of tweets from Hurricane Harvey[EB/OL]. 2020: arXiv: 2009.12914. https://arxiv.org/abs/2009.12914

[6]	Wang L J, Li W C, Chang C H. Recognizing unregistered names for mandarin word identification[C]// Proceedings of the 14th conference on Computational linguistics - Volume 4. New York:ACM, 1992:1239-1243. DOI:10.3115/992424.992473 DOI

[7]	Fresko M, Rosenfeld B, Feldman R. A hybrid approach to NER by MEMM and manual rules[C]// Proceedings of the 14th ACM international conference on Information and knowledge management. Bremen, Germany. New York: ACM, 2005:361-362. DOI:10.1145/1099554.1099667 DOI

[8]	Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]. 2001

[9]	Xu Z, Qian X, Zhang Y, et al. CRF-based hybrid model for word segmentation, NER and even POS tagging[C]// Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing, 2008.

[10]	Zhu J Y, Ni P, Li Y M, et al. An Word2Vec based on Chinese medical knowledge[C]// 2019 IEEE International Conference on Big Data (Big Data). IEEE Computer Society, 2019:6263-6265. DOI:10.1109/BigData47090.2019.9005510 DOI

[11]	Ye N, Qin X, Dong L L, et al. Chinese named entity recognition based on character-word vector fusion[J]. Wireless Communications and Mobile Computing, 2020, 2020:1-7. DOI:10.1155/2020/8866540 DOI

[12]	Zhang Y, Yang J. Chinese NER using lattice LSTM[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2018:1554-1564. DOI:10.18653/v1/p18-1144 DOI

[13]	Li X N, Yan H, Qiu X P, et al. FLAT: Chinese NER using flat-lattice transformer[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2020:6836-6842. DOI:10.18653/v1/2020.acl-main.611 DOI

[14]	Liu W, Zhou P, Zhao Z, et al. K-BERT: Enabling language representation with knowledge graph[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(3):2901-2908. DOI:10.1609/aaai.v34i03.5681 DOI

[15]

, Song

X N

, Feng

Z H

. MECT: multi-metadata embedding based cross-transformer for Chinese named entity recognition[C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1:Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2021:1529-1539. DOI:10.18653/v1/2021.acl-long.121

DOI

[16]

Liu

, Fu

X Y

, Zhang

, et al. Lexicon enhanced Chinese sequence labeling using BERT adapter[C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1:Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2021:5847-5858. DOI:10.18653/v1/2021.acl-long.454

DOI

[17]

Wang

, Chen

, Xu

. Named Entity Recognition with Gated Convolutional Neural Networks[C]// Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data:16^th China National Conference, CCL 2017, and 5th International Symposium, NLP-NABD 2017, Nanjing, China, October 13-15, 2017, Proceedings. Springer, 2017, 10565:110. DOI: 10.1007/978-3-319-69005-6_10

DOI

[18]	Chen H, Lin Z J, Ding G G, et al. GRN: Gated relation network to enhance convolutional neural network for named entity recognition[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33:6236-6243. DOI:10.1609/aaai.v33i01.33016236 DOI

[19]	Li J Q, Zhao S H, Yang J J, et al. WCP-RNN: A novel RNN-based approach for Bio-NER in Chinese EMRs[J]. The Journal of Supercomputing, 2020, 76(3):1450-1467. DOI:10.1007/s11227-017-2229-x DOI

[20]

Dong

, Wu

, Zhang

, et al. Multichannel LSTM-CRF for Named Entity Recognition in Chinese Social Media[C]// Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data:16th China National Conference, CCL 2017, and 5th International Symposium, NLP-NABD 2017, Nanjing, China, October 13-15, 2017, Proceedings. Springer, 2017, 10565:197. DOI: 10.1007/978-3-319-69005-6_17

DOI

[21]	Liu K X, Hu Q C, Liu J W, et al. Named entity recognition in Chinese electronic medical records based on CRF[C]// 2017 14th Web Information Systems and Applications Conference (WISA). IEEE, 2017:105-110. DOI:10.1109/WISA.2017.8 DOI

[22]	李玉森, 张雪英, 袁正午. 面向GIS的地理命名实体识别研究[J]. 重庆邮电大学学报(自然科学版), 2008, 20(6):719-724. [ Li Y S, Zhang X Y, Yuan Z W. Study on geographical entity recognition in GIS[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2008, 20(6):719-724. ]

[23]	Amitay E, Har'El N, Sivan R, et al. Web-a-where: Geotagging web content[C]// Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom. New York: ACM, 2004:273-280. DOI:10.1145/1008992.1009040 DOI

[24]	Twaroch F A, Jones C B. A web platform for the evaluation of vernacular place names in automatically constructed gazetteers[C]// Proceedings of the 6th Workshop on Geographic Information Retrieval. Zurich, Switzerland. New York: ACM, 2010:1-2. DOI:10.1145/1722080.1722098 DOI

[25]

Gelernter

, Ganesh

, Krishnakumar

, et al. Automatic gazetteer enrichment with user-geocoded data[C]// Proceedings of the Second ACM SIGSPATIAL International Workshop on Crowdsourced and Volunteered Geographic Information. Orlando, Florida. New York: ACM, 2013:87-94. DOI:10.1145/2534732.2534736

DOI

[26]	Hu Y J, Mao H N, McKenzie G. A natural language processing and geospatial clustering framework for harvesting local place names from geotagged housing advertisements[J]. International Journal of Geographical Information Science, 2019, 33(4):714-738. DOI:10.1080/13658816.2018.1458986 DOI

[27]	乐小虬, 杨崇俊, 刘冬林. 空间命名实体的识别[J]. 计算机工程, 2005, 31(20):49-50,53. [ Le X Q, Yang C J, Liu D L. Spatial named entity recognition in LBS[J]. Computer Engineering, 2005, 31(20):49-50,53. ] DOI:10.3969/j.issn.1000-3428.2005.20.019 DOI

[28]	Finkel J R, Grenager T, Manning C. Incorporating non-local information into information extraction systems by Gibbs sampling[C]// Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. New York: ACM, 2005:363-370. DOI:10.3115/1219840.1219885 DOI

[29]	Purves R S, Clough P, Jones C B, et al. Geographic information retrieval: Progress and challenges in spatial search of text[J]. Foundations and Trends® in Information Retrieval, 2018, 12(2/3):164-318. DOI:10.1561/1500000034 DOI

[30]	毛波, 滕炜. 基于条件随机场与规则改进的复杂中文地名识别[J]. 武汉大学学报(工学版), 2020, 53(5):447-454. [ Mao B, Teng W. Complex Chinese place Name recognition based on conditional random field and rule improvement[J]. Engineering Journal of Wuhan University, 2020, 53(5):447-454. ] DOI:10.14188/j.1671-8844.2020-05-012 DOI

[31]	Xu L tong Y, Dong Q Q, et al. CLUENER2020: Fine-grained named entity recognition dataset and benchmark for Chinese[EB/OL]. 2020: arXiv: 2001.04351. https://arxiv.org/abs/2001.04351

[32]	Ma K, Tan Y J, Xie Z, et al. Chinese toponym recognition with variant neural structures from social media messages based on BERT methods[J]. Journal of Geographical Systems, 2022, 24(2):143-169. DOI:10.1007/s10109-022-003 75-9 DOI

[33]	Wang B J, Zhang Z, Xu K, et al. DyLex: Incorporating dynamic lexicons into BERT for sequence labeling[EB/OL]. 2021: arXiv: 2109.08818. https://arxiv.org/abs/2109.08818

[34]	Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. URL https://s3-us-west-2.amazonaws.com/openaiassets/research-covers/languageunsupervised/language understanding paper.pdf, 2018.

[35]	Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[EB/OL]. 2018: arXiv: 1810.04805. https://arxiv.org/abs/1810.04805

[36]	Yang Z, Dai Z, Yang Y, et al. XLNet: Generalized Autoregressive Pretraining for Language Understanding; proceedings of the 33rd Conference on Neural Information Processing Systems (NeurIPS), Vancouver, CANADA, F Dec 08-14, 2019[C]. 2019.

[37]	Liu Y H, Ott M, Goyal N, et al. RoBERTa: A robustly optimized BERT pretraining approach[EB/OL]. 2019: arXiv: 1907.11692. https://arxiv.org/abs/1907.11692

[38]	Miyato T, Dai A M, Goodfellow I. Adversarial training methods for semi-supervised text classification[EB/OL]. 2016: arXiv: 1605.07725. https://arxiv.org/abs/1605.07725

[39]	Izmailov P, Podoprikhin D, Garipov T, et al. Averaging weights leads to wider optima and better generalization[EB/OL]. 2018: arXiv: 1803.05407. https://arxiv.org/abs/1803.05407

[40]

Song

, Shi

S M

, Li

, et al. Directional skip-gram: Explicitly distinguishing left and right\n context for word embeddings[C]// Proceedings of the 2018 Conference of the North American Chapter of\n the Association for Computational Linguistics:Human Language\n Technologies, Volume 2 (Short Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2018:175-180. DOI:10.18653/v1/n18-2028

DOI

[41]	Li J, Sun M. Scalable term selection for text categorization[C]. Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), 2007.

[42]	Ma R T, Peng M L, Zhang Q, et al. Simplify the usage of lexicon in Chinese NER[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2020:5951-5960. DOI:10.18653/v1/2020.acl-main.528 DOI

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 细粒度地理命名实体识别研究方法

图1 细粒度地理命名实体识别模型的筛选与改进流程

2.1 RoBERTa-wwm-ext预训练模型

图2 全词掩码策略

2.2 FGM对抗训练策略

2.3 随机权重平均

2.4 LE-RoBERTa-wwm模型

图3 GER过滤流程

图4 词典适配器融合

2.5 RoBERTa-wwm-FLAT模型

图5 RoBERTa-wwm-FLAT模型结构

图6 首尾相对位置编码

3 实验与分析

3.1 数据来源

表1 CLUENER数据集与TrafficNER数据集数据详情

图7 微博细粒度文本

图8 微博文本筛选规则

表2 细粒度地理命名实体筛选词类别

表3 CLUENER数据集数据标签

3.2 实验环境与参数

表4 环境配置详情

3.3 实验评估指标

3.4 模型筛选

3.4.1 细粒度命名实体识别实验

表5 基于词汇增强细粒度实体识别结果

3.4.2 细粒度地理命名实体识别实验

表6 基于词汇增强联合模型的细粒度地理实体识别结果

3.5 消融实验

表7 消融实验结果

4 讨论

5 结语

参考文献