基于自动回标的地理实体关系语料库构建方法
|
|
王姬卜, 陆锋, 吴升, 余丽
|
Constructing the Corpus of Geographical Entity Relations Based on Automatic Annotation
|
|
WANG Jibu,LU Feng,WU Sheng,YU Li
|
|
| 表4 自动构建的地理实体关系语料库的质量评价 |
| Tab. 4 Quality evaluation for the automatically constructed GRE corpus |
|
| 统计项 | 河流 | 山脉 | 地标建筑 | 道路 | 中国行政区划 | 外国行政区划 | | 种子三元组数 | 1386 | 1404 | 934 | 2921 | 8080 | 4038 | | 标注的句子数 | 1024 | 986 | 587 | 2147 | 6059 | 3161 | | 标注的关系类型数 | 50 | 61 | 54 | 80 | 52 | 46 | | 显式标注的句子数 | 776 | 696 | 345 | 1024 | 3896 | 2119 | | 成功率/% | 73.90 | 70.22 | 62.82 | 73.51 | 74.98 | 78.29 | | 准确率/% | 91 | 61 | 86 | 67 | 62 | 72 | | 统计项 | 自然保护区 | 企业 | 教育机构 | 医疗机构 | 博物馆 | 总计 | | 种子三元组数 | 457 | 774 | 1922 | 248 | 641 | 22 805 | | 标注的句子数 | 317 | 398 | 349 | 94 | 347 | 15 470 | | 标注的关系类型数 | 30 | 27 | 13 | 12 | 26 | 97 | | 显式标注的句子数 | 243 | 120 | 313 | 78 | 187 | 9795 | | 成功率/% | 69.31 | 51.48 | 18.17 | 37.99 | 54.18 | 67.83 | | 准确率/% | 76 | 75 | 72 | 95 | 83 | 76.36 |
|
|
|