网络文本蕴含地理信息质量评估框架

黄宗财; 陆锋; 仇培元; 彭澎

doi:10.12082/dqxxkx.2023.220617

地球信息科学学报 >

2023 , Vol. 25 >Issue 6: 1121 - 1134

DOI: https://doi.org/10.12082/dqxxkx.2023.220617

专刊：地理时空知识图谱理论方法与应用

网络文本蕴含地理信息质量评估框架

黄宗财 ^,¹^,² ,
陆锋 ^,¹^,²^,³^,⁴^,^* ,
仇培元 ⁵ ,
彭澎 ¹

展开

1.中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室，北京 100101
2.中国科学院大学，北京 100049
3.政务大数据应用省部共建协同创新中心，福州 350003
4.江苏省地理信息资源开发与利用协同创新中心，南京 210023
5.山东建筑大学测绘地理信息学院，济南 250101

*陆锋（1970— ），男，新疆乌鲁木齐人，博士，研究员，博士生导师，主要从事空间数据模型、空间数据库、空间数据挖掘、知识图谱、导航与位置服务等研究。E-mail: luf@lreis.ac.cn

黄宗财（1992— ），男，江西兴国人，博士生，主要研究方向为地理信息抽取、地理知识图谱和旅游知识图谱。E-mail: huangzc@lreis.ac.cn

收稿日期: 2022-08-22

修回日期: 2022-10-09

网络出版日期: 2023-06-02

基金资助

国家重点研发计划项目(2022YFB3904202)

国家自然科学基金项目(41631177)

国家自然科学基金项目(42001391)

收起

A Quality Assessment Framework for Implicit Geographic Information from Web Texts

HUANG Zongcai ^,¹^,² ,
LU Feng ^,¹^,²^,³^,⁴^,^* ,
QIU Peiyuan ⁵ ,
PENG Peng ¹

Expand

1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
2. University of Chinese Academy of Sciences, Beijing 100049, China
3. Fujian Collaborative Innovation Center for Big Data Applications in Governments, Fuzhou 350003, China
4. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
5. School of Surveying and Geo-informatics, Shandong Jianzhu University, Jinan 250101, China

*LU Feng, E-mail: luf@lreis.ac.cn

Received date: 2022-08-22

Revised date: 2022-10-09

Online published: 2023-06-02

Supported by

National Key Research and Development Program(2022YFB3904202)

National Natural Science Foundation of China(41631177)

National Natural Science Foundation of China(42001391)

Fold

摘要

网络文本是构建和填补大规模地理知识图谱的重要地理信息来源。但网络文本来源广泛、动态性强、表达方式复杂多样、蕴含地理信息良莠不齐，网络文本蕴含地理信息质量评估面临评估对象多层次、质量维度不明确、评估指标多元化、深层次指标难获取和评估方法多样化的挑战。因此，本文提出了一种网络文本蕴含地理信息质量评估框架（QAF-GIWT）。QAF-GIWT面向网络文本获取地理信息过程，明确了数据源、数据项和数据集3层质量评估对象，针对不同层次评估对象定义了包含相关性、新颖性、可靠性和完整性4个质量维度和相应的量化评估指标，系统地梳理了质量评估过程中所涉及指标计算、指标综合和质量预测方法的特点及其适用性。其中，借助自然语言处理技术及相应的指标计算方法，构建了包含单元地理语义比率、地理语义含量比率、平均地理信息含量比率和地理信息含量比率、地理实体比率、窗口地理信息含量比率等指标。实验中针对马蜂窝等类型网站特性设计了QAF-GIWT框架，针对多层次质量指标的综合评估，采用了层次分析法进行可靠性综合评估，应用实验案例验证了QAF-GIWT框架的有效性。QAF-GIWT提供了一整套囊括质量维度、质量指标和质量评估方法的方案，可辅助进行海量异构动态的网络文本数据源的筛选和从中获取地理信息的过滤，大幅度减小信息获取的复杂度，降低数据存储冗余度。

关键词： 地理信息; 质量评估; 质量维度; 质量指标; 质量评估方法; 地理信息质量评估; 网络文本; 地理信息抽取; 综合指数法; 层次分析法

本文引用格式

黄宗财 , 陆锋 , 仇培元 , 彭澎 . 网络文本蕴含地理信息质量评估框架[J]. 地球信息科学学报, 2023 , 25(6) : 1121 -1134 . DOI: 10.12082/dqxxkx.2023.220617

Abstract

Web texts are an important data source for constructing and completing a large-scale knowledge graph that contains a great deal of ubiquitous geographic information. However, the extensive sources, casual expression, and dynamic nature of web texts, as well as the varied quality of implicit geo-information bring great challenges such as multi-level evaluation objects, unclear quality dimensions, diversified evaluation indicators, difficult access to deep-seated indicators, and diversified evaluation methods in the process of geographic information quality assessment. Therefore, a Quality Assessment Framework for implicit Geographic Information from Web Texts (QAF-GIWT) is proposed in this study. The QAF-GIWT is oriented to the process of acquiring geographic information from web texts and defines three levels of quality evaluation objects, i.e., data source level, data item level, and dataset level. The data source level contains websites and web pages, the data item level includes the triplet-formed information extracted from the webpage, and the dataset level is the information aggregated into a Geographic Knowledge Graph (GeoKG). The QAF-GIWT defines four quality dimensions including relevance, novelty, reliability, and integrity, and proposes the corresponding quantitative evaluation indicators for different level evaluation objects including Cell Geographic Semantic Ratio (CGSR), Geographic Semantic Ratio (GSR), Average Geographic Information Ratio (AGIR), Geographic Information Ratio(GIR), Event Time Length, Triplet Existence, Publish Time, Time Validation, Domain Name Time Length, Update Frequency, Average Freshness, Comprehensive Ranking, Category Ranking, Daily Page Visit, Daily User Visit, User Attention, Picture Number, Word Number, Geographic Entities Ratio (GER), Window's Geo-Information Ratio (GIWR), Triplet Missing Rate, Event Information Missing Rate, Relation Missing Rate, Attribute Missing Rate, Location Missing Rate, Relation Redundancy, Attribute Redundancy, etc. It systematically summarizes the characteristics and applicability of the indicator calculation, indicator synthesis, and quality prediction methods involved in the quality evaluation process. Among them, with the help of natural language processing technology and corresponding quality indicator calculation methods, quality indicators are newly constructed from the deep mining of the web texts including CGSR, GSR, AVGIR, GIR, GIWR, GER, etc. In our experiment, the QAF-GIWT framework was designed to adapt to the characteristics of various types of websites e.g., Mafengwo. Aiming at the comprehensive evaluation of multi-level quality indicators, the analytic hierarchy process was used for comprehensive reliability evaluation. Our experiment verified the effectiveness of the QAF-GIWT framework. The QAF-GIWT provides a systematic scheme including quality dimensions, quality indicators, and quality assessment methods for the quality evaluation of geographic information extracted from massive, heterogeneous, and dynamic web texts. The proposed QAF-GIWT can assist in the screening of data sources and filtering of acquired information, greatly reducing the complexity of information acquisition and the redundancy of data storage, and assisting the quality control process of the acquisition of geographic information from web texts.

Key words： geographic information; quality assessment; quality dimension; quality indicator; quality assessment method; geographic information quality assessment; web texts; geographic information retrieval; synthetic index method; AHP

1 引言

数据质量通常被定义为数据适合被使用的程度或满足特定用户需求的程度^[1⇓-3]，数据质量评估是通过定性或者定量的方法来衡量这种程度的过程。业界先后提出了很多数据质量评估框架，包括AIMQ（AIM quality）^[4]、CDQ（Comprehensive Data Quality）^[5]、DQA（Data Quality Assessment）^[6]、HDQM（Heterogeneous Data Quality Methodology）^[7]、HIQM（Hybrid Information Quality Management）^[8]和TBDQ（task-based DQ method）^[9]。这些评估框架大都包含数据质量定义、质量维度和评估方法，但是针对不同的用户需求，评估维度有所差异。在大数据时代，数据来源、处理手段到应用需求纷繁复杂，数据质量评估面临质量维度定制化、指标多元化和评估方法多样化的多重挑战^[10]。

国际标准化组织地理信息技术委员会（ISO/TC 211）从2002年开始，先后发布了地理信息质量国际标准ISO 19113:2002和ISO 19114:2013，定义了地理信息评估的数据类型、评估元素和评估指标，为地理信息质量评估奠定了基础。互联网时代，海量的志愿者地理信息（VGI）和用户产生内容（UGC）显式或隐式的存在于各种数据集或在线平台中，与传统的测绘地理信息相比，这些VGI和UGC在几何和语义上均存在显著差异，数据质量评估面临诸多困难^[11]。

网络文本蕴含丰富的地理空间描述信息，是群智协同动态感知自然与社会系统变化的重要体现^[12]，也是构建大规模地理知识图谱（GeoKG）的重要数据来源。目前针对网络文本蕴含地理信息质量的研究大多集中于网络文本的可信度评价，如Kang等^[13]总结了3种不同的网络文本可信度预测方法：基于社交网络、基于内容和混合方法。基于社交网络的方法依赖于各种加权的可信度指标，包括转发数量和关注数量。基于内容的方法主要根据转发者的积极评价率来进行评定，混合方式则根据需要将前两种方式结合使用。此外，Agichtein等^[14]总结了针对网络文本内容质量评估方法的3种维度：① 文本特征（语法结构、词语长度熵、词语频率）；② 用户关系（高质量内容由高质量用户产生并被其他高质量用户认可）；③ 使用统计（网页被点击次数、网页停留时长）。然而，网络文本来源广泛、形态相异、动态性强、价值密度低、质量参差不齐，同时蕴含的地理信息描述具有隐式性和间接性特点，使得网络文本蕴含地理信息质量评估面临评估对象多层次、质量维度不明确、评估指标多元化、深层次指标难获取和评估方法多样化等现实问题。

本文从海量网络文本中获取高质量地理信息构建大规模地理知识图谱的需求出发，考虑网络文本蕴含地理信息的特点，提出了一种网络文本蕴含地理信息质量评估框架（Quality Assessment Framework for Geographic Information from Web Texts，QAF-GIWT）。该框架面向网络文本蕴含地理语义信息获取的关键节点，针对三个层次评估对象—数据源（网站网页）-数据项（三元组）-数据集（GeoKG），定义了网络文本蕴含地理信息的质量维度，提出了适应不同层次评估对象质量维度的量化评估指标，并面向质量评估过程中所涉及的相关量化计算，梳理了指标计算方法、指标综合方法和质量预测方法的特点及其适用范围，最后通过应用案例验证了框架的适用性。

2 质量评估框架

2.1 总体介绍

本文所提出框架QAF-GIWT如图1所示。① 根据从网络文本获取高质量地理信息构建或填补地理知识图谱的过程出发，明确了信息获取过程中网站（数据源）-网页（数据源）-三元组（数据项）-GeoKG（数据集） 4种质量评估对象，有助于从来源到结果、从细粒度到粗粒度的全过程质量监控。 ② 聚焦在对于高质量信息获取最为关键的相关性、新颖性、可靠性和完整性4个质量维度。随后，根据各种评价对象的特点和质量维度的特性，梳理和提出了各评价对象各维度适宜的量化质量评估指标。③ 针对各种评价对象的质量指标和质量维度量化过程的计算问题，系统性梳理了指标计算、指标综合和质量预测等类型方法，以期能够为网络文本蕴含地理信息的量化质量评估方法提供更加全面的了解与掌握。

显示原图|下载原图ZIP|生成PPT

图1 网络文本蕴含地理信息质量评估框架

Fig. 1 Quality assessment framework for implicit geographic information from web texts

2.2 质量评估对象

从网络文本中获取地理信息的过程包括网站锁定、网页爬取、信息抽取和信息融合。质量评估对象涉及数据源（网站、网页）、数据项（三元组）和数据集（GeoKG） 3个类型层次，3个层次之间存在粗粒度-细粒度-粗粒度的转化过程。并且，不同层次评估对象的质量具有关联性和传递性，不同层次评估对象的质量可相互反馈和协调。例如，数据源的质量可作为数据项的参考，数据项的质量将影响数据集和数据源的质量再评估。

2.2.1 数据源

网络文本以网页形式存在于网站，网站与网页质量将间接影响所获取的地理信息质量。 Loiacono^[15]从机器^[16]、专家判断^[17-18]和用户评估^[19-20] 3个角度定义了网站质量维度，提出了涉及信息质量、功能适用度、定制的交互方式、信任度、反应时长、易读度、直观操作度、可视化吸引度、创新度、情绪吸引度、可持续化形象、在线完整度、相关度和客户服务度14种指标的质量评估集合^[15]。其中，信息质量集合包括网站提供信息的准确度、新鲜度和可信度等^[21]。

此外，网站和网页的信息组织方式也将影响网络文本的质量评估。通过网页网站的访问量、停留时长、综合排名等量化指标来衡量网站和网页的可信度，是网站网页质量评估的常用方法^[22]。本文根据用户需求和网站特征，将蕴含地理信息的网站分成百科网站、行业网站、企业网站、政府网站、新闻网站、论坛网站、社交网站、数据网站等（表1）。每一类网站具有相似性的组织方式和信息特点，可据此选择合适的评估指标和评价方法。

表1 蕴含地理信息的网站分类

Tab. 1 Classification of websites containing geographical information

类别	案例	网站特征	获取地理信息	质量要求排序
百科网站	维基百科、百度百科	数据量大，志愿者贡献并多人编辑审核，可信度较高	地理知识	准确性、完整性、覆盖范围、可靠性
社交网站	新浪微博、推特	更新快，数据量大，内容差异较大	地理事件信息	新颖性、可靠性、准确性、易使用性
新闻网站	人民网、腾讯新闻网、凤凰新闻	更新快，真实性高	地理事件信息	准确性、权威性、可靠性、新颖性
数据网站	资源环境科学数据中心、国家地球系统科学数据共享服务平台	数据量大，提供数据说明、数据检索和下载	地理数据信息	适用性、覆盖范围、可靠性、准确性、新颖性、可获得性
行业网站	马蜂窝、携程	聚焦业务内容，包含公司和用户内容	领域地理信息	可靠性、准确性、新颖性
企业网站	超图、易智瑞	提供公司介绍与位置信息	公司信息	可靠性、准确性、相关性、新颖性
政府网站	中国测绘局、中国统计局	提供各种测绘与地理方面规范与政策	政策信息	权威性、新颖性、准确性
论坛网站	地信网论坛	志愿者发布资源供用户阅读与下载	地理资料信息	覆盖范围、适用性、可获得性、可靠性、准确性

2.2.2 数据项

数据项是数据集中最基础的信息单位，常以三元组的形式<h，r，t>进行组织表达，其中“h”代表头实体，“r”代表关系或者属性，“t”代表尾实体或者属性值。从网络文本中抽取的地理信息主要为地理知识或地理事件，如<中国，首都，北京>，<故宫，开幕，600周年特展>。数据项的质量评估方式包括：① 引用数据源所在网站网页的质量。可通过评估网站和网页的质量间接衡量三元组数据项的质量指标，如数据项的可靠性可通过来源网站和网页的可靠性间接评估，但是该方法却无法解决同一网络文本中数据项质量的差异性；② 根据三元组内容评价质量。根据数据项所表达的地理信息三元组内容本身的真实性、相关性、独特性、时效性等指标进行三元组质量评价；③ 结合来源与内容评价三元组质量。通过数据源-网站网页的权威性和抽取地理信息三元组内容的真实性综合计算三元组质量指标。

2.2.3 数据集

数据集的组织方式与数据项的特征有关。考虑到本文数据项以三元组形式表达，数据集则主要以知识图谱的方式进行组织。所以，本文网络文本蕴含地理信息所形成的数据集为地理知识图谱（Geographic Knowledge Graph，GeoKG）。Zaveri^[23]系统性概括总结了开放知识图谱（或Linked Open Data）的数据评价质量维度定义、评价指标内涵和指标计算方法，将质量维度划分为可接近性维度集合（可获得性、许可、访问效率）、内部维度集合（准确性、一致性、简洁性）、可靠性维度集合（权威性、可信度和可验证性）、数据集动态性维度集合（流通性、波动性和及时性）、语境维度集合（完整性、相关性）、表现性维度集合（表达简洁性、表达一致性、可理解性、易解释性），并且阐述了集合中不同维度之间的关联关系。此外，业界已有很多可支持不同格式数据的质量评估工具，如tSPARQL^[24]、WIQA^[25]、ProLOD^[26]、LinkQA^[27]、Sieve^[28]、Luzzu^[29]等。

2.3 质量维度与指标

2.3.1 相关性

相关性(Relevancy)^[6]是指信息与目标任务和用户需求相吻合的程度，常用关联度来度量。网络文本蕴含信息的地理相关性有2层内涵：① 数据源（网页与网站）与地理主题的相关程度；② 通过信息抽取得到的数据项与地理主题的相关程度。数据源与数据项的地理主题相关性相互关联，往往可以通过数据项的相关性来推断数据源的地理主题相关性，但数据源的地理相关性并不能完全代表获取到的细粒度数据项的地理相关性^[26]。在有限的数据源情况下，可以通过专家判读的方式对网站或者网页进行地理主题相关性打分。网站之间若存在互链，则可以基于已标注地理主题相关的网站或网页，通过社交网络的方法推断未知数据源与地理主题的相关性。

互联网网页互链接记录的普遍稀疏或缺失，无法为网页内容相关性计算提供支持，需要通过文本内容理解判断网络文本的地理主题相关性。本文借助自然语言处理技术，提出单元地理语义比率（数据项层）、地理语义含量比率（网页层）、平均地理信息含量比率（网站层）和地理信息含量比率（数据集层）等各层次地理主题相关性指标。并且，采取细粒度层到粗粒度层质量反馈的机制，从数据项-数据源（三元组-网页-网站）和数据项-数据集（三元组-GeoKG）进行网络文本的地理主题相关性计算。

单元地理语义比率CGSR（Cell Geographic Semantic Ratio）为数据项层三元组评估对象的地理主题相关性指标，如<长江，流经，武汉>，“长江”和“武汉”都为地理实体词，“流经”为地理关系词，可通过计算三元组中地理实体词和地理关系词含量的比重反映此三元组与地理主题的相关性。为强化非地理信息三元组和地理信息三元组在CGSR值的差异，将地理信息三元组的比率从[01]调试至[0.51]区间，CGSR采用式（1）的分段函数进行计算。

（1）

C G S R = 0 N G u = 0 0.5 + N G u 6 0 < N G u ≤ 3

式中：

u

表示三元组t=< h, r, t >里的每个基本元素，

G u

（

G e o_u n i t

）表示基本元素为地理语义单词，都为

G u

；

N G u

表示为三元组中属于地理的基本要素数量。

地理语义含量比率GSR（Geographic Semantic Ratio）为数据源-网页层网页评估对象的地理主题相关性指标，指的是文本中所有地理实体词及其关系词数量占文本词语总数的比例，反映文本描述地理信息的内容丰富度。GSR计算如式（2）所示。

（2）

G S R = N W G e o N W

式中：

N W G e o

表示文本中含有地理实体词及其关系的词汇数量；

N W

表示文本中词汇总量。

平均地理信息含量比率AGIR（Average Geographic Information Ratio）为数据源-网站层评估对象的地理主题相关性指标，指的是网站集合中所有网页的地理信息含量比平均值。AGIR计算如式（3）所示。

（3）

A G I R = ∑ p i = 1 p n G S R p i / n

式中：

p i

表示网站的网页集合

p n

中的网页元素。

地理信息含量比率GIR（Geographic Information Ratio）为数据集GeoKG的地理主题相关性指标，指的是数据集中所有与地理相关性强的数据项总量占比。GIR计算如式（4）所示。

（4）

G I R = ∑ G i = 1 G n C G S R G i / n

式中：

G i

表示数据集GeoKG中所有三元组集合

G n

中的三元组元素。

2.3.2 新颖性

新颖性（Freshness）是指地理语义信息的新鲜程度，兼顾了流通性^[30]、波动性和及时性。网络文本蕴含地理信息的新颖性包括2个层面内涵：① 时间特性，可以根据所描述地理时空信息的类型来评价信息的时间有效程度；② 存在特性，即所获取的信息在已有数据集中是否已经存在，据此可进行信息增补或更新。

如表2所示，本文针对新颖性评估需求，提出事件时长和存在性（数据项层）、发布时长和时间有效性（数据源-网页）、域名时长和更新频率（数据源-网站）、平均新颖度（数据集-GeoKG）等量化评估指标及其计算如式（5）—式（11）所示。

表2 QAF-GIWT中新颖性的维度、指标与值获取方式

Tab. 2 Dimension, index and value acquisition method of freshness in QAF-GIWT

维度	层次	指标	计算方式	公式编号
新颖性	数据项（三元组）	事件时长	事件时长=当前时间-事件发生时间	（5）
	数据项（三元组）	存在性	存在性= $0 三元组在数据集中 1 三元组不在数据集中$	（6）
	数据源（网页）	发布时长	发布时长=当前时间-网页发布时间	（7）
	数据源（网页）	时间有效性	时间有效性=当前时间-有效期限时间	（8）
	数据源（网站）	域名时长	域名时长=当前时间-域名创建时间	（9）
	数据源（网站）	更新频率	更新频率=年度网页总更新数量/365	（10）
	数据集（GeoKG）	平均新颖度	平均新颖度=总新颖度/三元组数量	（11）

2.3.3 可靠性

可靠性（Reliability）^[31]是信息被判定为真实和可信赖的程度，常用可信度来衡量。信息的可靠性评估是信息的客观性、权威性^[32]与用户的主观性不断交互的过程。计算可信度的方法主要包括2种： ① 基于统计的方法，主要是利用数据发布者信息、用户访问行为数据和信息本身上下文内容来间接度量信息可信度。如果信息发布者是较为权威的机构和意见领袖，其发布信息可信度相对较高；② 基于推理的方法，根据已标注真实数据，充分挖掘数据中能够支持可信度评价的各项隐含特征，例如信源之间的链接网络和网络文本的内容特征等，采用机器学习等方法对未标注数据的可靠性进行判断^[33]。

从网站和网页的数据源层面，可以根据网站的权威性（综合排名、类别排名）、网页文本发布者的影响力（关注人数）、文本内容被用户认同程度（转载数、阅读数、收藏数等）和文本内容的丰富性和聚焦性（文字数量、图片数量、内容丰富度）来衡量蕴含地理信息的网络文本数据源的可靠性，如表3所示。从数据项层面，可根据无先验知识情况下用户从网站-网页-信息的信任过程，不断继承高维度数据源层面获得的可靠性。此外，也可以基于网络文本蕴含地理信息的细粒度统计学特征，获得数据项的可靠性指标。本文通过地理实体比率（式（12））和窗口地理信息含量比率（式（13））来反映数据项的可靠性程度。

表3 QAF-GIWT中可靠性的维度、指标与值获取方式

Tab. 3 Dimensions, indicators and value acquisition methods of reliability in QAF-GIWT

维度	层次	指标	值获取方式	公式编号
可靠性	数据源（网站）	综合排名	API直接获取
		类别排名	API直接获取
		日均网页访问量	API直接获取
		日均用户访问量	API直接获取
		域名时长	域名时长=当前时间-域名创建时间
	数据源（网页）	用户关注数量	爬取
		网页的点赞数、转载数、阅读数、评论数、收藏数	爬取
		文字数量、图片数量	计算
	数据项（三元组）	地理实体比率	$G E R = E S G e o N W$	（12）
	数据项（三元组）	窗口地理信息含量比率	$G I W R = G e o i n f o w i n f o w$	（13）
	数据集（GeoKG）	平均可靠性	平均可靠性=可靠性总和/数据项数量	（14）

式（12）地理实体比率GER（Geographic Entities Ratio）是数据项-三元组层评估对象的可靠性指标，指当前地理信息单元-地理实体关系三元组中两实体出现频次占文本词语数量的比例，反映了当前地理信息单元在全文的比重，比重越大则反映该地理信息单元是此网络文本中描述的主要信息，往往具有较高的可靠性。

E S G e o

表示文本中含有当前地理实体词汇的数量，

N W

表示文本中词汇总量。

式（13）窗口地理信息含量比率GIWR（Window's Geo-Information Ratio）是数据项-三元组层评估对象的可靠性指标，指当前地理实体关系三元组在网络文本中的位置窗口内包含的地理信息量占全文地理信息量的比重，反映该三元组在窗口范围内的地理信息描述稀疏性。窗口地理信息含量比越高，反映在长文本中该局部区域聚焦于地理信息的描述，当前三元组的可信度就越高。

G e o i n f o w

表示窗口w内的地理三元组信息量，

i n f o w

表示窗口w内三元组信息总量。

2.3.4 完整性

完整性（Completeness）被定义为相对于需求信息缺失和冗余的程度^[26]。网络文本蕴含地理信息主要包括2种类型：① 地理知识，包括地理实体关系集合和地理实体属性集合；② 地理事件，包括事件发生地点、发生时间、人物、事件起因等。从网络文本获取地理信息过程看，完整性的评估对象主要是数据项和数据集层。结合形成高质量地理知识图谱数据集的需求，本文提出元素缺失率（三元组）、关系缺失率、属性缺失率、位置信息缺失率（地理知识实体）和事件元素缺失率（地理事件）等指标，如表4所示。其中，关系缺失率和属性缺失率指标计算需要借助本体、schema等文件定义的各种实体类型之间的关系约束、类的属性约束和值域约束。地理事件元素缺失率则依赖于对地理事件元素的定义。

表4 QAF-GIWT中完整性的维度、指标与值获取方式

Tab. 4 Dimensions, indicators and value acquisition methods of completeness in QAF-GIWT

维度	层次	指标	值获取方式	公式编号
完整性	数据项（三元组）	元素缺失率	元素缺失率=缺失三元组元素数量/3	（15）
	数据项（地理事件）	事件元素缺失率	事件元素缺失率=缺失事件元素数量/事件元素总数量	（16）
	数据项（地理实体）	关系缺失率	关系缺失率=缺失关系数量/关系总数量	（17）
		属性缺失率	属性缺失率=缺失属性数量/属性总数量	（18）
		位置信息缺失率	缺失为1，存在为0
		关系冗余率	关系冗余率=冗余关系数量/关系总数量	（19）
		属性冗余率	属性缺失率=冗余属性数量/属性总数量	（20）
	数据集（GeoKG）	总缺失率	总缺失率=（关系缺失数量+属性缺失数量+事件元素缺失率+位置信息缺失数量）/数据项总数	（21）

2.4 质量评估方法

针对网络文本蕴含地理信息质量评估过程中的计算需求，需要从指标计算、指标综合和质量预测3个方面的方法开展研究。

2.4.1 指标计算方法

指标计算方法适用于各个质量评估指标的计算，通过基础统计分析获得对应的质量指标度量值。质量指标可分为基础指标和衍生指标。基础指标可以通过基本描述统计方法从数据源或数据说明中直接获取或计算得到，主要包括集中度量和趋势度量。集中度量包括数据集的计数、平均数、中位数、众数、极大值、极小值、最大值和最小值，反映数据的集中特性；趋势度量包括极差、方差、标准差、变异系数等，反映数据的不平衡特性。在网络数据集中，基础指标还包括通过网络分析方法获得的节点入度、出度、中心性等指标，反映数据集的集中和不平衡特性。这些指标度量值在不同的样本数据中具有不同的指标含义，可根据需求和特点辅助参与各种类型质量指标的计算。衍生指标则通过基础算术运算方法（加、减、乘、除、取逆等）对基础指标进行转化，使其更符合所需的语义指标简单化、同趋势化和同标准化的要求。在QAF-GIWT框架中，单元地理语义比率、地理语义含量比率、地理信息含量比率、事件时长、发布时长、时间有效性、域名时长、概念完整性、属性完整性、关系完整性、位置信息完整性和事件信息完整性的计算公式属于衍生指标计算方法，综合排名、类别排名、存在性、更新频率、网页访问量、点赞量、转发量、日均网页访问量为基础指标。

2.4.2 指标综合方法

指标综合方法基于反映客观事物不同侧面的指标做出对客观事物总体评价，适用于综合性评估的质量维度量化计算。综合评价需要处理3个方面的问题：① 定性和定量指标共存；② 不同量化指标的值域和值趋势的语义差异；③ 评价对象的多层次多元指标权重的合理设置。针对上述问题，本文分别介绍4种典型的指标综合方法：模糊综合法^[34]、TOPSIS法^[35]、综合指数法、层次分析法^[36]和灰色关联度分析法^[37]。

针对定性定量指标共存问题，模糊综合评价法首先将定性评价转化为定量评价，即用模糊数学对受到多种因素或指标制约的事物或对象做出一个总体评价。该方法的关键是如何将定性指标或者复杂指标转化为拥有简单数值的量化评价指标。对于定性的指标可以通过制定量化评语集，而定量指标则需要通过采用自然间断法等对值域进行合理切割，构建更加合理的评语集。例如，互联网海量的社交用户，使得网络文本的点赞量、转发量和访问量的差异巨大，其过大的阈值范围和数据分布的不均衡特性可能会严重影响综合质量维度的计算，所以需要使用模糊综合法对QAF-GIWT中上述指标进行合理分割，将绝对值转化为简单离散型数据。

不同量化指标的值域和值趋势的语义差异，如“类别排名”的值域范围可能为1~100，但是“点赞量”的值范围较大，这使得简单数值加权进行质量综合失效。需要将2个指标的值转化为同一值域范围，常见的手段有归一化。而“类别排名”往往是数值越小，其重要性越高，而“点赞量”数值越高其贡献率越高，这2个指标呈现值趋势的差异性，此时需要将“类别排名”进行正向化，使得2个指标的值具有同趋势化的特性。TOPSIS法（逼近理想解排序法）、综合指数法以及灰色关联分析法都是需要建立在各项指标归一化和同趋势化的基础上。QAF-GIWT中各项指标在进行综合指标计算之前，都需要针对各项量化指标进行归一化和同趋势化处理。

在如何处理多元指标综合评价过程方面，综合指数法在确定一套评估指标体系和指标权重的基础上，对各项指标个体指数进行加权平均计算出综合评价值。TOPSIS法采用了与理想方案相似性的顺序选优的思路，找出各项指标中的最优和最劣的方案，然后分别计算各评价对象与最优方案和最劣方案的距离，获得各评价对象与最优方案的相对接近程度。针对指标分层现象，层次分析法将与决策相关的元素分解成目标、准则、方案等层次，通过专家标度法构造判断矩阵，求解判断矩阵最大特征根及其对应的特征向量，从而获得各层的相对权重，最后计算出方案层各因素相对于总目标的权重并排序。灰色关联分析法以各因素的样本数据集作为依据，用灰色关联度来描述因素间关系的强弱、大小和次序，通过设定最优因素为比较标准或参考序列，比较其他因素与最优因素的关联度来评估其他各因素优劣次序。灰色关联分析方法对数据要求较低，计算量小便于推广。

2.4.3 质量预测方法

网络文本蕴含地理信息质量评估涉及多个不同类型指标。但不同指标的权重难以得到相对客观的设定。机器学习方法可以从大量样本数据中得到相对合理的指标权重值，从而得到质量与多元指标之间的拟合方程或模型。基于机器学习的质量评估方法需要明确各评价对象的所有指标值作为输入，同时需要各评价对象的质量维度的标注值。线性回归与非线性回归预测模型可以通过学习不断调整权重参数，从而获得质量维度与多元指标之间的最优函数拟合直线或曲线，从而实现评价对象的质量度量。而基于神经网络的预测模型则通过样本数据的训练，不断修正网络权重和阈值使得误差函数沿着负梯度方向下降，在无限逼近期望值时输出，适用于较大样本和输入特征不相互独立的情形。

除此之外，也可以通过挖掘评估对象之间的潜在关联关系程度进行质量推理。基于图网络的质量预测模型能够充分学习评价对象之间的潜在关系，利用质量特征在网络中相似节点的影响机制，实现质量的推理。该方法关键在于在网络中采用何种机制获得节点的相似性，目前基于随机游走的链路方法（deepwalk^[38]、node2vec^[39]）可以全面考虑网络的全局特征，基于一阶邻近度和二阶邻近度的Line^[40]方法可以考虑网络的局部特征。

3 案例验证

为了验证本文提出的网络文本蕴含地理信息质量评价框架的有效性，本文选用数据量大、更新频率高且地理信息丰富的马蜂窝和去哪儿网站作为数据源，根据QAF-GIWT来明确适用此类型网站的质量评估体系（表5）。质量评估是伴随网络文本蕴含地理信息抽取和融合的过程，爬取了2025篇包含旅游景点或旅游目的地等地理实体描述信息的游记文本，使用LTP自然语言处理技术对其进行信息抽取，共获得21 667个三元组，并将地理主题相关的三元组数据进行融合形成以旅游为主题的地理知识图谱数据集。

表5 网络文本蕴含地理信息质量评估方法

Tab. 5 Quality evaluation method of geographic information from web texts

评估对象层次	质量维度	评估方法	公式编号	方法类型
数据项（三元组）	相关性	单元地理语义比率		指标计算法
	可靠性	层次分析法	（22）	指标综合法
	新颖性	存在性×（事件时长+发布时长+时间有效+域名时长+更新频率）/5	（23）	指标综合法
	完整性	(元素缺失率+事件元素缺失率+关系缺失率+属性缺失率+位置信息缺失率)/5	（24）	指标综合法
数据源（网页）	相关性	地理语义含量比率		指标计算法
	可靠性	（用户关注数量+点赞数量+文字数量+图片数量）/4	（25）	指标综合法
	新颖性	（发布时长+时间有效+域名时长+更新频率）/4	（26）	指标综合法
	完整性	-		-
数据源（网站）	相关性	平均地理语义含量比率		指标计算法
	可靠性	（综合排名+类别排名+日均网页访问量+日均用户访问量+域名时长）/5	（27）	指标综合法
	新颖性	(域名时长+更新频率)/4	（28）	指标综合法
	完整性	-		-
数据集（GeoKG）	相关性	(地理信息含量比率+总缺失率)/2	（29）	指标综合法
	可靠性	平均可靠性		指标综合法
	新颖性	平均新颖度		指标综合法
	完整性	总缺失率		指标综合法

注：评估方法涉及的所有指标均经过归一化和同趋势化处理。

3.1 确定质量评估维度与指标

马蜂窝和去哪儿网站作为旅游网站的典型代表，蕴含有丰富的地理语义信息，同时也提供用户发布评论和游记、点赞、收藏和关注等功能。本文按照上述网络文本蕴含地理信息质量评估框架，爬取并计算了2个网站网页数据源层次的基础指标，并且借助自然语言处理技术，挖掘网络文本构建评估指标进行补充，确定质量评估各项指标（表5）及其相应计算如式（22）—式（29）所示。可知数据项的相关性、数据源的相关性和数据集的可靠性、新颖性和完整性等质量维度可由单个指标量化评估，使用的方法类型为指标计算法。而数据项的新颖性、完整性和数据源的可靠性、新颖性等质量维度由多指标进行综合评估，在指标计算的基础上还需要使用指标综合法。其中，可以看出数据项的可靠性评估方法式（22）中继承了数据源-网页和网站层次的可靠性评估指标，数据项的新颖性计算也需要继承考虑数据源层面的新颖性质量指标，而GeoKG数据集的可靠性、新颖性和完整性将来源于所有数据项的可靠性、新颖性和完整性的平均值。

此外，数据项的可靠性评估指标具有明显的分层现象，间接受到网站和网页层指标的影响，需要采用特殊的层次分析法进行处理。本文将数据项的可靠性定为目标层，网站层、网页层和语境层为准则层，准则层中每个准则包含若干个方案，方案对应质量评估指标。首先在层次指标体系的基础上，通过各层两两指标重要性相比较的方法设置指标的判断矩阵，计算判断矩阵的最大特征根和对应特征向量；然后通过一致性检验后获得各层指标相对于质量维度目标的权重（表6）；最后通过式（22）加权综合各指标获得可靠性。

表6 可靠性计算中各层指标权重

Tab. 6 Index weight of each layer in reliability calculation

权重名称	指标权重	权重名称	指标权重
$W C R$ (综合排名)	0.092 4	$W P V$ (网页点赞数)	0.034 5
$W P R$ (类别排名)	0.132 5	$W W o r d$ (文字数量)	0.011 5
$W D P V$ (日均网页访问量)	0.013 3	$W P i c$ (图片数量)	0.005 6
$W D U V$ (日均用户访问量)	0.022 8	$W G e o e n t$ (地理实体比率)	0.290 6
$W D N D$ (域名时长)	0.048 2	$W G e o W i n$ (窗口地理信息含量比率)	0.290 6
$W U F$ (用户关注数量)	0.058 0

（22）

Q r e l i a b i l i t y = W C R × 综 合 排 名 + W P R × 类 别 排 名 + W D P V × 日 均 网 页 访 问 量 + W D U V × 日 均 用 户 访 问 量 + W D N D × 域 名 时 长 + W U F × 用 户 关 注 数 量 + W P V × 网 页 的 点 赞 数 + W W o r d × 文 字 数 量 + W P i c × 图 片 数 量 + W G e o e n t × 地 理 实 体 比 率 + W G e o W i n × 窗 口 地 理 信 息 含 量 比 率

3.2 质量评估结果与分析

依据表5中所述方法对从马蜂窝和去哪儿网站的网络文本所获取的地理信息进行质量评估，计算出三层次评估对象及其对应的4个质量维度的度量值。表7展现了QAF-GIWT框架在旅游网站文本蕴含地理信息质量评估不同阶段的结果，最细粒度可以获得从网络文本中抽取的三元组的4个质量维度值，例如<五塔寺, 地处, 北京海淀区白石桥北>的质量[相关性,新颖性,可靠性,完整性]为[1.000 0, 0.586 9, 0.732 9, 1.000 0]。同时也获得了该三元组来源网页的质量为[0.287 0, 0.449 5, 0.680 1, N](N表示空)，其数据来源网站的质量为[0.257 7, 0.428 1, 0.872 5, N]。这批次三元组经过地理相关性的初步筛选后形成的数据集旅游知识图谱的质量为[0.754 5, 0.423 8, 0.406 2, N]。需要说明的是，其中数据源-网站网页层的完整性未定义，所形成的旅游知识图谱作为从网络文本获取地理信息形成的数据集合，并未给出或者形成本体定义和约束，因此尚未进行知识图谱数据集的完整性评估。

表7 网络文本蕴含地理信息质量评估案例结果

Tab. 7 The cases of quality evaluation results of geographic information from web texts

数据项（三元组）			相关性	新颖性	可靠性	完整性
h	r	t	相关性	新颖性	可靠性	完整性
五塔寺	地处	北京海淀区白石桥北	1	0.586 9	0.732 9	1
大北照相馆	始建	1921年	1	0.361 3	0.647 4	1
正兴德茶庄	号称	“清真茶叶第一庄”	1	0.361 3	0.645 9	1
交通银行旧址	位于	前门西河沿街9号	1	0.361 3	0.662 4	1
世贸天阶	算是	不错的地方	0.068 5	0.448 4	0.530 6	1
古城墙	开放时间	8:00	0.071 3	0.714 4	0.543 4	1
……	……	……	……	……	……	……
数据源（网页）			相关性	新颖性	可靠性	完整性
http://www.mafengwo.cn/i/10003466.html			0.287 0	0.449 5	0.680 1	-
……			……	……	……	……
数据源（网站）			相关性	新颖性	可靠性	完整性
马蜂窝			0.257 7	0.428 1	0.872 5	-
数据集（GeoKG）			相关性	新颖性	可靠性	完整性
旅游知识图谱			0.754 5	0.423 8	0.406 2	N

注：N表示空。

此外，所有获取三元组质量统计如图2所示。由唯一单元地理语义比率指标计算确定的相关性只有4个置信度值[1.00]，可知可从旅游类网站抽取较多地理主题相关性较高的三元组。三元组数据集在可靠性置信度区间分布波动较大，也反映了即使在同一数据源情况下，也会因为网页内容的巨大差异导致获取信息的可靠性差异较大。三元组数据集的新颖性在整个置信度区间内分布较为稳定，基本符合网站中获取信息的长时间序列在数量级上的大致稳定现状。而所有网络文本的相关性、可靠性和新颖性如图3所示，大量网页文本的相关性集中在0~0.5之间，也一定程度上说明了马蜂窝等社交网络中用户产生的网络文本地理相关性会随着文本内容长度的增加遭到稀释。可靠性集中在置信度0.2~0.5之间，可靠性也因为文本内容长度相对差异大而大部分降低。而网页的新颖性在置信度0.5~1.0之间，也进一步反映了近些年网络文本占比较多。

显示原图|下载原图ZIP|生成PPT

图2 三元组数据集质量统计

Fig. 2 Quality statistics of Triplet dataset

显示原图|下载原图ZIP|生成PPT

图3 网页质量统计

Fig. 3 Quality statistics of webpage dataset

4 结论与展望

本文从海量网络文本中获取高质量地理信息构建大规模地理知识图谱的需求出发，针对评估对象质量维度不明确、评估指标多元化和评估方法多样化问题，提出了网络文本蕴含地理信息质量评估框架(QAF-GIWT)。该框架定义了数据源（网站、网页）、数据项（三元组）和数据集（GeoKG）3个评估层对象，保障了不同层对象质量评估之间的相互反馈和协调；定义了相关性、新颖性、可靠性和完整性四个重要质量评估维度，提出了单元地理语义比率、地理语义含量比率、平均地理信息含量比率和地理信息含量比率、地理实体比率、窗口地理信息含量比率等质量评价指标；系统梳理了网络文本蕴含地理信息质量综合评估的计算方法，阐述了不同方法的适用范围。本文所提出的质量评估框架可辅助进行数据源的筛选和获取信息的过滤，大幅度减小信息获取的复杂度，降低数据存储冗余度，辅助网络文本蕴含地理信息获取质量管控过程。论文通过具体的应用案例验证了该质量评估框架的有效性。

互联网时代，网络文本蕴含地理信息的质量评估依然面临诸多挑战：

（1）蕴含质量指标信息的深度挖掘难度较大。本文构建了地理信息含量比率、单元地理信息比率、窗口地理信息比率等指标，支撑网络文本蕴含地理信息的可靠性、相关性、新颖性和完整性评估，本质上还属于对上下文或统计描述信息的有限利用，对源于同一数据来源（网页）的地理信息三元组的质量差异性的区分还存在不足。并且信息丰富度还有赖于信息抽取的准确率和鲁棒性。如何从网络文本中获取更多评价指标，是网络文本蕴含地理信息质量评估的重大挑战。

（2）评估方法难以兼顾纷繁复杂的质量指标。不同类型网站拥有不同的信息组织和呈现方式，提供支撑质量评估的基础指标差异巨大。将不同网页所有能够反映质量的基础指标都参与综合质量计算，将面临指标爆炸但指标值稀疏的情形。但是，对不同类型网站分别采用不同策略的质量评估过程效率很低，同时也无法实现质量评估度量上的统一。如何兼顾多元化、差异化的评估指标和评估计算过程中的时间空间复杂度，是网络文本蕴含地理信息质量评估的难点。

（3）质量评估机制尚难以应对数据动态更新。网络文本动态性极强，能够不断为数据集带来新的数据，数据集已有地理信息其新颖性、可靠性等质量维度均面临动态更新的需求。已有数据如何辅助新数据的质量评估，使得新数据的质量评估逐渐摆脱数据源层质量指标的依赖，不同层次评估对象和不同质量维度如何面对新数据制定合理的质量调整策略和协调机制，以保障地理信息质量评估的动态更新，是动态地理知识图谱质量评估的关键。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Cappiello C, Francalanci C, Pernici B. Data quality assessment from the user's perspective[C]// Proceedings of the 2004 international workshop on Information quality in information systems. Paris, France. New York: ACM, 2004:68-73. DOI:10.1145/1012453.1012465 DOI

[2]	Huang K T, Lee Y W, Wang R Y. Quality information and knowledge[M]. USA: Prentice Hall PTR, 1998. DOI:10.5555/288780 DOI

[3]	Kahn B K. Product and service performance model for information quality: An update[C]// Proc. 1998 International Conference on Information Quality. MIT Sloan School of Management, Cambridge, MA, USA, 1998.

[4]	Lee Y W, Strong D M, Kahn B K, et al. AIMQ: A methodology for information quality assessment[J]. Information & Management, 2002, 40(2):133-146. DOI:10.1016/S0378-7206(02)00043-5 DOI

[5]	Batini C, Cabitza F, Cappiello C, et al. A comprehensive data quality methodology for web and structured data[C]// 2006 1st International Conference on Digital Information Management. IEEE, 2006:448-456. DOI:10.1109/ICDIM.2007.369236 DOI

[6]	Pipino L L, Lee Y W, Wang R Y. Data quality assessment[J]. Communications of the ACM, 2002, 45(4):211-218. DOI:10.1145/505248.506010 DOI

[7]	Carlo B, Daniele B, Federico C, et al. A data quality methodology for heterogeneous data[J]. International Journal of Database Management Systems, 2011, 3(1):60-79. DOI:10.5121/ijdms.2011.3105 DOI

[8]	Cappiello C, Ficiaro P, Pernici B. HIQM: a methodology for information quality monitoring, measurement, and improvement[C]// International Conference on Conceptual Modeling. Springer, 2006:339-351. DOI:10.1007/11908883_41 DOI

[9]	Vaziri R, Mohsenzadeh M, Habibi J. TBDQ: a pragmatic task-based method to data quality assessment and improvement[J]. PloS One, 2016, 11(5):e0154508. DOI:10.1371/journal.pone.01545081 DOI

[10]	Cappiello C, Ficiaro P, Pernici B. HIQM: A methodology for information quality monitoring, measurement, and improvement[C]// International Conference on Conceptual Modeling. Springer, 2006:339-351. DOI:10.1007/11908883_41 DOI

[11]	Senaratne H, Mobasheri A, Ali A L, et al. A review of volunteered geographic information quality assessment methods[J]. International Journal of Geographical Information Science, 2017, 31(1):139-167. DOI:10.1080/13658816.2016.1189556 DOI

[12]	陆锋, 余丽, 仇培元. 论地理知识图谱[J]. 地球信息科学学报, 2017, 19(6):723-734. DOI [ Lu F, Yu L, Qiu P Y. On geographic knowledge graph[J]. Journal of Geo-Information Science, 2017, 19(6):723-734. ] DOI:10.3724/SP.J.1047.2017.00723 DOI

[13]	Kang B, O'Donovan J, Höllerer T. Modeling topic specific credibility on twitter[C]// Proceedings of the 2012 ACM international conference on Intelligent User Interfaces. Lisbon, Portugal. New York: ACM, 2012:179-188. DOI:10.1145/2166966.2166998 DOI

[14]	Agichtein E, Castillo C, Donato D, et al. Finding high-quality content in social media[C]// Proceedings of the 2008 International Conference on Web Search and Data Mining. New York: ACM, 2008:183-194. DOI:10.1145/1341531.1341557 DOI

[15]	Loiacono E T, Watson R T, Goodhue D L. WebQual: A measure of website quality[J]. Marketing theory and applications, 2002, 13(3):432-438

[16]	Barnes S, Vidgen R. WebQual: an exploration of website quality[J]. ECIS 2000 Proceedings, 2000:74.

[17]	Hoffman D L, Novak T P, Chatterjee P. Commercial scenarios for the web: Opportunities and challenges[J]. Journal of Computer-Mediated Communication, 1995, 1(3): JCMC136. DOI:10.1111/j.1083-6101.1995.tb00165.x DOI

[18]	Olsina L, Lafuente G, Rossi G. Specifying quality characteristics and attributes for websites[M]// Lecture Notes in Computer Science. Berlin, Heidelberg: Springer Berlin Heidelberg, 2001:266-278. DOI:10.1007/3-540-45144-7_26 DOI

[19]	Barnes S J, Vidgen R. The eQual approach to the assessment of E-commerce quality: A longitudinal study of internet bookstores[M]// Web engineering: principles and techniques. IGI Global, 2005:161-181.DOI:10.4018/978-1-59140-432-3.ch007 DOI

[20]	Barnes S J, Vidgen R. An evaluation of cyber-bookshops: The WebQual method[J]. International Journal of Electronic Commerce, 2001, 6(1):11-30. DOI:10.1080/10864415.2001.11044225 DOI

[21]	Katerattanakul P, Siau K. Measuring information quality of web sites: development of an instrument[C]// Proceedings of the 20th international conference on Information Systems. 1999:279-285. DOI:10.1145/352925.352951 DOI

[22]	Anusha R. A study on website quality models[J]. International journal of scientific and research publications, 2014, 4(12):1-5. DOI:10.1.1.676.6590 DOI

[23]	Zaveri A, Rula A, Maurino A, et al. Quality assessment for linked data: A survey[J]. Semantic Web, 2015, 7(1):63-93. DOI:10.3233/sw-150175 DOI

[24]	Hartig O. Querying trust in rdf data with tsparql[C]// European Semantic Web Conference. Springer, 2009:5-20. DOI:10.1007/978-3-642-02121-3_5 DOI

[25]	Bizer C, Cyganiak R. Quality-driven information filtering using the WIQA policy framework[J]. Journal of Web Semantics, 2009, 7(1):1-10. DOI:10.1016/j.websem.2008.02.005 DOI

[26]	Böhm C, Naumann F, Abedjan Z, et al. Profiling linked open data with ProLOD[C]// 2010 IEEE 26th International Conference on Data Engineering Workshops. IEEE, 2010:175-178. DOI:10.1109/ICDEW.2010.5452762 DOI

[27]	Guéret C, Groth P, Stadler C, et al. Assessing linked data mappings using network measures[M]// Lecture Notes in Computer Science. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012:87-102. DOI:10.1007/978-3-642-30284-8_13 DOI

[28]	Fürber, Christian and Hepp, Martin, Swiqaa semantic web information quality assessment framework[C]// 19th European Conference on Information Systems. ECIS 2011, Helsinki, Finland, 9-11 June 2011.

[29]	Debattista J, Auer S, Lange C. Luzzu - A framework for linked data quality assessment[C]// 2016 IEEE Tenth International Conference on Semantic Computing. IEEE, 2016:124-131. DOI:10.1109/ICSC.2016.48 DOI

[30]	Mendes P N, Mühleisen H, Bizer C. Sieve: linked data quality assessment and fusion[C]// Proceedings of the 2012 Joint EDBT/ICDT Workshops on - EDBT-ICDT '12. New York:ACM Press, 2012:116-123. DOI:10.1145/2320765.2320803 DOI

[31]	Jacobi I, Kagal L, Khandelwal A. Rule-based trust assessment on the semantic web[M]// Rule-Based Reasoning, Programming, and Applications. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011:227-241. DOI:10.1007/978-3-642-22546-8_18 DOI

[32]	Gil Y, Artz D. Towards content trust of web resources[J]. Journal of Web Semantics, 2007, 5(4):227-239. DOI:10.1016/j.websem.2007.09.005 DOI

[33]	Jia S B, Xiang Y, Chen X J, et al. Triple trustworthiness measurement for knowledge graph[C]// WWW '19:The World Wide Web Conference. San Francisco, CA, USA. New York: ACM, 2019:2865-2871. DOI:10.1145/3308558.3313586 DOI

[34]	Feng S, Xu L D. Decision support for fuzzy comprehensive evaluation of urban development[J]. Fuzzy Sets and Systems, 1999, 105(1):1-12. DOI:10.1016/S0165-0114(97)00229-7 DOI

[35]	Behzadian M, Khanmohammadi Otaghsara S, Yazdani M, et al. A state-of the-art survey of TOPSIS applications[J]. Expert Systems With Applications, 2012, 39(17):13051-13069. DOI:10.1016/j.eswa.2012.05.056 DOI

[36]	Khosroanjom D, Ahmadzade M, Niknafs A, et al. Using fuzzy AHP for evaluating the dimensions of data quality[J]. International Journal of Business Information Systems, 2011, 8(3):269. DOI:10.1504/ijbis.2011.042409 DOI

[37]	田民, 刘思峰, 卜志坤. 灰色关联度算法模型的研究综述[J]. 统计与决策, 2008(1):24-27. [ Tian M, Liu S F, Bu Z K. A review of research on grey correlation algorithm model[J]. Statistics & Decision, 2008(1):24-27. ]

[38]	Perozzi B, Al-Rfou R, Skiena S. DeepWalk: Online learning of social representations[C]// Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. New York, New York, USA. New York: ACM, 2014:701-710. DOI:10.1145/2623330.2623732 DOI

[39]	Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA. New York: ACM, 2016:855-864. DOI:10.1145/2939672.2939754 DOI

[40]	Tang J, Qu M, Wang M Z, et al. LINE: Large-scale information network embedding[C]// Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015:1067-1077. DOI:10.1145/2736277.2741093 DOI

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 质量评估框架

2.1 总体介绍

图1 网络文本蕴含地理信息质量评估框架

2.2 质量评估对象

2.2.1 数据源

表1 蕴含地理信息的网站分类

2.2.2 数据项

2.2.3 数据集

2.3 质量维度与指标

2.3.1 相关性

2.3.2 新颖性

表2 QAF-GIWT中新颖性的维度、指标与值获取方式

2.3.3 可靠性

表3 QAF-GIWT中可靠性的维度、指标与值获取方式

2.3.4 完整性

表4 QAF-GIWT中完整性的维度、指标与值获取方式

2.4 质量评估方法

2.4.1 指标计算方法

2.4.2 指标综合方法

2.4.3 质量预测方法

3 案例验证

表5 网络文本蕴含地理信息质量评估方法

3.1 确定质量评估维度与指标

表6 可靠性计算中各层指标权重

3.2 质量评估结果与分析

表7 网络文本蕴含地理信息质量评估案例结果

图2 三元组数据集质量统计

图3 网页质量统计

4 结论与展望

参考文献