武汉大学 遥感信息工程学院, 武汉 430079
通讯作者:
收稿日期: 2018-12-1
修回日期: 2018-12-30
网络出版日期: 2019-01-20
版权声明: 2019 《地球信息科学学报》编辑部 《地球信息科学学报》编辑部 所有
基金资助:
作者简介:
作者简介:秦 昆(1972-),男,湖北随州人,博士,教授,研究方向为时空数据挖掘与大数据分析。E-mail:qink@whu.edu.cn
展开
摘要
21世纪以来的国际关系错综复杂、瞬息万变,给世界的经济、安全、外交等带来了深刻变化。这些变化对中国的内外政策产生了重大影响。全面及时地分析国际关系及其变化特征,对于中国的经济和外交发展规划具有重要参考价值。国际关系研究具有复杂性、及时性、时空性等特点,迫切需要时空大数据分析技术为其提供新的思路和技术手段。大众媒体如报纸、广播等记录着世界上发生的各种各样的事件,蕴含着丰富的信息,相对于记录个人活动的社交媒体数据,其更加适合于对人类社会进行大规模和长时间的分析。GDELT是一个免费开放的新闻数据库,它实时监测世界上印刷、广播、网络媒体中的新闻,对其进行文本分析并提取出人物、地点、组织和事件等关键信息。本文利用复杂网络的理论和方法对GDELT进行网络化挖掘并进一步分析国家关系。首先利用该数据构建国家交互网络,然后通过网络特征统计分析国家之间的交互关系,最后探测国家冲突事件交互网络的时序变化。研究发现:① 国家交互网络具有无标度特性,网络连接在整体和局部上都呈现出不均匀性,少数国家与其他国家有大量交互,大多数国家与其他国家的交互很少;一个国家与少数国家有大量交互,而与大多数国家的交互很少。② 国家冲突事件交互网络的突然变化往往对应一些重大事件。本文的研究可以为大数据时代的国际关系探索提供一个新的视角,同时也为新闻媒体数据的分析提供参考。
关键词:
Abstract
The international relations are intricate and ever-changing since the 21st century, and have brought profound changes to the world's economy, security, and diplomacy. These changes have had a major impact on China's internal and external policies. A comprehensive and timely analysis of international relations and its changing characteristics has important reference value for China's economic and diplomatic development planning. The analysis of international relations has spatio-temporal characteristics, and it needs real-time processing. Thus, it needs to introduce the methods of spatio-temporal big data analysis to analyze international relations. Traditional mass media such as news, radio, etc. record all kinds of events happening in the world. It contains a wealth of information. Compared with social media data recording personal activities, it is more suitable for large-scale and long-term analysis of human society. The Global Database of Events Language, and Tone (GDELT) is a free and open news database which monitors news from print, broadcast, and online media in the world, analyzes the texts and extracts the key information such as people, place, organization, and event. This paper researches the network characteristics of GDELT based on theory of complex network and further analyze the relations between countries. Firstly, this paper constructs national interaction networks using GDELT, then analyze the interaction relationship between countries through network characteristic statistics, and finally detect the time series changes of the national conflict event interaction network. The results show that: (1)The National interaction network has scale-free characteristics, the interaction between countries is unevenly distributed from a global and local perspective. Very few countries have lots of interactions while most countries have very few interactions, and one country has lots of interactions with a few countries while a few interactions with most countries. (2) Sudden changes in the national interaction network of conflict events often indicates some significant national conflict events. This paper can provide a new perspective for the exploration of international relations and a reference for the analysis of news media in the era of big data.
Keywords:
进入21世纪以来,国际关系在冷战之后表现得更为复杂和多变,给世界的经济、安全、外交等带来了深刻的变化。这些变化也对中国的一系列对内和对外战略措施产生了重大影响。因此,全面及时地分析和了解国际上各国的关系及其总体变化特征,无论是对于一带一路倡议还是国内经济发展规划都是极为重要的参考。然而,此类研究具有较大的难度: ①国际关系复杂,涉及的方面众多,分析涉及所有国家关系的各个方面,可谓牵一发而动全身; ②国际关系所涉及的时空尺度广泛,信息覆盖的全面与否直接影响分析的准确性; ③国际关系瞬息万变,分析的及时性是非常重要的因素。因此,全球国家关系的分析与预测一直是难以破解的难题。随着大数据时代的到来,新技术的涌现和迅速发展使得海量数据的获取、存储和计算成为可能,研究人员可以利用大数据对人类的行为模式进行分析和预测。Lazer等[1]在《Science》杂志上发表了论文《Computational Social Science》,标志着计算社会科学的到来。大量研究人员利用社交网络数据、通话数据和定位轨迹数据等分析个人、城市和国家之间的相互关系和相互作用[2,3]。相对于这些“个人导向”的社交媒体数据,以广播、报纸和电视等以大众为目标的大众媒体数据,往往更加关注相关事件的重要性和聚集性,这些数据集中在特定的有影响力的事件上,而不是一些个人活动,并且具有较长的时间跨度和实时更新性,因此更加适合于进行大规模和长时间的模式分析[4]。本文试图从时空大数据分析的角度对国际关系进行探索性的研究。
GDELT(The Global Database of Events, Language, and Tone)是一个免费开放的新闻数据库,GDELT不仅对新闻中的人物、组织、事件、语气等信息进行提取,更重要的是它提取了新闻中的位置信息,并给出了相应的国家编码和参考经纬度。GDELT数据具有很高的时效性,每15 min实时更新一次[5,6]。基于该数据的这些特点,可以从空间和时间的角度探索不同地理区域和地理对象之间的联系及其时空演化规律。
自GDELT发布以来,大量学者对其进行了挖掘和分析研究。一些学者从新闻覆盖量的角度,研究了不同国家新闻覆盖量差异的原因[7],分析了地震之后新闻覆盖量和不同国家援助情况的变化[8];一些学者从新闻事件及其影响程度的角度,研究了国家的相互关系[9,10]、国家的活跃程度[11];一些学者从情感角度,研究了公众对国家政策的评价[12]、社会情绪的结构分布[13]等。由于GDELT数据集的长时间跨度和实时更新特性,大量学者利用其进行冲突事件的预测,所用的方法包括回归模型[14]、时间序列模型[15]、隐马尔科夫[16]、频繁子图[17,18]等,也有一些学者利用GDELT数据对宏观经济指标[19]、股市指数[20]、原油价格[21]等进行了预测。新闻体现着其中参与者间的交互作用,通过这些交互信息构建交互网络,可以对参与者之间的关系进行长时间观察,从而分析不同组织、不同国家之间的关系模式及其变化规律[22,23,24]。但是,目前的研究大多是通过一些指标统计进行现象分析,或者从方法论的角度进行预测分析,而较少分析新闻数据中蕴含的交互作用,以及这些交互关系的时空变化规律。
网络分析,尤其是复杂网络理论自20世纪末以来迅速兴盛和发展,在网络的统计特征、结构特性、演化特征等方面都涌现了大量的研究[25,26]。利用复杂网络方法对实体之间的关系进行建模构建网络,可以很方便地对其中蕴含的关系进行分析,广泛应用于生物网络、社交网络等领域。对于具有空间属性的网络,即其节点具有位置属性的网络也被应用于许多领域,如交通[27]、贸易[28]、迁徙[29]等,通过构建空间网络探究不同地理实体如城市、国家等在交通、贸易、迁徙等方面的关系,对于区域发展政策制定、交通规划等都具有重要的参考。不过,利用某个特定领域如交通、贸易等的数据构建的交互网络无法反映整体的关系,并且往往存在着数据获取困难、数据更新慢等局限性,而GDELT包含着各种不同主题新闻的协同信息,并且能够免费获取和实时更新,可以很好地研究不同地理实体之间的交互关系。
本文基于GDELT数据集构建国家交互网络,利用复杂网络的理论与方法探索网络特征,分析国家之间的交互关系,并从时间角度探索这些交互关系的变化趋势和发展规律。本文的研究可以为大数据时代的国际关系探索提供一个新的视角。
GDELT是由Google Jigsaw支持,美国乔治城大学教授Kalev Leetaru于2013年创建并发布的一个新闻数据库,GDELT实时监测世界上印刷、广播、网络媒体中的新闻,对其进行分析,提取出人物、地点、组织和事件类型等关键信息,涵盖了从1979年至今的新闻媒体数据并每15 min进行更新[5,6]。GDELT为免费开放的数据库,它将提取出来的信息导出为CSV格式的表格,可以直接免费下载[30,31]。GDELT提供了多种数据集,其中,事件库(Event Database)和全球知识图(Global Knowledge Graph, GKG)为2个主要的数据集,会稳定进行发布和更新,本文选取这2个数据集进行分析。
事件库(Event Database)提取了新闻中包含的2个参与者、发生在二者之间的事件、参与者位置及事件发生位置等信息,根据事件信息对新闻进行聚合,每一条数据代表一个事件。需要特别说明的是,事件库中采用冲突与调解事件观察(Conflict and Mediation Event Observations,CAMEO)对事件进行编码[32],因此,事件库中提取的事件均为政治合作或冲突的事件。事件库中数据包括58个字段,本文选取QuadClass、Actor1Geo_CountryCode、Actor2Geo_CountryCode这3个字段用于构建网络,其中QuadClass用于标识事件的主要分类(1表示口头合作、2表示实质合作、3表示口头冲突、4表示实质冲突),Actor1Geo_CountryCode为参与者1所在位置的国家编码,Actor2Geo_CountryCode为参与者2所在位置的国家编码。
全球知识图(Global Knowledge Graph, GKG)扩展了事件库的功能,记录了新闻中出现的所有的人员、组织、位置、情绪、主题、计数和来源信息,并将以上信息形成一个“名称集(NameSet)”,根据名称集对新闻进行聚合,每一条数据代表唯一的一个名称集,包含所有含该名称集的文章。本文选取NUMARTS和LOCATIONS 2个字段用于构建网络,其中NUMARTS是指包括此条名称集的源文档总数,LOCATIONS是指在新闻文本中能找到的所有位置的列表,每个位置用“;”分隔,每个位置字段中包含许多子字段,用“#”分隔,本文用到第3个子字段GEO_COUNTRYCODE用于表示位置的国家编码。
交互是指二者间的交流互动。本文中的国家交互网络中的交互是指2个国家在新闻中的某种互动关系。在事件库中,本文定义2个国家共同参与一个事件为一次交互。从事件库的一条数据中提取的两个参与者间有交互,交互次数为1。在全球知识图中,本文定义2个国家共同在一个新闻文档中出现作为一次交互,全球知识图的一条数据中提取的所有位置两两之间都有交互,交互次数为该条数据的源文档总数(即NUMARTS)。
本文基于GDELT定义一个无向有权的国家交互网络G=(V, E, l, w),其中,点集V表示在GDELT中与其它国家有交互的国家集合,边集E表示国家间的交互集合,l表示节点的标识,本文用FIPS国家代码来标识节点,w表示边权重,本文用两个国家的交互次数作为边权重。例如,某时间段内中国和美国共交互10次,则在该时间段的国家交互网络中代表着一条边e=(u, v),其中l(u)=CN,l(v)=US,边权重w(e)=10。
对于给定的时间段t,国家交互网络的具体构建方法为:首先,对t时间内的所有数据,累计2个国家间的交互次数。然后,以国家为节点,国家间的交互为连边,总交互次数为权重,得到国家交互网络。
根据上述的交互网络构建方法,对于表1和表2所示的事件库和全球知识图中的3条示例数据,生成的网络如图1所示。
表1 事件库数据示例
Tab. 1 Example of data in event database
Actor1Geo_CountryCode | Actor2Geo_CountryCode |
---|---|
CH | US |
SY | RS |
US | RS |
表2 全球知识图数据示例
Tab. 2 Example of data in global knowledge graph
数目 | 位置 |
---|---|
2 | 1#China#CH#CH#35#105#CH; 1#UnitedStates#US#US#39.828175#-98.5795#US; ;1#Canada#CA#CA#60#-96#CA |
4 | 1#United States#US#US#39.828175#-98.5795#US; 1#Russia#RS#RS#60#100#RS |
5 | 1#United States#US#US#34.04#-118.15#US; 1#Canada#CA#CA#60#-96#CA |
在全球,每天都有大量的新闻报导和各种各样的事件发生,在GDELT中,每天都有10~20万条数据,足以构建一个复杂网络。但是,新闻往往具有很强的时效性,短时间内的新闻可能受特定的事件影响,因此本文利用不同时间长度的数据构建网络,观察不同时间尺度网络的差别及网络随时间增长的特性。本文选取2017年12月的第一天、第一周和整月数据构建一天、一周、一月共3种时间尺度的交互网络进行分析。
3.1.1 网络拓扑特征
本文首先对国家交互网络的整体拓扑特征进行统计,从表3可以看到,3种时间尺度中,网络节点数N和连边数M都很大,在一天中,就有200多个国家之间有交互(FIPS国家代码共274种),平均度k代表在某时间段内一个国家平均与多少个国家有过交互,图密度D代表国家间连接的紧密程度,从k来看,在一天之中,一个国家平均与20多个国家共同参与事件,与140多个国家共同在新闻中出现。从D来看,一个月全球知识图的数据构建的网络中,图密度高达0.85,网络接近于全连接,也就是说,一个月内国家两两之间几乎都在新闻中共同出现,这些结果一定程度上受到GDELT存在一定编码错误率的影响,但也说明整体上国家交互网络连接十分紧密,国家之间交互很多。平均聚类系数C和平均路径长度L都可以反映网络的小世界特性,在2种网络中,C都较大而L都较小,反映了交互网络具有小世界特性,表明国家之间的连通程度高。度同配系数A均为负值,反映该网络是非同配网络,总体上度值较小的国家倾向于与度值较大的国家相连,度值较大的国家倾向于与度值较小的国家相连。
表3 国家交互网络拓扑特征统计结果
Tab. 3 Topological characteristics of national interaction network
数据源 | 时间 | N | M | k | D | C | L | A |
---|---|---|---|---|---|---|---|---|
事件库 | 1天 | 213 | 2420 | 22.723 | 0.107 | 0.514 | 2.080 | -0.200 |
1周 | 233 | 5385 | 46.223 | 0.199 | 0.613 | 1.877 | -0.201 | |
1月 | 246 | 8861 | 72.041 | 0.294 | 0.678 | 1.732 | -0.194 | |
全球知识图 | 1天 | 242 | 17 032 | 140.760 | 0.584 | 0.813 | 1.424 | -0.154 |
1周 | 254 | 25 023 | 197.031 | 0.779 | 0.923 | 1.222 | -0.111 | |
1月 | 257 | 27 960 | 217.588 | 0.850 | 0.941 | 1.150 | -0.059 |
3.1.2 网络无标度特征分析
在复杂网络中,节点连接机制与规则网络和随机网络不同,不是固定或随机地选择边进行连接,而是带有一定偏好,如偏向于和网络中重要的节点进行连接[33],这种机制导致了节点之间的连接状况具有不均匀分布特性,无标度性质就是描述这种分布的不均匀性。
无标度性质通常通过统计网络中的资源分布是否符合幂律分布来衡量,常见的幂律分布模型有Zipf定律[34]、Pareto定律[35]等,幂律分布的通式如式(1)所示,其中x、y是正的随机变量,C、
在双对数坐标下幂律分布将表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律分布的依据。由于实际系统中变量的取值往往有限并且受到系统规模的限制,即使系统服从幂律分布,抽样次数太多形成的饱和效应会导致数据在双对数坐标下发生凸离原点的情形,分形学家Mandelbrot对Zip模型进行了改进,提出了Zipf-Mandelbrot定律,引入一个平移参数
度分布常常作为衡量网络的无标度性的标准,本文构建的国家交互网络为加权网络,由于边权值的引入,相对于节点度分布,节点强度分布更加适合于衡量网络的无标度性质,节点强度分布可以反映整体上网络连接的不均匀性。对某单个节点,其不同连接边的强度(即边权值)往往也存在着很大的差异,即一个国家与其它国家的交互强度存在较大差异。所以,本文从节点强度分布和单节点连接边的强度分布分析网络在整体上和局部上的无标度特征。
(1)节点强度分布
首先,本文统计节点强度的分布,对于基于事件库构建的国家交互网络,节点强度即为加权度,代表某时间段内一个国家与其他国家共同参与事件的总次数。对于基于全球知识图 构建的国家交互网络,因为其统计了一条新闻中的多个位置,导致一个国家在一个新闻出现会与多个国家产生连接,利用加权度计算节点强度将导致一些重复计算,所以本文用统计的国家在新闻中出现的总次数(即在位置中包含某个国家的新闻文档数总和)代替加权度作为节点强度进行分析。节点强度分布的统计结果如图2所示。
图2 双对数坐标下国家交互网络的节点强度累计概率分布注:S代表节点强度大小;C(S)代表节点强度至少为S的概率;(c)、(d)为对每个节点强度值都加一个平移参数
Fig. 2 CCDF of node strength in national interactive network under double logarithmic coordinates
如图2所示,图2(a)和图2(b)为双对数坐标下国家交互网络的节点强度累计概率分布,图2(c)和图2(d)为将节点强度平移后得到的分布图,即对每个节点强度值都加一个平移参数
本文提取出节点强度排名前20的国家,分析哪些国家参与事件或在新闻中出现次数最多,也反映着国家在网络中的重要性。本文根据一个月数据构建的国家交互网络进行排名,以减弱短时间内发生的事件对网络的影响,统计结果如图3所示。
图3 2017年12月国家交互网络节点强度排名前20国家分布注:横坐标为节点强度排名前20的国家;纵坐标为该国家的节点强度占网络节点强度的比重。
Fig. 3 Top 20 countries of node strength in national interaction network in December, 2017
图3显示了2个数据集构建的国家交互网络中节点强度排名前20的国家。从图3可以看出,美国的节点强度远高于其它国家,占比分别为13%和16%,其它国家之间的差距不是很大,占比都在10%以下。在基于事件库构建的网络中,美国、以色列、俄罗斯、中国、英国等处于前20的位置,说明这些国家参与事件的次数较多。在基于全球知识图构建的网络中,美国、英国、中国、加拿大、俄罗斯等国家处于前20的位置,说明这些国家在新闻中出现的次数较多,也就是说在新闻中被提及的更多,即更受媒体关注。
(2)单节点连接边的强度分布
本文以中国为例,提取在国家交互网络中与中国相连接国家的边强度,分析中国与其它国家之间交互强度的差异。统计结果如图4所示。
图4 双对数坐标下与中国相连接国家的边强度累计概率分布
Fig. 4 CCDF of edge strength of countries connected to China under double logarithmic coordinates
如图4所示,图4(a)和图4(b)为双对数坐标下与中国相连接国家的边强度分布图,图4(c)和图4(d)为将边强度平移后得到的分布图。可以看出,中国与其他国家的交互强度分布满足无标度分布,说明中国与极少数国家共同参与事件很多或经常在新闻中共现,而与大多数国家很少有事件交互或被新闻共同提及。
图5(见第21页)显示了与中国交互强度排名前20国家,图5(a)反映了中国与哪些国家共同参与事件的次数较多,图5(b)反映了中国与哪些国家经常在新闻中共同出现。可以看出,中国与美国的交互最多,美国的占比分别为14%和13%,而其他各国的差距不是很大,占比都在10%以下,除美国外,和中国共同参与事件的次数较多的国家有朝鲜、俄罗斯、韩国、日本等,和中国经常在新闻中共同出现的有日本、印度、英国、俄罗斯等。
图5 2017年12月与中国交互强度排名前20国家分布注:横坐标与中国交互强度排名前20个国家;纵坐标为该国家与中国的交互强度占中国与其它国家的总交互强度的比重。
Fig. 5 Top 20 countries of interaction strength with China in December, 2017
新闻往往是对一些特定的有重大意义的事件进行报导,如果有重大的事件发生,往往会出现大量的新闻报导,也就会导致构建的交互网络中的信息发生一些突然的变化,由此可以推断,网络的突然变化往往意味着一些重大的事件的发生,对于基于事件库构建的国家交互网络,其中每一次交互都意味着两个国家之间发生了某种冲突与调解事件,所以,如果国家在此交互网络中的节点强度或者与某个国家的交互边强度的突然增长,往往意味该国家内发生了较为重大的冲突与调解事件,反之突然的下降往往意味着事件的平息。
为验证以上推断,本文构建了冲突事件交互网络,在事件库中,其中的QuadClass字段对4大类事件类型(口头合作、实质合作、口头冲突、实质冲突)进行了划分。利用QuadClass字段对事件库进行筛选,选择其等于4(即表示发生实质冲突)的事件,构建冲突事件交互网络。在冲突事件网络中,某国家的节点强度或某两个国家间的边强度突然变化意味着可能发生了国家间的冲突。本文对冲突事件交互网络在2017年中的变化进行探测,统计各月相对于上一个月的变化情况,并分析其变化与当月发生事件的联系。
首先,本文统计了2017年中各月的冲突事件数的总体变化情况,如图6所示为相邻两个月之间的冲突事件总数的差值分布。
图6 2017年各月实质冲突事件数变化注:纵坐标为后一个月相对前一个月的冲突事件变化量;红色柱面表示冲突事件数相对于上个月有所增长,蓝色柱面表示冲突事件数相对上月下降。
Fig. 6 The growth distribution of material conflict number in 2017
图6中可以看到,除2月、6月、8月相对于上月冲突事件数在增加,其它月份的冲突事件数都在减少,其中6月份的冲突事件数增长最多,这可能是受2017年6月中东地区断交事件、中印边境冲突等事件的影响,说明该月发生了较多的冲突事件。
接下来本文对节点强度及边强度变化分别进行统计,首先观察其变化量的总体分布,由于每个月的变化量分布大致相似,本文统计2017年12月相对于11月的变化量,如图7所示。
图7 2017年12月相对于11月的节点强度和边强度变化量分布
Fig. 7 The growth distribution of node/edge strength in December 2017 versus November 2017
图7为节点强度及边强度变化量的分布图。从图7可以看出,节点及边强度的增长量或减少量分布都符合幂律分布,即大多数节点或边的增长或减少量都很小,少数边的增长量或减少量很大,而这些少部分变化较大的节点或边就意味其对应的国家可能发生了某些冲突事件。
为具体观察节点与边的变化与冲突事件的关系,本文抽取出每月中节点强度及边强度的增长量或者减少量最大的国家或国家对,对比该国家或两个国家在当月发生的事件进行来分析。统计结果如图8所示。
图8 2017年各月节点及边强度增长量或减少量最大的节点或边分布注:纵坐标为后一个月相对前一个月的节点强度或边强度变化量;红色点表示相对于上个月节点强度或边强度增长量最大的节点或边;蓝色点表示节点强度或边强度相对上月减少量最大的节点或边。
Fig. 8 The growth distribution of node/edge strength with the largest increase or decrease per month of 2017
图8显示了各月节点强度或边强度变化最大的节点或边。从图8可以看出,图8(a)和图8(b)之间存在一定的对应关系,对于某月中节点强度变化最大的国家,往往其与某国家的交互边强度在该月中变化量也最大,说明该国家节点强度的变化可能是由于其与某国家之间的交互强度变化导致的,即2个国家间可能发生了某些冲突事件。如2017年2月相对于1月节点强度增长量最大的为朝鲜,相应的,此时边强度增长量最大的为朝鲜和马来西亚,在2月两国正因为吉隆坡机场事件发生冲突,可以推断可能这起事件引起了朝鲜和马来西亚在冲突事件交互网络中的变化,验证了本文用网络的变化来推断事件发生的思想。另外,前一个月增长量最大的节点或边在下一个月变成了减少量最大的节点或边,这意味着发生事件的平息。如2017年4月叙利亚节点强度增长量最大,相应地,叙利亚与美国的交互边强度增长量也最大,可以推断可能是4月美国空袭叙利亚事件所导致;到2017年5月,可其相对4月节点强度减少量最大的为叙利亚,边强度减少量最大的为美国和叙利亚,可以推断该事件到5月已经基本平息。根据分析可以看出,冲突事件交互网络随时间变化与该事件内发生的事件有着很大的联系。通过网络的变化可以探测事件的发生,这可以为事件探测、分析及预测提供思路。
本文基于GDELT构建国家交互网络,并利用复杂网络的理论和方法对其进行挖掘,通过对国家交互网络的特征进行统计和分析,探索了国家之间的交互关系,进一步分析了国家冲突事件交互网络的时序变化规律,主要结论如下:
(1)基于GDELT中的事件库和全球知识图两个数据集构建了国家交互网络,通过对网络的拓扑特征进行统计,发现网络连接紧密,具有明显的小世界特性,说明国家在新闻中的交互很多,国家之间连通程度高。
(2)对国家交互网络的节点强度、单节点的连接边强度分布进行了统计,发现二者的分布具有明显的无标度特性,说明网络连接在整体和局部上都呈现不均匀分布性,只有极少数国家与其它国家有大量交互,而大多数国家与其它国家的交互都很少,一个国家只与极少数国家有大量交互,而与大多数国家的交互都很少。
(3)提取了2017年各月的冲突事件,构建了国家间冲突事件交互网络,对其每月的变化进行统计,并分析该变化与当月中发生的冲突事件的联系,可以发现网络的突然变化往往意味着一些重大的事件的发生,这可以为事件的探测、分析及预测提供思路。
本文利用复杂网络理论与方法对GDELT数据进行网络化挖掘并分析国家之间的交互关系,从而为国际关系分析和区域发展策略提供了一些参考。进一步的研究包括:① 分析一些特殊事件前后的国家网络的变化规律;② 进一步论证国家关系的小世界特性和无标度特性;③ 研究网络化数据挖掘的时空演变与预测分析方法。
The authors have declared that no competing interests exist.
[1] |
Computational social science [J]. |
[2] |
Understanding operation behaviors of taxicabs in cities by matrix factorization [J].https://doi.org/10.1016/j.compenvurbsys.2016.08.002 URL [本文引用: 1] 摘要
61Detecting cabdrivers’ self-organized habitual operation behaviors in space61Comparing performances of taxicabs with distinct spatial operation behaviors61Developing a matrix factorization based analytical framework to quantify, visualize and evaluate operation behavior patterns
|
[3] |
Inferring friendship network structure by using mobile phone data [J].https://doi.org/10.1073/pnas.0900282106 URL PMID: 19706491 [本文引用: 1] 摘要
Data collected from mobile phones have the potential to provide insight into the relational dynamics of individuals. This paper compares observational data from mobile phones with standard self-report survey data. We find that the information from these two data sources is overlapping but distinct. For example, selfreports of physical proximity deviate from mobile phone records depending on the recency and salience of the interactions. We also demonstrate that it is possible to accurately infer 95% of friendships based on the observational data alone, where friend dyads demonstrate distinctive temporal and spatial patterns in their physical proximity and calling patterns. These behavioral patterns, in turn, allow the prediction of individual-level outcomes such as job satisfaction.
|
[4] |
Effects of mass media and cultural drift in a model for social influence [J].https://doi.org/10.1142/S0129183107011492 URL [本文引用: 1] 摘要
In the context of an extension of Axelrod's model for social influence, we study the interplay and competition between the cultural drift, represented as random perturbations, and mass media, introduced by means of an external homogeneous field. Unlike previous studies [J. C. Gonzu00e1lez-Avella et al., Phys. Rev. E72, 065102(R) (2005)], the mass media coupling proposed here is capable of affecting the cultural traits of any individual in the society, including those who do not share any features with the external message. A noise-driven transition is found: for large noise rates, both the ordered (culturally polarized) phase and the disordered (culturally fragmented) phase are observed, while, for lower noise rates, the ordered phase prevails. In the former case, the external field is found to induce cultural ordering, a behavior opposite to that reported in previous studies using a different prescription for the mass media interaction. We compare the predictions of this model to statistical data measuring the impact of a mass media vasectomy promotion campaign in Brazil.
|
[5] |
|
[6] |
Gdelt: Global data on events, location, and tone, 1979-2012 [C]// |
[7] |
A first look at global news coverage of disasters by using the gdelt dataset [ |
[8] |
Tracking public response and relief efforts following the 2015 Nepal earthquake [C]// |
[9] |
Interconnections among the United States, Russia and China: Does Kissinger’s American leadership formula apply? [J].https://doi.org/10.17323/1996-7845 URL [本文引用: 1] |
[10] |
基于Django的海量媒体数据分析平台的设计与实现[D] .The design and implementation of massive data analysis platform based on Django[D] . |
[11] |
A contrast of the degree of activity among the three major powers, USA, China, and Russia: Insights from media reports [C]// |
[12] |
Using GDELT data to evaluate the confidence on the Spanish government energy policy [J].https://doi.org/10.9781/ijimai.2016.366 URL [本文引用: 1] |
[13] |
社会情绪的结构性分布特征及其逻辑——基于互联网大数据GDELT的分析 [J].
本研究试图整合情感社会学相关理论资源,借助互联网大数据及其相关算法,对当前中国社会各阶层情绪体验的突出特征进行归纳,对阶层互动各场景中的情感氛围进行比较。研究发现,从各阶层的总体性情绪体验指标来看,社会结构骨干阶层与中间阶层情绪体验的积极程度明显高于社会结构普通阶层。情感体验的阶层分布逻辑在于,社会结构普通阶层较之其他更多地暴露于多种类型的压力与风险中,而且这些压力更容易唤起其负面情绪。从阶层互动场域的"情感氛围"来看,不同阶层互动场域中的情感氛围明显不同,社会结构的骨干阶层内部互动的情感氛围相对和谐,而这一阶层与普通阶层、中间阶层与普通阶层互动场景中情感氛围相对紧张。上述有关情绪体验的阶层分布特征,有助于透视社会转型时期的阶层关系与社会结构,加强预防和化解社会矛盾机制建设,正确处理人民内部矛盾。
The hierarchical distribution characteristics of social emotions and the explanation: Analysis based on enternet big data set GDELT [J].
本研究试图整合情感社会学相关理论资源,借助互联网大数据及其相关算法,对当前中国社会各阶层情绪体验的突出特征进行归纳,对阶层互动各场景中的情感氛围进行比较。研究发现,从各阶层的总体性情绪体验指标来看,社会结构骨干阶层与中间阶层情绪体验的积极程度明显高于社会结构普通阶层。情感体验的阶层分布逻辑在于,社会结构普通阶层较之其他更多地暴露于多种类型的压力与风险中,而且这些压力更容易唤起其负面情绪。从阶层互动场域的"情感氛围"来看,不同阶层互动场域中的情感氛围明显不同,社会结构的骨干阶层内部互动的情感氛围相对和谐,而这一阶层与普通阶层、中间阶层与普通阶层互动场景中情感氛围相对紧张。上述有关情绪体验的阶层分布特征,有助于透视社会转型时期的阶层关系与社会结构,加强预防和化解社会矛盾机制建设,正确处理人民内部矛盾。
|
[14] |
Computational social analysis: Social unrest prediction using textual analysis of news [M]. |
[15] |
Predicting future levels of violence in Afghanistan districts using gdelt [EB/OL][ |
[16] |
Predicting social unrest events with hidden markov models using GDELT [J]. |
[17] |
Detecting and forecasting domestic political crises: A graph-based approach [C]// |
[18] |
Computational approach to detecting and predicting occupy protest events [C]// |
[19] |
Big data analysis of economic news: Hints to forecast macroeconomic indicators [J].https://doi.org/10.1504/IJBE.2017.084703 URL [本文引用: 1] |
[20] |
Visual and predictive analytics on Singapore news: Experiments on GDELT, Wikipedia, and^STI [EB/OL][2018-12-27]. . |
[21] |
Using four different online media sources to forecast the crude oil price [J].https://doi.org/10.1177/0165551517698298 URL [本文引用: 1] |
[22] |
A complex network analysis of ethnic conflicts and human rights violations [J].https://doi.org/10.1038/s41598-017-09101-8 URL PMID: 5557885 [本文引用: 1] 摘要
News reports in media contain records of a wide range of socio-economic and political events in time. Using a publicly available, large digital database of news records, and aggregating them over time, we study the network of ethnic conflicts and human rights violations. Complex network analyses of the events and the involved actors provide important insights on the engaging actors, groups, establishments and sometimes nations, pointing at their long range effect over space and time. We find power law decays in distributions of actor mentions, co-actor mentions and degrees and dominance of influential actors and groups. Most influential actors or groups form a giant connected component which grows in time, and is expected to encompass all actors globally in the long run. We demonstrate how targeted removal of actors may help stop spreading unruly events. We study the cause-effect relation between types of events, and our quantitative analysis confirm that ethnic conflicts lead to human rights violations, while it does not support the converse.
|
[23] |
Exploring inter-country connection in mass media: A case study of China [J]. |
[24] |
Modeling inter-country connection from geotagged news reports: A time-series analysis [C]// |
[25] |
|
[26] |
Complex networks: Structure and dynamics [J].https://doi.org/10.1016/j.physrep.2005.10.009 URL [本文引用: 1] 摘要
Coupled biological and chemical systems, neural networks, social interacting species, the Internet and the World Wide Web, are only a few examples of systems composed by a large number of highly interconnected dynamical units. The first approach to capture the global properties of such systems is to model them as graphs whose nodes represent the dynamical units, and whose links stand for the interactions between them. On the one hand, scientists have to cope with structural issues, such as characterizing the topology of a complex wiring architecture, revealing the unifying principles that are at the basis of real networks, and developing models to mimic the growth of a network and reproduce its structural properties. On the other hand, many relevant questions arise when studying complex networks dynamics, such as learning how a large ensemble of dynamical systems that interact through a complex wiring topology can behave collectively. We review the major concepts and results recently achieved in the study of the structure and dynamics of complex networks, and summarize the relevant applications of these ideas in many different disciplines, ranging from nonlinear science to biology, from statistical mechanics to medicine and engineering.
|
[27] |
城市交通热点区域的空间交互网络分析 [J].https://doi.org/10.18306/dlkxjz.2017.09.011 URL [本文引用: 1] 摘要
城市热点区域是人们频繁活动的体现,利用人们的出行可构建空间交互网络。目前的相关研究主要集中于对热点提取方法及其动态变化的研究,对交通热点的交互作用及其构成的空间交互网络的研究还很少。本文以武汉市的出租车轨迹为数据源,利用基于时空数据场的聚类方法提取城市交通热点区域;基于复杂网络理论与方法,分析城市交通热点区域之间的空间交互作用。通过研究发现:(1)节假日,热点区域之间的往返交互较多;工作日,热点区域之间的交互较少;(2)节假日,影响力较大的节点为车站、机场等;工作日,影响力较大的节点是社区和工作地;(3)社团探测发现,工作日跨越长江的交互较多,非工作日跨越长江的交互较少。上述研究结论可为交通管理部门针对节假日和工作日分别制定不同的交通管理政策和方法提供参考。
Spatial interaction network analysis of urban traffic hotspots [J].https://doi.org/10.18306/dlkxjz.2017.09.011 URL [本文引用: 1] 摘要
城市热点区域是人们频繁活动的体现,利用人们的出行可构建空间交互网络。目前的相关研究主要集中于对热点提取方法及其动态变化的研究,对交通热点的交互作用及其构成的空间交互网络的研究还很少。本文以武汉市的出租车轨迹为数据源,利用基于时空数据场的聚类方法提取城市交通热点区域;基于复杂网络理论与方法,分析城市交通热点区域之间的空间交互作用。通过研究发现:(1)节假日,热点区域之间的往返交互较多;工作日,热点区域之间的交互较少;(2)节假日,影响力较大的节点为车站、机场等;工作日,影响力较大的节点是社区和工作地;(3)社团探测发现,工作日跨越长江的交互较多,非工作日跨越长江的交互较少。上述研究结论可为交通管理部门针对节假日和工作日分别制定不同的交通管理政策和方法提供参考。
|
[28] |
Modeling the international trade network: A gravity approach [J].https://doi.org/10.1007/s11403-013-0108-y URL [本文引用: 1] 摘要
AbstractWe investigate whether the gravity model (GM) can explain the statistical properties of the International Trade Network (ITN). We fit data on trade flows with a GM using alternative estimation techniques and we build GM-based predictions for the weighted topological properties of the ITN, which are then compared to the observed ones. Our exercises show that the GM: (i) may replicate part of the weighted-network structure only if the observed binary architecture is kept fixed; (ii) is not able to explain higher-order statistics that, like clustering, require the knowledge of triadic link-weight topological patterns, even if the binary structure perfectly replicates the observed one; (iii) performs very badly when asked to predict the presence of a link, or the level of the trade flow it carries, whenever the binary structure must be simultaneously estimated.
|
[29] |
Global spatiotemporal patterns in human migration: A complex network perspective [J].https://doi.org/10.1371/journal.pone.0053723 URL PMID: 3553122 [本文引用: 1] 摘要
Migration is a powerful adaptive strategy for humans to navigate hardship and pursue a better quality of life. As a universal vehicle facilitating exchanges of ideas, culture, money and goods, international migration is a major contributor to globalization. Consisting of countries linked by multiple connections of human movements, global migration constitutes a network. Despite the important role of human migration in connecting various communities in different parts of the world, the topology and behavior of the international migration network and its changes through time remain poorly understood. Here we show that the global human migration network became more interconnected during the latter half of the twentieth century and that migrant destination choice partly reflects colonial and postcolonial histories, language, religion, and distances. From 1960 to 2000 we found a steady increase in network transitivity (i.e. connectivity between nodes connected to the same node), a decrease in average path length and an upward shift in degree distribution, all of which strengthened the mall-world behavior of the migration network. Furthermore, we found that distinct groups of countries preferentially interact to form migration communities based largely on historical, cultural and economic factors.
|
[30] |
All GDELT Event Files [EB/OL][ |
[31] |
All gdelt GKG Files [EB/OL][ |
[32] |
The creation of CAMEO (Conflict and Mediation Event Observations): An event data framework for a post cold war world [C]// |
[33] |
Emergence of scaling in random networks [J].https://doi.org/10.1126/science.286.5439.509 URL [本文引用: 1] 摘要
Abstract: Systems as diverse as genetic networks or the world wide web are best described as networks with complex topology. A common property of many large networks is that the vertex connectivities follow a scale-free power-law distribution. This feature is found to be a consequence of the two generic mechanisms that networks expand continuously by the addition of new vertices, and new vertices attach preferentially to already well connected sites. A model based on these two ingredients reproduces the observed stationary scale-free distributions, indicating that the development of large networks is governed by robust self-organizing phenomena that go beyond the particulars of the individual systems.
|
[34] |
Selected studies of the principle of relative frequency in language [J].https://doi.org/10.4159/harvard.9780674434929 URL [本文引用: 1] 摘要
Citation. Database: PsycINFO. [ Book ]. Selected studies of the principle of relative frequencyin language. Zipf, GK. Oxford, England: Harvard Univ. Press. (1932). 57 pp. Abstract. OurApologies! The function listed is not available with your current Browser configuration.
|
[35] |
Pareto and generalized pareto distributions [M]. |
[36] |
Power-law distributions in empirical data [J].https://doi.org/10.1137/070710111 URL [本文引用: 1] 摘要
Many man-made and natural phenomena, including the intensity of earthquakes, population of cities and size of international wars, are believed to follow power-law distributions. The accurate identification of power-law patterns has significant consequences for correctly understanding and modeling complex systems. However, statistical evidence for or against the power-law hypothesis is complicated by large fluctuations in the empirical distribution's tail, and these are worsened when information is lost from binning the data. We adapt the statistically principled framework for testing the power-law hypothesis, developed by Clauset, Shalizi and Newman, to the case of binned data. This approach includes maximum-likelihood fitting, a hypothesis test based on the Kolmogorov--Smirnov goodness-of-fit statistic and likelihood ratio tests for comparing against alternative explanations. We evaluate the effectiveness of these methods on synthetic binned data with known structure, quantify the loss of statistical power due to binning, and apply the methods to twelve real-world binned data sets with heavy-tailed patterns.
|
[37] |
关于Zipf-Mandelbrot律中参数ρ的一种解释 [J].
Zipf-Mandelbrot律S∝(r+ρ)-α是对Zipf律的改进,但是参数ρ的含义一直不清楚.本文直接生成符合Zipf-Mandelbrot律的随机数据序列,通过对比指出Zipf-Mandelbrot律是由系统规模约束造成的,参数ρ反映了数据的饱和效应.
A explanation of shift parameter ρ in Zipf-Mandelbrot law [J].
Zipf-Mandelbrot律S∝(r+ρ)-α是对Zipf律的改进,但是参数ρ的含义一直不清楚.本文直接生成符合Zipf-Mandelbrot律的随机数据序列,通过对比指出Zipf-Mandelbrot律是由系统规模约束造成的,参数ρ反映了数据的饱和效应.
|
/
〈 |
|
〉 |