Research on Geographical Preference of Scientific Collaboration : A Case Study of Haze Research Network in China

  • WANG Shuang , 1 ,
  • CHEN Yufen 1 ,
  • YUAN Yecheng , 2, * ,
  • LI Wei 1, 3 ,
  • WANG Chengshun 1
  • 1. Institute of Surveying and Mapping, Information Engineering University, Zhengzhou 450052, China
  • 2. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101, China
  • 3. 75711 Troops, Guangzhou 510515, China
*Corresponding author: YUAN Yecheng, E-mail:

Received date: 2016-06-01

  Request revised date: 2016-10-10

  Online published: 2017-02-17


《地球信息科学学报》编辑部 所有


Scientific collaboration is an important way of knowledge dissemination and sharing. Researches have showed that geographic factor is one of the main factors that influencing scientific collaboration. However, most of related researches have just quantitatively described the functional relationship between collaboration strength and geographic distance from the perspective of Scientometrics. As a result, it can hardly detect the spatial characteristics and relationship of scientific collaboration. In this paper, for the purpose of mining spatial patterns in scientific collaboration network, geographical preference of scientific collaboration was studied from the view of geography. Taking the haze research network in China for example, the location information was extracted from bibliographic data and then the virtual scientific collaboration network can be mapped into geo-collaboration network by using geocoding service. Based on this, a distance-based method for community detection of scientific collaboration network was proposed to explore the spatial cluster pattern in scientific collaboration. Using modified Louvain community detection algorithm, two different variables were used as weight factor to detect communities. The results showed that, the community detection algorithm considering collaboration frequency and geographic distance can make the average geographic distance minimum and the Salton index maximum inside community, which both reflect the geographical preference and collaboration strength of scientific collaboration. This method can effectively explore the spatial pattern and relationship in scientific collaboration network, and represent geographical preference of scientific collaboration in a quantitative and qualitative way. In addition, it is a novel method of introducing geographic location and geographic distance into complex network analysis. We hope that it will not only be helpful for scientific collaboration network, but also can be applied to other complex network for geographic community detection.

WANG Shuang , CHEN Yufen , YUAN Yecheng , LI Wei , WANG Chengshun . Research on Geographical Preference of Scientific Collaboration : A Case Study of Haze Research Network in China[J]. Journal of Geo-information Science, 2017 , 19(2) : 248 -255 . DOI: 10.3724/SP.J.1047.2017.00248

1 引言

科学合作是指科学家为生产新的科学知识这一共同目标而在一起的工作,合著论文是科学合作最重要的表现形式[1]。科学合作促进了知识的传播和共享,已经成为科学活动的一种主要模式。由于科学合作是一种复杂的社会过程,因此有许多影响科学合作的因素(如地理因素、经济因素、社会政治因素以及语言文化接近因素等),其中地理因素一直是学者们关注的主要问题。Katz最早对科学合作中存在的地理近似性进行了研究,以加拿大、澳大利亚和英国的高校合作数据为样本,得出国内的高校更倾向于同地理上邻近的高校进行合作[2];梁立明等以绝对合作频次和Salton指数为度量指标,发现了中国“985”高校之间合作的强地域倾向[3]。随着交通和通信手段变得越来越便捷,科学合作的地域障碍正在被打破,科学交流变得更加便利。因此,地理距离在科学合作中的重要性受到了质 疑[4-6]。学者们通过不同的方法对该问题进行了研究:Ponds和Frenken等通过重力模型证明了地理距离仍然是影响科学合作的显著因素[7-8];梁立明和苏金燕等基于Salton指数得出科学合作强度与地理距离呈现负相关关系[9-10]。但是上述研究主要是从科学计量学的角度,通过数学模型定量地对科学合作强度和地理距离之间的整体函数关系进行描述,无法揭示科学合作在空间上的分布特征和内部差异性。对于科学合作地域倾向性中的空间聚类特征,目前主要是依赖人工经验进行聚类和解读[3,11]
因此,在上述研究的基础上,本文将地理位置和地理距离引入科学合作网络,从地理学角度对科学合作中存在的地域倾向性进行了研究,旨在对科学合作中隐含的空间分布模式进行挖掘。本文以雾霾研究这个热点话题为例,从中国科学引文数据库(Chinese Science Citation Database, CSCD)获取相关文献题录,通过对文献题录中的位置信息进行解析,将虚拟的科学合作网络映射到地理合作网络。在此基础上,提出了一种考虑地理距离的科学合作网络社区发现方法,在具有科学合作地域倾向性的前提下,进一步对科学合作中的空间聚类特征进行探测。该社区划分的结果,可以直观地揭示科学合作地域倾向性的内部差异和空间特征,并可作为进一步挖掘地理社区产生原因及其内部关联关系的基础。

2 数据与方法

2.1 数据来源


2.2 方法

本文以中国跨省区科学合作关系为研究对象,从CSCD文献题录中对作者单位信息进行提取,通过地理解析获取作者单位的地理坐标,进一步根据合作关系将其定位到地理参考框架。这样就将虚拟的科学合作网络映射到了地理合作网络,使 “人-人”之间的关系映射到“地-地”之间的关系。在此基础上,对Louvain社区发现算法[12]进行改进,将地理距离、合作频次、合作强度作为参数对地理社区进行划分和验证,挖掘科学合作网络在空间上的聚类分布特征,从而反映出科学合作地域倾向性的内部差异。本文的研究方法如图1所示。
Fig. 1 Research method

图1 研究方法

2.3 度量指标

s ij = n ij n i n j (1)
式中:nij代表ij 2个地区之间的合作频次;ninj分别为ij 2个地区的论文总产量。

3 科学合作地域倾向性探测

根据文献[9]、[10]提出的科学合作地域倾向性探测方法,本文首先对雾霾研究中是否存在科学合作地域倾向性进行了验证。中国31个地区中任意2个地区的合作距离,最长为3401 km,最短为 127 km,两者之差为3274 km。将该差值采用定长距离分组的方法分为10组,对每组内的Salton指数和地理距离求平均值,从而建立起科学合作倾向性和地理距离之间的对应关系,如图2所示。
Fig. 2 Relationship of Salton index and geographic distance

图2 Salton指数与地理距离的关系


4 地理合作网络构建

根据图论的思想,科学合作关系可以抽象为图的边和节点,用Gp=(Vp, Ep)表示。其中,Vp为节点的集合,代表论文的作者;Ep为边的集合,代表作者之间的论文合著关系。通过对作者所在单位地址中的地理位置信息进行解析,可将科学合作网络映射到地理合作网络,用Gs=(Vs, Es)表示。其中,Vs代表作者单位所在地的节点集合,Es代表不同地点之间的论文合著关系。
在构建地理合作网络之前,首先要对文本格式的CSCD文献题录进行处理,对其中的位置信息进行解析。对于包含完整地址信息的记录,可以直接对其所在地区的名称进行提取。而地址信息不完整的记录,则借助于地理解析的方法,将其单位名称作为参数,调用百度Geocoding API,获取地理坐标。然后,将其与地理数据进行空间叠加,获取其所在地区的信息。最后,根据合作关系对各地区之间的合作频次进行统计,对于具有合作关系的2个地区,生成以这2个地区的质心为起止点的测地线。这样就构建了以中国大陆31个地区的质心作为节点,以各地区之间合作关系作为边的地理合作网络,如图3所示。
Fig. 3 Geo-collaboration network

图3 地理合作网络


5 考虑地理距离的科学合作网络社区划分


5.1 Louvain社区发现算法

Louvain算法又称为fast unfolding算法,是一种基于模块度(modularity)优化的启发式社区划分算法,结果可靠且效率较高[25]。模块度是一个范围在0到1之间的值,越接近1代表社区结构越明显[26]。对于带权重的网络,模块度的计算公式为:
Q = 1 2 m A ij - k i k j 2 m δ c i , c j (2)
式中:Aij表示节点i与节点j之间边的权重; k i A ij 表示所有与节点i相连接的边的权重之和; m = 1 2 A ij ,即整个网络中所有边的权重之和;cicj分别表示节点i和节点j所在的社区,如果ij同属一个社区,则δ(ci, cj)=1,否则δ(ci, cj)=0。
Q = in + 2 k i , in 2 m - tot + k i 2 m 2 - in 2 m - tot 2 m 2 - k i 2 m 2 (3)
式中:假设i是要移动的节点,C是节点i要加入的社区,那么 in 即是社区C内部所有边的权重之和, tot 是整个网络与社区C中节点相连接的所有边的权重之和;ki是整个网络与节点i相连接的所有边的权重之和,ki,in是社区C内部与节点i相连接的所有边的权重之和。

5.2 基于地理距离的社区划分

基于地理距离的社区划分,其核心思想是在维持网络拓扑结构的基础上,考虑网络节点之间的空间作用力,挖掘网络中存在的空间聚类特征。根据Tobler第一定律,地理上越接近的事物关系越密切,随着地理距离的增加,空间作用力也会相应的衰减。文献[8]、[9]研究结果表明,对于科学合作,表示合作强度的Salton指数也会随着地理距离的增大而减小。因此,本文选取地理距离的倒数作为网络边权,基于地理合作网络,计算得到网络中任意节点i和节点j之间的地理距离dij,通过修正Louvain算法中的权重参数,令模块度计算公式中的 Aij=1/dij,重新进行社区的划分(表1)。此时,Louvain算法得到的社区划分结果(图4)已经明显地体现出了空间上的聚类特征。
Tab.1 Community dipartition based on distance

表1 基于地理距离的社区划分结果

社区名称 地区
社区1 黑龙江、吉林、辽宁
社区2 北京、内蒙古、天津、河北、山东、山西
社区3 甘肃、新疆、西藏、青海、宁夏、河南、陕西、湖北、湖南、广西、云南、贵州、重庆、四川
社区4 广东、福建、江西、海南
社区5 江苏、上海、浙江、安徽
Fig. 4 Community dipartition based on distance

图4 基于地理距离的社区划分结果

Dis tan c e mn = D i , j m c i , c j m c i , c j m = n D i , j mn c i , c j mn c i , c j m n (4)
Sal to n mn = S i , j m c i , c j m c i , c j m = n S i , j mn c i , c j mn c i , c j m n (5)
式中:mn为社区编号;ij代表合作网络中某条边的两个节点;Di,j表示和ij之间的地理距离;Si,j表示和ij之间的Salton指数;cicj分别表示节点i和节点j所在的社区;m(ci,cj)表示ij同属于社区m,此时m(ci,cj)=1,否则m(ci,cj)=0;mn(ci,cj)表示ij分别属于社区m和社区n,此时mn(ci,cj)=1,否则 mn(ci,cj)=0。
Tab.2 Average distance matrix of each community (km)

表2 社区之间的平均地理距离矩阵(km)

社区1 社区2 社区3 社区4 社区5
社区1 463 883 2334 2359 1520
社区2 883 379 1415 1803 1063
社区3 2334 1415 1124 1380 1476
社区4 2359 1803 1380 538 1037
社区5 1520 1063 1476 1037 378
Tab.3 Average Salton index matrix of each community

表3 社区之间的平均Salton指数矩阵

社区1 社区2 社区3 社区4 社区5
社区1 0.0199 0.0289 0.0230 0.0178 0.0154
社区2 0.0289 0.0448 0.0292 0.0343 0.0244
社区3 0.0230 0.0292 0.0223 0.0347 0.0166
社区4 0.0178 0.0343 0.0347 0.0691 0.0199
社区5 0.0154 0.0244 0.0166 0.0199 0.0327

5.3 基于合作频次与地理距离的社区划分

F D ij = Frequenc y ij Dis tan c e ij (6)
Fig.5 Community dipartition based on collaboration frequency and distance

图5 基于合作频次与地理距离的社区划分结果

Tab.4 Community dipartition based on collaboration frequency and distance

表4 基于合作频次和地理距离的社区划分结果

社区名称 地区
社区1 黑龙江、吉林、辽宁、北京、内蒙古、天津、河北、山东、山西、甘肃、新疆、西藏
社区2 江苏、安徽、上海、浙江、福建
社区3 广东、广西、海南、云南、贵州、江西、湖南、湖北、重庆、四川、河南、陕西、青海、宁夏
Tab. 5 Average distance matrix of each community (km)

表5 社区之间的平均地理距离矩阵(km)

社区1 社区2 社区3
社区1 1071 1458 1690
社区2 1458 301 1188
社区3 1690 1188 897
Tab. 6 Average Salton index matrix of each community

表6 社区之间的平均Salton指数矩阵

社区1 社区2 社区3
社区1 0.0326 0.0207 0.0266
社区2 0.0207 0.0331 0.0182
社区3 0.0266 0.0182 0.0310

6 结语


