Orginal Article

Research on Geographical Preference of Scientific Collaboration : A Case Study of Haze Research Network in China

  • WANG Shuang , 1 ,
  • CHEN Yufen 1 ,
  • YUAN Yecheng , 2, * ,
  • LI Wei 1, 3 ,
  • WANG Chengshun 1
Expand
  • 1. Institute of Surveying and Mapping, Information Engineering University, Zhengzhou 450052, China
  • 2. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101, China
  • 3. 75711 Troops, Guangzhou 510515, China
*Corresponding author: YUAN Yecheng, E-mail:

Received date: 2016-06-01

  Request revised date: 2016-10-10

  Online published: 2017-02-17

Copyright

《地球信息科学学报》编辑部 所有

Abstract

Scientific collaboration is an important way of knowledge dissemination and sharing. Researches have showed that geographic factor is one of the main factors that influencing scientific collaboration. However, most of related researches have just quantitatively described the functional relationship between collaboration strength and geographic distance from the perspective of Scientometrics. As a result, it can hardly detect the spatial characteristics and relationship of scientific collaboration. In this paper, for the purpose of mining spatial patterns in scientific collaboration network, geographical preference of scientific collaboration was studied from the view of geography. Taking the haze research network in China for example, the location information was extracted from bibliographic data and then the virtual scientific collaboration network can be mapped into geo-collaboration network by using geocoding service. Based on this, a distance-based method for community detection of scientific collaboration network was proposed to explore the spatial cluster pattern in scientific collaboration. Using modified Louvain community detection algorithm, two different variables were used as weight factor to detect communities. The results showed that, the community detection algorithm considering collaboration frequency and geographic distance can make the average geographic distance minimum and the Salton index maximum inside community, which both reflect the geographical preference and collaboration strength of scientific collaboration. This method can effectively explore the spatial pattern and relationship in scientific collaboration network, and represent geographical preference of scientific collaboration in a quantitative and qualitative way. In addition, it is a novel method of introducing geographic location and geographic distance into complex network analysis. We hope that it will not only be helpful for scientific collaboration network, but also can be applied to other complex network for geographic community detection.

Cite this article

WANG Shuang , CHEN Yufen , YUAN Yecheng , LI Wei , WANG Chengshun . Research on Geographical Preference of Scientific Collaboration : A Case Study of Haze Research Network in China[J]. Journal of Geo-information Science, 2017 , 19(2) : 248 -255 . DOI: 10.3724/SP.J.1047.2017.00248

1 引言

科学合作是指科学家为生产新的科学知识这一共同目标而在一起的工作,合著论文是科学合作最重要的表现形式[1]。科学合作促进了知识的传播和共享,已经成为科学活动的一种主要模式。由于科学合作是一种复杂的社会过程,因此有许多影响科学合作的因素(如地理因素、经济因素、社会政治因素以及语言文化接近因素等),其中地理因素一直是学者们关注的主要问题。Katz最早对科学合作中存在的地理近似性进行了研究,以加拿大、澳大利亚和英国的高校合作数据为样本,得出国内的高校更倾向于同地理上邻近的高校进行合作[2];梁立明等以绝对合作频次和Salton指数为度量指标,发现了中国“985”高校之间合作的强地域倾向[3]。随着交通和通信手段变得越来越便捷,科学合作的地域障碍正在被打破,科学交流变得更加便利。因此,地理距离在科学合作中的重要性受到了质 疑[4-6]。学者们通过不同的方法对该问题进行了研究:Ponds和Frenken等通过重力模型证明了地理距离仍然是影响科学合作的显著因素[7-8];梁立明和苏金燕等基于Salton指数得出科学合作强度与地理距离呈现负相关关系[9-10]。但是上述研究主要是从科学计量学的角度,通过数学模型定量地对科学合作强度和地理距离之间的整体函数关系进行描述,无法揭示科学合作在空间上的分布特征和内部差异性。对于科学合作地域倾向性中的空间聚类特征,目前主要是依赖人工经验进行聚类和解读[3,11]
因此,在上述研究的基础上,本文将地理位置和地理距离引入科学合作网络,从地理学角度对科学合作中存在的地域倾向性进行了研究,旨在对科学合作中隐含的空间分布模式进行挖掘。本文以雾霾研究这个热点话题为例,从中国科学引文数据库(Chinese Science Citation Database, CSCD)获取相关文献题录,通过对文献题录中的位置信息进行解析,将虚拟的科学合作网络映射到地理合作网络。在此基础上,提出了一种考虑地理距离的科学合作网络社区发现方法,在具有科学合作地域倾向性的前提下,进一步对科学合作中的空间聚类特征进行探测。该社区划分的结果,可以直观地揭示科学合作地域倾向性的内部差异和空间特征,并可作为进一步挖掘地理社区产生原因及其内部关联关系的基础。

2 数据与方法

2.1 数据来源

随着环境问题的日益凸显,雾霾问题成为近年来科学研究中的一个热点话题,得到了来自环境科学、气象学、地理学、测绘学、生态学以及公共卫生学等研究领域学者们的关注。以该热点话题为样本数据,可以反映出跨学科、跨领域的科学合作关系,且具有较好的时效性。因此,本文以雾霾研究这个典型事件为例,以“PM2.5”,“PM10”,“可吸入颗粒物”,“大气颗粒物”,“雾霾”为主题检索词,从CSCD中进行检索,获取关于该事件的所有文献记录。检索结果数据集中包含4397条记录,涵盖了734种不同期刊,时间跨度从1989年到2015年。本文仅以中国大陆的31个省、自治区、直辖市(下文中简称为地区)为统计样本,不包括台湾省、香港特别行政区和澳门特别行政区的论文数据。

2.2 方法

本文以中国跨省区科学合作关系为研究对象,从CSCD文献题录中对作者单位信息进行提取,通过地理解析获取作者单位的地理坐标,进一步根据合作关系将其定位到地理参考框架。这样就将虚拟的科学合作网络映射到了地理合作网络,使 “人-人”之间的关系映射到“地-地”之间的关系。在此基础上,对Louvain社区发现算法[12]进行改进,将地理距离、合作频次、合作强度作为参数对地理社区进行划分和验证,挖掘科学合作网络在空间上的聚类分布特征,从而反映出科学合作地域倾向性的内部差异。本文的研究方法如图1所示。
Fig. 1 Research method

图1 研究方法

2.3 度量指标

(1)地理距离
地理距离作为探测科学合作网络社区结构的主要参数和度量指标,对揭示科学合作在空间上的分布特征有着重要意义。参考其他研究中的地理距离度量方法[10,13],本文将2个地区之间的地理距离定义为以2个地区的质心为起止点的测地线(Geodesic)长度。
(2)合作频次
合作频次是指2个不同地区之间共同合著论文的数量,本文暂不考虑合著作者的排名顺序。如果某篇文章中的作者单位都位于同一地区,则该文章仅作为该地区的论文产量,不作为合著论文计算;当某篇文章作者单位地址中包含2个或2个以上的不同地区,如北京和广东,则认为北京和广东共同合著了该篇论文。
(3)合作强度
Salton指数是表征科学合作倾向性的主要科学计量学指标,Salton指数越大,合作强度越强。Salton指数的计算公式为[14]
s ij = n ij n i n j (1)
式中:nij代表ij 2个地区之间的合作频次;ninj分别为ij 2个地区的论文总产量。

3 科学合作地域倾向性探测

根据文献[9]、[10]提出的科学合作地域倾向性探测方法,本文首先对雾霾研究中是否存在科学合作地域倾向性进行了验证。中国31个地区中任意2个地区的合作距离,最长为3401 km,最短为 127 km,两者之差为3274 km。将该差值采用定长距离分组的方法分为10组,对每组内的Salton指数和地理距离求平均值,从而建立起科学合作倾向性和地理距离之间的对应关系,如图2所示。
Fig. 2 Relationship of Salton index and geographic distance

图2 Salton指数与地理距离的关系

图2可发现,表征合作强度的Salton指数随地理距离的增大而减小,该趋势从一定程度上反映了科学合作中存在的地域倾向性,但无法进一步揭示地域倾向性中的空间聚类特征。尽管已有一些学者也基于复杂网络对该问题进行了研究[11],但由于其算法未考虑地理位置和地理距离,因此需要人工判读来建立非空间的科学合作网络与地理合作网络之间的映射关系。因此,本文将地理位置和地理距离引入科学合作网络,在科学合作地域倾向性的前提下,实现基于地理距离的社区划分,从而对科学合作中的空间聚类特征进行挖掘。

4 地理合作网络构建

科学合作网络是一个典型的复杂网络,具有“无标度”和“小世界”特性[15]。然而复杂网络中由于没有考虑空间信息,无法反映网络的空间分布特征和空间相互作用力[16]。因此,本文将地理位置与地理距离引入科学合作网络,将虚拟网络中的合作关系映射到地理参考框架,从而对科学合作的空间分布特征进行可视化分析。
根据图论的思想,科学合作关系可以抽象为图的边和节点,用Gp=(Vp, Ep)表示。其中,Vp为节点的集合,代表论文的作者;Ep为边的集合,代表作者之间的论文合著关系。通过对作者所在单位地址中的地理位置信息进行解析,可将科学合作网络映射到地理合作网络,用Gs=(Vs, Es)表示。其中,Vs代表作者单位所在地的节点集合,Es代表不同地点之间的论文合著关系。
在构建地理合作网络之前,首先要对文本格式的CSCD文献题录进行处理,对其中的位置信息进行解析。对于包含完整地址信息的记录,可以直接对其所在地区的名称进行提取。而地址信息不完整的记录,则借助于地理解析的方法,将其单位名称作为参数,调用百度Geocoding API,获取地理坐标。然后,将其与地理数据进行空间叠加,获取其所在地区的信息。最后,根据合作关系对各地区之间的合作频次进行统计,对于具有合作关系的2个地区,生成以这2个地区的质心为起止点的测地线。这样就构建了以中国大陆31个地区的质心作为节点,以各地区之间合作关系作为边的地理合作网络,如图3所示。
Fig. 3 Geo-collaboration network

图3 地理合作网络

图3中,线的宽度代表2个地区之间的合作频次,节点的大小代表与该地区有合作关系的地区数量,行政区划底图中的不同颜色表示不同的产能区。借鉴论文产能分类方法[17],本文将中国31个地区按照分位数法分为高、中、低3个产能区,使用颜色深浅进行区分。高产能区为北京、江苏、广东、上海等论文产量位居前10位的地区;中产能区包括山西、四川、湖南、辽宁等论文产量居中的10个地区;低产能区包括新疆、黑龙江、贵州、内蒙古等其余11个地区。从图3可发现,论文产能在空间上呈现出明显的不均衡性,而合作频次与论文产能有直接关系,论文高产能区往往也同其他地区有较高的合作频次,如北京、江苏、广东、上海等地区既是论文高产能区,又是合作的中心。

5 考虑地理距离的科学合作网络社区划分

许多复杂网络都具有社区结构这个共同的性质,即由若干个群(group)或簇(cluster)构成,同一社区之内的节点连接紧密,不同社区之间节点连接稀疏[18]。科学合作网络同样也具有社区结构,对科学合作网络中的社区进行划分,即在维持科学合作网络拓扑结构的基础上,根据不同的度量指标将网络划分为若干个子群(如研究领域、热点关键词等),以反映科学合作中存在的聚类特征[19]。目前,针对网络社区划分的算法主要有图形分割算法(如Kernighan-Lin算法[20])基于Laplace图特征的谱平分法[21],以及基于同类相近原则的层次聚类方法(如GN算法[22]、Newman快速算法[23]、Louvain算法[12]等)。但是这些算法主要是针对非空间网络,因此只考虑网络的拓扑结构,而不考虑网络的空间特征。基于此,陈娱提出了一种考虑地理距离的社区挖掘算法,对国内航线网络进行划分,得到的社区结构与中国的经济圈分布具有较好的吻合性[24]。借鉴该思路,本文通过改进Louvain社区发现算法,引入地理距离因素,将地理距离、合作频次作为参数对科学合作网络中的社区结构进行探测,并通过表征合作强度的Salton指数对结果进行验证,旨在获取地域上接近且内部合作强度最大的社区结构,以反映科学合作中的空间聚类特征。

5.1 Louvain社区发现算法

Louvain算法又称为fast unfolding算法,是一种基于模块度(modularity)优化的启发式社区划分算法,结果可靠且效率较高[25]。模块度是一个范围在0到1之间的值,越接近1代表社区结构越明显[26]。对于带权重的网络,模块度的计算公式为:
Q = 1 2 m A ij - k i k j 2 m δ c i , c j (2)
式中:Aij表示节点i与节点j之间边的权重; k i A ij 表示所有与节点i相连接的边的权重之和; m = 1 2 A ij ,即整个网络中所有边的权重之和;cicj分别表示节点i和节点j所在的社区,如果ij同属一个社区,则δ(ci, cj)=1,否则δ(ci, cj)=0。
Louvain算法的流程主要包括2个环节:
(1)第1个环节首先将网络中的每个节点各自划分到一个社区中,此时网络中有多少个节点,便有多少个社区。接着遍历所有节点,将该节点从原来的社区中取出,依次计算将其加入到其他社区中的模块度增量,最后将该节点加入到模块度增量最大的社区中。直到模块度不再增加,第一个环节结束,从而得到局部最大化的模块度。其中模块度增量的计算公式为:
Q = in + 2 k i , in 2 m - tot + k i 2 m 2 - in 2 m - tot 2 m 2 - k i 2 m 2 (3)
式中:假设i是要移动的节点,C是节点i要加入的社区,那么 in 即是社区C内部所有边的权重之和, tot 是整个网络与社区C中节点相连接的所有边的权重之和;ki是整个网络与节点i相连接的所有边的权重之和,ki,in是社区C内部与节点i相连接的所有边的权重之和。
(2)第2个环节是在第1个环节的基础上,将同一个社区折叠为节点,形成一个新的网络,其中新的网络节点之间的权重为连接2个源社区之间所有边的权重之和,同一个源社区内部的节点形成一个自环(self-loops),然后采用与第一个环节相同的思路进行迭代。其结果会产生一个层级树,直到模块度不再增加,算法结束。

5.2 基于地理距离的社区划分

基于地理距离的社区划分,其核心思想是在维持网络拓扑结构的基础上,考虑网络节点之间的空间作用力,挖掘网络中存在的空间聚类特征。根据Tobler第一定律,地理上越接近的事物关系越密切,随着地理距离的增加,空间作用力也会相应的衰减。文献[8]、[9]研究结果表明,对于科学合作,表示合作强度的Salton指数也会随着地理距离的增大而减小。因此,本文选取地理距离的倒数作为网络边权,基于地理合作网络,计算得到网络中任意节点i和节点j之间的地理距离dij,通过修正Louvain算法中的权重参数,令模块度计算公式中的 Aij=1/dij,重新进行社区的划分(表1)。此时,Louvain算法得到的社区划分结果(图4)已经明显地体现出了空间上的聚类特征。
Tab.1 Community dipartition based on distance

表1 基于地理距离的社区划分结果

社区名称 地区
社区1 黑龙江、吉林、辽宁
社区2 北京、内蒙古、天津、河北、山东、山西
社区3 甘肃、新疆、西藏、青海、宁夏、河南、陕西、湖北、湖南、广西、云南、贵州、重庆、四川
社区4 广东、福建、江西、海南
社区5 江苏、上海、浙江、安徽
Fig. 4 Community dipartition based on distance

图4 基于地理距离的社区划分结果

从社区划分的空间分布来看,各社区内部都是相互毗邻的地区,为了进一步验证该社区划分结果是否能够同时反映地理近似性和科学合作强度特征,本文采用式(4)、(5)对社区之间的平均地理距离矩阵和Salton指数矩阵进行了计算,得到的结果分别如表2表3所示。
Dis tan c e mn = D i , j m c i , c j m c i , c j m = n D i , j mn c i , c j mn c i , c j m n (4)
Sal to n mn = S i , j m c i , c j m c i , c j m = n S i , j mn c i , c j mn c i , c j m n (5)
式中:mn为社区编号;ij代表合作网络中某条边的两个节点;Di,j表示和ij之间的地理距离;Si,j表示和ij之间的Salton指数;cicj分别表示节点i和节点j所在的社区;m(ci,cj)表示ij同属于社区m,此时m(ci,cj)=1,否则m(ci,cj)=0;mn(ci,cj)表示ij分别属于社区m和社区n,此时mn(ci,cj)=1,否则 mn(ci,cj)=0。
Tab.2 Average distance matrix of each community (km)

表2 社区之间的平均地理距离矩阵(km)

社区
社区1 社区2 社区3 社区4 社区5
社区1 463 883 2334 2359 1520
社区2 883 379 1415 1803 1063
社区3 2334 1415 1124 1380 1476
社区4 2359 1803 1380 538 1037
社区5 1520 1063 1476 1037 378
表2可知,社区内部的平均地理距离都要小于社区之间的平均地理距离,说明该方法能够有效地体现科学合作在地理上的近似性。但表3的结果表明,除了社区2、4、5内部的平均合作强度要大于与其他社区之间的平均合作强度,社区1和社区3并不符合该规律。因此,如果仅以地理距离的倒数作为科学合作网络的边权参数,虽然社区划分结果能够较好地体现地理上的近似性,但是无法合理地反映出科学合作倾向性。
Tab.3 Average Salton index matrix of each community

表3 社区之间的平均Salton指数矩阵

社区
社区1 社区2 社区3 社区4 社区5
社区1 0.0199 0.0289 0.0230 0.0178 0.0154
社区2 0.0289 0.0448 0.0292 0.0343 0.0244
社区3 0.0230 0.0292 0.0223 0.0347 0.0166
社区4 0.0178 0.0343 0.0347 0.0691 0.0199
社区5 0.0154 0.0244 0.0166 0.0199 0.0327

5.3 基于合作频次与地理距离的社区划分

为了同时反映科学合作的地理近似性以及合作强度特征,本文引入一个新的变量FD,用来表征地理合作强度,计算公式如下:
F D ij = Frequenc y ij Dis tan c e ij (6)
式中:Frequencyij表示节点ij所在地区之间的合作频次;Distanceij为2个地区之间的地理距离。将变量FD作为科学合作网络中边的权重,即令模块度的计算公式中的Aij=Frequencyij/Distanceij对Louvain算法进行修正。该算法得到的社区划分结果如表4图5所示。
Fig.5 Community dipartition based on collaboration frequency and distance

图5 基于合作频次与地理距离的社区划分结果

Tab.4 Community dipartition based on collaboration frequency and distance

表4 基于合作频次和地理距离的社区划分结果

社区名称 地区
社区1 黑龙江、吉林、辽宁、北京、内蒙古、天津、河北、山东、山西、甘肃、新疆、西藏
社区2 江苏、安徽、上海、浙江、福建
社区3 广东、广西、海南、云南、贵州、江西、湖南、湖北、重庆、四川、河南、陕西、青海、宁夏
该社区划分的结果共包括3个社区,在空间上呈现出明显的区域特征,且与第4节得到的论文产能有较好的吻合性,形成了以高产地区为中心的空间聚类分布特征。为了验证该社区划分的结果是否能够同时反映出科学合作的地理近似性和合作强度特征,采用式(4)、(5)对社区之间的平均地理距离矩阵和Salton指数矩阵进行统计,得到的结果如表5、6所示。
Tab. 5 Average distance matrix of each community (km)

表5 社区之间的平均地理距离矩阵(km)

社区
社区1 社区2 社区3
社区1 1071 1458 1690
社区2 1458 301 1188
社区3 1690 1188 897
表5、6可知,从2个方面证明该社区划分的合理性。从地理近似性来看,社区内部的平均地理距离都要小于社区间的平均地理距离;从科学合作倾向性来看,社区内部的平均Salton指数都大于社区间的平均Salton指数。这证明了使用该方法得到的社区划分结果,能够有效地揭示科学合作网络在空间上的聚类分布特征。
Tab. 6 Average Salton index matrix of each community

表6 社区之间的平均Salton指数矩阵

社区
社区1 社区2 社区3
社区1 0.0326 0.0207 0.0266
社区2 0.0207 0.0331 0.0182
社区3 0.0266 0.0182 0.0310

6 结语

本文以雾霾研究这个热点科研话题为例,对中国跨省区科学合作的地域倾向性进行了研究。通过提取文献题录中的位置信息,将虚拟的科学合作网络映射到地理合作网络,在此基础上,提出了一种考虑地理距离的科学合作网络社区发现方法。通过比较发现,基于合作频次与地理距离的社区发现算法,可以使网络社区内部的平均地理距离最小而合作强度最大,从而较好地揭示了科学合作网络在空间上的聚类分布特征。
地理因素是影响科学合作的重要因素之一,本文创新地将地理位置和地理距离引入科学合作网络分析,通过改进的社区发现算法,发现科学合作呈现出了明显的地理近似性,形成了以若干高产地区为中心的空间聚类分布特征。该方法能够直观地揭示科学合作中隐含的空间分布模式和联系,定性和定量地对科学合作的地域倾向性进行描述,对其他复杂网络的地理社区划分也具有一定的借鉴意义。在该方法的基础上,今后可进一步对地理社区产生的原因及其内部的关联关系进行研究,如是否存在地理社区与研究对象的地域相关性、学科近似性,以及科研院校、作者之间的社会网络关系等。

The authors have declared that no competing interests exist.

[1]
谢彩霞. 国际科学合作研究状况综述[J].科研管理,2008,29(3):179-186.随着科学的迅速发展,科学研究中的合作关系日益成为影响科学生产能力发挥的巨大力量,引起越来越多的科学家以及科技管理人士的关注,对科学合作的研究也在逐渐深入。本文对国际科学合作的研究进展作以综述,以期发现科学合作活动的规律,为提高科学研究绩效提供信息。

[ Xie C X.A review on the status quo of international scientific collaboration[J]. Science Research Management, 2008,29(3):179-186.]

[2]
Katz J S.Geographical proximity and scientific collaboration[J]. Scientometrics, 1994,31(1):31-43.Geography, economic, socio-political and language are considered to be factors that effect the level of research collaboration. However, to-date no technique has been developed to isolate the effect of geographical proximity from the other factors. This paper presents a methodology for specifically examining geographical effects on intra-national scientific collaboration. An investigation of intra-national university-university collaboration in Canada, Australia and the United Kingdom using this technique demonstrates that research cooperation decreases exponentially with the distance separating the collaborative partners.

DOI

[3]
梁立明,沙德春.985高校校际科学合作的强地域倾向[J].科学学与科学技术管理,2008,29(11):112-116.选用绝对合作频次、合作强度Salton指数及观察值与期望值的比值三个科学计量学指标,考察了我国一期34所985高校校际科学合作的倾向性,从大区、省区、城市三个层面揭示了985高校校际科学合作的强地域倾向。

[ Liang L M, Sha D C.Strong geographical preferences in scientific collaboration between “985 project”[J]. Scienology and Science Technology Management, 2008,29(11):112-116. ]

[4]
Breschi S, Lissoni F.Knowledge spillovers and local innovation systems: A critical survey[J]. Industrial & Corporate Change, 2001,10(4):975-1005.ABSTRACT This paper re-examines critically the growing literature on localized knowledge spillovers (LKSs), and finds the econometric evidence on the subject still lacking a firm theoretical background, especially in relation to the more recent developments in the economics of knowledge. LKSs as externalities are too narrow a concept to embrace the wide variety of knowledge transmission mechanisms that may, or may not, spread ideas and expertise while keeping the diffusion process bounded in space. Copyright 2001 by Oxford University Press.

DOI

[5]
Howells J R L. Tacit knowledge, innovation and economic geography[J]. Urban Studies, 2002,39(5-6):871-884.

[6]
李丹丹,汪涛,周辉.基于不同时空尺度的知识溢出网络结构特征研究[J].地理科学,2013,33(10):1180-1187.<p>知识溢出的多空间尺度耦合、空间知识溢出的测度以及空间知识溢出的机制是近期国内外有关知识溢出地理效应研究的主要新动向。借助科学计量学追踪知识溢出的方法,以2000~2009 年被国际ISI 及国内重庆维普数据库收录的,中国大学和科研院所等机构在生物技术领域合作发表科学论文的信息为数据源,从社会网络的视角,运用社会网络分析和GIS 空间分析方法,分别以国家、省份和城市为单元,从国际、国家和长三角层面(区域),分析2000 年以来,中国大学和科研院所知识溢出网络的拓扑结构和空间结构变动特征,并从地理距离、社会距离、认知距离、组织距离等方面探讨影响知识溢出效应的机理。研究发现:① 2003~2004 年为知识溢出网络发展的拐点期;② 国际和国家层面网络接近小世界网络,长三角层面的网络体现出更多的随机网络特征;③ 知识在国际层面的空间溢出具有明显的路径依赖性,主要受到社会距离和组织距离的影响;④ 在国家层面呈现由三角形向钻石形发展的趋势,随着网络发育的日益成熟,地理距离的影响逐步减弱,社会距离和组织距离的影响得以加强;⑤ 在长三角层面总体上呈现三点一线特征,地理距离在区域尺度的影响最为显著,知识溢出既遵循了等级扩散的规律,也体现了距离衰减的特点。</p>

[ Li D D, Wang T, Zhou H.The sructural characteristics of knowedge spillover networks based on different spatial and temporal scales[J]. Scientia Geographica Sinica, 2013,33(10):1180-1187. ]

[7]
Ponds R, Oort F V, Frenken K.The geographical and institutional proximity of research collaboration[J]. Papers in Regional Science, 2007,86(3):423-443.Abstract.68 Collaboration and the exchange of knowledge are supposedly made easier by geographical proximity because of the tacit character of knowledge. Recently a number of scholars' criticised this view on geographical proximity as being oversimplified and argued that the precise role of geographical proximity for knowledge exchange and collaboration still remains unclear. This paper analyses the role of geographical proximity for collaborative scientific research in science-based technologies between universities, companies and governmental research institutes. We test the hypothesis that the collaboration between different kinds of organisations is more geographically localised than collaboration between organisations that are similar due to institutional proximity. Using data on co-publications, collaborations patterns are analysed and the hypothesis is confirmed. Abstract.68 La colaboración y el intercambio de conocimiento son supuestamente más fáciles si hay una proximidad geográfica debido al carácter tácito del conocimiento. Varios investigadores han criticado recientemente esta suposición sobre la proximidad geográfica como simplista argumentando que el papel preciso que juega la proximidad geográfica en el intercambio de conocimiento y la colaboración aun no está claro. Este artículo analiza el rol de la proximidad geográfica en la investigación científica colaborativa en tecnologías de base científica entre universidades e institutos de investigación privados o gubernamentales. Analizamos la hipótesis de que la colaboración entre tipos diferentes de organizaciones es más localizada geográficamente que la colaboración entre organizaciones que son similares debido a su proximidad institucional. Usando datos sobre co-publicaciones, se analizan patrones de colaboración y se confirma la hipótesis.

DOI

[8]
Frenken K, Hoekman J, Kok S, et al.Death of distance in science? A gravity approach to research collaboration[M]. Innovation networks. Springer, 2009:43-57.

[9]
梁立明,张琳,韩强.欧盟15国科学合作的地域倾向和语言倾向[J].自然辩证法通讯,2006,28(5):60-67.通过对1994-2003年欧盟15国任意两国之间合作发表的157668篇论文的计量分析,本文展示了欧盟15国的科学合作结构,揭示出该合作结构的2个主要特征.第一,地理接近是影响欧盟15国科学合作最重要的因素.第二,欧盟15国科学合作的语言倾向性十分明显.国家间的科学合作强度随地理距离和语言差异度的增大而降低,呈负指数分布.

DOI

[ Liang L M, Zhang L, Han Q.Geographical and lingual preference in scientific collaboration among 15 EU countries[J]. Journal of Dialectics of Nature, 2006,28(5):60-67. ]

[10]
苏金燕. 我国人文社会科学合作的地域倾向研究——基于经济学期刊论文的计量分析[J].现代图书情报技术,2013,29(10):43-52.以CNKI中经济学科150种核心期刊10年的论文数据为统计样本,采用统计分析法,利用SPSS、GeoDa等软件对我国人文社会科学合作的地域倾向性进行分析。研究发现:我国不同地区之间的人文社会科学合作确实存在地域倾向,高、中、低科研生产力地区均倾向与高科研生产力地区合作;科研生产力和地理距离是影响我国科学合作的重要因素,科研生产力与科学合作强度呈正相关关系,科学合作强度随科研生产力的增大而增大;地理距离与科学合作强度呈负相关关系,科学合作强度随地理距离的增加而减小。

[ Su J Y.Regional tendencies of research collaboration of social sciences in China-analysis based on papers of economicjournals[J]. New Technology of Library and Information Service, 2013,29(10):43-52. ]

[11]
柴玥,刘趁,王贤文.我国高校科研合作网络的构建与特征分析——基于“211”高校的数据[J].图书情报工作,2015,59(2):82-88.[目的/意义]我国地域辽阔、高校众多,了解不同高校之间的科学合作现状,对于推进“2011计划”有着重要意义。以SCI和SSCI数据库申的全体数据作为数据来源,针对传统科学计量学方法和现有软件无法处理海量数据的问题,开发出全新的数据处理方法,用于实现对不同机构之间的论文合作分析。[方法/过程]以我国11l所“2ll”高校作为研究对象,对主要研究型大学之间以SCI和SSCI论文为代表的高水平论文合作情况进行定量研究,计算各高校在论文合作网络中的中介中心性并排序,进而绘制合作网络图谱。[结果/结论]我国高校科研论文合作的现状与全貌是科研实力较强的“985”综合性高校排序靠前,而学科专业性较强、地理位置偏僻的高校排序靠后;我国目前的大学科学论文合作整体存在以地理聚类为主、学科聚类为辅的合作关系特征。这一特征为科研管理和教育管理工作提供了启示,即:既要发挥“985”高校的领军作用,也要发挥区域中优势高校的增长极作用,在“2011计划”的学科框架下实现广泛交流。

DOI

[ Chai Y, Liu C, Wang X W.Analysis of construction and characteristics of scientific collaboration network of universities: Based on the data of “211” universities[J]. Library and Information Service, 2015,59(2):82-88. ]

[12]
Blondel V D, Guillaume J L, Lambiotte R, et al.Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics Theory & Experiment, 2008,30(2):155-168.

[13]
Liang L M, Zhu L.Major factors affecting China's inter-regional research collaboration: Regional scientific productivity and geographical proximity[J]. Scientometrics, 2002,55(2):287-316.<a name="Abs1"></a>On the basis of the measured frequency distribution of China"s inter-regional co-authored papers covered by the <i>Chinese Science Citation Database</i> this paper shows the pattern of China"s inter-regional research collaboration (IRRC), and analyzes how the collaborative pattern was formed. A new method is used to calculate the expected value matrix based on an observed value matrix of IRRC, which is asymmetric and has no diagonal elements. The results fall into three groups. 1) Regional scientific productivity affects both the collaborative preference and ranking of authors" name; 2) geographical proximity is an important factor determining the pattern of IRRC; 3) when using Salton"s measure, regional mean collaborative strength increases as the regional productivity increases, and as the distance between two regions decreases.

DOI

[14]
梁立明,朱凌,侯长红.我国跨省区科学合作中的马太效应与地域倾向[J].自然辩证法通讯,2002,24(2):42-50.基于对中国科学引文数据库(CSCD)中异省区作者共同署名的论 文的计量分析,本文揭示了我国跨省区科学合作的模式。这种模式具有三个特征。第一,跨省区科学合作的频度与省区科学生产能力相关:随着省区科学生产能力的 下降,跨省区合作论文的比例反而升高。第二,我国跨省区科学合作中存在马太效应:无论是科学论文的低产省区,还是中产省区,都倾向于与高产省区合作;在跨 省区科学合作中,科学生产能力较高的省区作为第一作者省区的比例远远大于科学生产能力较低的省区,表现出科学合作中相对高产省区与相对低产省区地位的不对 称性。第三,地理接近是决定我国跨省区科学合作的重要因素:省区间的合作强度随省区间直线距离的增大而降低,呈负幂分布;最密切合作省区中接壤省区的几率 高达80%。

DOI

[ Liang L M, Zhu L, Hou C H.Matthew effect and geographical preference in China provincial scientific collaboration[J]. Journal of Dialectics of Nature, 2002,24(2):42-50. ]

[15]
Newman M E J. The structure of scientific collaboration networks[J]. Proceedings of the National Academy of Sciences, 2001,98(2):404-409.The structure of scientific collaboration networks is investigated. Two scientists are considered connected if they have authored a paper together and explicit networks of such connections are constructed by using data drawn from a number of databases, including MEDLINE (biomedical research), the Los Alamos e-Print Archive (physics), and NCSTRL (computer science). I show that these collaboration networks form "small worlds," in which randomly chosen pairs of scientists are typically separated by only a short path of intermediate acquaintances. I further give results for mean and distribution of numbers of collaborators of authors, demonstrate the presence of clustering in the networks, and highlight a number of apparent differences in the patterns of collaboration between the fields studied.

DOI PMID

[16]
常晓猛,乐阳,李清泉,等.利用位置的虚拟社交网络地理骨干网提取[J].武汉大学学报·信息科学版,2014,39(6):706-710.基于海量的中国大型社交网络新浪微博人际社交关系数据,利用用户的地理位置信息对人-人(人际)社交关系进行虚拟网络空间到物理空间的映射,形成地-地关系.以城市为尺度,对个体间的社交关系链进行聚合,构建城市-城市(城际)社交关系网.根据网络的全局异构和局部异构等拓扑特征以及城市空间的相互作用,提出了一种融合重力模型和信息熵技术的地理骨干网提取方法.该研究有助于揭示虚拟网络环境下的城市体系结构、城市辐射力、城市吸引力和开放程度等问题.

DOI

[ Chang X M, Yue Y, Li Q Q, et al.Extracting the geographic backbone of location-based social network[J]. Geomatics and Information Science of Wuhan University, 2014,39(6):706-710. ]

[17]
艾娇, 张晓青.山东省知识溢出的时空特征研究[J].辽东学院学报:自然科学版,2010,17(3):253-256.借鉴前人所做研究,首先对山东省知识溢出的时空变化特征进行描述,认为山东省的知识溢出效应存在且愈来愈明显,且知识溢出效应的空间分布不均衡,集中分布在以济南和青岛为中心的两大城市群带。然后通过山东省知识溢出的计量经济模拟,建立知识生产函数进行实证分析,验证了山东省知识溢出效应的存在及其变化趋势;进而提出企业应重视知识溢出的存在,并应进一步增加R&D经费和R&D人员的投入,以进一步增强知识溢出效应和促进山东省经济增长。

DOI

[ Ai J, Zhang X Q.Spatial-temporal characteristics of knowledge spillovers in Shandong province[J]. Journal of Eastern Liaoning University (Natural Science), 2010,17(3):253-256. ]

[18]
贺超波,汤庸,麦辉强,等.在线社交网络挖掘综述[J].武汉大学学报(理学版),2014,60(3):189-200.介绍了在线社交网络挖掘产生的背景以及不同学科领域研究的侧重点,并对在线社交网络挖掘所涉及的用户分类、社区发现、观点挖掘、情感分析、信息传播、社会化推荐以及可视化分析等代表性研究话题的现状进行了详细论述,重点归纳了每一个话题所涉及的关键问题和代表性解决方法.分析和讨论了在线社交网络的迅速发展给在线社交网络挖掘领域所带来的新问题和新挑战,最后指出了该领域的发展前景.

[ He C B, Tang Y, Mai H Q, et al.A survey on online social network mining[J]. Journal of Wuhan University (Natural Science Edition), 2014,60(3):189-200. ]

[19]
Newman M E J. Coauthorship networks and patterns of scientific collaboration[J]. Proceedings of the National Academy of Sciences, 2004,101(suppl 1):5200-5205.By using data from three bibliographic databases in biology, physics, and mathematics, respectively, networks are constructed in which the nodes are scientists, and two scientists are connected if they have coauthored a paper. We use these networks to answer a broad variety of questions about collaboration patterns, such as the numbers of papers authors write, how many people they write them with, what the typical distance between scientists is through the network, and how patterns of collaboration vary between subjects and over time. We also summarize a number of recent results by other authors on coauthorship patterns.

DOI PMID

[20]
Kernighan B W, Lin S.An efficient heuristic procedure for partitioning graphs[J]. Bell Labs Technical Journal, 1970,49(2):291-307.

[21]
Pothen A, Simon H D, Liou K P.Partitioning sparse matrices with eigenvectors of graphs[J]. Siam Journal on Matrix Analysis & Applications, 1990,11(3):430-452.Abstract The problem of computing a small vertex separator in a graph arises in the context of computing a good ordering for the parallel factorization of sparse, symmetric matrices. An algebraic approach for computing vertex separators is considered in this paper. It is shown that lower bounds on separator sizes can be obtained in terms of the eigenvalues of the Laplacian matrix associated with a graph. The Laplacian eigenvectors of grid graphs can be computed from Kronecker products involving the eigenvectors of path graphs, and these eigenvectors can be used to compute good separators in grid graphs. A heuristic algorithm is designed to compute a vertex separator in a general graph by first computing an edge separator in the graph from an eigenvector of the Laplacian matrix, and then using a maximum matching in a subgraph to compute the vertex separator. Results on the quality of the separators computed by the spectral algorithm are presented, and these are compared with separators obtained from other algorithms for computing separators. Finally, the time required to compute the Laplacian eigenvector is reported, and the accuracy with which the eigenvector must be computed to obtain good separators is considered. The spectral algorithm has the advantage that it can be implemented on a medium-size multiprocessor in a straightforward manner.

DOI

[22]
Girvan M, Newman M E J. Community structure in social and biological networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2002, 99(12):7821-7826.A number of recent studies have focused on the statistical properties of networked systems such as social networks and the Worldwide Web. Researchers have concentrated particularly on a few properties that seem to be common to many networks: the small-world property, power-law degree distributions, and network transitivity. In this article, we highlight another property that is found in many networks, the property of community structure, in which network nodes are joined together in tightly knit groups, between which there are only looser connections. We propose a method for detecting such communities, built around the idea of using centrality indices to find community boundaries. We test our method on computer-generated and real-world graphs whose community structure is already known and find that the method detects this known structure with high sensitivity and reliability. We also apply the method to two networks whose community structure is not well known--a collaboration network and a food web--and find that it detects significant and informative community divisions in both cases.

DOI PMID

[23]
Newman M E J. Fast algorithm for detecting community structure in networks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2004,69(6):066133(1-5).Abstract We propose a metric to quantify correlations between earthquakes. The metric consists of a product involving the time interval and spatial distance between two events, as well as the magnitude of the first one. According to this metric, events typically are strongly correlated to only one or a few preceding ones. Thus a classification of events as foreshocks, main shocks, or aftershocks emerges automatically without imposing predetermined space-time windows. In the simplest network construction, each earthquake receives an incoming link from its most correlated predecessor. The number of aftershocks for any event, identified by its outgoing links, is found to be scale free with exponent gamma=2.0(1). The original Omori law with p=1 emerges as a robust feature of seismicity, holding up to years even for aftershock sequences initiated by intermediate magnitude events. The broad distribution of distances between earthquakes and their linked aftershocks suggests that aftershock collection with fixed space windows is not appropriate.

DOI

[24]
陈娱,许珺.考虑地理距离的复杂网络社区挖掘算法[J].地球信息科学学报,2013,15(3):338-344.复杂网络具有社区结构的性质,即社区内节点的连接比社区间的连接更为紧密。目前,具有复杂网络拓扑结构的社区挖掘算法已有很多,但在很多地理空间的复杂网络中节点间的紧密度,不仅与其连接关系有关,同时与它们之间的距离有关。因此,本文提出将节点间的地理距离考虑到社区挖掘的过程中,修改基于模块度增量矩阵的Newman快速算法(简称CNM算法),将1/<em>d<sub>ij</sub><sup>n</sup></em>(<em>d</em>为节点i与节点<em>j</em>之间的距离)作为边权,对加权网络进行社区挖掘,从而发现既相互联系紧密又在地理空间上相互接近的社区。最后,本文用国内航线网络作为实例,将算法用于挖掘航线网络中城市的社区结构,得到10个在航线网络中联系紧密且在空间分布上具有一定地域性的城市社区,与我国的主要经济区域分布比较一致。本算法考虑地理相关性和连接紧密性,较好地识别出空间网络的社区结构。

DOI

[ Chen Y, Xu J.A Distance-based method of community detection in complex networks[J]. Journal of Geo-information Science, 2013,15(3):338-344. ]

[25]
吴祖峰,王鹏飞,秦志光,等.改进的Louvain社团划分算法[J].电子科技大学学报,2013,42(1):105-108.社团划分在生物化学、社会学、生态系统等方面有广泛的应用。划分结果的可靠性和算法效率是研究的重点。Louvain算法是一个划分结果相对可靠、算法效率较高的算法。该文针对Louvain算法在处理叶节点方面进行了改进。通过研究叶节点的特性和Louvain算法的不足之处,在改进算法中基于叶节点特性进行提前剪枝,以避免多余运算。用改进算法和Louvain算法分别对18组人工数据和一组某个机构的实际邮件数据进行处理,将结果进行对比发现改进算法在保持划分结果准确度不变的情况下,有效地提高了处理速度。

DOI

[ Wu Z F, Wang P F, Qin Z G, et al.Improved algorithm of louvain communities dipartition[J]. Journal of University of Electronic Science and Technology of China, 2013,42(1):105-108. ]

[26]
Newman M E J, Girvan M. Finding and evaluating community structure in networks[J]. Physical review E, 2004,69(2):026113(1-15).

Outlines

/