“空间综合人文学与社会科学”专辑

“民国清流”名人文化主题数据的组织和可视化方法

  • 黄娟 1, 2 ,
  • 陈崇成 , 1, 2, * ,
  • 叶晓燕 1, 2 ,
  • 马腾 1, 2
展开
  • 1.数字中国研究院(福建),福州 350116
  • 2.福州大学空间数据挖掘与信息共享教育部重点实验室,福州 350108
* 陈崇成(1968— ),男,福建闽清人,博士、教授,主要从事地学可视化与虚拟地理环境、空间数据挖掘与地理知识服务、物联网与空间信息集成技术研究。E-mail:

黄 娟(1995— ),女,四川成都人,硕士,主要从事地理信息工程研究。E-mail:huangj0120@foxmail.com

收稿日期: 2019-12-27

  要求修回日期: 2020-03-16

  网络出版日期: 2020-07-25

基金资助

国家重点研发计划课题(2017YFB0504200)

福建省科技创新领军人才资助项目(00387005)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Organization and Visualization for MinGuo QingLiu Celebrity Cultural Theme Data

  • HUANG Juan 1, 2 ,
  • CHEN Chongcheng , 1, 2, * ,
  • YE Xiaoyan 1, 2 ,
  • MA Teng 1, 2
Expand
  • 1. Academy of Digital China(Fujian), Fuzhou 350116, China
  • 2. Key Laboratory of Spatial Data Mining and Information Sharing of Ministry of Education, Fuzhou University, Fuzhou 350108, China
* CHEN Chongcheng, E-mail:

Received date: 2019-12-27

  Request revised date: 2020-03-16

  Online published: 2020-07-25

Supported by

National Key Research and Development Project(2017YFB0504200)

Fujian Science and Technology Innovation Leading Talent Funding Project(00387005)

Copyright

Copyright reserved © 2020

摘要

历史名人是我国几千年优秀文化的创造者之一,因此传播历史名人文化具有重要的教育意义和文化传承价值。以“民国清流”为对象的历史名人文化是我国文化体系中优秀的组成部分,有关内涵记述多存在于泛文学化的叙述逸闻等文学作品中,缺乏对名人遗存旧址、生平行迹、社交关系等名人文化主题数据的系统化梳理。本文基于异构名人文化数据,构建名人文化数字化框架,并以“民国清流”为例,着重解决名人文化数据的组织与可视化问题。基于名人文化数字化框架,利用文本挖掘提取群体传记中关键信息,动态地展示名人的二维生平行迹、三维故居点位和名人知识图谱,以实现相关信息的智能化查询分析。可视化分析结果揭示了名人群体的中心人物和活动聚集地变化、名人社会关系、名人间交往的亲疏程度及产生交集的原因。因此,本文所提出的方法不仅能让普通民众直观且多维度地了解民国人物特质,还能帮助文学研究者深入梳理和分析人物的生平及社交关系,为传承和宣传名人主题文化开创新模式。

本文引用格式

黄娟 , 陈崇成 , 叶晓燕 , 马腾 . “民国清流”名人文化主题数据的组织和可视化方法[J]. 地球信息科学学报, 2020 , 22(5) : 954 -966 . DOI: 10.12082/dqxxkx.2020.190809

Abstract

Historical celebrities are the creators and inheritors of outstanding Chinese culture in thousands of years. The spread of historical celebrity culture is of great educational value. The “MinGuo QingLiu” is an outstanding part of celebrity culture. However, most of the descriptions about it exist in literary works, such as pan-literary narratives and stories, lacking systematic collection of celebrity cultural theme data, i.e., celebrity sites, life trajectory, and social relationship. Based on the heterogeneous celebrity cultural data, this paper constructs a digital framework of celebrity culture, and takes "MinGuo QingLiu" as an example to solve the problem of the organization and visualization of celebrity cultural data. Based on the digital celebrity culture framework, text mining can be used to extract hidden information from group biographies, and dynamic display of celebrities' two-dimensional life trajectory, three-dimensional former residence locations, and celebrity knowledge graph is performed to realize intelligent query analysis of related information. The results of the visual analysis reveal changes incelebrity groups' central figures and gathering places, social relationship, the degree of intimacy between celebrities, and the reasons for the intersection. Thus, the proposed method not only allows ordinary people to understand the characteristics of the "MinGuo QingLiu" intuitively and multi-dimensionally, but also helps literary researchers to deeply analyze the life and social relationships of characters, and to develop new models for inheriting and promoting celebrity theme culture.

1 引言

文化是民族的血脉,已成为民族凝聚力和创造力的重要源泉以及综合国力竞争的重要支撑。在辉煌灿烂的悠久历史进程中,中华民族在不同时期都涌现出了众多的政治、经济、文化、科技等领域的历史名人。人文荟萃,名人文化源远流长。以名人或名人群体为核心的专题文化是我国优秀历史文化重要内容。由于时代限制、技术约束,加上年代久远,很多丰富的名人文化内涵无法保存并流传至今。如何挖掘整理名人的遗存遗址、名人生平行迹、社会关系网络、历史作用价值等文化内涵并实现数字化存档、可视化分析,是文化遗产数字化乃至数字文化重要的建设内容。
“民国清流”是指中华民国时期(1912—1949年)具有崇尚个人精神、社会批判意识、民主政治、文化理想的作家、诗人、文学家、国学家、政治学家和历史学家,如胡适、鲁迅、蔡元培等[1],是一个特殊年代涌现的一个特殊文化名人群体。现存的反映“民国清流”的史料、文献记录等有很多,但是仅靠单一角度的文字、图文解释与描述,难以勾勒描绘出这一特殊人群的全貌,更难于揭示和展示群体中成员的社会关系、个性化差别。随着数字化、网络化、可视化技术的发展和日趋成熟,利用新媒体、激光扫描、全景摄影摄像、地理信息系统、卫星和低空遥感等技术为数字化存档、展示历史名人文化提供了新的途径和手段。例如,He等[2]将虚拟现实技术应用于抗日战争时期重庆名人故居的保护中,达到名人故居建筑空间和室内环境虚拟恢复的目的;Lei等[3]对客家群体的历史迁移、民俗风情等资料和知识进行了实地考察和收集,利用地面激光扫描仪、无人机、数码相机等对客家人居住的土楼进行三维真实感建模,并基于云计算开发了客家文化的三维地理信息服务系统,为客家文化的展示、保护和传承提供了一个全新的平台;Castiglione等[4]针对Paestum考古遗址从异构数据源(传感器网络,社交媒体网络,数字图书馆和档案馆,多媒体馆藏,Web数据服务)收集信息,构建基于分布式数据库的文化遗产信息系统,促进了意大利文化保护与共享。
然而,面对不断增长的异构文化数据,如何实现异构、海量数据的高效组织与管理是当今国内外学者的研究热点。江颖等[5]基于MongoDB设计了闽西客家文化数据库,并测试了MongoDB的优越性能;曹飞飞等[6]基于MongoDB与OOMH-GIS数据模型,实现了“对象-文档”的历史数据组织方式。同时,为了充分挖掘文化数据价值,将异构文化数据进行关联性分析,直观地展示异构数据背后隐藏的信息。Dou等[7]利用知识图谱技术对中国非物质文化遗产中传统24节气之间联系进行了展示与分析;赵京胜等[8]提取了《三国演义》中的社会网络关系,并分析了角色之间的亲疏程度。因此,综合上述多源异构数据的组织、存储与可视化方法,对于保护与弘扬名人文化来说是至关重要的。
为了实现“民国清流”名人文化内涵的数字化和可视化,本文构建了以重点遗存旧址、重要影响人物(名人)、重大历史事件、重要历史作用(积极贡献或负面影响)为链条的名人文化数字化框架:① 基于名人文化数据层次关系设计基于MongoDB的名人文化数据库结构;② 基于异构数据来源与特征,采用4种可视化技术对异构名人文化数据进行有效展示,并对可视化结果进行分析和讨论,旨在揭示、挖掘和感知、理解隐含在异构名人文化主题数据中文化内涵,从而提升对“民国清流”名人主题文化的数字化水平,促进优秀名人文化的传承与发展。

2 研究方法

生活在不同历史年代的政治、经济、社会、文化、科技等领域的名人,不仅留存了数量不等、特定地理位置的遗存旧址(故居、祖居以及相关的纪念馆、博物馆等)、小型文物等物质文化遗产,还留下通过语言文字、图文图像等文献方式记录的、与之相关的非物质遗产内容。名人文化主题数据具有明显的异构特征,以遗存旧址为基础,以名人的生平行迹重要节点为时间戳,建立以重点遗存旧址、重要影响人物(名人)、重大历史事件、重要历史作用为链条或维度的名人文化数字化框架(图1),有利于主题文化异构数据的组织管理和可视化分析。
图1 名人文化数字化框架

Fig. 1 Digital framework for celebrity culture

本文基于异构的名人文化数据(包括地图、文本、图像、视频、模型等),采用多种信息可视化技术多维展示名人文化。其中,词云图能够展现文本数据中挖掘蕴含的主题、时代风貌等关键信息;知识图谱基于知识谱系中节点和边的拓扑关系,能够挖掘出社会网络中潜在的交互模式[9];时空地图数据可视化将带有地理位置和时间标签的数据载入地图[10],描绘出“民国清流”群体名人的生平行迹;三维几何数据可视化,包括360°全景照片和三维模型,再现名人故居或纪念馆的真实场景。

3 基于MongoDB的异构数据组织与存储

3.1 数据来源

研究所采用的数据包括1912年中国地图及其周边地理空间数据和“民国清流”名人数据:
(1) 地理空间数据包括:① 民国地图数据源来自哈佛大学和复旦大学联合建设的中国历史地理信息系统数据库CHGIS[11],以及中国地图出版社出版的《中国历史地图集》[12]。其中包括1912年中国行政区划数据,省会城市数据等;② 断续线数据则根据1948年中华民国政府公开发行的《中华民国行政区域图》[13]矢量化得到。
(2) 名人文化对象数据:名人相关故居、纪念馆的照片、音频、视频数据及360全景、三维模型、VR视频等空间数据由实验小组实地采集得到。
(3) 名人文化文本数据:① 传记文本数据来自人民文学出版社编审汪兆骞老先生在查阅大量史料的基础上完成的《民国清流》系列著作;② 网络文本数据来自百度百科词条。
基于不同的数据表达内容将民国清流名人文化数据分为民国清流名人文化数据,和辅助展示民国清流名人文化的基础数据。民国清流名人文化数据包括:① 用于展示民国清流名人的生存状况的物质文化数据,包括了故居、祖居以及相关的纪念馆、博物馆等有形的文化数据;② 用于展示民国清流名人的创作成果,发展行迹等的非物质文化数据,包括了名人社会关系,人生发展行迹,历史事件,创作成果等无形的文化数据。辅助展示的基础数据包括:① 栅格类型的基础数据包含卫星影像图、民国不同时期行政区划图等;② 矢量类型的基础数据包括兴趣点(Points of Interest,POI)等。

3.2 数据提取

针对大量存在的文本数据,本文运用Python脚本进行文本挖掘,设计了以词频分析和共现网络为核心的文本信息提取流程(图2),包括:
(1) 利用文本分词库(Jieba分词)划分语句,并基于自建停用词表过滤对文本语义没有贡献的符号和词语;
(2) 提取文本数据中关键人物信息,基于隐马尔可夫模型(Hidden Markov Model,HMM)进行命名实体识别,可实现中国人名、时间、地名的快速识别,形成初步语料库;
(3) 挖掘名人共现矩阵,将第(2)步识别出的人名制成人名字典,统计不同人名在传记中出现的次数,当2个名人在同一段落同时出现,人物间边的权重将增加,二者进行关联统计,将得到的名人共现次数存储在共现矩阵中,如表1所示;
(4) 对比分析不同文本(传记文本、网络文本)提取的语料内容,基于同一人名信息,将传记文本中提取的关系信息和网络文本中提取的人物基本信息归纳整理,完善人物属性信息;
(5) 基于同一名人的语句集合,利用时间切片技术将单个人物的语句集合按照时间顺序将切分,依照时间序列依次整理出人物行迹点信息,包括经纬度信息,事件信息。
图2 名人文本信息提取流程

Fig. 2 Celebrities' text mining process

表1 民国初期名人共现矩阵(部分)

Tab. 1 Celebrity co-occurrence matrixofearly Republic of China(partial)

人物名称 鲁迅 胡适 陈独秀 蔡元培 周作人
鲁迅 0 4138 887 1074 2167
胡适 4138 0 5562 2605 3733
陈独秀 887 5562 0 3953 1546
蔡元培 1074 2605 3953 0 780
周作人 2167 3733 1546 780 0

3.3 数据存储

MongoDB是面向文档的开源数据库,具有灵活的文档存储方式,易于整合异构数据;同时,还具有横向扩展、支持自动分片的特点[14]。本文基于民国清流名人文化数据的特点,采用分布式的存储策略对文化数据和基础数据进行组织与管理。
民国清流名人文化数据中包含文本、图片、音视频、360°全景文件、三维模型以及空间位置信息,数据存储结构如图3所示,包括数据集中文档由唯一标识符(_id)、人物名称(name)、人物属性信息(info)、文本(text)、图片(picture)、视频(video)、音频(audio)、360°全景(360 panorama)、三维模型(model)、物质文化地址(address)、空间位置(location)等。其中,图片、音视频、三维模型、360°全景照片存储在GridFS中,并以字符串格式的文件名数组存储在同一个文档里,避免了关系型数据库繁琐的多表查询问题,便于横向拓展数据库。
图3 民国清流名人文化数据存储结构示意

Fig. 3 Schematic diagram of cultural heritage data storage structure

基础数据包括栅格数据集和矢量数据集。其中,栅格数据集的存储包括2部分(图4):① 栅格数据的数据描述;② 地图、影像数据存储于GridFS。矢量数据集中文档由唯一标识符(_id)、类别(category)、名称(name)、描述(discript)、空间位置(location)组成。
图4 基础数据存储结构示意

Fig. 4 Schematic diagram of infrastructure data storage structure

4 可视化方案设计与实现

“民国清流”名人文化数据的可视化方法包括地图可视化、信息可视化和知识可视化等。因此,采用文本、网络(图)、地图及三维数据可视化方法来展示有形和无形的文化数据,可视化方案的设计如图5所示。
图5 “民国清流”名人文化数据可视化方案设计

Fig. 5 Visualization forcultural data for MinGuo QingLiu

4.1 文本可视化

为快读浏览包含大量数据的文本集合,需要通过文本挖掘技术来提取文本词汇级的内容,以便灵活有效地展示文本数据[15]。首先将文本看作一个词汇的集合或词袋模型,采用词频-逆向文本频率指数(Term Frequency-Inverse Document Frequency,TF-IDF)[16]计算词语权重:
T F w = n ( w ) N
IDF = log D | t ( w ) + 1 |
TF - IDF = TF * IDF
式中: nw)表示文本中词语w出现的总次数;N表示文本中词语总数;D表示文本总量;t(w)表示出现词语w的文本数量。若计算得出的词语w的权重越大,则w表示主题的能力越强。
然后,基于WordCloud库配置词云参数,按照权重绘制词云,调整词云布局、颜色、字体等属性。并利用词云图展示不同民国时期的关键人物和关键地点,以实现对时代背景、名人史实与涉事地点的快速浏览。

4.2 网络(图)可视化

网络(图)由网络节点和节点间的拓扑关系构成,能够直观地反映网络中潜在的交互模式,包括社会网络图与名人知识图谱[17]
(1) 社会网络图
社会网络图是基于图论的可视化方法,描述了社会角色与社交关系。该网络的中心节点被视为重要的“行动者”,通过“边”来与其他节点建立社交关系[8,18]。为探索人物之间的社交关系,本文对名人群体传记的人名进行共现分析,旨在对传记中潜在的交往模式进行探测。实现名人共现分析需要满足2个重要前提:① 重要的人名会反复出现在多个章节中;② 关系越亲密的人物在文章中同时出现的概率越大。基于上述前提生成名人共现矩阵,采用Java虚拟机(Java Virtual Machine,JVM)复杂网络可视化技术构建共现模型,将人名作为节点V,任意2个人名之间的共现关系作为边E,生成一个无向加权的名人社会网络图,可表示为G=(V, E),其中边的权重取节点vivj在同一段落的共现频次eij。图中节点大小表示节点的重要性,边的粗细表示名人关系的密切程度。
(2) 名人知识图谱
名人知识图谱是基于知识谱系的可视化方 法[19,20],广泛应用于定量化分析文学作品中事件、地点、人物之间的复杂联系,如亲属关系、朋友关系、政治关系等[9]。大多数的知识图谱的可视化表达方式也是节点链接图。与社会网络图不同的是,知识图谱的本体表示为节点,边表示为属性或关系,不同的颜色代表不同属性、类别。知识图谱的构建流程通常包括数据获取、信息抽取、可视化应用3个步骤(图6)。本文将百度百科基本信息栏作为知识图谱的主要数据来源,利用自然语言处理技术对爬取的网页进行信息抽取,基于Web的交互操作框架InteractiveGraph做图谱的可视化展示,并基于力导向算法[21](Force Directed Algorithm,FDA)进行节点布局。FDA算法是模仿物理力学引力与斥力的概念,每一个节点都会受到周边所有相连节点的合力,确保在大规模的节点布局中,每个节点都不会产生重叠,使整个展示界面布局直观且易于理解。同时,添加交互控件搜索框,快速查询人物、地点、事件节点关联关系,有助于用户梳理重大史实,建立清晰直观的知识体系。
图6 名人知识图谱构建流程

Fig. 6 Celebrity knowledge mapproduction process

4.3 地图可视化

地图模块主要为名人文化数据的空间属性提供可视化。考虑到空间成分的多尺度性,该模块实现的地图具有以下功能:① 支持不同缩放级别的地图显示;② 用户可以进行平移、缩放等交互性操作;③ 通过名人行迹图和聚簇图2种可视化方法对名人文化地理数据进行可视表达。
(1)名人行迹地图
名人的生命轨迹包含时间与空间属性,不仅具有时间统计意义,还能反映人生行迹中事件的因果关系[22]。时空属性是指带有地理位置与时间标签的数据。时空数据的可视化是对人生行迹的时空信息抽取,将行迹以动态的方式在时空框架中展示[23]。名人行迹地图以离散的方式表达连续的行迹[24],用一组行迹点记录名人行迹,其中每个行迹点可表示为 p = ( x , y , t , attr ) ,式中(x, y)表示地理坐标,t表示时间,attr表示该点位包含的语义信息,即该点位对应的事件。每个名人的行迹由n个轨迹点组成,按照时间先后顺序排列轨迹点,并用线将行迹点连接: p 1 ( x 1 , y 1 , t 1 , att r 1 ) p 2 ( x 2 , y 2 , t 2 , att r 2 ) p n ( x n , y n , t n , att r n ) 本文基于百度地图JavaScript API,数据图表(Echarts)技术与多视图联动的方法,利用气泡图(scatter)标记途经城市,路径图(lines)标记行迹,时间轴(timeline)组件标记时间和语义信息。并通过二维地图动态展示“民国清流”名人的人生行迹的形式,将人物生命中发生重大的事件有机整合在一起,有助于用户解析人物的行为变化、心路历程等。而生平行迹图的生成遵循数据可视化过程,如图7所示。首先从文本数据中提取相关时间、地点、事件信息,整理成结构化数据,引入百度API,根据空间位置将民国疆域图映射到现代地图上,通过添加不同的符号、时间轴、与人物有关的事件信息制成生平行迹图,尽可能真实地模拟民国时代背景。
图7 生平行迹图制作流程

Fig. 7 Life trajectory production process

(2) 名人故居聚簇图
地图上标记的点要素(marker)数量过多时,显示单个要素的意义不大,还会造成视觉过载、交互性能差及加载速度过慢等问题。聚簇是指将多组点要素聚集成一个符号,根据显示区域的大小,进行放大操作时会将点分到较多的组,当缩小显示屏幕时点将聚合成数量更少的组。本文以传统K-Means算法为基础,提取索引引擎里一定范围内的数据,将省(直辖市)边界作为聚类问题的约束条件,提出了改进的K-Means聚类算法。
首先,假设名人故居的经纬度为 x i , y i , i = 1,2 , , m ,m表示名人故居点的数量,并将簇的数目k,设置为省份(直辖市、自治区)的数量;其次,基于地点经纬度信息与空间数据统计原理,设计改进的K-Means算法以聚合地图上名人故居点位信息,具体算法流程如算法1所示。
聚簇图实现效果如图8所示。簇内部的数字表示该簇内表示的名人故居点数量,同时用户可进行下述交互式操作:
(1) 鼠标单击簇,地图将放大该簇至地图最大显示级别。
(2) 通过设置自定义颜色,利用不同颜色区分包含不同故居个数的簇。
(3) 缩放操作时,故居分布点会重新聚合,形成新的簇。
(4) 放大至最大比例时,所有点要素将全部分散展示。
图8 名人故居聚合点位

Fig. 8 Bitmap of celebrity dwellings

4.4 三维数据可视化

三维数据可视化能够精细化展示文化遗址、文物等物质文化的构造细节,增强视觉的立体感。目前,三维可视化方法包括:① 基于无人机影像的三维重建技术,例如即时定位与地图构建(Simultaneous Localization and Mapping,SLAM)[25];② 基于地面激光点云的三维模型构建技术,即通过直接扫描建筑物表面以构建三维模型[26];③ 基于照片的三维可视化方法,主要通过现场拍摄与无缝拼接技术以展示360°室内全景[27]
本文团队历时一个月完成了胡适、鲁迅、林语堂、林纾、冰心等福建省内故居、纪念馆的激光点云扫描和摄影工作,并对采集的数据进行滤波去噪与边界分割处理,利用CAD中KubitPointcloud工具提取点云的轮廓后,利用3DMAX对名人故居数据三维建模,并对处理后的三维模型进行纹理贴图,以生成最终的名人故居三维模型数据(图9)。
图9 三维可视化制作流程

Fig. 9 3D visualization production process

同时,本团队还利用360°相机环拍名人故居,包括天空,通过专业软件无缝处理拼接所得的一张全景图像,并采用Flash技术生成“.swf”格式的图像(图10)。
图10 360全景可视化制作流程

Fig. 10 360 panoramic visualization production process

4.5 2D-3D地理数据的一体化名人故居可视化

根据可视化设计目标,本文借助Echarts.js、百度地图API等JavaScript库与HTML技术实现了一个2D-3D地理数据一体化的名人故居可视化分析的系统,集成上述四种可视化方案,包含360°全景照片、三维点云模型、名人生平行迹图、名人知识图谱、词云视图。可视化分析的流程是从对不同时期词云的总览入手,快速概览民国不同时期的关键人物和地点,搜索感兴趣的名人,通过名人知识图谱发现其社交圈。最后,对名人故居进行搜索浏览,查看名人故居信息栏,如图11所示,通过360°全景照片、三维点云模型立体再现故居主人的生命氛围,通过名人生平行迹图探索名人经历,挖掘其重要历史作用,完成可视化分析。
图11 名人故居可视化分析的系统

Fig. 11 Visualization for the celebrities' former dwellings

其具体实现流程如下:
(1) 利用createElement构建load类传递用户密钥,创建地图实例;
(2) 调用document.body.appendChild函数以生成所需的底图;
(3) 调用setMapStyleV2类自定义地图样式,添加比例尺、略缩图、缩放等地图控件;
(4) 基于SearchInfoWindow类创建检索信息窗口,创建信息窗口对象;
(5) 通过不同的markerArr数组索引相应的2D-3D名人故居数据集,在信息框中集成2D-3D地理数据可视化;
(6) 利用DIV、CSS布局,再引入词云视图、名人知识图谱、地图3个可视化模块;
(7) 创建点击事件监听器,使用addEventListenter注册到模块按钮上。在按钮上任何位置单击都会触发事件。

5 分析与讨论

5.1 基于词云演化的名人活动聚集地变迁分析

词云图,包括地点词云图与人物词云图,能够快速获取“最关键”的人物或地点信息,帮助用户快速了解民国时期局势变化,展示民国不同时期的“第一印象”。
本文按照统治阶层的不同,将词云演化的过程划分为3个阶段,如图12、13所示:① 民国初期(1912—1927年),民国成立到北洋军阀统治期间;②民国中期(1927—1946年),国民党专政统治时期;③民国晚期(1946—1949年),第二次国共内战开始到中华人民共和国成立期间。
图12 关键地点词云

Fig. 12 Keyword cloud of location

民国初期,地点词云图围绕“日本”、“北京”、“上海”等关键词展开,如图12(a)所示;同一时期内的人物词云图(图13(a))则以“胡适”、“蔡元培”、“陈独秀”、“鲁迅”、“周作人”等人为中心,表明该时期内,日本与中国文人有着密不可分的联系:大量有志之士留学日本寻求救国之道,青年学者和老先生们等齐聚北京、上海等地。
图13 关键人物词云

Fig. 13 Keyword cloud of celebrities

民国中期的词云图围绕“上海”、“日本”、“延安”、“北平”等地(图12(b))与“胡适”、“鲁迅”、“周作人”、“沈从文”、“郭沫若”、“丁玲”、“张恨水”等人(图13(b))展开,表明抗日爆发时期,大量新生进步作家涌入文艺界,延安、西南联大、重庆、上海等地重要性逐渐上升。
民国晚期的词云图以“重庆”、“北平”、“上海”、“香港”等地(图12(c)),“胡适”、“张恨水”、“老舍”、“沈从文”、“赵树理”等人(图13(c))为焦点,表明内战时期,现实主义作家在反思中寻求新的道路,重庆、北京等地成为重要根据地。

5.2 基于知识图谱的名人社会关系网络分析

5.2.1 名人社会网络图
名人社会网络图分析为发现和分析某一时期的重要人物,进一步挖掘不同人物的社交圈,为人物的社交关系密切程度提供有力支撑。本文认为人物的共现频次越高,说明人物在群体传记中是核心人物,是推动事件发展的主要成员,也是用户需要密切关注的部分。图14所示是民国初期无向加权名人社会网络图。
图14 民国初期名人社会网络

Fig. 14 Early celebrity social network

由于初始的网络节点数量过多,会掩盖网络中的重要信息。为优化展示效果,本文将过滤频次小于100的节点,仅保留网络主干结构。从网络中可以看出:① 节点较大的人物分别是胡适、鲁迅、周作人、蔡元培、陈独秀等,这些人物之间也集中了最多的共现关系。除了“民国清流”这一特殊人群,民国政界的领袖袁世凯、孙中山、段祺瑞等也有较高的出现频次,说明这些人在民国初期文艺界也有至关重要的作用;② 人物间边的粗细则反映人物交往的密切程度,胡适为社交中心,早期与陈独秀、蔡元培、毛泽东、周作人等连线较粗,表明人物间联系密切;与茅盾、郭沫若、郑振铎等的连线较细,表明有人物间一定的来往,但关系并不亲密;③ 其他共现频次低的节点,位于圈层边缘,说明他们在该时期内是不太重要的人物。
5.2.2 名人知识图谱
知识图谱以“实体-关系-实体”三元组的表现形式构成网状知识结构[28]。本文构建的“民国清流”名人知识图谱,包括关键人物之间的社会关系、人物与事件的联系、人物与地点及事件与地点之间的联系关系等内容。
名人知识图谱的界面由事件节点、地点节点、名人节点、搜索框、信息栏和移动框组成。本文选取非常有影响力的文学家胡适做知识图谱的介绍说明,图15为在搜索框中输入“胡适”后的查询结果,左侧为胡适的基本信息,中间的蓝色节点代表民国期间的重大事件,黄色节点代表地点信息,头像代表名人。根据高亮的字符串,可以直接访问胡适节点的所有信息,包括胡适涉及的社会关系、事件、地点:① 胡适一生中交友广泛,与如林语堂、梁实秋、章士钊等大多数民国清流都保持好友关系。除此以外,还有和江冬秀的夫妻关系、与鲁迅政见不合等其他社会关系;② 参与“泰戈尔访华”事件等;③ 曾任职于北京大学、西南联大等高校。
图15 民国清流名人知识图谱

Fig. 15 Knowledge graph forMinGuo QingLiu

5.3 基于地图的名人生平行迹可视化分析

本文选取鲁迅作为可视化案例分析民国清流名人的生平行迹。基于上述分析可知,结合二维地图与时间帧,可以动态地展示名人漫游行迹的空间位置和属性信息变化,如图16所示,包括自1881年出生到1936年逝世期间鲁迅所涉及的重大事件,可大致分为4个阶段:
(1) 家乡求学的青少年时期(1881—1902年)。这一时期鲁迅往返于南京绍兴地区,涉及入学私塾三味书屋,考入南京江南水师学堂,但因不满该校堕落风气,后转学进入矿务铁路学堂,学习开矿等事件。
(2) 日本留学时期(1902—1909年)。鲁迅在日求学七年,多次往返于绍兴、仙台与东京,翻译大量外国文学,并师从章太炎等进步人士。
(3) 北平革命时期(1910—1926年)。鲁迅移居北平,前往西安、厦门、广州等大学进行讲学,结识李大钊、陈独秀等人,并从事多方面的社会文化工作。
(4) 共产主义活动时期(1927—1936年)。鲁迅定居文化斗争中心上海,从事共产主义活动,主编大量刊物,并创作大量杂文作品。
图16 鲁迅动态生平行迹

Fig. 16 Dynamic track map of Lu Xun

“交叉”生平行迹图(图17)展现了鲁迅与胡适的交往情况,可以帮助读者简洁快速地了解鲁迅与胡适“交好-交恶-释怀”的过程与事件发生的起因。胡适一生跨越东西方,从上海出生,途径台东、徽州、纽约、北平、南京、伦敦、巴黎、东京、香港等地最终定居台北。鲁迅和胡适是20世纪中国文化界的双峰,早年间胡、鲁二人并无交集,一位留学西洋美国,另一位留学东洋日本;1918年鲁迅和胡适同在北京,因“新文化运动”结交相识;而后二人政见不合(图15),鲁迅定居上海成为当时政权的批判者,而胡适则出任驻美大使,是政权的拥护者。
图17 鲁迅与胡适交叉行迹

Fig. 17 Cross dynamic track map between Lu Xun and Hu Shi

6 结论

本文以“民国清流”特殊名人群体为例,通过实地采集名人文化主题数据与挖掘名人文化内涵,结合数字化存档、多维可视化方法,构建以重点遗存旧址、重要影响人物(名人)、重大历史事件、重要历史作用为链条的名人文化数字化框架,从而实现对“民国清流”名人的可视化分析:
(1) 构建基于MongoDB的分布式异构文化数据组织与管理模型,充分利用了MongoDB的自动分片和文档内嵌特性;
(2) 基于群体传记文本数据,利用文本挖掘技术提取关键信息,包括重要人物、地点和人物共现矩阵等,挖掘名人的隐形模式与相关关系;
(3) 结合文本可视化、网络(图)可视化、地图可视化、三维可视化方法,详细地描述和再现“民国清流”的独特生活经历。
(4) 可视化结果能够揭示:① 名人群体在不同时期的中心人物和主要活动聚集地变化,如胡适是整个民国时期最重要的人物,名人群体的活动聚集地集中在北京、上海两地;② 名人社会关系和交往亲疏程度,例如基于民国初期社交网络,发现胡适与陈独秀、蔡元培、毛泽东、周作人等人关系密切;③ 名人间产生交集的原因能够通过交叉行迹图,发现胡、鲁二人早年并无交集,因新文化运动相交甚密,但后来思想上的分歧日渐凸显,导致二人渐行渐远。
因此,本文所提出的以地图为载体的文化数据可视化方法,能够实现遗存旧址、生平行迹、文化内容的有机联系和多种方式表达,不仅为文学研究者深入挖掘文化内涵,如名人聚集地和名人交集产生的地理根源,提供依据,还能够有效提升文化数据的可扩展性、可靠性和伸缩性,为文化数据存储提供新的方法。同时,本文所提出的数据组织和可视化方法同样适用于历朝历代名人或名人群体研究,例如宋代词人群体、红楼梦群体等,还能够激发普通群众了解名人遗存旧址的兴趣,促进优秀名人文化的传承与发展。
目前本框架仍在数据采集阶段,获取的民国清流名人数据较少,但仍可以揭示民国清流名人活动聚集地、名人社交关系和生平行迹。在未来持续收集整理民国清流名人文化主题数据,并结合更多可视化方法分析,如热力图等深入挖掘民国团体、文学社团的地理根源。
[1]
汪兆骞. 民国清流:那些远去的大师们[M]. 北京: 现代出版社, 2015.

[ Wang Z. Cultural celebrities of Republic of China[M]. Beijing: Modern press, 2015. ]

[2]
Yuan H, Hong Y, Bin L, et al. Application research of virtual reality technology in the protection of Chongqing celebrities' former dwellings during the Second Sino-Japanese War[C]. 2019 3rd International Conference on Artificial intelligence, Systems, and Computing Technology (AISCT 2019); Brasilia: Francis Academic Press, 2019.

[3]
Hua L, Chen C, Fang H, et al. 3D documentation on Chinese Hakka Tulou and Internet-based virtual experience for cultural tourism: A case study of Yongding County, Fujian[J]. Journal of Cultural Heritage, 2018,29:173-179.

[4]
Castiglione A, Colace F, Moscato V, et al. CHIS: A big data infrastructure to manage digital cultural items[J]. Future Generation Computer Systems, 2018,86:1134-1145.

[5]
江颖, 邬群勇, 唐曙光, 等. 基于MongoDB的闽西客家文化数据存储设计与分析[J]. 测绘工程, 2016,25(3):56-60.

[ Jiang Y, Wu Q Y, Tang S G, et al. Design and analysis for the storage of Western Fujian Hakka culture data based on MongoDB[J]. Engineering of Surveying and Mapping, 2016,25(3):56-60. ]

[6]
曹飞飞, 陈刚, 段淼然, 等. 基于MongoDB的历史地理超媒体数据组织方式研究[J]. 地理空间信息, 2018,16(11):64-67,11.

[ Cao F F, Chen G, Duan M R, et al. Research on organizational mode of historical Geo-hypermedia Data Based on MongoDB[J]. Geospatial Information, 2018,16(11):64-67,11. ]

[7]
Dou J, Qin J, Jin Z, et al. Knowledge graph based on domain ontology and natural language processing technology for Chinese intangible cultural heritage[J]. Journal of Visual Languages & Computing, 2018,48:19-28.

[8]
赵京胜, 张丽, 朱巧明, 等. 中文文学作品中的社会网络抽取与分析[J]. 中文信息学报, 2017,31(2):99-106.

[ Zhao J S, Zhang L, Zhu Q M, et al. Extracting and analyzing social networks from Chinese literary[J]. Journal of Chinese Information Processing, 2017,31(2):99-106. ]

[9]
陈涛, 刘炜, 单蓉蓉, 等. 知识图谱在数字人文中的应用研究[J]. 中国图书馆学报, 2019(6):1-19.

[ Chen T, Liu W, Shan R R, et al. Research on the application of knowledge graph in digital humanities[J]. Journal of Library Science in China, 2019(6):1-19. ]

[10]
王双. 时空叙事可视化理论与方法研究[J]. 测绘学报, 2019,48(3):401.

[ Wang S. Reasearch on theories and methods of spatial-temporal narrative visualization[J]. Acta Geodaetica et cartographica sinica, 2019,48(3):401. ]

[11]
Center for Geographic Analysis of Harvard University. China Historical GIS Guide[DB/OL]. [2020-04-14]. https://dataverse.harvard.edu/dataverse/chgis_v6.

[12]
谭其骧. 中国历史地图集[M]. 北京: 中国地图出版社, 1982.

[ Tan Q X. Historical atlas of China[M]. Beijing: SinoMaps Press, 1982. ]

[13]
傅角今. 中华民国行政区域图[M]. 上海: 商务印书馆, 1948.

[ Fu J J. Map of administrative areas of the republic of China[M]. Shanghai: The Commercial Press, 1948. ]

[14]
雷德龙, 郭殿升, 陈崇成, 等. 基于MongoDB的矢量空间数据云存储与处理系统[J]. 地球信息科学学报, 2014,16(4):507-516.

[ Lei D L, Guo D S, Chen C C, et al. Vector spatial data cloud storage and processing based on MongoDB[J]. Journal of Geo-information Science, 2014,16(4):507-516. ]

[15]
唐家渝, 刘知远, 孙茂松. 文本可视化研究综述[J]. 计算机辅助设计与图形学报, 2013,25(3):273-285.

[ Tang J Y, Liu Z Y, Sun M S. A survey of text visualization[J]. Journal of Computer-Aided Design & Computer Graphics, 2013,25(3):273-285. ]

[16]
苏晓慧, 张晓东, 胡春蕾, 等. 基于改进TF-PDF算法的地震微博热门主题词提取研究[J]. 地理与地理信息科学, 2018,34(4):90-95.

[ Su X H, Zhang X D, Hu C L, et al. Research on the extraction of earthquake's hot topic-words from microblog based on improved tf-pdfalgorithm[J]. Geography and Geo-information Science, 2018,34(4):90-95.]

[17]
任磊, 杜一, 马帅, 等. 大数据可视分析综述[J]. 软件学报, 2014,25(9):1909-1936.

[ Ren L, Du Y, Ma S, et al. Visual analytics towards big data[J]. Journal of Software, 2014,25(9):1909-1936. ]

[18]
陈蕾, 胡亦旻, 艾苇, 等. 《红楼梦》中社会权势关系的提取及网络构建[J]. 中文信息学报, 2015,29(5):185-193,203.

[ Chen L, Hu Y W, Ai W, et al. Extraction of power relationship and its corresponding social network in the story of stone[J]. Journal of Chinese Information Processing, 2015,29(5):185-193,203. ]

[19]
周亦, 周明全, 王学松, 等. 大数据环境下历史人物知识图谱构建与实现[J]. 系统仿真学报, 2016,28(10):2560-2566.

[ Zhou Y, Zhou M Q, Wang X S, et al. Design and implementation of historical figures knowledge graph visualization system[J]. Journal of System Simulation, 2016,28(10):2560-2566. ]

[20]
段宏. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016,53(3):582-600.

[ Duan H. Knowledge graph construction techniques[J]. Journal of Computer Research and Development, 2016,53(3):582-600. ]

[21]
Feder T, Motwani R. Clique partitions, graph compression and speeding-up algorithms[J]. Journal of Computer&System Sciences, 1995,51(2):261-272.

[22]
吴旻家, 任福, 杜清运, 等. 空间思维视角下李白漫游轨迹与其诗歌风格形成的关系解析[J]. 地理信息世界, 2016,23(2):42-47.

[ Wu W J, Ren F, Du Q Y, et al. Analyzing Li Bai's roaming track and his poetic style from geographical space perspective[J]. Geomatics World, 2016,23(2):42-47. ]

[23]
王占刚, 庄大方, 王勇. 历史事件时空过程描述及其可视化研究[J]. 计算机工程, 2014,40(11):50-55.

[ Wang Z, Zhuang D F, Wang Y. Research on spatio-temporal processes description of historical events and its visualization[J]. Computer Engineering, 2014,40(11):50-55. ]

[24]
刘菊, 陈璨, 许珺. 基于众包的古琴名人时空信息采集与移动轨迹时空分析[J]. 地球信息科学学报, 2019,21(6):844-853.

[ Liu J, Chen C, Xu J. Spatiotemporal analysis of trajectories of guqin celebrities based on crowdsourcing data[J]. Journal of Geo-information Science, 2019,21(6):844-853. ]

[25]
姚晓峰, 武利秀, 章伟, 等. 基于卷积神经网络的室内场景三维重建技术研究[J]. 计算机应用与软件, 2019,36(9):232-235.

[ Yao X F, Wu L X, Zhang W, et al. 3D reconstruction of indoor scene based on cnn[J]. Computer Applications and Software, 2019,36(9):232-235. ]

[26]
李峰, 米晓楠, 孙广通, 等. 地面激光扫描联合无人机影像的三维模型重建[J]. 测绘与空间地理信息, 2019,42(9):9-12.

[ Li F, Mi X N, Sun G T, et al. Three-dimensional model reconstruction combining terrestrial laser scanning with UAV images[J]. Geomatics & Spatial Information Technology, 2019,42(9):9-12. ]

[27]
冯建平, 吴丽华. 基于全景图像的三维全景漫游系统的构建[J]. 计算机与数字工程, 2013,41(1):115-117.

[ Feng J P, Wu L H. Construction of the 3D panoramic walkthrough system based on panoramas image[J]. Computer & Digital Engineering, 2013,41(1):115-117. ]

[28]
王勇超, 罗胜文, 杨英宝, 等. 知识图谱可视化综述[J]. 计算机辅助设计与图形学学报, 2019,31(10):1666-1676.

[ Wang Y C, Luo S W, Yang Y B, et al. A survey on knowledge graph visualization[J]. Journal of Computer-Aided Design&Computer Graphics, 2019,31(10):1666-1676. ]

文章导航

/