通讯作者:
收稿日期: 2018-05-4
修回日期: 2018-09-25
网络出版日期: 2019-01-20
版权声明: 2019 《地球信息科学学报》编辑部 《地球信息科学学报》编辑部 所有
基金资助:
作者简介:
作者简介:周佳颖(1993-),女,山东淄博人,硕士生,研究方向为文化遗产区域保护规划。E-mail:saso2008@163.com
展开
摘要
随着智能移动终端和社交网络应用的普及,越来越多的人愿意通过社交网络平台进行交流和表达自己的情感,因此产生了大量含有地理位置、文本内容等多种信息的用户生成数据,为大数据时代的城市研究及特定时空间内个体感知和行为活动研究提供新的数据源。本文基于2012-2014年约54万条微博用户数据,探测民众对包括春节、元宵节、清明节、端午节和中秋节在内的中国传统节日的情感表达和关注热点,以期发现在城市化与全球化影响下,人们对中国传统节日的认知变化和区域特征。通过Python 3.6进行词频分析及LDA主题模型分析可知:① 春节是中国人主题感知最为强烈的节日,且多为对新年美好祝愿的表达,其次是中秋节,以回家团聚为主,另外情人节也成为一个显性的节日;② 传统节日期间,出行方式以飞机和汽车为主,机场和高速成为与节日活动密切相关的场所;③ 共识性岁时习俗整体感知较好,但各地域特色节庆活动及饮食习俗在表现形式上有所差异,且差异在逐渐减小;④ 词频分析较好地反映了微博用户对中国传统节日的普遍感知及具有地方特色的区域差异,而LDA主题模型分析能够反映一定的传统节日主题聚类结果,但对不同节日的主题聚类效果并不十分明显。
关键词:
Abstract
With the development of technology and the popularity of social media in recent years, more and more people like to express their true thoughts and emotions through social media. Therefore, a large amount of data that contains a variety of information such as geographic location, text content, and emotions is being generated. It provides a new data source for urban and personal perception research in the era of big data. Based on the analysis of big data generated by Weibo users, this study uses Python to perform word frequency analysis and topic analysis on Weibo data. The purpose is to explore the emotional expressions and concerns of people on traditional Chinese festivals, including Spring Festival, Lantern Festival, Tomb-sweeping Day, Dragon Boat Festival and Mid-Autumn festival, and to find out people’s perception changes and regional characteristics of Chinese traditional festivals under the influence of urbanization and globalization. Through the analysis, this study has several findings. First, people have the strongest perception of the Spring Festival. To be specific, they mostly express good wishes for the New Year, and the emotions are relatively positive. The second one is the Mid-Autumn festival, and people focus on going home to reunite with relatives. Moreover, Valentine's Day has become a more popular holiday, showing that globalization has a certain impact on traditional Chinese festivals. Second, the change of transportation has both positive and negative impacts on the quality of the festival and people's perception. During traditional festivals, the main way to travel is by air and by car. Airports and highways are places that are closely related to the festival activities. Third, people have a good perception of the traditional common customs. However, there are differences in the forms of festivals and dietary customs among different regions, and the differences are gradually decreasing. Therefore, it is of great necessity to promote the implementation of traditional Chinese festival revitalization projects, to inherit and promote the Chinese traditional festival customs.
Keywords:
随着信息化技术的不断发展,信息化对人类社会产生了极大影响,这种影响也在地理空间上产生映射。而智能手机和移动互联网的普及,使得越来越多的人愿意利用Twitter、Facebook、微博、微信、贴吧、用户评论等社交网络平台交流信息,表达情感[1,2]。这些社交网络数据不仅可以反映用户的情绪、感受和行为偏好,而且基于位置签到还可以生成用户的地理位置信息,这为地理学基于人的活动所产生的主观感知及其区域差异研究提供了新的数据和视角。
2018年第41次《中国互联网络发展状况统计报告》显示,截至2017年12月,中国网民规模达7.72亿,手机网民规模达到7.53亿,网民中手机上网人群比例占97.5%,其中有3.16亿网民使用微博,占比达到40.9% [3]。《2017微博用户发展报告》指出,截至2017年9月,微博月活跃人数共3.76亿;日活跃用户达到1.65亿,微博月活跃用户中,30岁以下用户超过八成,是微博的主力人群[4]。用户可以利用微博,将文本字数限制在140字以内,随时随地表达自己的观点和情感。正是由于微博等社交网络数据具有实时性强、数量大的特点,吸引了国内外许多地理学和社会学研究者的目光[5]。2015年,Liu等[6]提出了“社会感知”的概念,是指借助于各类海量时空数据研究人类时空间行为特征,进而揭示社会经济现象的时空分布、联系及过程的理论和方法。在研究内容上,地理学界目前的研究主要集中在以下3个方面:
(1)将时间信息、空间信息和文本信息中用户的情感和态度相结合,研究城市人口流动、城市风貌、城市意象、城市空间结构和功能分区等城市问题。例如,Hollenstein等[7]通过社交网站Flicker 的地理位置标签数据对城市功能分区进行研究;邓力凡等[8]利用微博数据中的位置信息和时间等元数据,将微博用户划分为居民和游客2类,再通过可视化,对比这2类人群对城市的感知区域与强度差异;周艳等[9]利用社交媒体数据中的位置签到数据,将用户划分为静态居民、动态居民、通勤者以及访问者4类具有不同时空行为特征的城市人群,并对不同类型人群的时空间行为特征及差异性进行分析,为研究城市时空结构提供一种新的视角[9];赵文宁[10]运用新浪微博数据,通过将地理位置信息与微博文本信息相结合,研究了北京市商务、商业功能区的分布和交通问题。
(2)运用微博用户的定位信息,研究城市网络空间特征。由于新浪微博具有广泛的全国性影响及足够的用户分布,且突破了原本的行政区划界限,进行跨区域的联系。因此,也有学者利用微博用户之间的粉丝、关注、好友3种类型的关系,研究城市网络和城市间的空间相互作用,包括城市网络的等级划分[11]、城市间的联系强度[12],以及城市网络空间分布[13]。
(3)通过分析和挖掘文本信息进行情感和主题分析,扩展城市社会空间和行为空间研究。对于情感分析来说,识别出文本所表达的积极或消极的情感,是常用的情感分析方法之一,并在此基础上探索用户情绪分布的空间集聚性[14]、空间异质性和关联性规律[15,16],以及用户情感波动的规律或与用户所处地理环境[17]、时间节点[18]之间的关系。对于主题分析而言,目前应用最多的是利用提取关键词词频的逆文件频率(TF-IDF)方法、K-means 聚类算法和文本主题分析的潜在狄利克雷分布(Latent Dirichlet Allocation, LDA)模型[19,20],进行主题挖掘与分析。TF-IDF 算法和K-means 聚类算法可有效提取关键词,从而发现用户在某区域内谈论的焦点,并为进一步分析提供基础和依据;LDA模型可以有效地解决短文本数据稀疏性的问题,能提示很多在 TF-IDF 中并不显著的现象,主题提取效果显著,可较好地反映热点区域的主题、风格和特色。如谢永俊等[21]采用 TF-IDF 提取关键词、LDA 建立主题模型等方法提取北京市各热点区域内用户微博的关注主题,分析北京市各热点区域内的文化、功能和特性。还有学者研究同一文本信息针对不同主题的情感倾向,从而挖掘出更丰富的语义信息,如刘思叶等[22]基于机器学习方法,针对饮食、娱乐、购物、景观、交通和住宿6个旅游主题,进行游客微博主题情感分析方法的比较研究。陈瑗瑗等[23]利用社交媒体进行位置潜语义特征提取与分析,结合空间分析对位置的特征和相似性进行进一步地描述和度量,侧重于在语义空间上描述位置之间的相关程度,从而有效地挖掘社交媒体上对于空间位置的集体印象。
传统节日作为社会文化的组成部分,具有特殊的文化含义,人们在特定的时间、空间参与特殊的习俗活动,会产生异与常日的情感和体验[24]。中国的传统节日是中华优秀传统文化传承发展的重要载体,2007年12月国务院第513号令公布了《国务院关于修改〈全国年节及纪念日放假办法〉的决定》,将清明节、端午节、中秋节等传统节日作为国家法定假日,实行3天放假制度,使中国传统节日成为改变人们生活方式的重要影响因素。中国由于疆域面积较大,地形、气候等自然地理环境复杂多样,因此,传统的节日文化在形成、发展、演化的过程中会受到自然环境、社会经济条件、历史文化背景的影响,因此在同一节日里,不同地区所举办的节庆活动也会有所差异,进而产生居民对传统节日的感知差异[25],而信息技术和交通的快速发展,促使人们在传统节日里的行为习惯也发生了很大的变化[26]。
目前,学者对传统节日的关注主要集中在对传统节日的文化价值[27]、节庆活动的重构[28]等方面的研究,较少有学者从地理大数据的角度去分析和挖掘中国传统节日的区域差异和地方特征。因此,本文尝试应用微博数据中的地理位置信息和文本信息,选取春节、元宵、清明、端午、中秋5个传统节日,通过对文本信息进行词频分析及LDA主题分析,探究新时代人们对传统节日的情感表达、活动感知及区域差异。
本文选取数据堂提供的2012-2014年新浪微博数据作为数据源[29],此时中国传统节日正式成为国家法定节假日已有5年左右,人们已经习惯了传统节日的小长假生活方式,并形成了一定的生活习惯。因此,按照国家法定节假日放假时间,筛选了2012-2014年春节、元宵节、清明节、端午节、中秋节5个典型中国传统节日期间带有坐标定位的微博数据约90万条,以中国现行的行政区划为界,剔除重复坐标点位数据以及广告、转发抽奖等无关数据后,剩余约54万条数据作为研究数据。依据各个节日的放假时间进行数量统计,春节约22.4万条,元宵节约2.9万条,清明节约10.3万条,端午节约12.1万条,中秋节约6.3万条,共计54万条微博数据。随后对这54万条数据进行清洗,删除文本内容中“@用户”、“分享图片”、“#标签#”、链接“http://...”等与文本内容无关的信息,因本文重点分析文本中的文字信息,故将文本中的表情符号也进行了清洗。
本文利用Python 3.6软件,对清洗后的数据使用中文分词库Jieba加载停用词文档去除停用词,对文本进行分词处理后进行词频统计,提取微博内容数据的文本词频及感知类型的特征词,分析中国34个省级行政区域间的节日活动差异,通过LDA主题模型分析探究人们对中国传统节日的感知及区域差异。
主题模型一般采用概率的产生式模型来对文本进行建模,而LDA主题模型则是先形成“文档-主题-单词”3层结构的贝叶斯模型,然后通过运用概率方法对模型进行推导,来寻找文本集的语义结构,挖掘文本的主题[30]。目前基于LDA模型的主题分析广泛应用于主题挖掘[21]、舆情分析[20]、意见领袖挖掘[31]及科学文献分析[32]等方面。本文所采用的LDA主题分析主要是基于Python中Gensim 库的LDA算法,对中文微博内容进行文本分析。通过LDA 模型的词袋(Bag of Words),计算出相应的主题向量(包括各个主题的概率,以及主题下面对应的词语分布概率)[21],最终得出人们对中国传统节日感知的主题聚类结果。
微博中的高频词往往反映的是人们对于热点事件或事物的普遍认知及理解。而在高频词阈值选取方法中,刘奕杉等[33]通过多种方法对比分析,认为用二八定律确定高频词阈值是较为合理的。本文以此为依据,采用二八定律来确定高频词的阈值,即按照频次从高到低的顺序排列数据,抽取频次累计占比达20%的词为分析所需的高频词,并通过运用Python 3.6对微博内容数据进行分词和高频词汇统计,可以看出人们对中国传统节日的关注程度,以及在传统节日期间的主要习俗(表1)。
表1 传统节日感知高频词汇
Tab. 1 High frequency vocabulary of traditional festival perception
序号 | 高频词 | 频数 | 序号 | 高频词 | 频数 | 序号 | 高频词 | 频数 |
---|---|---|---|---|---|---|---|---|
1 | 吃 | 17 477 | 13 | 妈妈 | 3501 | 25 | 祝福 | 1944 |
2 | 快乐 | 10 519 | 14 | 排队 | 3340 | 26 | 身体健康 | 1927 |
3 | 新年快乐 | 6526 | 15 | 路上 | 2902 | 27 | 拜年 | 1865 |
4 | 情人节 | 5828 | 16 | 年夜饭 | 2899 | 28 | 端午 | 1706 |
5 | 回家 | 5569 | 17 | 高速 | 2886 | 29 | 粽子 | 1701 |
6 | 吃饭 | 5279 | 18 | 端午节 | 2736 | 30 | 月亮 | 1638 |
7 | 中秋 | 4761 | 19 | 堵 | 2469 | 31 | 烟花 | 1627 |
8 | 幸福 | 4239 | 20 | 中秋节 | 2463 | 32 | 财神 | 1624 |
9 | 过年 | 4212 | 21 | 累 | 2235 | 33 | 家人 | 1529 |
10 | 出发 | 4169 | 22 | 春晚 | 2208 | 34 | 扫墓 | 1457 |
11 | 玩 | 3888 | 23 | 假期 | 2115 | 35 | 元宵 | 1412 |
高频词的提取结果反映了人们在传统节日期间对节日的感知、活动和关注点。人们对于春节的关注程度明显高于其他4个传统节日,而“情人节”词频较高是由于2013年、2014年的情人节均在春节放假期间,反映出现年轻人对于情人节的重视及关注程度。词频中的“年夜饭”及“粽子”等反映了饮食习俗是传统节日的重要表征,“春晚”仍然是人们在春节期间的关注热点。
基于LDA的文本主题挖掘是通过对文本进行分类,并根据词与词之间共现的概率来抽取整个语料库的潜在主题,以此将文本中分散的主题及其特征词进行聚类。通过LDA模型进行主题分析,以此来探究人们对于5个传统节日的整体感知。通过对拟定抽取的主题及关键词数量进行多次测试,发现当抽取主题数为15,主题词个数为10的时候,能够较好地体现各主题特征词与传统节日主题的关系。表2列举出与传统节日相关的主题及各主题中的特征词,特征词的顺序按照各个主题下所对应的词语分布概率排序。
表2 传统节日感知主题及特征词示例
Tab. 2 Perception themes and feature words of traditional festival
序号 | 主题1 | 主题2 | 主题3 | 主题4 | 主题5 | 主题6 |
---|---|---|---|---|---|---|
1 | 过年 | 幸福 | 回家 | 情人节 | 高速 | 新年快乐 |
2 | 玩 | 快乐 | 回来 | 妈妈 | 老妈 | 拜年 |
3 | 喝 | 春晚 | 中秋 | 日子 | 年夜饭 | 中国 |
4 | 机场 | 新年 | 路上 | 人生 | 菜 | 身体健康 |
5 | 除夕 | 朋友 | 快乐 | 快乐 | 到达 | 爱情 |
6 | 无聊 | 祝福 | 睡觉 | 老公 | 真好 | 万事如意 |
7 | 春节 | 加油 | 开心 | 爸爸 | 月亮 | 工作 |
由表2可以看出,对微博内容进行LDA主题聚类的结果较为清晰,其特征词的聚类也较为明显,能够较好地反映该主题的特征及情绪。主题1是对春节回家的描述,反映了人们过年回家的基本状态以及“无聊”的情绪,乘坐飞机成为过年回家的主要交通方式;主题2和主题6体现的是人们对于新年的美好祝愿;主题3则是传统节日期间人们回家过节的期盼,尤其是中秋节对回家的感知最为强烈;主题4是人们对于情人节的感知,主要是对父母及爱人间的情感表达;主题5则反映了传统节日期间人们回家团聚的情绪表达。由此可以看出,人们对于春节的主题感知最为强烈,且多为对新年美好祝愿的表达,其次是以回家团聚为主的中秋节,而情人节也成为一个显性的节日。节日期间,大多数人的情绪是积极的,出行方式以飞机和汽车为主,机场和高速成为与节日活动密切相关的场所。
利用Python 3.6分别对5个传统节日进行词频统计,各自筛选出20个高频词汇(表3),可以看出人们对5个传统节日的感知存在一定的共性和差异。共性感知体现在对节日传统食俗的关注、对妈妈和回家的期盼以及行走在路上的感受;差异则更多表现为不同节日岁时习俗的差异。从情感来看,整体感知是积极向上的,多为“开心”、“快乐”、“幸福”,而随着国家法定节假日期间取消高速过路费的政策实施,自驾回家或出游成为主要出行方式,这也导致人们对于高速公路堵车的抱怨。
表3 不同传统节日感知高频词汇统计
Tab. 3 Perception of high-frequency words in different traditional festivals
序号 | 春节 | 元宵节 | 清明节 | 端午节 | 中秋节 |
---|---|---|---|---|---|
1 | 吃 | 元宵节 | 吃 | 吃 | 爱 |
2 | 新年快乐 | 吃 | 扫墓 | 端午节 | 快乐 |
3 | 开心 | 快乐 | 清明 | 开心 | 月亮 |
4 | 情人节 | 元宵 | 回家 | 快乐 | 月饼 |
5 | 过年 | 汤圆 | 吃饭 | 粽子 | 家 |
6 | 发红包 | 开心 | 回来 | 端午 | 高速 |
7 | 快乐 | 家 | 上班 | 回家 | 回家 |
8 | 回家 | 回家 | 累 | 好吃 | 堵 |
9 | 年夜饭 | 上班 | 出发 | 味道 | 出发 |
10 | 拜年 | 烟花 | 排队 | 吃饭 | 幸福 |
11 | 春晚 | 幸福 | 堵 | 上班 | 路上 |
12 | 无聊 | 情人节 | 玩 | 累 | 赏月 |
13 | 排队 | 学校 | 无聊 | 妈妈 | 妈妈 |
14 | 路上 | 妈妈 | 假期 | 出发 | 过节 |
15 | 高速 | 加油 | 出门 | 排队 | 堵车 |
16 | 累 | 工作 | 高速 | 幸福 | 累 |
17 | 失望 | 无聊 | 电影 | 无聊 | 旅行 |
18 | 鞭炮 | 排队 | 失望 | 假期 | 团圆 |
19 | 饺子 | 月亮 | 踏青 | 放假 | 家人 |
20 | 堵车 | 灯会 | 快乐 | 路上 | 祝福 |
通过微博签到数据与所在行政区的地理坐标配准后,对其所在区域的微博内容进行词频统计,并在各省的高频词中挑选出能反映积极情绪、消极情绪、岁时习俗、交通出行等四种感知类型的词语个数(表4),分别计算各省这四种感知类型的词语在全国4种感知类型词语中所占的比重(图1)。
表4 4种感知类型词语示例
Tab. 4 Examples of four perceptual types of words
类型 | 个数 | 示例 |
---|---|---|
积极情绪 | 41 | 快乐、幸福、开心、希望、感谢、美好等 |
消极情绪 | 14 | 累、无聊、可惜、不好、讨厌、好累等 |
岁时习俗 | 46 | 拜年、扫墓、烟花、鞭炮、年夜饭、粽子等 |
交通出行 | 14 | 回家、路上、高速、堵、机场、火车站等 |
图1 各省级行政区4种感知类型的累积占比统计
Fig. 1 Regional difference statistics of four types of perception
从图1中可以看出,各省的积极情绪占比高于消极情绪,且各省之间存在略微的差异,有11个省份在高频词中没有出现反映消极情绪的词语,包括东三省、西部地区以及旅游业占主导的省份。交通出行类的词语比重较大,体现了人们在传统节日期间的出行率较高,出行目的主要为回家过节或外出旅行。岁时习俗是中国传统节日文化传承与创新的重要载体,在高频词中可以看到各地在传统节日期间的习俗活动总体上较为一致,且各省之间存在一定的差异,其习俗活动主要围绕传统节日的食俗和节庆活动展开,但由于高频主题词反映的是普遍特征,而具有地域特色的岁时习俗无法很好地在高频词中体现。根据邱均平等[34]的研究,低频词虽然不能代表全局情况,但在词频分析中低频词是高频词的重要补充。本文基于此,对不同区域微博用户对传统节日感知的低频词进行提取和分析,进一步探究传统节日的地域特色。
通过对各地区的低频词进行提取及整理,发现出现频率相对较高的前6个低频词分别是庙会、龙舟、年糕、龙灯、青团、花市,如图2所示。春节逛庙会作为中国传统节庆活动,在全国具有一定的普遍性,但以北方居多,提及“庙会”一词最多的是北京,而广东、香港一带流行逛花市,以祈求好运。赛龙舟是端午节的传统节庆活动,主要分布在南方省份,如浙江、福建较为盛行,而河南、黑龙江等北方省份,将体育赛事与传统文化相结合,在端午节期间大力开展龙舟竞渡活动;浙江、上海、安徽等南方地区自古就有元宵节舞龙灯的传统习俗。在食俗方面,青团作为南方地区清明节的传统特色小吃,因受到各地历史传统及文化因素的影响,其名称、做法以及馅料上也会有所差异,如广西称之为“艾粑”;虽然南北方地区都有在春节期间吃年糕的习俗,但其做法及口味却大相径庭,北方以甜为主,南方则甜咸兼具,在“年糕”中还提取一定比例的“韩式炒年糕”,体现了全球化对地方小吃的影响。
图2 高出现率的低频词及其主要省份示意
Fig. 2 Regional difference statistics of low frequency words
通过对低频词的提取及分析可以看到,以传统地方小吃和节庆活动为代表的岁时习俗,是中国传统节日的重要文化载体,需要在今后不断挖掘、深化和传承。
本文以2012-2014年带有位置签到的新浪微博数据为数据源,选取5个传统节日假期期间的微博内容数据,利用词频分析及LDA主题分析的方法,以探究人们对于中国传统节日的感知及区域差异。研究结果表明:
(1) 在全球化快速推进的过程中,中国传统节日依然表现出鲜明的特征,春节成为大众感知最强烈的传统节日,同时受全球化的影响,情人节这样的“洋节”也日益成为年轻人关注的节日。
(2) 不同地域对传统节日的感知存在共性与差异。共性表现在对中国传统节日的看重,享受节日带来的欢乐,并遵循一定的传统习俗,整体情绪积极,且多偏爱节日期间回家团聚以及外出旅游等活动。差异主要体现在不同地域节庆活动及饮食习俗上,受自然环境、地域文化及历史等因素影响,各地岁时习俗的表现形式有所差别。
(3) 交通出行方式对于节日质量以及人们的感知有一定的影响,且存在积极影响和消极影响两方面。
(4) 美食作为传统节日的重要文化元素,体现了民众对于家庭和家乡的依赖,说明了中国传统节日依然是中国人凝聚力的体现。
本文尝试运用Python 3.6进行词频分析及LDA主题模型分析的方法来探究人们对于传统节日的感知情况,但由于使用新浪微博的主体用户是年轻人,研究结果主要是以年轻人为代表的人群对中国传统节日的感知现状,同时由于难以对用户数据进行居民及游客的划分,缺乏对不同用户群体感知的深入探讨。在技术方面,由于目前对于微博文本分析的方法仍处于探究阶段,针对微博内容短小且噪声大的问题尚未形成较为完整及权威的解决方案。因此,未来在技术及数据层面将做进一步改进,创建和完善不同年龄、不同群体的微博用户对中国传统节日感知的语料库,加强对中国传统节日情感及主题变化趋势的研究,促进中国传统节日振兴工程的实施,丰富传统节日文化内涵,在保护传承的基础上,适应新时代新要求,形成新的节日习俗。
The authors have declared that no competing interests exist.
[1] |
大数据时代城市时空间行为研究方法 [J].https://doi.org/10.11820/dlkxjz.2013.09.005 URL Magsci [本文引用: 1] 摘要
信息技术的快速发展带来了“大数据”时代的到来,改变了城市的空间组织和居民行为,并使得城市时空间行为研究方法面临变革。本文在总结传统城市时空间行为研究方法存在问题的基础上,对影响其变革的数据获取与处理技术进行梳理,重点从居民时空行为、城市空间及城市等级体系3个方面综述了国内外应用大数据进行城市时空间行为研究的最新进展,构建了基于大数据应用的城市时空间行为研究方法框架。本文认为,大数据时代城市时空间行为研究方法的变革主要取决于对反映居民时空行为的网络或移动信息设备数据的挖掘、处理及应用,但是还需要进一步推动相关学科间的交叉与融合,加强社交网站等网络数据在居民时空行为和城市空间研究中的应用,并指导城市规划编制与管理方法的创新。
Methods in urban temporal and spatial behavior research in the big data era [J].https://doi.org/10.11820/dlkxjz.2013.09.005 URL Magsci [本文引用: 1] 摘要
信息技术的快速发展带来了“大数据”时代的到来,改变了城市的空间组织和居民行为,并使得城市时空间行为研究方法面临变革。本文在总结传统城市时空间行为研究方法存在问题的基础上,对影响其变革的数据获取与处理技术进行梳理,重点从居民时空行为、城市空间及城市等级体系3个方面综述了国内外应用大数据进行城市时空间行为研究的最新进展,构建了基于大数据应用的城市时空间行为研究方法框架。本文认为,大数据时代城市时空间行为研究方法的变革主要取决于对反映居民时空行为的网络或移动信息设备数据的挖掘、处理及应用,但是还需要进一步推动相关学科间的交叉与融合,加强社交网站等网络数据在居民时空行为和城市空间研究中的应用,并指导城市规划编制与管理方法的创新。
|
[2] |
大数据对人文—经济地理学研究的促进与局限 [J].https://doi.org/10.11820/dlkxjz.2015.04.002 URL [本文引用: 1] 摘要
大数据技术的诞生不仅快速推动着社会的进步,而且也将科学研究不断引向新的高度。以人类社会经济活动为主要研究对象的人文—经济地理学与当前大数据建设和发展趋势具有高度一致性,大数据的发展对丰富和完善人文—经济地理学势必起到积极的推动作用,同时也对人文—经济地理学的学科思维和研究方法提出了新的挑战。梳理和分析了目前大数据在人文—经济地理学主要研究领域,包括城市内部空间研究、交通与消费行为、社会空间与社会网络研究中的最近进展,以及大数据对参与式研究和决策平台的作用。着重剖析了大数据对人文—经济地理学数据获取,研究思维与范式,研究内容、研究时空尺度与研究目标等方面的促进作用与存在问题,特别是由于大数据自身发展的不完善,在数据收集特别是数据属性方面还存在很大的局限,缺乏理论基础将会使得大数据与实际应用受到很大限制,同时,数据本身也不能替代研究者思维和决策过程。因此,人文—经济地理学者应该科学对待大数据所带来的机遇,弥补和丰富以往发展中的短板,即完善学科数据建设、建立大数据应用较为完善的研究方法体系,促进跨域数据整合和跨域研究,以及推进研究对象和研究目的的转变。
Opportunities and limitations of big data applications to human and economic geography: The state of the art [J].https://doi.org/10.11820/dlkxjz.2015.04.002 URL [本文引用: 1] 摘要
大数据技术的诞生不仅快速推动着社会的进步,而且也将科学研究不断引向新的高度。以人类社会经济活动为主要研究对象的人文—经济地理学与当前大数据建设和发展趋势具有高度一致性,大数据的发展对丰富和完善人文—经济地理学势必起到积极的推动作用,同时也对人文—经济地理学的学科思维和研究方法提出了新的挑战。梳理和分析了目前大数据在人文—经济地理学主要研究领域,包括城市内部空间研究、交通与消费行为、社会空间与社会网络研究中的最近进展,以及大数据对参与式研究和决策平台的作用。着重剖析了大数据对人文—经济地理学数据获取,研究思维与范式,研究内容、研究时空尺度与研究目标等方面的促进作用与存在问题,特别是由于大数据自身发展的不完善,在数据收集特别是数据属性方面还存在很大的局限,缺乏理论基础将会使得大数据与实际应用受到很大限制,同时,数据本身也不能替代研究者思维和决策过程。因此,人文—经济地理学者应该科学对待大数据所带来的机遇,弥补和丰富以往发展中的短板,即完善学科数据建设、建立大数据应用较为完善的研究方法体系,促进跨域数据整合和跨域研究,以及推进研究对象和研究目的的转变。
|
[3] |
第41次中国互联网络发展状况统计报告[R].北京 :The 41th statistical report on Internet development in China[R]. Beijing : |
[4] |
2017微博用户发展报告 [EB/OL]. ,Weibo User Development Report 2017 [EB/OL]. , |
[5] |
Social sensing: A new approach to understanding our socio-economic environments [J].https://doi.org/10.1080/00045608.2015.1018773 URL [本文引用: 1] 摘要
The emergence of big data brings new opportunities for us to understand our socioeconomic environments. We use the term social sensing for such individual-level big geospatial data and the associated analysis methods. The word sensing suggests two natures of the data. First, they can be viewed as the analogue and complement of remote sensing, as big data can capture well socioeconomic features while conventional remote sensing data do not have such privilege. Second, in social sensing data, each individual plays the role of a sensor. This article conceptually bridges social sensing with remote sensing and points out the major issues when applying social sensing data and associated analytics. We also suggest that social sensing data contain rich information about spatial interactions and place semantics, which go beyond the scope of traditional remote sensing data. In the coming big data era, GIScientists should investigate theories in using social sensing data, such as data representativeness and quality, and develop new tools to deal with social sensing data.
|
[6] |
基于微博用户关系的网络信息地理研究——以新浪微博为例 [J].https://doi.org/10.11821/yj2013020018 URL [本文引用: 1] 摘要
Along with a new development trend of mobile information technology, nowadays people can even communicate with others at anytime and anywhere with any devices. Micro-blog, as one of the most important social network platforms, has experienced vigorous growth and now becomes one of the most popular Internet applications in China. Although micro-blog has become a hotspot of research in areas such as computer and sociology, there have been relatively few studies from the perspective of geography. Compared with the existing researches on cybergeography mainly focused on network infrastructure used to simulate the influence of information, the research based on micro-blog users' relationship will undoubtedly reflect interpersonal communication more directly, thus help to analyze the impact of information on interpersonal social network. Therefore, this paper tries to analyze cybergeography based on micro-blog users' relationship. The study firstly selects 100 micro-blog users in Nanjing and collects these users' followers, followings, friends, and their geospatial information. Then it analyzes the geographical features, forms and the reasons. The results are obtained as follows. (1) The role of distance still acts in the network information space, for a certain distance attenuation phenomenon still exists in network information contact. And the amount of network information contact with these selected users in Jiangsu province occupies the largest part of the country's total, while this figure in Nanjing city also occupies most parts of the total in Jiangsu Province. (2) The network information contact is well consistent with the actual social-economic contact, for not only the strength of network information shows a relative consistence with the social-economic development, but also the pattern of network information contact shows a relative consistence with the overall pattern of social-economic development. (3) The network information space also shows an obvious hierarchy, for not only the strength of network information contact shows different hierarchical levels, but also the network information contact between cities is imbalanced and characterized by asymmetry. Lastly, the study argues that the role of distance and the actual socio-economic contact have joint impacts on the network information space, which has a certain similarity with the function mechanism on the actual geographic space.
A study of cybergeography based on micro-blog users' relationship: With a case of Sina micro-blog [J].https://doi.org/10.11821/yj2013020018 URL [本文引用: 1] 摘要
Along with a new development trend of mobile information technology, nowadays people can even communicate with others at anytime and anywhere with any devices. Micro-blog, as one of the most important social network platforms, has experienced vigorous growth and now becomes one of the most popular Internet applications in China. Although micro-blog has become a hotspot of research in areas such as computer and sociology, there have been relatively few studies from the perspective of geography. Compared with the existing researches on cybergeography mainly focused on network infrastructure used to simulate the influence of information, the research based on micro-blog users' relationship will undoubtedly reflect interpersonal communication more directly, thus help to analyze the impact of information on interpersonal social network. Therefore, this paper tries to analyze cybergeography based on micro-blog users' relationship. The study firstly selects 100 micro-blog users in Nanjing and collects these users' followers, followings, friends, and their geospatial information. Then it analyzes the geographical features, forms and the reasons. The results are obtained as follows. (1) The role of distance still acts in the network information space, for a certain distance attenuation phenomenon still exists in network information contact. And the amount of network information contact with these selected users in Jiangsu province occupies the largest part of the country's total, while this figure in Nanjing city also occupies most parts of the total in Jiangsu Province. (2) The network information contact is well consistent with the actual social-economic contact, for not only the strength of network information shows a relative consistence with the social-economic development, but also the pattern of network information contact shows a relative consistence with the overall pattern of social-economic development. (3) The network information space also shows an obvious hierarchy, for not only the strength of network information contact shows different hierarchical levels, but also the network information contact between cities is imbalanced and characterized by asymmetry. Lastly, the study argues that the role of distance and the actual socio-economic contact have joint impacts on the network information space, which has a certain similarity with the function mechanism on the actual geographic space.
|
[7] |
Exploring place through user-generated content: Using Flickr tags to describe city cores [J]. |
[8] |
基于微博签到行为的城市感知研究——以深港地区为例 [J].
随着社交网络不断普及,以微博签到为代表的位置分享服务信息增多,为研究城市意象及不同人群的城市感知行为提供了新的数据来源和视角。文章基于深港地区新浪微博签到数据,通过对用户微博签到行为特征总结,提取行为特征参数,采用基于支持向量机(SVM)的机器学习算法进行人群监督分类,并针对居民和游客两类人群的城市感知行为进行对比研究。研究发现了激发人们产生城市意象的点、线、面感知空间结构,以及居民和游客感知区域和强度不同。城市空间也可分为"客厅型"和"卧室型"空间。文章中所用方法及得出的初步研究结果对城市意象管理、城市旅游规划等研究是有益的。
Study of city perception based on micro-blog sign in behavior: A case study of Shenzhen and Hong Kong [J].
随着社交网络不断普及,以微博签到为代表的位置分享服务信息增多,为研究城市意象及不同人群的城市感知行为提供了新的数据来源和视角。文章基于深港地区新浪微博签到数据,通过对用户微博签到行为特征总结,提取行为特征参数,采用基于支持向量机(SVM)的机器学习算法进行人群监督分类,并针对居民和游客两类人群的城市感知行为进行对比研究。研究发现了激发人们产生城市意象的点、线、面感知空间结构,以及居民和游客感知区域和强度不同。城市空间也可分为"客厅型"和"卧室型"空间。文章中所用方法及得出的初步研究结果对城市意象管理、城市旅游规划等研究是有益的。
|
[9] |
基于社交媒体数据的城市人群分类与活动特征分析 [J].https://doi.org/10.3724/SP.J.1047.2017.01238 URL [本文引用: 2] 摘要
空间信息技术已开始进入全空间信息系统发展阶段,即将空间信息系统的范畴从传统测绘空间扩展到宇宙空间、室内空间、微观空间等可量测空间.位置大数据不仅是全空间信息系统的重要研究对象之一,而且也成为了广域全空间中了解人们生活方式以及城市动态变化的一种有效途径.本文基于社交媒体数据中的位置签到数据,提出一种不同于传统以社会经济属性为依据的城市人群分类方法.首先利用签到数据的时间序列构造矩阵模型;然后,通过分析用户签到活动的时间特征,采用K-means聚类算法和K近邻算法(K-NN)识别出具有不同时空行为特征的城市人群(静态居民、动态居民、通勤者以及访问者);最后,本文根据得到的人群分类结果,通过分析不同类型人群的时空间行为特征,发现不同类型人群时空间行为的差异性与潜在规律性,从而为表征城市人群的组成结构及特征,研究城市时空结构提供一种新的视角.
Analysis of classification methods and activity characteristics of urban population based on social media data [J].https://doi.org/10.3724/SP.J.1047.2017.01238 URL [本文引用: 2] 摘要
空间信息技术已开始进入全空间信息系统发展阶段,即将空间信息系统的范畴从传统测绘空间扩展到宇宙空间、室内空间、微观空间等可量测空间.位置大数据不仅是全空间信息系统的重要研究对象之一,而且也成为了广域全空间中了解人们生活方式以及城市动态变化的一种有效途径.本文基于社交媒体数据中的位置签到数据,提出一种不同于传统以社会经济属性为依据的城市人群分类方法.首先利用签到数据的时间序列构造矩阵模型;然后,通过分析用户签到活动的时间特征,采用K-means聚类算法和K近邻算法(K-NN)识别出具有不同时空行为特征的城市人群(静态居民、动态居民、通勤者以及访问者);最后,本文根据得到的人群分类结果,通过分析不同类型人群的时空间行为特征,发现不同类型人群时空间行为的差异性与潜在规律性,从而为表征城市人群的组成结构及特征,研究城市时空结构提供一种新的视角.
|
[10] |
基于用户生成数据的城市空间研究——以微博为例 [C].Study of urban space on user generated data: A case study of Weibo [C]. |
[11] |
基于网络社会空间的中国城市网络特征——以新浪微博为例 [J].https://doi.org/10.1007/s11783-011-0280-z [本文引用: 1] 摘要
信息技术影响下的城市区域空间结构变化得到了国内外学者的关注。本文以新浪微博为例,从网络社会空间的角度入手,对中国城市网络发展特征进行了研究。研究表明:微博社会空间视角下的中国城市网络存在着明显的等级关系与层级区分,城市的网络连接度与城市等级表现出了相对一致性。根据城市网络层级与网络联系强度,东部、中部、西部3大区域板块的网络联系差异明显,东部地区内部的联系,以及东部与中部地区和西部地区的联系几乎构成当前网络体系中的全部。城市网络呈现出分层集聚现象,具体表现为"三大四小"发展格局,即京津冀区域、珠三角区域、长三角区域、成渝地区、海西地区、武汉地区、东北地区。高等级城市在整个城市网络中处于绝对支配地位,北京以突出的优势成为全国性的网络联系中心,而上海、广州、深圳则成为全国性的网络联系副中心。
China's city network characteristics based on social network space: An empirical analysis of Sina micro-blog [J].https://doi.org/10.1007/s11783-011-0280-z [本文引用: 1] 摘要
信息技术影响下的城市区域空间结构变化得到了国内外学者的关注。本文以新浪微博为例,从网络社会空间的角度入手,对中国城市网络发展特征进行了研究。研究表明:微博社会空间视角下的中国城市网络存在着明显的等级关系与层级区分,城市的网络连接度与城市等级表现出了相对一致性。根据城市网络层级与网络联系强度,东部、中部、西部3大区域板块的网络联系差异明显,东部地区内部的联系,以及东部与中部地区和西部地区的联系几乎构成当前网络体系中的全部。城市网络呈现出分层集聚现象,具体表现为"三大四小"发展格局,即京津冀区域、珠三角区域、长三角区域、成渝地区、海西地区、武汉地区、东北地区。高等级城市在整个城市网络中处于绝对支配地位,北京以突出的优势成为全国性的网络联系中心,而上海、广州、深圳则成为全国性的网络联系副中心。
|
[12] |
基于微博数据的中原城市群空间联系强度测度 [J].https://doi.org/10.7523/j.issn.2095-6134.2016.06.009 URL [本文引用: 1] 摘要
空间联系强度是城市群发展阶段、态势、功能定位的重要表征.在大数据背景下,随着移动终端的普及和网络联系平台的广泛使用,人流在不同地区的空间移动能够得到较准确的统计和表达.在总结以往城市群空间联系研究方法的基础上,提出一种新的基于微博数据判别城市之间空间联系强度的方法,弥补了由于缺乏城际通勤数据而导致的传统空间联系强度判别方法的不足.新方法可以较准确地判别城市群地区各个城市的空间联系强度与组织类型.
Identification of spatial connection intensity of Zhongyuan urban agglomeration based on microblogging [J].https://doi.org/10.7523/j.issn.2095-6134.2016.06.009 URL [本文引用: 1] 摘要
空间联系强度是城市群发展阶段、态势、功能定位的重要表征.在大数据背景下,随着移动终端的普及和网络联系平台的广泛使用,人流在不同地区的空间移动能够得到较准确的统计和表达.在总结以往城市群空间联系研究方法的基础上,提出一种新的基于微博数据判别城市之间空间联系强度的方法,弥补了由于缺乏城际通勤数据而导致的传统空间联系强度判别方法的不足.新方法可以较准确地判别城市群地区各个城市的空间联系强度与组织类型.
|
[13] |
基于新浪微博视角的重庆市主城区城市网络空间分布规律研究[D] .Urban cyberspace spatial distribution research about main city of Chongqing based on Sina microblog perspective [D]. |
[14] |
基于微博语义分析的重庆主城区风貌感知评价 [J].https://doi.org/10.18306/dlkxjz.2017.09.002 [本文引用: 1] 摘要
采用社交网络数据对城市进行感知与评价是一种新的城市感知定量研究方法。本文将新浪微博签到数据作为城市感知的数据来源,通过文本挖掘和语义分析方法,探索用户对重庆主城区城市风貌的感知与评价。针对重庆主城区特色风貌片区,研究形成了签到地图、情绪地图和对象地图。签到地图客观反映重庆主城区新浪微博用户活跃程度的空间分布特征;情绪地图挖掘活跃用户对空间的情绪表达和正负面态度;对象地图解析出现这种签到热力分布和情绪分布的原因,发现引发正负面态度的情绪对象。通过分析用户对规划师所设定的风貌要素载体的典型意见,将要素载体归纳为有感知积极、有感知消极、无感知和有感知未设定4类。今后应进一步从要素识别和价值判断两个方面为规划师塑造和管控城市风貌提供参考意见。
Perception and evaluation of cityscape characteristics using semantic analysis on microblog in the main urban area of Chongqing Municipality [J].https://doi.org/10.18306/dlkxjz.2017.09.002 [本文引用: 1] 摘要
采用社交网络数据对城市进行感知与评价是一种新的城市感知定量研究方法。本文将新浪微博签到数据作为城市感知的数据来源,通过文本挖掘和语义分析方法,探索用户对重庆主城区城市风貌的感知与评价。针对重庆主城区特色风貌片区,研究形成了签到地图、情绪地图和对象地图。签到地图客观反映重庆主城区新浪微博用户活跃程度的空间分布特征;情绪地图挖掘活跃用户对空间的情绪表达和正负面态度;对象地图解析出现这种签到热力分布和情绪分布的原因,发现引发正负面态度的情绪对象。通过分析用户对规划师所设定的风貌要素载体的典型意见,将要素载体归纳为有感知积极、有感知消极、无感知和有感知未设定4类。今后应进一步从要素识别和价值判断两个方面为规划师塑造和管控城市风貌提供参考意见。
|
[15] |
Temporal patterns of happiness and information in a global social network: Hedonometrics and Twitter .https://doi.org/10.1371/journal.pone.0026752 URL PMID: 22163266 [本文引用: 1] 摘要
Individual happiness is a fundamental societal metric. Normally measured through self-report, happiness has often been indirectly characterized and overshadowed by more readily quantifiable economic indicators such as gross domestic product. Here, we examine expressions made on the online, global microblog and social networking service Twitter, uncovering and explaining temporal variations in happiness and information levels over timescales ranging from hours to years. Our data set comprises over 46 billion words contained in nearly 4.6 billion expressions posted over a 33 month span by over 63 million unique users. In measuring happiness, we construct a tunable, real-time, remote-sensing, and non-invasive, text-based hedonometer. In building our metric, made available with this paper, we conducted a survey to obtain happiness evaluations of over 10,000 individual words, representing a tenfold size improvement over similar existing word sets. Rather than being ad hoc, our word list is chosen solely by frequency of usage, and we show how a highly robust and tunable metric can be constructed and defended.
|
[16] |
面向新浪微博文本的情感度判断及其探索性空间分析 [J].
提出了一种基于决策树的微博情感度判断方法,并对微博情感做了探索性空间分析,给中文微博平台的海量文本规律研究提供了一个新的视角。以新浪微博数据作为基础,先利用ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)文本分词系统分词、HowNet知网知识库来进行词语相似度计算,再利用ID3(iterative dichotomiser 3)算法训练决策树作为分类器进行微博文本的情感度判断,最后对情感度判断结果进行探索性空间分析。结果表明,基于决策树的微博情感度判断方法的准确度为71.5%,微博用户情绪在空间上存在正的全局空间自相关特性,对局域自相关的分析也揭示了其时空聚集规律。
Sentimental judgment and exploratory spatial data analysis based on Weibo [J].
提出了一种基于决策树的微博情感度判断方法,并对微博情感做了探索性空间分析,给中文微博平台的海量文本规律研究提供了一个新的视角。以新浪微博数据作为基础,先利用ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)文本分词系统分词、HowNet知网知识库来进行词语相似度计算,再利用ID3(iterative dichotomiser 3)算法训练决策树作为分类器进行微博文本的情感度判断,最后对情感度判断结果进行探索性空间分析。结果表明,基于决策树的微博情感度判断方法的准确度为71.5%,微博用户情绪在空间上存在正的全局空间自相关特性,对局域自相关的分析也揭示了其时空聚集规律。
|
[17] |
Diurnal and seasonal mood vary with work, sleep, and daylength across diverse cultures .https://doi.org/10.1126/science.1202775 URL PMID: 21960633 [本文引用: 1] 摘要
We identified individual-level diurnal and seasonal mood rhythms in cultures across the globe, using data from millions of public Twitter messages. We found that individuals awaken in a good mood that deteriorates as the day progresses—which is consistent with the effects of sleep and circadian rhythm—and that seasonal change in baseline positive affect varies with change in daylength. People are happier on weekends, but the morning peak in positive affect is delayed by 2 hours, which suggests that people awaken later on weekends.
|
[18] |
基于微博用户的情绪变化分析 [J].https://doi.org/10.7523/j.issn.2095-6134.2016.06.014 URL [本文引用: 1] 摘要
通过网络大数据的方法宏观地分析微博用户在不同季节和时间的情绪变化.以195万微博活跃用户为样本,在每个季节下载一周的微博活跃用户数据,利用“中文心理分析系统”计算每个季节积极情绪和消极情绪词的词频.结果显示:1)人们的综合情绪的2个高峰分别在中午和晚8点;2)虽然人们在周末的积极情绪与工作日无异,但消极情绪在周末明显低于工作日;3)人们在夏季的积极情绪和消极情绪最高,在秋季的积极情绪和消极情绪最低;4)两种性别的情绪走势一致,但女性较男性有更多情绪表达、更情绪化,更易感.
Chinese mood variation analysis based on Sina Weibo [J].https://doi.org/10.7523/j.issn.2095-6134.2016.06.014 URL [本文引用: 1] 摘要
通过网络大数据的方法宏观地分析微博用户在不同季节和时间的情绪变化.以195万微博活跃用户为样本,在每个季节下载一周的微博活跃用户数据,利用“中文心理分析系统”计算每个季节积极情绪和消极情绪词的词频.结果显示:1)人们的综合情绪的2个高峰分别在中午和晚8点;2)虽然人们在周末的积极情绪与工作日无异,但消极情绪在周末明显低于工作日;3)人们在夏季的积极情绪和消极情绪最高,在秋季的积极情绪和消极情绪最低;4)两种性别的情绪走势一致,但女性较男性有更多情绪表达、更情绪化,更易感.
|
[19] |
基于LDA主题建模的微博舆情分析系统研究 [J].https://doi.org/10.3969/j.issn.1009-6833.2014.04.002 [本文引用: 1] 摘要
微博是近年出现的新型社交媒体形式,具有内容碎片化、传播方式快捷迅速、交互性强等自身特点。传统的向量空间模型难以准确度量文本间的相似度,本文使用LDA主题模型可以有效解决数据稀疏性问题,并通过聚类算法最终发现热点话题。
System design of micro-blog public opinion based on LDA topic modeling method [J].https://doi.org/10.3969/j.issn.1009-6833.2014.04.002 [本文引用: 1] 摘要
微博是近年出现的新型社交媒体形式,具有内容碎片化、传播方式快捷迅速、交互性强等自身特点。传统的向量空间模型难以准确度量文本间的相似度,本文使用LDA主题模型可以有效解决数据稀疏性问题,并通过聚类算法最终发现热点话题。
|
[20] |
基于k-means聚类和TF-IDF的新浪微博舆情分析[D] .Analysis of Sina microblog public opinion based on K-means clustering and TF-IDF[D] . |
[21] |
基于微博数据的北京市热点区域意象感知 [J].https://doi.org/10.18306/dlkxjz.2017.09.006 URL [本文引用: 3] 摘要
"城市意象"研究对城市文化感知、城市管理与规划、旅游资源开发等具有重要意义。近年来,随着智能移动终端和社交媒体的普及,产生了大量城市内包含有文本和地理位置等信息的社交媒体数据,涉及城市的各个区域,为开展城市意象的综合感知研究提供了新的途径。本文以2016年北京市带位置签到的新浪微博数据为例,在空间聚类发现热点区域的基础上,采用词频—逆文件频率(TF-IDF)与文档主题生成模型LDA两类典型的文本分析的方法,挖掘城市不同热点区域的主题,以感知北京市不同热点区域的社会文化功能和人群行为,并在此基础上通过对热点区域高频主题词进行共词聚类分析,深度挖掘北京市的总体意象。研究表明,运用文本挖掘及地理大数据分析的城市意象研究方法,能及时感知人群在城市不同场所的活动、态度、偏好,从而揭示城市的社会文化及功能特征,是对刻画城市物质形态的城市意象五要素模型的重要补充。此外,以北京市热点区域为例的实证研究结果对现实中的城市特色传承与空间品质塑造等有一定的启发意义。
Image perception of Beijing's regional hotspots based on microblog data [J].https://doi.org/10.18306/dlkxjz.2017.09.006 URL [本文引用: 3] 摘要
"城市意象"研究对城市文化感知、城市管理与规划、旅游资源开发等具有重要意义。近年来,随着智能移动终端和社交媒体的普及,产生了大量城市内包含有文本和地理位置等信息的社交媒体数据,涉及城市的各个区域,为开展城市意象的综合感知研究提供了新的途径。本文以2016年北京市带位置签到的新浪微博数据为例,在空间聚类发现热点区域的基础上,采用词频—逆文件频率(TF-IDF)与文档主题生成模型LDA两类典型的文本分析的方法,挖掘城市不同热点区域的主题,以感知北京市不同热点区域的社会文化功能和人群行为,并在此基础上通过对热点区域高频主题词进行共词聚类分析,深度挖掘北京市的总体意象。研究表明,运用文本挖掘及地理大数据分析的城市意象研究方法,能及时感知人群在城市不同场所的活动、态度、偏好,从而揭示城市的社会文化及功能特征,是对刻画城市物质形态的城市意象五要素模型的重要补充。此外,以北京市热点区域为例的实证研究结果对现实中的城市特色传承与空间品质塑造等有一定的启发意义。
|
[22] |
游客微博主题情感分析方法比较研究 [J].https://doi.org/10.13209/j.0479-8023.2018.011 URL [本文引用: 1] 摘要
针对饮食、娱乐、购物、景观、交通和住宿6个旅游主题,基于机器学习方法,开展游客微博主题情感分析方法比较研究。以人工标注的53140条赴日游客微博为数据基础,应用两种机器学习模型开展建模实验,并分析不同特征对建模效果的影响。实验结果显示,两种模型的建模效果良好,适用于游客微博主题情感分析,其中最大熵模型效果略优于支持向量机。研究还表明,在词特征的基础上引入表情符号和主题词进行特征扩展,可以提高模型的建模效果。
A comparative study of tourists' Weibo theme emotional analysis methods [J].https://doi.org/10.13209/j.0479-8023.2018.011 URL [本文引用: 1] 摘要
针对饮食、娱乐、购物、景观、交通和住宿6个旅游主题,基于机器学习方法,开展游客微博主题情感分析方法比较研究。以人工标注的53140条赴日游客微博为数据基础,应用两种机器学习模型开展建模实验,并分析不同特征对建模效果的影响。实验结果显示,两种模型的建模效果良好,适用于游客微博主题情感分析,其中最大熵模型效果略优于支持向量机。研究还表明,在词特征的基础上引入表情符号和主题词进行特征扩展,可以提高模型的建模效果。
|
[23] |
利用社交媒体的位置潜语义特征提取与分析 [J].https://doi.org/10.3724/SP.J.1047.2017.01405 URL [本文引用: 1] 摘要
社交媒体及时、大量、广泛地记录了城市中居民的观点和情感,尤其是具有位置标记的签到文本,将人们所处的空间和城市设施与其相应的认知态度结合起来,成为以人为核心主导的对空间位置特征的直接表达,是场所语义信息的集中体现。以微博签到数据为研究对象,引入自然语言处理领域的潜语义分析的方法,结合空间分析中因子分析、空间自相关分析和聚类分析的手段,提取并分析其中隐含的位置语义特征。本研究主要侧重于对位置之间语义相关程度的度量,首先提取研究区域隐含的概念主题结构,分析不同主题在空间上的分布特征。然后对特定地块进行潜语义空间上的相似性索引,在此基础上,采用先验的百度百科词条描述对位置间语义相似性进行扩展,通过空间自相关的分析,得到不同功能类型的热点区域。最后利用各地区在潜语义空间上的特征关系,进行聚类分析,得到研究区域在语义空间上的聚簇,并通过POI的密度分布验证聚类结果的合理性。本研究能有效地挖掘社交媒体上对于空间位置的集体印象,将语义空间与地理空间联系起来,对于场所感知和城市规划具有积极意义。
Extracting and analyzing latent semantic characteristics of locations using social media data .https://doi.org/10.3724/SP.J.1047.2017.01405 URL [本文引用: 1] 摘要
社交媒体及时、大量、广泛地记录了城市中居民的观点和情感,尤其是具有位置标记的签到文本,将人们所处的空间和城市设施与其相应的认知态度结合起来,成为以人为核心主导的对空间位置特征的直接表达,是场所语义信息的集中体现。以微博签到数据为研究对象,引入自然语言处理领域的潜语义分析的方法,结合空间分析中因子分析、空间自相关分析和聚类分析的手段,提取并分析其中隐含的位置语义特征。本研究主要侧重于对位置之间语义相关程度的度量,首先提取研究区域隐含的概念主题结构,分析不同主题在空间上的分布特征。然后对特定地块进行潜语义空间上的相似性索引,在此基础上,采用先验的百度百科词条描述对位置间语义相似性进行扩展,通过空间自相关的分析,得到不同功能类型的热点区域。最后利用各地区在潜语义空间上的特征关系,进行聚类分析,得到研究区域在语义空间上的聚簇,并通过POI的密度分布验证聚类结果的合理性。本研究能有效地挖掘社交媒体上对于空间位置的集体印象,将语义空间与地理空间联系起来,对于场所感知和城市规划具有积极意义。
|
[24] |
传统节日的时间节点性与坐标性重建——基于社会时间视角的考察 [J].https://doi.org/10.3969/j.issn.1674-0890.2016.01.004 URL [本文引用: 1] 摘要
作为一种人为创造的社会性时间,在以农为本的社会状态下,中国传统节日是民众年度时间生活的重要节点与时间坐标,并进而通过崇宗敬祖与神灵崇拜等精神内涵而被建构为一种非日常的神圣性时间。但今天,随着中国日渐由农业社会转变为工业社会,传统节日的这种节点与坐标功能逐渐消逝,传统节日内涵与神圣性也日渐失去。因此,要想传统节日在今天能更好地传承与发展,一个重要途径就是重建节日在现代民众时间生活中的节点与坐标作用,如实行国家法定节假日制度、实行地区性的弹性节假日制度等。同时,还应重塑传统节日的深厚文化内涵,以重建这一时间制度的神圣性。
The time node and coordinate reconstruction of traditional festivals: Based on social time perspective [J].https://doi.org/10.3969/j.issn.1674-0890.2016.01.004 URL [本文引用: 1] 摘要
作为一种人为创造的社会性时间,在以农为本的社会状态下,中国传统节日是民众年度时间生活的重要节点与时间坐标,并进而通过崇宗敬祖与神灵崇拜等精神内涵而被建构为一种非日常的神圣性时间。但今天,随着中国日渐由农业社会转变为工业社会,传统节日的这种节点与坐标功能逐渐消逝,传统节日内涵与神圣性也日渐失去。因此,要想传统节日在今天能更好地传承与发展,一个重要途径就是重建节日在现代民众时间生活中的节点与坐标作用,如实行国家法定节假日制度、实行地区性的弹性节假日制度等。同时,还应重塑传统节日的深厚文化内涵,以重建这一时间制度的神圣性。
|
[25] |
我国民族传统节日体育文化的地理分布特征及其影响因素 [J].https://doi.org/10.3969/j.issn.1000-5498.2007.01.009 URL [本文引用: 1] 摘要
运用文化区理论,结合我国民族传统节日体育文化特征地域差异的客观规律,将我国民族传统节日体育文化区分为东北、华北、华南、西南、西北和青藏6个区。指出我国民族传统节日体育文化的地理分布特征:不同项目分布范围具有差异;具有鲜明民族特色的民族传统节日体育项目与该民族地域分布大致相同;同一项目在不同区域各具特色,同一项目在同一区域内也有差异。阐释影响我国民族传统节日体育文化地理分布的因素:自然因素、社会因素、经济因素和文化因素等。
Geographical distribution features of China's national traditional festival's sports culture and its influential factors [J].https://doi.org/10.3969/j.issn.1000-5498.2007.01.009 URL [本文引用: 1] 摘要
运用文化区理论,结合我国民族传统节日体育文化特征地域差异的客观规律,将我国民族传统节日体育文化区分为东北、华北、华南、西南、西北和青藏6个区。指出我国民族传统节日体育文化的地理分布特征:不同项目分布范围具有差异;具有鲜明民族特色的民族传统节日体育项目与该民族地域分布大致相同;同一项目在不同区域各具特色,同一项目在同一区域内也有差异。阐释影响我国民族传统节日体育文化地理分布的因素:自然因素、社会因素、经济因素和文化因素等。
|
[26] |
当前语境下传统节日的困境与出路——兼及建构新兴节庆活动的一点思考 [J].
节日通过其“非常性”与常日区别开来,并获得存在的意义和价值。我国传统节日的“非常性”主要体现在名称的特殊性、所在年度周期时间线上所处位置的特殊性、活动的特殊性、活动空间的特殊性以及民俗主体节日体验、情感的特殊性等五个方面。“非常性”缺失是传统节日当前普遍面,临的困境,有必要从重建“非常性”的角度来思考复兴的路径。当下语境中,重建“非常性”应该格外关注以下几点:(1)重建人们对于“节日”性质的正确认识;(2)重建的重点和关键在于节俗活动;(3)充分利用传统节日历史上形成的习俗活动,作为重建的重要资源;(4)在重建过程中,政府应起十分重要的作用,但并非代替民众过节,而是引导和服务。20世纪80年代以来出现的新兴节庆活动基本上具备了节日性质,但与历史悠久的传统节日相比又具有鲜明的特质,当前可以将复兴传统节日的工作与建构新兴节庆活动结合起来加以考虑。
The predicament and outlet of traditional festivals in the current context: Some thoughts on the construction of new festivals [J].
节日通过其“非常性”与常日区别开来,并获得存在的意义和价值。我国传统节日的“非常性”主要体现在名称的特殊性、所在年度周期时间线上所处位置的特殊性、活动的特殊性、活动空间的特殊性以及民俗主体节日体验、情感的特殊性等五个方面。“非常性”缺失是传统节日当前普遍面,临的困境,有必要从重建“非常性”的角度来思考复兴的路径。当下语境中,重建“非常性”应该格外关注以下几点:(1)重建人们对于“节日”性质的正确认识;(2)重建的重点和关键在于节俗活动;(3)充分利用传统节日历史上形成的习俗活动,作为重建的重要资源;(4)在重建过程中,政府应起十分重要的作用,但并非代替民众过节,而是引导和服务。20世纪80年代以来出现的新兴节庆活动基本上具备了节日性质,但与历史悠久的传统节日相比又具有鲜明的特质,当前可以将复兴传统节日的工作与建构新兴节庆活动结合起来加以考虑。
|
[27] |
传统节日的文化价值与功能探究 [J].
中国传统节日是中华传统文化的标志性文化现象,蕴含着中华民族深层文化内涵与价值元素。传统节日所具有的文化特性与社会功能对于推动社会主义核心价值观的普及和认同、培育和践行具有重要的现实意义。但在现代社会转型与全球化的背景下,传统节日面临着观念的淡薄化、活动形式的单调化、文化寓意的庸俗化和西方节日的冲击与挑战。要以社会主义核心价值观为引领,在保持固有民族特色与文化自信的基础上推动传统节日的现代转型;要以现代公共文化服务体系为依托,增强传统节日的群众参与性与文化形式的丰富性;要以政府为主导,推动传统节日运作模式的革新与节日文化品牌的打造。
Cultural value and function of traditional festivals [J].
中国传统节日是中华传统文化的标志性文化现象,蕴含着中华民族深层文化内涵与价值元素。传统节日所具有的文化特性与社会功能对于推动社会主义核心价值观的普及和认同、培育和践行具有重要的现实意义。但在现代社会转型与全球化的背景下,传统节日面临着观念的淡薄化、活动形式的单调化、文化寓意的庸俗化和西方节日的冲击与挑战。要以社会主义核心价值观为引领,在保持固有民族特色与文化自信的基础上推动传统节日的现代转型;要以现代公共文化服务体系为依托,增强传统节日的群众参与性与文化形式的丰富性;要以政府为主导,推动传统节日运作模式的革新与节日文化品牌的打造。
|
[28] |
传统节日复兴问题文献综述——兼谈对新兴节庆活动的关注 [J].https://doi.org/10.3969/j.issn.1671-931X.2015.03.026 URL [本文引用: 1] 摘要
传统节日在当代社会的发展一直备受关注,传统节日复兴的提倡也已不是鲜事。将传统节日与现代社会结合发展出节日新形式的实践也在中国各地出现。通过梳理有关传统节日复兴的文献,探索中国学者所做的努力。是为指出:当代中国社会出现很多以传统节日为依托的节日新现象,这些新现象也应该受关注,并且可以从中吸取经验与教训。
A literature review on the revival of traditional festivals [J].https://doi.org/10.3969/j.issn.1671-931X.2015.03.026 URL [本文引用: 1] 摘要
传统节日在当代社会的发展一直备受关注,传统节日复兴的提倡也已不是鲜事。将传统节日与现代社会结合发展出节日新形式的实践也在中国各地出现。通过梳理有关传统节日复兴的文献,探索中国学者所做的努力。是为指出:当代中国社会出现很多以传统节日为依托的节日新现象,这些新现象也应该受关注,并且可以从中吸取经验与教训。
|
[29] |
数据堂 [EB/OL]. . |
[30] |
基于MB-LDA模型的微博主题挖掘 [J].
随着微博的日趋流行,Twitter等微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博本身内容的挖掘进行转变.在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建模.提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题.此外,模型还能推广到许多带有社交网络性质的文本中.在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘.
Topic mining for microblog based on MB-LDA model [J].
随着微博的日趋流行,Twitter等微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博本身内容的挖掘进行转变.在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建模.提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题.此外,模型还能推广到许多带有社交网络性质的文本中.在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘.
|
[31] |
面向主题的微博意见领袖挖掘研究 [J].
【目的/意义】在微博中,意见领袖对于消息的传播以及舆情走向起着关键的作用。然而,现有的意见领袖研究大多忽略了意见领袖在特定话题下的意见代表性。【方法/过程】提出了面向主题的微博意见领袖研究的方法,该方法旨在利用LDA主题模型挖掘出特定话题中的各个主题,根据主题划分结果对参与话题讨论的用户进行分类,并结合用户自身属性,借鉴Page Rank算法思想挖掘出该主题演化中的意见领袖。【结果/结论】实验证明,本文方法更能体现特定话题的舆情走向,其针对主题挖掘的意见领袖也更具代表性。
Research on the theme-oriented mining of microblog opinion leaders [J].
【目的/意义】在微博中,意见领袖对于消息的传播以及舆情走向起着关键的作用。然而,现有的意见领袖研究大多忽略了意见领袖在特定话题下的意见代表性。【方法/过程】提出了面向主题的微博意见领袖研究的方法,该方法旨在利用LDA主题模型挖掘出特定话题中的各个主题,根据主题划分结果对参与话题讨论的用户进行分类,并结合用户自身属性,借鉴Page Rank算法思想挖掘出该主题演化中的意见领袖。【结果/结论】实验证明,本文方法更能体现特定话题的舆情走向,其针对主题挖掘的意见领袖也更具代表性。
|
[32] |
不同语料下基于LDA主题模型的科学文献主题抽取效果分析 [J].https://doi.org/10.13266/j.issn.0252-3116.2016.02.018 URL [本文引用: 1] 摘要
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。
Effect analysis of scientific literature topic extraction based on LDA topic model with different corpus [J].https://doi.org/10.13266/j.issn.0252-3116.2016.02.018 URL [本文引用: 1] 摘要
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。
|
[33] |
词频分析法中高频词阈值界定方法适用性的实证分析 [J].https://doi.org/10.3772/j.issn.1673-2286.2017.09.007 URL [本文引用: 1] 摘要
词频分析法是文献计量学的重要分析方法之一,而确定高频词阈值是进行词频分析的必要前提,高频词阈值的选取不仅决定词频分析法的分析结果,而且对整个分析研究都有着极其重要的影响。本文首先以近三年国内运用词频分析法展开研究的文献为调研基础,发现目前学界常用的高频词阈值选取方法主要有自定义选取法、高低频词界定公式选取法、普赖斯公式选取法及混合选取法四类;其次,以个人知识管理领域的文献为研究对象,对前三类高频词阈值选取方法分别进行取值计算并做领域热点聚类分析,对比验证聚类结果,同时以此结果为基础讨论高频词阈值选择对分析结果的影响及其合理性;最后,指出我国学界在高频词阈值选取方面存在主观性强、方法原理不明、改进方法适用性不明,高低频词界定公式和普赖斯公式适用性尚待研究等问题。
An empirical analysis for the applicability of the methods of definition of high-frequency words in word frequency analysis [J].https://doi.org/10.3772/j.issn.1673-2286.2017.09.007 URL [本文引用: 1] 摘要
词频分析法是文献计量学的重要分析方法之一,而确定高频词阈值是进行词频分析的必要前提,高频词阈值的选取不仅决定词频分析法的分析结果,而且对整个分析研究都有着极其重要的影响。本文首先以近三年国内运用词频分析法展开研究的文献为调研基础,发现目前学界常用的高频词阈值选取方法主要有自定义选取法、高低频词界定公式选取法、普赖斯公式选取法及混合选取法四类;其次,以个人知识管理领域的文献为研究对象,对前三类高频词阈值选取方法分别进行取值计算并做领域热点聚类分析,对比验证聚类结果,同时以此结果为基础讨论高频词阈值选择对分析结果的影响及其合理性;最后,指出我国学界在高频词阈值选取方面存在主观性强、方法原理不明、改进方法适用性不明,高低频词界定公式和普赖斯公式适用性尚待研究等问题。
|
[34] |
1999-2008年我国图书馆学研究的实证分析(上) [J].[本文引用: 1] 摘要
为深入揭示我国图书馆学研究的 阶段性发展变化,为我国图书馆学领域论文选题、科研立项和学科规划提供决策和参考信息,本研究采用关键词词频分析和共词分析方法,以中国知网论文数据库为 数据源,选取《中国图书馆学报》等七种代表性学术期刊,对1999-2008年刊载文献进行分析,统计出反映最近十年内图书馆学研究热点的高频关键词68 个,概括出当前我国图书馆学领域存在九大研究结构。这些研究结构与社会大背景密切结合,呈现出管理、技术、人文和相互融合等四个研究维度以及面向应用、立 足服务、深化发展的特征。图2。表5。参考文献19。
An empirical analysis of the library science research in China during 1999-2008 [J].[本文引用: 1] 摘要
为深入揭示我国图书馆学研究的 阶段性发展变化,为我国图书馆学领域论文选题、科研立项和学科规划提供决策和参考信息,本研究采用关键词词频分析和共词分析方法,以中国知网论文数据库为 数据源,选取《中国图书馆学报》等七种代表性学术期刊,对1999-2008年刊载文献进行分析,统计出反映最近十年内图书馆学研究热点的高频关键词68 个,概括出当前我国图书馆学领域存在九大研究结构。这些研究结构与社会大背景密切结合,呈现出管理、技术、人文和相互融合等四个研究维度以及面向应用、立 足服务、深化发展的特征。图2。表5。参考文献19。
|
/
〈 |
|
〉 |