Research on the Relationship between Floating Population's Sentiments and Distribution of Working and Living in Beijing based on Microblog Data

  • ZHAO Tong , 1, 4 ,
  • LI Zefeng 3, 5 ,
  • SONG Liuyi 1, 4 ,
  • XIONG Meicheng 2, 4 ,
  • LIAO Yilan 1 ,
  • PEI Tao , 1, 4, *
Expand
  • 1. State Key Laboratory of Resources & Environmental Information System, Institute of Geographic Sciences & Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 2. Key Laboratory of Region Sustainable Development Modeling, Chinese Academy of Sciences, Beijing 100101, China
  • 3. Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094, China
  • 4. College of Resources and Environment, University of Chinese Academy of Sciences, Beijing 100049, China
  • 5. School of Electronic, Electrical and Communication Engineering, University of Chinese Academy of Sciences, Beijing 100049, China
*PEI Tao, E-mail:

Received date: 2021-12-30

  Revised date: 2022-02-24

  Online published: 2022-12-25

Supported by

National Natural Science Foundation of China(42071436)

Abstract

The floating population is an essential part of the urban population, and their working and living status are of great significance to urban stability. The working and living status of the floating population can be directly reflected in their sentiments. On the contrary, their working and living status can also be detected from their sentiments. Firstly, we used jieba word separation technology and manual screening to obtain the microblog texts published by the Beijing floating population based on the microblog big data in 2017. Secondly, we identified the sentimental tendency of microblog texts for the whole population and the floating population in Beijing by transfer learning the natural language processing pre-training model (Roberta-wwm-ext-large). Then, we obtained the working and living distribution of the floating population with POI data and the published time of microblog texts. Finally, we got the floating population's working and living sentiments through their microblog sentiments and working and living distribution, mined the spatial aggregation pattern of their working and living sentiments with spatial analysis methods such as Getis-Ord Gi*, and analyzed the factors that may affect the hot spots' distribution of working and living sentiments of the floating population in Beijing with geodetector. The experiment shows that the average sentiment of the floating population in Beijing (0.56) is lower than that of the whole Beijing population (0.57) at 99.9% confidence level. Overall, the sentiments of the floating population are positive. As for the spatial distribution, the sentiments of the floating population in the core areas such as Dongcheng district and Xicheng district are balanced. The sentiments in the northwest technology and innovation district are more negative relative to the average sentiment of the floating population, while the sentiments in the southeast central business district, cultural exchange district, and the international community are more positive. In terms of the relationship between the floating population's sentiments and distribution of working and living, the working sentiments of the floating population are related to the type of work they are engaged in (q=0.03, P<0.05). In detail, the floating population working in high-tech industrial parks, industrial parks, and logistics industrial parks are more negative relative to the average working sentiment of the floating population, while those working in the health industrial parks, cultural and creative industrial parks, and agricultural parks are more positive. Besides, the living sentiments of the floating population are related to the living environment (q=0.06, P<0.1). The floating population living in the distance suburban residential area are more negative relative to the average living sentiment of the floating population, while those living in the near suburban high-density residential area are more positive. In general, the average living sentiment of the population (0.55) is significantly lower than the average working sentiment (0.58). Therefore, focusing on the floating population engaged in high-tech industry, industry, and logistics industry as well as improving the living satisfaction of the floating population living in the distance suburban residential area is vital for constructing a city with a stable work-life and livable environment.

Cite this article

ZHAO Tong , LI Zefeng , SONG Liuyi , XIONG Meicheng , LIAO Yilan , PEI Tao . Research on the Relationship between Floating Population's Sentiments and Distribution of Working and Living in Beijing based on Microblog Data[J]. Journal of Geo-information Science, 2022 , 24(10) : 1898 -1910 . DOI: 10.12082/dqxxkx.2022.210838

1 引言

流动人口通常指长居地改变而户口登记地尚未改变的群体,他们不具备市民身份,无法享受同本地居民一样的生活待遇[1-2]。流动人口为城市发展引入了大量的劳动力和人才,刺激了城市经济发展与科技创新,同时各地文化的进入也促进了社会的文化多元性。流动人口工作稳定与生活幸福能够有效地保证社会秩序的稳定,促进社会经济、科技、文化的繁荣发展。流动人口工作和生活是否稳定幸福直接体现在他们的情绪状态上,反过来,从他们的情绪状态也可以探知其工作与生活的状态[3-5]。明确流动人口的工作与生活情绪有助于政府部门根据流动人口特点进行制度改革创新,构建流动人口就业、生活的制度保障体系[6]。因此,研究流动人口的工作与生活情绪对于建立工作生活稳定、环境宜居的幸福城市具有重要意义。
以往针对流动人口情绪的研究多从传统社会学视角出发,采用问卷和访谈等方法展开,着重探讨流动人口的健康状况、心理感受、收入水平[7-11]。然而此类研究数据粒度较粗,仅能反映流动人口在长期时间内的综合情绪状态,难以对流动人口的活动进行精细化测度,无法捕捉流动人口在不同时空场景下微观情绪变化。而移动互联网的普及使得越来越多的人在微博、微信、贴吧等社交媒体上表达自己的态度和情绪[12],由此涌现了大量的文本数据,为情绪的时空场景研究提供了数据基础。伴随着文本大数据的兴起,文本情绪倾向分析方法应运而生并得到广泛应用,基于机器学习的自然语言处理方法近年来在情绪分类任务上表现十分优异[13],Google构建的BERT模型与哈工大讯飞联合实验室发布的Roberta-wwm-ext-large模型[14]在分别在英文与中文的情绪分类任务上取得了最佳水平。自然语言处理技术的日益成熟为情绪的时空场景研究提供了方法支撑。基于社交媒体大数据利用自然语言处理技术分析流动人口等特定社会属性群体的微观情绪变化,探知他们的特点与需求,对于政府部门制定精准合理的社会保障政策具有参考意义。然而目前基于社交媒体数据的情绪分析通常针对某类特定社会事件展开[15-16],研究对象往往为社交媒体的全体用户,未能对特定社会属性群体的情绪状况予以足够关注。
本研究基于北京市微博文本大数据,以北京市流动人口这一特定社会属性群体为研究对象。之所以选取北京为例是因为,“北漂”群体人口基数大、组成多元,是中国流动人口中最具代表性的人群[17]。为此,研究拟采用自然语言处理技术提取北京市流动人口发布的微博文本并判断该群体发布文本时的情绪,结合POI数据与微博文本发布时间识别流动人口的职住分布,并利用Getis-Ord Gi*的空间分析手段挖掘流动人口情绪的空间聚集模式,采用地理探测器分析可能影响北京市流动人口工作情绪及居住情绪热点分布的因素,为政府部门制定提升流动人口工作生活满意度的相关政策提供理论支持。

2 研究数据与预处理

2.1 微博文本数据

微博文本数据通常指微博用户发布的文字信息,作为人类社会中社会关系维系和信息传播的重要渠道和载体,多被用于舆情演变、情绪感知等领域的研究[18-19]。本研究通过网络爬虫技术获取了2017年全年的北京市全域的微博文本数据,每条微博数据均包含文本内容、发布时间、经度、纬度、用户ID、手机型号等字段(表1)。原始数据共有1300万余条,其中超过一半微博为无意义的短句、广告等。经过清洗,保留来自126万个不同的微博用户ID的526万条微博文本。
表1 微博文本数据示例

Tab. 1 Sample data of microblog content

内容 发布时间 经度/°E 纬度/°N 用户ID 手机型号
新一年的北漂又开始啦 2017-07-24 12:09:00 116.43 39.85 1048664607 OPPO R9s Plus
北漂十年风雨路,而今迈步从头越 2017-07-09 13:05:00 116.23 39.91 1210865835 iPhone 7 Plus

2.2 Roberta-wwm-ext-large模型训练数据与辅助数据

本研究使用的数据如表2所示,其中simply_4_moods[20]、weibi_senti_100K[21]数据集作为训练数据,NLPCC2014[22]、Chnsenticorp[23]、Online_shopping_10_cats[24]、Waimai _10K[25]数据集作为辅助数据集对Roberta-wwm-ext-large模型进行训练。
表2 训练数据集与辅助数据集说明

Tab. 2 Description of training datasets and secondary datasets

数据集 样本数量/个 说明
simplifyweibo_4_moods 361 744 带情绪标注的新浪微博文本,包含4种情感情绪,其中喜悦约20万条,愤怒、厌恶、低落各约5万条。本研究将喜悦作为积极情绪,愤怒、厌恶、低落合并为消极情绪
weibo_senti_100k 119 988 带情绪标注的新浪微博文本,正负样本各占一半
NLPCC2014 12 500 NLPCC2014比赛数据集,内容为新浪微博文本,正负样本各占一半
ChnSentiCorp 12 000 酒店评论数据,其中正、负类样本约各占一半
Online_shopping_10_cats 627 74 10个类别的购物评论文本,正、负向评论各约3万条
Waimai_10K 11 987 某外卖平台收集的用户评价,正向4000条,负向约8000条

2.3 POI数据

POI(一般作为Point of Interest的缩写,也有Point of Information的说法),通常称作兴趣点,泛指互联网电子地图中的点类数据,多包含名称、地址、坐标、类别4个属性;源于基础测绘成果数字线划地图(Digital Line Graphic,DLG)产品中点类地图要素矢量数据集;在GIS(Geographic Information System)中指可以抽象成点进行管理、分析和计算的对象。本研究中的POI数据爬取自高德地图API[26],获取时间为2018年,空间范围为北京市全域,共633 375条。其中,依据高德地图的POI分类编码[27],各POI被分为餐饮、风景名胜、公共设施、公司企业、购物、交通设施服务、金融保险服务、科教文化服务、商务住宅、生活服务、体育休闲服务、医疗保健服务、政府机构及社会团体、住宿服务14个类别。

2.4 产业园区数据

联合国环境规划署(United Nations Environment Programme,UNEP)认为,产业园区是在一大片的土地上聚集若干个企业的区域。中国的产业园区一般划分为高新技术产业园区、一般工业园区、专业园区3大类。专业园区又可进一步划分为物流园区、农业园区、健康产业园区、旅游产业园区、文化创意产业园区、现代服务产业园区[28]。本研究中的北京市产业园区数据来自于2018年前瞻产业园区库[29],包括园区名称、省份、城市、地区、面积、企业数等信息,共计778个产业园区。本研究基于北京市产业园现状根据中国产业园区划分标 准[28]进一步汇总为高新科技园区、一般工业园区、物流园区、农业园区、健康产业园区、文化创意产业园区(表3)。
表3 产业园区分类汇总

Tab. 3 Classified summary information of industrial parks

原始产业园区类别 二级分类 一级分类
电子、智能、IT软件、智能制造、互联网、新材料、生物科技、国家大学、循环经济、新能源、电子信息、大数据、航空航天、节能、物联网、机器人、航空、新兴产业、通信、高端装备、新能源汽车、激光、人工智能 高新技术产业园 高新技术产业园
食品、化工、材料、光电、汽车、环保、服装、纺织、能源、建材、建筑、家居、机电、家具、包装印刷、陶瓷、汽车零部件、电器、光伏、模具、轻纺、精细化工、工业设计、电气、玻璃 一般工业园 一般工业园
物流园、电子商务、跨境电商、电商物流、冷链物流 物流园 专业园
现代农业、农产品、生态农业 农业园
健康、医药、生物医药、医疗、医疗器械、大健康 健康产业园
文化、文化创意、教育、艺术、广告、时尚、影视、特色小镇、体育、动漫、酒、珠宝、汽车文化、丝绸 文化创意产业园

注:分类标准参考自《中国产业园规划布局与运营管理分析报告》[28]

2.5 居住环境数据

本研究的居住环境数据来源于2015年谌丽,等[30]基于居住空间的实体环境、社会环境、设施环境得到的北京居住环境的分类结果。各居住环境分类特征如表4所示,其中本研究将内城异质性居住区、内城同质性居住区汇总为内城区,远郊职住混合区、远郊低密度可达区汇总为远郊区。
表4 居住环境分类特征

Tab. 4 Classification characteristics of living environment

居住环境 特征
内城异质性居住区 可达性非常高、服务设施丰富、道路连通性强、人口多样性高
内城同质性居住区 可达性很高、人口多样性单一
近郊职住混合区 可达性一般、人口多样性高、容积率高的就业-居住混合区
近郊高密度居住区 可达性一般、容积率高、高学历多样性、年龄结构单一
远郊职住混合区 可达性低、土地利用强度低、服务配置设施不完善、人口结构单一
远郊低可达性居住区 可达性与土地利用强度极低、服务配置设施很不完善、人口受教育程度低

3 研究方法

3.1 研究框架

北京市流动人口在微博等社交媒体上经常被称为“北漂”。本研究首先基于2017年北京市全人群发布的微博文本数据,利用jieba分词提取含有“北漂”关键词的微博文本,并采用人工判定的方式判断微博是否为流动人口发布,对流动人口发布的微博文本进行合并得到3916条流动人口用户ID,并根据用户ID筛选得到64 490条微博文本。其次,利用训练数据集与辅助数据集对自然语言处理Roberta-wwm-ext-large预训练模型进行迁移学习得到微博情绪计算模型,用于识别北京全人群与流动人口的微博文本情绪倾向。然后,利用北京POI数据得到北京市功能区划。由于北京地铁的人流量在每个工作日的7:00—8:00和17:00—18:00达到 2个峰值,而工作日地铁流量可以体现人群的主要通勤时间特征[31],因此筛选发布时间位于工作 日9:00—17:00的微博文本,将微博文本的点位置与城市非居住用地(公共管理与公共服务设施用地、商业服务业设施用地以及工业用地)进行叠加,得到北京市流动人口的工作地;同理筛选发布于19:00—次日6:00的微博文本,将微博文本的点位置与城市居住用地进行叠加,归为北京市流动人口的居住地。最后,将流动人口工作地微博文本的情绪值作为流动人口工作情绪,居住地微博文本的情绪值作为流动人口居住情绪,利用Getis-Ord Gi*等空间分析手段挖掘流动人口整体情绪、工作情绪及居住情绪的空间聚集模式,分析可能影响北京市流动人口工作情绪及居住情绪热点分布的因素,并利用地理探测器进行定量化验证。研究框架如图1所示。
图1 本文的技术路线

Fig. 1 Methodological workflow of this study

3.2 Roberta-wwm-ext-larg模型与迁移学习

在自然语言处理领域中,预训练语言模型(Pre-trained Language Models)是重要的研究范式[32]。Roberta-wwm-ext-large是哈工大讯飞联合实验室发布的中文预训练语言模型,该模型结构基于Google发布的Bert-large结构,利用Whole Word Masking及多种训练技术进行模型预训练。目前Roberta-wwm-ext-large模型在中文自然语言推断、情绪分析多个任务上已经达到了表现最佳(State of The Art,SOTA)水平,并且适合通过微调迁移到其它下游的学习任务中。因此本研究中采用Roberta-wwm-ext-large预训练模型进行迁移学习。
具体的情绪计算方法如下,首先调整模型结构,使用门控循环神经单元(Gate Recurrent Unit, GRU)代替线性(Linear)层作为输出层,然后将训练数据随机切分成训练集、验证集、测试集(比例为8:1:1),并在训练集中增加辅助数据以增强模型泛化能力。使用交叉熵损失函数(Cross Entropy Loss)进行训练约40轮直至模型收敛得到迁移学习后的微博情绪计算模型。使用迁移学习后的微博情绪计算模型对北京市全人群发布的微博文本和北京市流动人口发布的微博文本进行情绪倾向评分,模型将微博文本编码为特征向量,特征向量经过输出层计算得到微博文本正向情绪概率和负向情绪概率,将正向情绪概率(0~1之间)作为情绪得分,得分越高代表对应的微博文本越偏向于积极。
此外,本研究还使用百度开源ERNIE 2.0模型进行对比实验,精度为78%,低于Roberta-wwm-ext-large模型(精度为84.6%),因此最终选用Roberta-wwm-ext-large模型进行迁移学习得到微博情绪计算模型。

3.3 功能区划识别

基于前人经验[33]并结合职住分布研究的实际需求,将POI中的商务住宅划分为居住用地,科教文化服务、体育休闲服务、医疗保健服务、政府机构及社会团体、公共设施划分为公共管理与公共服务设施用地,餐饮、购物、住宿服务、生活服务、金融保险服务划分为商业服务业设施用地,公司企业划分为工业用地,交通设施服务划分为道路与交通设施用地,风景名胜划分为绿地与广场用地。对每一个功能区划单元,分别构建指标频数密度(Frequency Density, FD)和类型比例(Category Retio, CR)来识别功能性质,计算公式为:
F i = n i N i i = 1,2 , , 6
C i = F i i = 1 6 F i i = 1,2 , , 6
式中: i表示POI类型; n i表示单元内第 i种类型POI数量; N i表示第 i种类型POI总数; F i表示第 i种类型POI占该类型POI总数的频数密度; C i表示第 i种类型POI的频数密度占单元内所有类型POI频数密度的比例。
依据上述公式计算出每一单元的频数密度及类型比例,以比例值最大的类型作为单元功能性质,从而得到城市功能区划分布。

3.4 Getis-Ord Gi*

热点分析方法可用于揭示局部区域的空间集聚特征,识别具有统计显著性的高值(热点)和低值(冷点)的空间聚类,其中Getis-Ord Gi*的计算公式如下[34-35]
G i ( d ) = j = 1 n w i j ( d ) x j j = 1 n x j
式中: w i j ( d )为距离 d范围内的权重矩阵, i j; G i ( d )表示点 i的统计量在距离权重 w i j ( d )的条件下与相邻点 j的相关程度。 G i ( d )标准化处理公式为:
Z ( G i ) = G i d - E ( G i ) V A R ( G i )
式中: E ( G i ) V A R ( G i )分别表示 G i的数学期望和理论方差。 Z ( G i )为正值且显著时,表明点 i周围点情绪值高于整个研究区的情绪均值,点 i属于热点; Z ( G i )为负值且显著时,说明点 i周围点情绪值低于整个研究区的情绪均值,点 i属于冷点。以Gi_Bin表示冷点或热点的聚集程度。Gi_Bin为1、2、3分别表示在90%、95%、99%置信水平下聚集的热点,Gi_Bin为-1、-2、-3分别表示在90%、95%、99%置信水平下聚集的冷点,而Gi_Bin为0表示要素不聚集。
为挖掘局部范围内的热点区域,对固定距离进行调整,分别采用1000、5000、100 00 m作为固定距离进行试验, 最后选取10 000 m作为固定距离得出情绪热点分布,并展开后续分析。

3.5 地理探测器

地理探测器是由王劲峰于2010年提出的一种探索空间分异性的方法,已被运用于从自然到社会十分广泛的领域,如风险评估、作物种植以及环境健康、城镇化、人居环境等[36-37]。地理探测器包括四种探测器:风险探测器、因子探测器、生态探测器和交互探测器。风险探测器通过比较2个子区域间的属性均值是否具有显著差别,识别风险区域并测试显著性。因子探测器用于探测因变量的空间分异性或探测自变量多大程度上解释因变量的空间分异。生态探测器用于比较不同自变量对因变量空间分布的影响是否存在显著差异。交互探测器可以识别不同自变量之间的交互影响[38]
探测变量Y的空间分层异质性,以及探测某因子X在多大程度上解释了变量Y的空间分异性,用 q度量[36]
q = 1 h = 1 L N h σ h 2 N σ 2 q [ 0,1 ]
式中: h = 1 , , L为变量Y或因子X的分层,即分类或分区; N h N分别为层 h和全区的单元数; σ h 2 σ 2分别为变量Y在层 h和全区的方差;如果分层是对Y的划分, q的值越大说明Y的空间分异越明显;如果分层是根据XY的划分,则 q值越大表示XY的空间分布越一致,自变量X对属性Y的解释力越强,反之则越弱。极端情况下, q值为1表明在X的层内,Y的方差为0,即自变量X完全控制了Y的空间分布, q值为0则表明Y按照X分层后的方差和Y不分层的方差相等,Y没有按照X进行分异,即自变量XY没有任何关系。 q值表示X解释了 100 q %Y[36-37]
在本研究中,将工作情绪热点空间连接至距离其最近的产业园区,并统计各产业园的工作情绪Gi_Bin均值,作为地理探测器的因变量Y,产业类型高新科技园区、一般工业园区、物流园区、农业园区、健康产业园区、文化创意产业园区为自变量X q反映了产业类型对工作情绪热点的影响大小, q为1表示产业类型完全控制工作情绪热点的空间分布; q为0表示产业类型与工作情绪热点分布无关。类似地,将各居住环境的居住情绪Gi_Bin均值作为地理探测器因变量Y,居住环境内城区、近郊职住混合区、近郊高密度居住区、远郊区为自变量X分析居住情绪热点与居住环境的关系。

4 结果与分析

4.1 北京流动人口情绪描述性分析

基于Roberta-wwm-ext-large模型迁移学习得到的微博情绪计算模型最终用于测试集的精度为84.6%。利用微博情绪计算模型得到北京流动人口与全人群的微博情绪。北京流动人口微博情绪统计结果如图2所示。图2(a)表示北京流动人口发布的微博中积极情绪与消极情绪的比例,结果显示北京流动人口发布的微博中积极情绪比例(57%)大于消极情绪的比例(43%)。图2(b)为北京流动人口与全人群情绪均值差异的蒙特卡洛显著性检验结果,即对北京全人群情绪进行999次随机抽样,样本大小与北京流动人口情绪样本量一致,计算每次抽样的情绪均值,并从小到大依次排序,结果显示在北京全人群999次随机抽样的情绪均值都大于北京流动人口情绪均值,即在99.9%置信水平下,流动人口的情绪值(0.56)显著低于北京全人群情绪值(0.57),但北京流动人口整体情绪仍偏向于积极。
图2 北京流动人口情绪描述性统计

Fig. 2 Descriptive statistical chart of Beijing's floating population sentiments

4.2 北京流动人口情绪空间模式分析

基于Getis-Ord Gi*的结果显示, 北京流动人口在东城区与西城区等核心区情绪均衡,情绪冷点 (图3(a))以海淀区东北部为中心向外扩散至昌平区东南部、顺义区西南部、朝阳区西北部、丰台区北部,从北京市功能分区来看,这些地区为科技创新核心区(图3(b))。此外,通州区与大兴区邻接处存在较小范围冷点(图3(a))。热点主要以朝阳区东南部向外扩散至昌平区中部、延庆区西部、门头沟区东部、大兴区北部(图3(a)),从北京市功能分区来看,这些地区是中心商务区、文化交流区及各类国际化社区的承载地(图3(b))。此外,昌平区、石景山区和大兴区存在较小范围热点(图3(a))。总体来看,北京流动人口主要集中在中心城区进行活动,且在中心城区中部情绪相对均衡,西北部科技创新核心区情绪相对于流动人口情绪均值较为低落,而东南部中心商务区、文化交流区及国际化社区较高涨。
图3 北京流动人口情绪热点与典型功能区对比分布

Fig. 3 Comparison of the floating population's sentiment hotspots distribution and typical functional areas distribution in Beijing

4.3 北京流动人口情绪与职住分布的关系

通过将北京流动人口工作情绪热点分布图与北京市产业园分布图(图4)对比可见,工作情绪聚集模式似乎与北京市产业空间布局相关联,北京流动人口情绪低值区倾向于分布在高新技术产园区、物流园区与工业园区(图4(b)中蓝圈),而情绪高值区倾向于分布在文化创意产业园区(图4(b)中红圈)。通过地理探测器检验,发现产业类型与工作情绪热点分布之间的q=0.03(P<0.05),且各产业类型Gi-Bin均值由低到高依次为物流园、工业园、高新技术产业园、健康产业园、文化创意产业园、农业园,其中高新技术产业园、工业园、物流园小于0,农业园、健康产业园及文化创意产业园大于0(表5),即高新技术产业园、工业园、物流产业园的流动人口从业人员的工作情绪相对于流动人口整体工作情绪均值较为消极,健康产业园、文化创意产业园、农业园工作的流动人口从业人员的工作情绪相对于流动人口整体工作情绪均值较为积极。
图4 北京流动人口工作情绪热点与产业园对比分布

注:图(b)中蓝圈表示高新技术产园区、物流园区与工业园区;红圈表示文化创意产业园区。

Fig. 4 Comparison of the floating population's working sentiment hotspots distribution and industrial park distribution in Beijing

表5 工作情绪与产业园类型地理探测器结果

Tab. 5 Geodetector's result of working sentiments and industrial park type

产业园类型 物流园 工业园 高新技术产业园 健康产业园 文化创意产业园 农业园
Gi-Bin平均值 -0.50 -0.32 -0.26 0.05 0.14 0.22
流动人口对于物流园的工作最不满意。物流园的主要从业人员为快递员,他们中80%为来自农村的流动人口[39],从事国内、国际及港澳台地区的快件揽收、分拣、封发、转运、投送、信息录入、查询、市场开发、疑难快件处理等工作。根据“中国幸福小康指数”[40]调查结果显示,“公众眼中最具幸福感的职业”排行中,快递员在排行榜中处于末端位置。收入水平低、工作时间长是物流从业人员工作幸福感低的主要原因[41]。流动人口对于工业园的工作也感到不满意。与快递员类似,这部分人群大多为来自农村的流动人口,他们大多从事食品、化工、材料、钢铁等传统工业。随着现代科学技术和经济结构的发展需要,新兴工业不断兴起,发展迅速,极大地冲击和改变了原有的工业结构,使传统工业生产停滞不前,甚至衰退,导致我国传统工业工资普遍偏低,同时传统工业多为劳动密集型工业,工资低、工作累导致一般工业园的从业人员幸福感偏低[42]。令人惊讶地是,流动人口对于高新技术产业园区的工作也不满意。这类人群大多为受过高等教育的流动人口,从事IT软件、人工智能、互联网、大数据等待遇优厚的知识技术行业,他们有较高的科学文化素养,较强的创新意识与能力,因此在解决了温饱需求的基础上,他们具有更加强烈的自我价值实现需要,他们希望通过自身努力获得他人与社会的认可,并追求较高的社会地位[43-44],然而,一项针对全国科技工作者工作与生活状况的调查结果显示,超过半数的科技工作者认为自己在当地的社会地位属于中下层或下层,超过六成的科技工作者对工作生活感到不幸 福[45]。自我价值难以实现、社会地位难以达到预期是高新技术产业园区从业人员对工作不满意的主要原因。流动人口对于农业园的工作最满意。北京市的农业园从业人员并非传统印象中辛苦耕耘的农民,而是从事现代农业、农产品批发与销售、生态农业的新时代农民,一般采用一家一户小规模的个体经营模式,他们利用现代化机器完成耕耘工作并进行销售。这类流动人口一般文化水平较低,或许能够通过自己的劳动解决温饱问题已经让他们感到足够满意。流动人口对于文化创意产业园的工作感到满意。这类流动人口一般从事教师、艺术工作者、演员等职业,他们自我价值的实现度高且不用像其他流动人口一样承担巨大的经济压力[46-49],因此这些职业位列“公众眼中最具幸福感的职业”排行榜前十[40]。流动人口对健康产业园的工作也相对满意。这类流动人口大多为受过高等教育的专业医务人员,救死扶伤的情怀,公众的尊重、信任和爱戴使他们感到幸福[50]
对比北京市流动人口居住情绪与居住环境分布图可见,居住情绪冷点主要位于远郊居住区(图5(b)中蓝圈)、热点主要位于近郊高密度居住区(图5(b)中红圈),而内城居住区与近郊职住混合区情绪较为均衡。通过地理探测器检验,发现居住环境与居住情绪热点分布之间的q=0.06 (P<0.1)。由表6可知,各居住环境Gi-Bin均值由低到高依次为远郊居住区、内城居住区、近郊职住混合区、近郊高密度居住区,且远郊居住区小于0,内城居住区与近郊职住混合区等于或接近0,近郊高密度居住区大于0,即居住在远郊居住区的流动人口情绪相对于流动人口整体居住情绪均值较为消极,居住在近郊高密度居住区的流动人口情绪相对于流动人口整体居住情绪均值较为积极。远郊居住区可达性与服务设施极低,且聚集了大量低学历流动人口,这些人大多从事体力劳动,工作累且工资低,因此远郊区流动人口对生活的满意度最低[30];近郊高密度居住区既具备一定水平的交通可达性,又规避了高强度土地开发等典型城市病,兼具相对舒适的环境条件和便捷的出行水平,以从事相对体面的工作且工资较为丰厚的高学历流动人口为主,因此近郊高密度居住区流动人口对生活的满意度最高[30]。总体来看,居住情绪的平均值0.55显著低于工作情绪的平均值0.58(t-test, P<0.05),推测北京流动人口的生活满意度低于工作满意度。
图5 北京流动人口居住情绪热点与居住环境对比分布

注:居住情绪冷点主要位于远郊居住区(图(b)中蓝圈),热点主要位于近郊高密度居住区(图(b)中红圈)。

Fig. 5 Comparison of the floating population's living sentiment hotspots distribution and living environment distribution in Beijing

表6 居住情绪与居住环境地理探测器结果

Tab. 6 Geodetector's result of living sentiments and living environment

居住环境 远郊居住区 内城居住区 近郊职住混合区 近郊高密度居住区
Gi-Bin平均值 -0.12 0 0.01 0.27

5 结论与讨论

5.1 结论

本研究基于微博大数据采用自然语言处理技术,结合空间分析手段探究了北京市流动人口微观情绪与职住分布之间的关系。研究发现: ① 北京市流动人口微博积极情绪比重高于消极情绪,总体值低于北京全体,即流动人口积极情绪相对更多,但总体幸福感低于北京全人群; ② 流动人口主要集中在中心城区进行活动,情绪的低值与高值在空间上显著聚集,具体为核心区情绪均衡,西北部科技创新核心区情绪相对于流动人口情绪均值较为低落,而东南部中心商务区、文化交流区及国际化社区较高涨; ③ 工作情绪聚集模式与北京市产业空间布局相关联,高新技术产业园、工业园、物流产业园的流动人口从业人员的工作情绪相对于流动人口整体工作情绪均值较为消极,健康产业园、文化创意产业园、农业园工作的流动人口从业人员的工作情绪相对于流动人口整体工作情绪均值较为积极,推测流动人口对于高新技术产业园区、工业园、物流园的工作感到不满意,其中对物流园的工作最不满意,其次是工业园与高新技术产业园,而对于农业园、健康产业园和文化创意产业园区的工作相对满意; ④ 居住情绪聚集模式与居住环境有关,居住在远郊居住区的流动人口情绪相对于流动人口整体居住情绪均值较为消极,居住在近郊高密度居住区的流动人口情绪相对于流动人口整体居住情绪均值较为积极; ⑤ 流动人口居住情绪均值显著低于工作情绪,推测北京市流动人口对生活的满意度低于工作满意度。

5.2 讨论

本研究首次利用微博文本大数据结合自然语言处理技术分析流动人口这一特定社会属性群体的情绪状态,并从空间分布相似性角度探究流动人口情绪与职住分布的关系,发现了北京市流动人口对于工作的满意度与从事的工作类型有关,对于生活的满意度与居住环境有一定关联,对生活的满意度低于工作满意度。从理论意义来看,本研究证明了基于文本大数据与自然语言处理技术、空间分析手段分析特定社会属性群体情绪状态及影响要素的可行性。从现实意义来看,本研究为政府部门打造建立工作生活稳定、环境宜居的幸福城市提供参考,即应重点关注从事高新技术产业、工业、物流产业的流动人口以及提升居住在远郊区的流动人口的生活满意度。
本研究仍存在一定的局限性。微博用户上传情绪大数据具有有偏性,网络空间中相比现实空间中的情绪表现或许更不均衡,“积极”这一维度可能被夸大,这也是当前文本情绪倾向分析面临的一大挑战。其二,本研究提取北京市流动人口的方式较为简单,样本量较小,尽管研究结果得到了多项前人研究的支持,后续仍然可以尝试利用关键词组合提取更多样本,进一步增加结果的可信度。
[1]
任远, 邬民乐. 城市流动人口的社会融合:文献述评[J]. 人口研究, 2006(3):87-94.

[ Ren Y, Wu M L. Social integration of floating population in urban China: A literature review[J]. Population Research, 2006(3):87-94. ] DOI: 10. 3969/j.issn.1000-6087.2006.03.016

DOI

[2]
段成荣, 杨舸, 张斐, 等. 改革开放以来我国流动人口变动的九大趋势[J]. 人口研究, 2008(6):30-43.

[ Duan C R, Yang K, Zhang F, et al. Nine major trends of China's floating population changes since the reform and opening up[J]. Population Research, 2008(6):30-43. ]

[3]
Harter J K, Schmidt F L, Keyes C L. Wellbeing in the workplace and its relationship to business outcomes: A review of the Gallup studies[J]. Flourishing: Positive psychology and the life well-lived, 2003, 2:205-224. DOI: 10.1037/10594-009

DOI

[4]
Bryson A, Mackerron G. Are you happy while you work?[J]. The Economic Journal, 2017, 127(599):106-125. DOI: abs/10.1111/ecoj.12269

DOI

[5]
Harter J K, Schmidt F L, Hayes T L. Business-unit-level relationship between employee satisfaction, employee engagement, and business outcomes: A meta-analysis[J]. Journal of Applied Psychology, 2002, 87(2):268-279. DOI: 10.1037/0021-9010.87.2.268

DOI PMID

[6]
谢霏雰, 陈宏胜, 刘于琪, 等. 中国大城市流动人口幸福感研究——以上海为例[J]. 现代城市研究, 2015(12):2-8.

[ Xie F F, Chen H S, Liu Y Q, et al. Study on migrants' subjective well-being in large cities in China: A case study of Shanghai[J]. Modern Urban Research, 2015(12):2-8. ] DOI: 10.3969/j.issn.1009-6000.2015.12.001

DOI

[7]
杨东亮, 陈思思. 北京地区流动人口幸福感的影响因素研究[J]. 人口学刊, 2015, 37(5):63-72.

[ Yang D L, Chen S S. Study on the influence factors of happiness of migrants in Beijing[J]. Population Research, 2015, 37(5):63-72. ] DOI: 10.16405/j.cnki.1004-129X.2015.05.006

DOI

[8]
许世存. 城市适应对流动人口主观幸福感的影响分析——以黑龙江省为例[J]. 人口学刊, 2015, 37(4):36-47.

[ Xu S C. An analysis of the influence of urban adaptability on floating population's subjective well-being: A case study of the Heilongjiang province[J]. Population Research, 2015, 37(4):36-47. ] DOI: 10.16405/j.cnki.1004-12 9X.2015.04.004

DOI

[9]
黄嘉文. 流动人口主观幸福感及其代际差异[J]. 华南农业大学学报(社会科学版), 2015, 14(2):122-133.

[ Huang J W. Subjective well-being and generational differences of migrants[J]. Journal of South China Agricultural University(Social Science Edition), 2015, 14(2):122-133. ] DOI: 10.7671/j.issn.1672-0202.2015.02.014

DOI

[10]
张华初. 流动人口主观幸福感的影响因素——以广州市为例[J]. 城市问题, 2014(10):90-95.

[ Zhang H C. influencing factors of the floating population's subjective well-being: Taking Guangzhou city for example[J]. Urban Problems, 2014(10):90-95. ] DOI: 10.13239/j.bjsshkxy.cs wt.141015

DOI

[11]
Liu Z, Wang Y, Tao R. Social capital and migrant housing experiences in urban China: A structural equation modeling analysis[J]. Housing Studies, 2013, 28(8):1155-1174. DOI: 10.1080/02673037.2013.818620

DOI

[12]
李然, 林政, 林海伦, 等. 文本情绪分析综述[J]. 计算机研究与发展, 2018, 55(1):30-52.

[ Li R, Lin Z, Lin H L, et al. Text emotion analysis: A survey[J]. Journal of Computer Research and Development, 2018, 55(1):30-52. ] DOI: 10. 7544/issn1000-1239.2018.20170055

DOI

[13]
Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]. Association for Computational Linguistics, 2019(1):4171-4186. DOI: 10.18653/v1/N19-1423

DOI

[14]
Cui Y, Che W, Liu T, et al. Revisiting pre-trained models for Chinese natural language processing[J]. Association for Computational Linguistics, 2020(1):657-668. DOI: 10.18653/v1/2020.findings-emnlp.58

DOI

[15]
韩珂珂, 邢子瑶, 刘哲, 等. 重大公共卫生事件中的舆情分析方法研究——以新冠肺炎疫情为例[J]. 地球信息科学学报, 2021, 23(2):331-340.

DOI

[ Han K K, Xing Z Y, Liu Z, et al. Research on public opinion analysis methods in major public health events: Take COVID-19 Epidemic as an Example[J]. Journal of Geo-information Science, 2021, 23(2):331-340. ] DOI: 10.12082/dqxxkx.2021.200226

DOI

[16]
赵飞, 廖永丰. 突发自然灾害事件网络舆情传播特征及影响因素研究[J]. 地球信息科学学报, 2021, 23(6):992-1001.

DOI

[ Zhao F, Liao Y F. Research on the dissemination characteristics and influencing factors of network public opinion of sudden natural disaster events[J]. Journal of Geo-information Science, 2021, 23(6):992-1001. ] DOI: 10.12082/dqxxkx.2021.200526

DOI

[17]
郭星华, 邢朝国. 高学历青年流动人口的社会认同状况及影响因素分析——以北京市为例[J]. 中州学刊, 2009(6):103-108.

[ Guo X H, Xing Z G. Analysis of social identity status and influencing factors of highly educated young migrant population: Take Beijing as an Example[J]. Academic Journal of Zhongzhou, 2009(6):103-108. ]

[18]
谢永俊, 彭霞, 黄舟, 等. 基于微博数据的北京市热点区域意象感知[J]. 地理科学进展, 2017, 36(9):1099-1110.

DOI

[ Xie Y J, Peng X, Huang Z, et al. Image perception of Beijing's regional hotspots based on microblog data[J]. Progress in Geography, 2017, 36(9):1099-1110. ] DOI: 10.183 06/dlkxjz.2017.09.006

DOI

[19]
丁兆云, 贾焰, 周斌. 微博数据挖掘研究综述[J]. 计算机研究与发展, 2014, 51(4):691-706.

[ Ding Z Y, Jia Y, Zhou B. Survey of data mining for microblogs[J]. Journal of Computer Research and Development, 2014, 51(4):691-706. ] DOI: 10.7544/issn1000-1239.2014.20130079

DOI

[20]
SophonPlus. simplifyweibo_4_moods[EB/OL]. https://pan.baidu.com/s/16c93E5x373nsGozyWevITg.

[21]
SophonPlus. weibo_senti_100k[EB/OL]. https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb

[22]
自然语言处理与中文计算会议. NLPCC2014[EB/OL]. https://gitee.com/liaojingzhen/NLPCC2014_sentiment.

[T he Conference on Natural Language Processing and Chinese Computing. NLPCC2014[EB/OL]. https://gitee.com/liaojingzhen/NLPCC2014_sentiment.

[23]
百度飞桨团队. ChnSentiCorp[EB/OL]. https://github.com/PaddlePaddle/PaddleHub/blob/release/v2.2/docs/docs_ch/api/datasets/chnsenticorp.rst

[PaddlePaddle of Baidu. Ch nSentiCorp[EB/OL]. https://github.com/PaddlePaddle/PaddleHub/blob/release/v2.2/docs/docs_ch/api/datasets/chnsenticorp.rst

[24]
SophonPlus. Online_shopping_10_cats[EB/OL]. https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip.

[25]
SophonPlus. Waimai_10K[EB/OL].https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/waimai_10k/waimai_10k.csv.

[26]
高德地图. 高德地图API[EB/OL]. https://www.amap.com

[AutoNavi. API of AutoNavi[EB/OL]. https://www.amap.com

[27]
高德地图. POI分类编码[EB/OL]. https://lbs.amap.com/api/webservice/download.

[AutoNavi. POI classification codes[EB/OL]. https://lbs.amap.com/api/webservice/download.

[28]
中国产业园规划布局与运营管理分析报告[R]. 北京: 前瞻产业研究院, 2019.

[China industrial park planning, layout and operation management analysis report[R]. Beijing: Foresight industry research institute, 2019. ]

[29]
前瞻产业研究院. 前瞻产业园区库[EB/OL]. https://y.qianzhan.com/yuanqu/chanye

[ Prospective Industrial Research Institute. Prospective industrial park library[EB/OL]. https://y.qianzhan.com/yuanqu/chanye

[30]
谌丽, 张文忠, 李业锦, 等. 北京城市居住环境类型区的识别与评价[J]. 地理研究, 2015, 34(7):1331-1342.

DOI

[ Zhan L, Zhang W Z, Li Y J, et al. Identification and evaluation of residential environment types[J]. Geographical Research, 2015, 34(7):1331-1342. ] DOI: 10.11821/dlyj 201507012

DOI

[31]
黄洁, 王姣娥, 靳海涛, 等. 北京市地铁客流的时空分布格局及特征——基于智能交通卡数据[J]. 地理科学进展, 2018, 37(3):397-406.

DOI

[ Huang J, Wang J E, Jin H T, et al. Investigating spatiotemporal patterns of passenger flows in the Beijing metro system from smart card data[J]. Progress in Geography, 2018, 37(3):397-406. ] DOI: 10.18306/dlkxjz.2018.03.010

DOI

[32]
Liu P, Yuan W, Fu J, et al. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing[J]. Association for Computational Linguistics, 2021(1):657-668. DOI: 10.48550/arXiv.2107.13586

DOI

[33]
池娇, 焦利民, 董婷, 等. 基于POI数据的城市功能区定量识别及其可视化[J]. 测绘地理信息, 2016, 41(2):68-73.

[ Chi J, Jiao L M, Dong T, et al. Quantitative identification and visualization of urban function area based on POI data[J]. Journal of Geomatics, 2016, 41(2):68-73. ] DOI: 10.14188/j.2095-6045.2016.02.017

DOI

[34]
李琼, 周宇, 田宇, 等. 2002-2015年中国社会保障水平时空分异及驱动机制[J]. 地理研究, 2018, 37(9):1862-1876.

DOI

[ Li Q, Zhou Y, Tian Y, et al. Spatial and temporal differentiation and driving mechanism of social security level in China during 2012-2015[J]. Geographical Research, 2018, 37(9):1862-1876. ] DOI: 10.11821/dlyj201809016

DOI

[35]
Getis A, Ord J K. The analysis of spatial association by use of distance statistics[J]. Geographical Analysis, 1992, 24(3):189-206. DOI: 10.1111/j.1538-4632.1992.tb00261.x

DOI

[36]
王劲峰, 徐成东. 地理探测器:原理与展望[J]. 地理学报, 2017, 72(1):116-134.

DOI

[ Wang J F, Xu C D. Geodetector: Principle and prospective[J]. Acta Geographica Sinica, 2017, 72(1):116-134. ] DOI: 10.11821/dlxb201701010

DOI

[37]
王劲峰, 廖一兰, 刘鑫. 空间数据分析教程(第二版)[M]. 北京: 科学出版社, 2010.

[ Wang J F, Liao Y L, Liu X. Spatial data analysis tutorial (Version 2)[M]. Beijing: Science press, 2010. ]

[38]
Wang J F, Li X H, Christakos G, et al. Geographical detectors-based health risk assessment and its application in the neural tube defects study of the Heshun region, China[J]. International Journal of Geographical Information Science, 2010, 24(1):107-127. DOI:10.1080/1365881080 2443457

DOI

[39]
林克, 陆羽. 快递员的职业幸福感从何而来?[N]. 中国水运报,2021-11-19(007).

[ Lin K, Lu Y. Where does the professional happiness of couriers come from?[N]. China water transport, 2021-11-19( 007). ]

[40]
谭畅. 公众眼中最具幸福感的五个职业:公务员、政府官员、教师、艺术家、高管[J]. 小康, 2012, 165(11):73-75.

[ Tan C. Public perception of the five most happy professions: civil servants, government officials, teachers, artists, executives[J]. Insight China, 2012, 165(11):73-75. ]

[41]
马小雅, 寸守栋. 物流从业人员工作幸福感调查及影响因素分析[J]. 创新, 2018, 12(5):34-44.

[ Ma X Y. Cun S D. Analysis of the job well-being of logistics employees and its influencing factors[J]. Innovation, 2018, 12(5):34-44. ]

[42]
刘奕伶. 我国劳动者职业幸福感现状及影响因素分析[D]. 南京: 南京财经大学, 2018.

[ Liu Y L. Analysis on the status and influencing factors of workers’ occupational happiness in China[D]. Nanjing: Nanjing University of Finance and Economics, 2018. ]

[43]
朱宏斌. 知识型员工全面需要和工作资源匹配度对工作幸福感的影响[D]. 杭州: 浙江财经大学, 2016.

[ Zhu H B. Knowledge workers total needs and work resources match to effects on job related well-being mechanism[D]. Hangzhou: Zhejiang University of Finance and Economics, 2016. ]

[44]
张爱莲, 李霞. 高新技术企业研发人员工作幸福感影响因素及提升路径[J]. 山东理工大学学报(社会科学版), 2018, 34(3):87-91.

[ Zhang A L, Li X. Influencing factors and enhancement paths of high technology enterprises R&D staff’s job happiness[J]. Journal of Shandong University of Technology (Social Sciences Edition), 2018, 34(3):87-91. ]

[45]
邓大胜, 李路路, 史慧, 等. 科技工作者想什么?盼什么?——第三次全国科技工作者状况调查报告之一[J]. 今日科苑, 2015(5):11-15,1.

[ Deng D S, Li L L, Shi H, et al. What do science and technology workers want? What do they expect? ——Report of the third national survey on the status of science and technology workers[J]. Modern Science, 2015(5):11-15,1. ]

[46]
胡忠英. 教师幸福感结构的实证研究[J]. 全球教育展望, 2015, 44(4):86-94.

[ Hu Z Y. Empirical study on teachers' sense of well-being[J]. Global Education, 2015, 44(4):86-94. ]

[47]
张志元, 黄慧. 阶层差异、幸福感与艺术资产配置:文献综述[J]. 东北财经大学学报, 2018(4):82-89.

[ Zhang Z Y, Huang H. Class difference, happiness and art asset allocation: Literature review[J]. Journal of Dongbei University of Finance and Economics, 2018(4):82-89. ] DOI: 10.196 53/j.cnki.dbcjdxxb.2018.04.011

DOI

[48]
白书慈. 宋丹丹表演艺术研究—从舞台走向荧幕的演员[D]. 哈尔滨: 哈尔滨师范大学, 2016.

[ Bai S C. The study of Song Dandan's performing arts: From the stage to the screen[D]. Harbin:Harbin Normal University, 2016. ]

[49]
叶龙, 赵迪, 郭名. 知识型员工职业呼唤对工作幸福感的影响研究——职业承诺的中介作用和薪酬的调节作用[J]. 中国人力资源开发, 2018, 35(9):29-39.

[ Ye L, Zhao D, Guo M. Knowledge workers' calling and job well-being: Career commitment as a mediator and pay as a moderator[J]. Human Resources Development of China, 2018, 35(9):29-39. ] DOI: 10.16471/j.cnki.11-2822/c.2018. 09.003

DOI

[50]
高卫益, 陈玮, 戚倩, 等. 临床医生工作幸福感现状调查及影响因素分析[J]. 中国医院管理, 2017, 37(3):55-57.

[ Gao W Y, Chen W, Qi Q, et al. Investigation and influencing factors analysis of clinicians' occupational well being[J]. Chinese Hospital Management, 2017, 37(3):55-57. ]

Outlines

/