地理空间分析综合应用

基于轨迹活动语义挖掘的个体社会经济水平评估

  • 桂志鹏 , 1, 2, * ,
  • 丁劲宸 1 ,
  • 刘宇航 2 ,
  • 陈欢 2 ,
  • 吴华意 2
展开
  • 1.武汉大学遥感信息工程学院,武汉 430079
  • 2.武汉大学测绘遥感信息工程国家重点实验室,武汉 430079

桂志鹏(1982— ),男,宁夏吴忠人,博士,教授,主要从事高性能时空数据挖掘与社会地理计算相关研究。E-mail:

收稿日期: 2024-02-03

  修回日期: 2024-03-20

  网络出版日期: 2024-05-11

基金资助

国家自然科学基金项目(41971349)

Individual Socio-Economic Level Assessment Based on Trajectory Activity Semantics

  • GUI Zhipeng , 1, 2, * ,
  • DING Jinchen 1 ,
  • LIU Yuhang 2 ,
  • CHEN Huan 2 ,
  • WU Huayi 2
Expand
  • 1. School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China
  • 2. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China
* GUI Zhipeng, E-mail:

Received date: 2024-02-03

  Revised date: 2024-03-20

  Online published: 2024-05-11

Supported by

National Natural Science Foundation of China(41971349)

摘要

个体社会经济水平评估对于商业决策、城市规划和公共卫生具有重要的应用价值。但现有方法多依赖定位数据和呼叫详单记录构建出行位置和手机业务特征集合,未充分考虑个体出行的语义上下文,难以从动机与需求层面理解出行行为,导致建模过程可解释性不足。为此,本文提出一种基于轨迹活动语义挖掘的个体社会经济水平评估方法,通过显式提取居住、购物、餐饮、娱乐、消费喜爱度与探索欲6类消费模式,从消费能力与意愿角度刻画个体社会经济水平,提高评估方法的可解释性。① 通过网格化的语义地图为停留点赋予出行语义上下文,并划分居住、购物、餐饮、娱乐4类活动的停留点集合; ② 计算4类活动的时间熵、旋转半径和活动区域经济水平等时空语义特征,并通过结构方程模型筛选特征计算各类消费模式价值; ③ 使用极端随机森林决策个体社会经济水平。本文基于深圳市635名个体2019年4—11月的私家车轨迹数据开展实验,通过核心商圈、劳动密集型工厂、高档住宅与城中村等典型场景筛选高低社会经济水平人群,验证了方法有效性;此外,对高低社会经济水平群体的出行时空分布和工作强度开展可视化分析,探讨了群体间的出行模式差异。本文方法可为人地交互视角下的人口统计属性建模提供参考。

本文引用格式

桂志鹏 , 丁劲宸 , 刘宇航 , 陈欢 , 吴华意 . 基于轨迹活动语义挖掘的个体社会经济水平评估[J]. 地球信息科学学报, 2024 , 26(4) : 1075 -1092 . DOI: 10.12082/dqxxkx.2024.240078

Abstract

Assessment of individual Socio-Economic Levels (SEL) is crucial for business decisions, urban planning, and public health. However, current methods highly rely on location data and call detail records to construct travel locations and mobile business features, which is inadequate to represent the semantic context of individual travel, and fail to understand the motivations and demands of travel activities. Consequently, it makes the modeling process lack interpretability. To address aforementioned issue, this paper proposes a novel assessment method of individual socio-economic levels based on the analysis of trajectory activity semantics. It models individual socio-economic levels from the perspectives of consumption ability and willingness by explicitly extracting six consumption patterns including residence, shopping, dining, entertainment, consumption preferences and exploration, thereby enhancing the interpretability of the assessment method. Specifically, ① Stay points extracted from trajectories are categorized into four types of activities, including residence, shopping, dining, and entertainment, by tagging semantic context through a grid-based semantic map; ② Spatiotemporal and semantic features such as temporal entropy, gyration radius, and economic level of activity areas, are calculated for the four activities respectively. We then employ the structural equation model to select appropriate features for measuring the values of consumption patterns; ③ Extreme random forest is utilized to assess individual socio-economic levels using the values of six consumption patterns, which is calculated based on the economic levels of regions where an individual stays in the travel activities, as well as the preferences for visiting these regions. We use GPS trajectories of 635 anonymous private car drivers in Shenzhen city of China from April to November in 2019 as experimental data, and assess individual socio-economic levels for each driver. The effectiveness of the proposed method is validated by selecting representative individuals with high and low socio-economic levels from five typical scenarios i.e., central business districts, labor-intensive factories, premium residences, and urban villages, which demonstrates alignment between the calculated socio-economic levels of individuals and the depicted value of the scenarios. Besides, we analyze the spatiotemporal distribution and work intensity of different socio-economic level groups, and explore their differences in travel patterns. The findings indicate that individuals with a higher socio-economic level tend to have more flexible morning commutes, and exhibit a smoother travel distribution in the afternoon. It also presents a more concentrated spatial distribution in terms of their activity areas, which is consistent with the urban structures of Shenzhen. In summary, the proposed method can provide a reference for modeling demographic characteristics of individuals from the perspective of human-environment interaction.

1 引言

社会经济水平(Socio-Economic Level, SEL)是表征个体或家庭社会与经济地位的重要指标,对于商业决策[1-2]、城市规划[3-5]与公共卫生[6-7]等具有重要指导意义。其一般被定义为与收入相关变量的组合,例如年平均收入、教育水平与职业类型等,但受数据隐私限制,上述数据往往难以获取。近年来,随着移动定位技术不断发展,海量轨迹数据为复杂的人类活动模式挖掘提供了数据支撑,并为探讨个体社会经济水平与其活动模式之间的关系提供了可能[8-9]。个体的社会经济水平能够反映其购买力与获取新商品的倾向,而个体消费行为往往与其活动模式相关并被其表征[10-11],因此个体活动模式分析可为社会经济水平评估提供重要依据[12-13]
个体社会经济水平会影响其活动模式,相应的,活动模式可反映个体经济水平的高低[14-15]。现有研究通过划分不同社会经济水平群体并分析群体出行模式,探究了社会经济水平对出行空间分布、时间分布和出行方式的影响。在空间分布上,高社会经济水平人群的平均出行距离更长、旋转半径更大[16],但是其出行熵更低[17];在时间分布上,高社会经济水平人群的清晨活动出现延迟,且中午早高峰更加平滑[18];在出行方式上,高社会经济水平人群以昂贵的交通方式密集覆盖了城市小部分区域[19],同时在单个城市内平均通勤距离更长[20]。可见,个体社会经济水平与其出行活动模式间显著相关,为根据个体活动模式评估其社会经济水平提供了理论支持。
在社会经济水平评估方面,依据所采用的评估方法,现有研究可分为特征映射法、决策划分法、深度学习法与模式提取法4类。其中,基于特征映射的方法根据个体轨迹数据与呼叫详单记录提取位置、呼叫业务与社交网络构成的高维特征,分析其与社会经济水平之间的相关性[21],并利用正则化与交叉验证[22]优化特征集合,以实现特征与社会经济水平之间的映射。该类方法简单易行,但高维特征对样本数量及质量有较高要求。基于决策划分的方法利用特征内在的分布模式,将回归问题转换成分类问题,使用支持向量机等模型进行评估[23],或进一步利用分类结果训练随机森林提升社会经济水平决策的泛化能力[12]。该类方法具有良好的可解释性与较高的精度,但评估结果的合理性依赖于分类的可靠性,不恰当的分类会导致明显的评估偏差。基于深度学习的方法将预处理后的特征输入深度神经网络、长短期记忆模型[24]、受限玻尔兹曼机模型[25]、与卷积神经网络[26]等模型中进行预测,得到高精度的社会经济水平评估结果。该类方法评估精度高,但需要高标注质量的大量数据集进行训练,黑箱模型也导致评估过程难以解释。基于模式提取的方法采用隐含迪利克雷分布[27]等方法进一步从原始特征集合中提取模式,再基于模式对社会经济水平进行评估[28]。该类方法可将原始数据中的高维特征抽象为更高层的模式,从而便于理解,但受限于语义信息的缺失,提取出的模式难以映射为有意义的人类日常活动,使得模式指标间的内在相关性丧失。为此,可将语义信息引入模式提取中,刻画个体活动的语义上下文,提高模型的可解释性。例如,通过房价数据和商店价格数据估计位置经济概况[15],并与个体出行位置匹配从而评估社会经济水平[29];或利用兴趣点类型与社会经济水平间相关性,结合个体出行位置及其周边兴趣点类型,通过多任务预测框架评估社会经济水平[30]。但现有研究多将语义信息作为特征维度的补充,未充分挖掘语义信息中蕴含的个体出行意图,导致评估结果易受出行目的不确定性的影响。综上,现有方法未能充分利用时空语义信息,缺乏人地交互视角下的个体出行语义建模,需要引入消费活动相关先验知识以提取消费模式、理解消费行为并评估社会经济水平。
为此,本文提出了一种基于轨迹活动语义挖掘的个体社会经济水平评估方法(Individual Socio-Economic Level Assessment based on Trajectory Activity Semantics, SEL-TAS),通过引入个体出行环境的语义上下文细分个体活动模式,包括居住、餐饮、购物、娱乐4类消费能力模式及消费喜爱度与探索欲2类消费意愿模式,显式建模个体社会经济水平。该方法通过“特征计算-模式提取-水平决策”的三层架构回答以下2个问题(图1):① 可以通过哪些模式反映社会经济水平?② 模式价值如何量化计算?在实现层面,该方法以个体轨迹数据与兴趣点(Point of Interest,POI)数据为模型输入,利用轨迹数据提取个体停留行为,利用POI数据赋予个体停留行为语义上下文,通过时空过滤和语义划分获得个体的居住、购物、餐饮、娱乐、消费喜爱度及探索欲6类消费模式,以回答问题①;构建繁华程度、建设完善度与高档性等指标来表征轨迹所处区域的经济水平,并结合个体前往不同区域的倾向得到个体各类消费模式时空语义特征集合[31],再通过结构方程模型优选特征集合计算各类消费模式价值,以回答问题②;最后利用极端随机森林,基于个体消费模式价值集合决策个体社会经济水平。本文基于635名深圳市私家车司机2019年8个月的轨迹数据开展实验,通过拟合优度、区分度等指标评估了特征与模式建模的合理性,并通过典型高低价值场景验证了社会经济水平评估结果的有效性。同时,本文依据社会经济水平评估结果划分高低价值群体,分析了群体间在出行时空分布和工作强度模式上的差异,探究了社会经济水平对出行活动的影响。
图1 本文社会经济水平评估的研究思路与输入输出

Fig. 1 Research idea and inputs-outputs of socio-economic level assessment

2 评估流程及关键步骤

SEL-TAS由4部分组成,包括数据预处理、活动语义划分、模式价值计算及社会经济水平决策,总体流程如图2所示。首先,该方法以个体轨迹数据与活动区域内POI数据作为数据预处理的输入,得到关联语义信息的个体停留点集合;再基于时空过滤和语义划分判别个体出行目的,得到个体不同活动语义下的停留点集合;基于停留点集合计算对应的空间、时间和语义特征集合,通过结构方程模型筛选特征集合并计算各消费模式价值;最后,使用社会经济水平置信度较高的样本集合训练极端随机森林,以决策所有个体的社会经济水平。
图2 基于轨迹活动语义挖掘的个体社会经济水平评估方法整体流程

Fig. 2 Workflow of individual socio-economic level assessment based on trajectory activity semantics

2.1 数据预处理

数据预处理包括数据清洗、停留点提取、网格映射与空间关联,总体流程如图3所示。数据清洗去除个体轨迹点中的噪声点与低质量轨迹,以提高数据质量;停留点提取对过滤后的轨迹点进行聚类,保留其中熄火时间大于阈值的类簇作为个体停留点集合;网格映射对POI数据采取范围过滤、类别筛选和类别合并等步骤,保留研究区域内含有重要语义的POI集合,并映射至固定尺寸的网格中。统计每个网格内各类别POI的数量,并基于词频-逆文本频率(Term Frequency-Inverse Document Frequency, TF-IDF)[32]计算各类POI的语义重要性,如式(1);最后,空间关联将停留点集合与POI语义网格集合进行空间相交,得到停留点所属网格内语义信息,以获取关联语义的停留点集合,其属性字段如表1所示。
P O I _ s e m a n t i c k = N k N × l o g R R k
式中: P O I _ s e m a n t i c k表示第k类POI在网格内语义重要性;Ni表示第k类POI在网格内的数量;N为网格内POI的总数量;|R|为网格总数量;|Rk|为含有第k类POI的网格数量。本文将每一类POI作为一个单词,每个网格内所有类型POI视为一篇文章,研究区域内的所有POI作为语料库,计算网格内每一类POI的重要性[33]
图3 数据预处理流程

Fig. 3 Data preprocessing workflow

表1 包含格网POI统计信息的停留点属性字段

Tab. 1 Attribute fields of stay point that contains grid-level POI statistics

字段 类型
停留点编号 整型
开始停留时间(到达时间) 日期
结束停留时间(离开时间) 日期
停留点经纬度 对象
停留点所在网格中心点经纬度 对象
停留点所在网格的各类POI数量数组 数组
停留点所在网格的各类POI的TF-IDF数组 数组

2.2 活动语义划分

在时空上相似的停留行为可能具有不同动机,需要引入语义信息以实现更精准的活动识别[34-36]。本文对个体停留活动进行语义划分,捕捉个体停留动机[37],进而识别与社会经济水平相关的消费活动集合。具体而言,依照时空约束和语义规则从个 体停留行为中过滤提取居住、餐饮、购物及娱乐 活动,如表2所示。统计停留时段与夜间睡眠时段(1:00-6:00)相交时间最长网格作为个体的居住地,识别居住活动对应的停留点集合;保留处于餐饮时间段(12:00-14:00,17:00-19:00)的非居住活动停留点,并依据停留点所属网格的餐饮类POI语义重要性进行阈值过滤,识别餐饮活动停留点集合;依据非居住活动停留点所属网格的购物(或娱乐)类POI语义重要性进行阈值过滤,识别个体购物(或娱乐)活动停留点集合。
表2 出行活动的识别条件

Tab. 2 Conditions for travel activity recognition

活动类型 空间约束 时间约束 语义规则
居住活动 研究区域内 睡眠时间段 -
餐饮活动 研究区域内 餐饮时间段 餐饮类POI语义重要性大于阈值
购物活动 研究区域内 - 购物类POI语义重要性大于阈值
娱乐活动 研究区域内 - 娱乐类POI语义重要性大于阈值

2.3 模式价值计算

个体活动中蕴含丰富的活动模式,能够表征个体的特定行为,刻画主观意愿和客观条件。消费能力和消费意愿[12]是受社会经济水平影响的两大因素,因此本文提取与消费能力相关的居住、餐饮、购物和娱乐模式,以及与消费意愿相关的消费喜爱度和探索欲,共6类消费模式;然后,综合时空和语义构建消费模式的特征集合,并基于结构方程模型筛选最优特征集合计算各类模式的价值。

2.3.1 综合时空与语义的模式特征构建

时空属性能够反映个体活动的规律性与偏好,语义信息能描述个体活动类型并刻画活动区域的经济水平。故本文综合时空及语义构建6类消费模式的特征集合,表征个体收入水平,如表3所示。
表3 消费模式与特征的对应关系

Tab. 3 Associations between consumption patterns and features

消费模式 空间特征 时间特征 语义特征
居住模式 - 时间占比、次数占比 繁华程度、建设完善度、高档性
餐饮模式 - 时间占比、次数占比 繁华程度、建设完善度、高档性
购物模式 - 时间占比、次数占比 繁华程度、建设完善度、高档性
娱乐模式 - 时间占比、次数占比 繁华程度、建设完善度、高档性
消费喜爱度 - 时间占比、次数占比 -
消费探索欲 随机熵、旋转半径 时间占比熵、次数占比熵 -
时间特征集合包含网格停留时间占比time_ratio、网格停留次数占比count_ratio、停留时间占比熵time_entropy与停留次数占比熵count_entropy,占比越高表明个体更倾向于前往该网格,熵越高表明个体的探索性更强,如式(2)所示;空间特征集合包含随机熵random_entropy与旋转半径gyration_radius,随机熵越高,旋转半径越大,则个体在空间上的探索性更强,如式(3)所示。
t i m e _ r a t i o ( i ) = t i m e i i = 1 G t i m e i c o u n t _ r a t i o ( i ) = c o u n t i i = 1 G c o u n t i t i m e _ e n t r o p y = - i = 1 G t i m e _ r a t i o ( i ) l o g ( t i m e _ r a t i o i ) c o u n t _ e n t r o p y = - i = 1 G c o u n t _ r a t i o ( i ) l o g ( c o u n t _ r a t i o i )
r a n d o m _ e n t r o p y = l o g 2 G n u m g y r a t i o n _ r a d i u s =                             1 G n u m i G c o u n t r a t i o ( i ) d i s c e n t e r i , c e n t e r a v g
式中:G表示个体停留点所属的网格集合;timei表示个体在i网格内的停留时间;counti表示个体在 i网格内的停留次数;Gnum为个体停留点所属网格的数量;centerii网格的中心;centeravg为所有个体停留网格的中心均值;dis(centeri, centeravg)为二者间的欧式距离。
在语义特征层面,本文对个体多个活动区域的经济水平进行加权,作为该模式的语义特征集合。区域经济水平通过区域繁华程度、建设完善度与高档性水平衡量。区域繁华程度由区域内POI密度POI_density与POI熵POI_entropy表征,POI密度越高,种类越丰富,则繁华程度越高,区域经济水平越高,如式(4);区域建设完善度通过交通、生活与公共设施相关基础设施的密度度量,密度越高,则区域建设越完善,区域经济水平越高;区域高档性水平为高消费型子类别POI数目占主类别POI数目的比例,占比越高,高档性越强,区域经济水平越高。
P O I _ d e n s i t y = N S P O I _ e n t r o p y = - k = 1 K N k N l o g N k N
式中: N为网格内POI数量; S为网格面积; Nk表示第k类POI在网格内数量; K为POI类别数。
模式的语义特征集合以个体访问偏好及该模式对应的语义重要性为权重,对区域经济水平相关特征进行加权求和得到,如图4。此外,为分辨POI数量不同而语义重要性相同的网格,引入对应类别POI数量为影响因子,最终计算公示如式(5)所示。
F e a t u r e s j = F e a t u r e 1 j , , F e a t u r e t j , , F e a t u r e T j F e a t u r e t j = i G w e i g h t i j × f e a t u r e i , t ×                                         P O I _ d e n s i t y i j × P O I _ s e m a n t i c i j
式中:Featuresj为第j类出行活动的语义特征集合;Featuretj为其中第t个语义特征(如POI密度);G为第j类出行活动的网格集合; weightiji网格在第j类出行活动中的权重(即访问频率或停留时间占比); featurei, ti网格的第t个语义特征; POI_densityijPOI_semanticij分别为i网格内第j类出行活动的POI密度及语义重要性。
图4 消费模式中语义特征计算示意

Fig. 4 Illustration of semantic feature calculation in consumption patterns

考虑到Logistic函数对异常值不敏感,本文使用其将式(2)、式(3)、式(5)计算得到的特征归一化至(0, 1)区间,归一化函数如式(6)所示。
f x = 1 1 + e - I Q R - 1 x - x 0
式中:f(x)为归一化后的当前样本特征值;x为当前样本的原始特征值;x0为所有样本在该特征值下的中位数;IQR-1为所有样本在该特征值下四分位距的倒数。

2.3.2 基于结构方程模型的特征优选与价值计算

为有效描述个体消费模式价值,需从模式的特征中筛选出相关性较高的特征集合,为此本文引入结构方程模型测算特征受模式影响程度。结构方程模型是一种广义的一般线性模型,常用于验证多个观测变量与多个潜变量之间关系[38]。本文将模式的特征集合视作观测变量,消费模式集合视作潜变量,使用结构方程模型得到单个特征受其所属模式影响程度高低与所有特征与模式间影响结构合理性高低。该模型通过迭代分析特征与模式间影响结构,删除不合理特征并优化影响路径,直到满足评价指标或合理性不再提高,实现特征优选。本文对各模式选出的特征集合进行加权求和,得到消费模式价值,如式(7)所示。
p a t t e r n _ v a l u e l = t = 0 T w e i g h t t l × F e a t u r e t l
式中: p a t t e r n _ v a l u e l为第l类模式价值;T为模式l选出的特征数目; F e a t u r e t l为模式l的第t个特征; w e i g h t t l为该特征权重。由于样本分布存在异质性和稀疏性,本文使用均权求和保障模式价值计算的鲁棒性。

2.4 社会经济水平决策

个体消费模式价值反映了个体在居住、购物、餐饮和娱乐活动中的消费能力和消费倾向,能够辅助决策社会经济水平。本文将个体消费模式价值作为输入,使用极端随机森林[39]决策个体社会经济水平,将个体属于高社会经济水平的概率作为评估结果。由于缺乏真实标签,需要首先获得社会经济水平置信度较高的样本集合,用于训练极端随机森林。为此,本文使用高斯核概率采样得到训练样本集合,整体流程如图5所示。首先,计算所有个体的消费能力 c o n s u m e _ a b i l i t y和意愿 c o n s u m e _ w i l l i n g,如式(8)所示;再对消费能力与意愿双高和双低的样本进行高概率的有放回采样;基于消费模式价值向量(<居住模式价值,餐饮模式价值,购物模式价值,娱乐模式价值,消费喜爱度,餐饮消费探索欲,购物消费探索欲,娱乐消费探索欲>)对采样样本聚类,以类簇类别为样本标签(图5labelhighlabellow分别为高、低社会经济水平样本标签),得到社会经济水平置信度较高的样本集合;基于该样本集合训练极端随机森林,并对所有个体进行决策,得到个体属于“高-高”和“低-低”聚类簇的概率;以个体属于“高-高”聚类簇的概率作为社会经济水平评估结果。
c o n s u m e _ a b i l i t y = l _ a = 0 A 1 A × p a t t e r n _ v a l u e l _ a c o n s u m e _ w i l l i n g = l _ w = 0 W 1 W × p a t t e r n _ v a l u e l _ w
式中: p a t t e r n _ v a l u e l _ a p a t t e r n _ v a l u e l _ w 为消费能力类模式(居住、购物、餐饮与娱乐模式)和消费意愿类模式(消费喜爱度与消费探索欲)的价值; AW分别为2类模式的数量。
图5 基于极端随机森林的社会经济水平决策流程

Fig. 5 Decision-making process of socioeconomic level based on extremely random forest

3 实验验证

3.1 实验数据介绍

本文基于深圳市开展实验,深圳市是中国设立的第一个经济特区,拥有大量国际企业与海内外人才,形成了多元化的人口与城市结构,囊括丰富的餐饮、购物与娱乐场所,是中国最具代表性的城市之一。实验数据包含深圳市1 915名匿名市民的轨迹数据与POI数据。其中,轨迹数据由装载在其私家车上的车载导航仪记录,包含经纬度及时间戳,时间覆盖了2019年4—11月。由于轨迹数据的完整性会显著影响个体语义活动的提取,本文以出行天数大于180 d、轨迹数量大于80条及轨迹连续缺失天数小于30 d作为条件筛选,从1 915名原始个体中保留了质量较好的635名个体的出行轨迹,共234 508个停留点。筛选后的个体覆盖了深圳市主要区域(图6),由其统计指标分布(图7)可知,筛选个体集合的旋转半径、位置熵与日内出行熵近似正态分布,具有良好的时空多样性。此外,个体的出行天数分布较为均匀,说明635名个体很好地覆盖了出行天数较多与较少的个体;日内与周内出行熵呈高值偏态分布,说明选中的个体大多拥有较为复杂的日内和周内出行规律,能够充分刻画其出行活动。对过滤后的个体轨迹点集合进行DBSCAN聚类,保留熄火时间大于20 min的停留点,得到个体停留点集合。POI数据为深圳市高德POI数据集,包含POI的名称、经纬度及类别划分。本文对POI数据过滤合并,保留了研究区域内684 102个POI作为POI数据集合,如表4所示;以200 m为尺度构建语义网格集合,通过空间相交得到关联语义的停留点集合;依据表2的活动识别条件得到个体居住、餐饮、购物与娱乐活动的停留点集合。
图6 635名个体的停留点空间分布情况

Fig. 6 The spatial distribution of stay points for the selected 635 individuals

图7 635名个体出行活动的时空特征统计

Fig. 7 The distribution of spatiotemporal features of travel activities for 635 individuals

表4 选择的POI类别及数目

Tab. 4 Selected POI types and numbers

类别 数目/个
购物服务 143 211
餐饮服务 77 429
交通设施服务 71 723
生活服务 71 313
公司企业 64 627
商务住宅 44 447
科教文化服务 42 413
政府机构及社会团体 30 747
休闲娱乐服务 28 530
金融保险服务 26 013
住宿服务 25 673
医疗保健服务 23 341
机动车服务 23 104
公共设施 11 531
总计 684 102

3.2 特征与模式间结构合理性验证

根据表3,基于个体居住、餐饮、购物与娱乐活动的停留点集合分别计算4类活动的时间、空间与语义特征,并利用结构方程模型迭代构建特征与消费模式间影响结构;使用拟合优度及均方根误差等指标评价影响结构的合理性,使用特征同质性信度检验及区分度检验评价筛选后特征集合的一致性和有效性。

3.2.1 结构方程模型指标评价

本文构建特征与消费模式间最佳影响结构如图8所示,共保留25个特征。选取卡方自由度比值(Chi/DF)、拟合优度检验值(GFI)、调整后拟合优度(AGFI)和近似均方根误差(RMSEA)为指标评价特征与模式间影响结构的合理性,结果如表5所示。其中,Chi/DF=2.965(<3)、GFI=0.901(>0.9)、AGFI=0.878(>0.80)、RMSEA=0.056<(0.08),说明观测数据与模型间吻合度较高。因此,本文所提出的特征与消费模式间影响结构合理,选出的特征集合能有效表征个体对应消费模式的价值。
图8 结构方程建模的模型结构与影响关系强度

Fig. 8 Model structure of structural equation modeling and impact intensity of relationships

表5 结构方程建模的评价指标

Tab. 5 Evaluation indicators of structural equation modeling

指标类型 模型指标 可接受范围
卡方自由度比值(Chi/DF) 2.965 <3 [40]
拟合优度检验值(GFI) 0.901 ≥0.90 [41]
调整后拟合优度(AGFI) 0.878 ≥0.80 [42]
近似均方根误差(RMSEA) 0.056 <0.08 [41]
图8可以发现,区域建设完善度(交通、公共、生活设施密度)能良好刻画居住、购物、餐饮与娱乐模式价值;区域繁华程度(POI密度与熵)仅能较好反映居住模式价值,而在购物、娱乐、餐饮模式下影响关系不显著,故被剔除。此外,居住模式受消费能力影响较弱,其原因可能是居住环境的经济水平还受到房屋年限、物业水平与绿化程度等因素影响,具有较高不确定性。同时,消费能力与消费意愿间相关性仅为0.01,表明高消费能力人群不一定具有高消费意愿。

3.2.2 特征同质性信度检验与区分度检验

为分析选出特征集合的合理性,本文以同质性信度检验评价同一消费模式下各特征值的一致性程度,以区分度检验评判各特征值能否有效地区分出高分组与低分组。同质性信度检验通过克隆巴赫系数Cronbach's α进行计算,其计算公式如式(9)所示。当克隆巴赫系数α大于0.8时信度良好,小于0.6时较差,位于0.6~0.8时一般。
α = T T - 1 v a r i a n c e j 2 - v a r i a n c e t 2 v a r i a n c e j 2
式中:T为某消费模式的特征数目; v a r i a n c e j 2表示所有个体针对该消费模式价值的方差; v a r i a n c e t 2表示所有个体在该消费模式的第t个特征上的方差。
同质性信度检验结果如表6所示,各消费模式的克伦巴赫系数及其95%置信区间的下限均大于0.8,表明所有消费模式均有较好的内部一致性,即部分特征的取值较高时,其他特征取值也通常较高。
表6 同质性信度检验结果

Tab. 6 Homogeneity reliability test results

消费模式 Cronbach's α 95% 置信区间
下界 上界
居住模式 0.899 0.887 0.912
购物模式 0.939 0.931 0.947
餐饮模式 0.909 0.898 0.921
娱乐模式 0.909 0.896 0.921
消费喜爱度 0.935 0.925 0.945
购物探索欲 0.966 0.961 0.971
餐饮探索欲 0.969 0.964 0.974
娱乐探索欲 0.958 0.953 0.964
区分度检验首先从所有个体中划分出各消费模式价值位于前33%和后33%的高分组与低分组,然后使用t检验计算2组的特征分布。该检验基于p值判断分布是否存在显著差异,通过Cohen's d 计算组间差异大小,如式(10)所示。若p<0.05且ds>0.5则表明高低分组在该特征上差异显著,即该特征具有良好区分性。
d s = x 1 ¯ - x 2 ¯ n 1 - 1 S D 1 2 + n 2 - 1 S D 2 2 n 1 + n 2 - 2
式中: x 1 ¯ x 2 ¯为高低分组样本在该特征上的均值; n 1 n 2为高低分组样本数量; S D 1 2 S D 2 2为高低分组在该特征上的标准差。
图9所示,所有消费模式的特征均满足区分度指标要求,即消费模式价值高低分组的特征分布存在显著差异。同时,消费能力相关模式的高分组特征值分布均呈狭长状,即特征值差异较大且分布离散,表明就高消费能力人群而言,消费行为发生区域的经济水平存在较大差异;而低消费能力人群的消费区域经济水平更为相似,其特征值分布也更加集中。相对的,消费意愿相关模式的特征集合中,高低分组的特征值分布都较为集中,而ds更大,即属于同一分组的个体具有相近的消费意愿,但组间差异显著。
图9 特征集合区分度指标与特征值分布情况

Fig. 9 Indicators of feature set discrimination and value distributions of 25 features

3.3 社会经济水平评估结果及验证

根据个体消费模式价值,按照图5所示流程计算个体属于“高-高”聚类簇的概率,作为SEL评估结果。由式(8)计算个体的消费能力与消费意愿,并将所有个体映射至“消费能力-消费意愿”坐标轴中进行可视化,统计个体在消费能力与消费意愿上的分布情况,如图10所示。
图10 635名个体的社会经济水平评估结果及“消费能力-消费意愿”分布

Fig. 10 SEL assessment results of 635 individuals and the distribution of their consumption ability and consumption willing

结果表明,高低SEL个体分别集中分布于“消费能力-消费意愿”坐标轴中“高-高”与“低-低”区域二两者中存在过渡区域,未出现大面积重叠,表明SEL评估结果能够区分出消费能力高且消费意愿强的个体。由消费能力及消费意愿的数目分布直方图可以看出,消费意愿满足正态分布,即大部分个体的消费意愿是相似的,只有少数个体具有较强或较弱的消费意愿;而个体的消费能力为偏态分布,整体上偏向于低消费能力,即低消费能力的个体数目显著多于高消费能力。进一步由SEL评估结果的累积分布直方图(图11)可知,人数分布较为均匀,表明个体间SEL变化是平缓的,而最低等级人数较多,原因可能为出行数据缺失导致个体消费行为未被完整捕捉。同时,SEL评估结果低于0.5的累计概率为0.63,即更有可能属于低SEL的个体占比为63%,表明低SEL个体数目要显著多于高SEL个体,符合现实认知。
图11 个体评估结果的累积分布

Fig. 11 Cumulative distribution of individual assessment results

3.3.1 典型场景验证

人工选取深圳市内具有代表性的典型高低价值场景为筛选区域以提取典型个体,并分析其SEL与场景价值的一致性,若高(或低)价值场景的典型个体具有高(或低)SEL,则评估结果有效。由于停车点与真实停留点间可能存在空间偏移,本文针对典型场景设置100 m缓冲区,以辅助典型个体识别,典型场景与部分典型个体停留点的空间分布如 图12所示。根据活动类型,从居住视角选取高档住宅与城中村区域,保留夜间睡眠时间段停留最长网格位于筛选区域内的个体为典型个体;从工作视角选取金融大厦与劳动密集型工厂区域,将工作日工作时间段停留时间最长网格位于筛选区域内的个体提取为典型个体;从出行视角选取了核心商圈区域,将在筛选区域内停留超过2 h且次数大于6次的个体提取为典型个体。共提取出48名高价值场景典型个体与45名低价值场景典型个体,并以社会经济水平评估结果从高到底排序作为这93名个体的编号。计算各典型场景中个体SEL决策结果均值,并重复进行32次采样决策过程以保证结果的可靠性,如表7所示。
图12 典型场景与部分典型个体停留点的空间分布

Fig. 12 The distribution of typical scenarios and stay points of selected six typical individuals

表7 选取的5类典型场景及对应个体的社会经济水平评估结果

Tab. 7 Individual assessment results corresponding to the 5 kinds of selected typical scenarios

场景价值 场景类别 个体数目/个 评估结果均值 评估结果方差
高价值 高档住宅(鲸山别墅、红树湾豪宅等) 15 0.857 0.095 9
核心商圈(金光华、蔡屋围商圈等) 23 0.819 0.182 7
高收入职业(金融大厦、律师事务所等) 12 0.902 0.077 2
低价值 劳动密集型工厂(盛丰、下十围工业区等) 15 0.087 0.097 0
城中村(郎下村、上沙村、笋岗村等) 30 0.119 0.109 4
实验表明,高档住宅、核心商圈与高收入职业等高价值场景筛选得到的典型个体评估结果均大于0.5,而劳动密集型工厂和城中村等低价值场景筛选得到的典型个体评估结果均远小于0.5。说明高价值区域个体经决策以更高概率属于高SEL人群,低价值区域个体则以更高概率属于低SEL人群,评估得到的SEL与场景价值间存在较高一致性,验证了本文方法的有效性。同时,各典型场景的评估结果方差均较小,表明同一场景下不同样本及不同采样决策过程下的评估结果较稳定;核心商圈对应结果具有最大的方差,这可能是因为核心商圈为满足个体间的消费需求差异,包含多样化的消费场所,导致筛选出典型个体的SEL分布较广泛,评估结果略有波动。

3.3.2 典型个体分析

为进一步验证评估结果的合理性,本文将SEL评估结果与个体居住、购物、餐饮与娱乐4类活动的消费水平进行比较。从典型场景筛选出的93名个体中随机选取高SEL的4号与30号个体以及低SEL的76号与84号个体,通过安居客、58同城和房天下等平台,获取其居住活动常驻区域的房价或租金信息,分析居住活动消费水平;通过美团、大众点评、百度地图等平台,获取购物、餐饮与娱乐活动常驻区域的人均消费价格与词云信息,分析这3类活动的消费水平,结果如图13所示。
图13 4名典型个体的居住地房价、餐饮与娱乐人均消费及购物词云

Fig. 13 Residence prices, average consumptions on dining and entertainment, and shopping word clouds of the four selected individuals

由房价、词云与人均消费等信息可知,4号高SEL个体居住于高房价地区,其餐饮与娱乐活动重点区域具有较高的人均消费价格,主要购物地点为服装城与购物广场等区域;30号高SEL个体的居住活动区域房价较低,但其餐饮、购物与娱乐活动多位于深圳万象城附近,餐饮与娱乐人均消费高于4号个体,同时基于词云能够发现其购物活动区域内包含大量奢侈品专柜;76号和84号低SEL个体的居住活动均位于城中村附近,房价与租金较为低廉,其餐饮与娱乐消费显著低于4、30号个体,购物地点多为便利店、百货和超市等平价商超。因此,SEL评估结果与个体活动的消费水平间存在较高的一致性,居住于高房价地界或在高人均消费区域购物、餐饮与娱乐的个体具有较高的SEL评估结果。此外,可以发现,高SEL个体并非在所有活动上均体现出显著 的高消费特征,例如4号个体的购物活动较为廉价,可能为日常消费较为低调的中产或富豪;而30号个体的居住区域房价略低于2024年深圳市平均房价(57 136元/m2),但餐饮、娱乐及购物消费水平较高,不排除为月光族,说明仅通过单一消费行为来建模SEL存在一定片面性,需综合居住、购物、餐饮与娱乐四类活动对个体SEL进行全面评估。

4 讨论

为探究社会经济水平对出行活动的影响与社会经济水平评估在城市规划、商业决策及政策制定等领域中的潜在应用,本文以0.5为评估结果阈值划分相对高低SEL人群,分析两类人群在出行时间、空间和工作强度分布等活动模式上的差异。

4.1 出行时间分布差异

本文以停留点的停留开始时间作为出行活动时间,按分钟将此次出行归类至一天的1 440个时间槽内,并通过高斯核密度估计得到时间槽的概率密度函数,统计高低SEL人群在不同时间出行的概率密度分布,如图14所示。
图14 高低SEL群体间出行时间分布差异

Fig. 14 Temporal distribution differences in travel time among high SEL and low SEL groups

图14可知,高低SEL人群的出行时间分布差异显著(独立样本t检验,p<0.05)。首先,高SEL人群的清晨出行时间晚于低SEL人群,表明高SEL人群早起压力更小,其原因可能是高SEL人群往往具有更大的出行时间自由度,有更多的早晨居家时间。其次,高SEL人群在午后(12:00—19:00)的出行分布更加平滑,表明高SEL人群的午后出行更具有随机性,即出行更加灵活。此外,对比高低SEL人群的出行时间分布曲线能够发现: ① 二者均存在12:00与18:00处的波峰,但低SEL人群的波峰更明显,可能由于其餐饮与通勤活动易受到主客观上时间规定的影响;而高SEL的人能自由地选择餐饮与通勤时间,出行时间分布难以预测,分布更加平滑;② 高SEL群体的夜间(19:00—5:00)出行概率高于低SEL群体,表明其夜生活更加丰富。群体间出行时间分布差异与“高SEL人群清晨活动出现延迟,同时午后高峰更加平滑”的结论[18]一致,表明SEL差异对出行活动时间分布的影响具有普适性,城市居民的SEL分布能帮助交管部门预估各时段的交通流量,从而为交通管制提供参考。

4.2 出行空间分布差异

本文以停留点所处网格的中心经纬度为出行活动空间位置,对网格内高低SEL个体的访问频率进行求和作为网格权重,使用全局莫兰指数(Moran's I)计算空间聚集指标[43]并绘制热力图,如图15所示。
图15 高低SEL群体间出行空间分布差异

Fig. 15 Spatial distribution differences in travel patterns among high SEL and low SEL groups

经计算,高低SEL人群的全局莫兰指数分别为0.234与0.186,表明二者在空间上均呈聚集模式,且高SEL人群的聚集性更强。同时,低SEL人群较均匀地访问深圳市主要城区,而高SEL人群则集中访问南部中心城区。表明高SEL人群高聚集活动于城市中心繁华地带,其原因可能为高SEL人群有能力在繁华区域定居、工作与消费,完成主要社会活动,较少前往偏远地区。这呼应了“高SEL人群以昂贵的交通方式密集访问城市的小部分区域”的结论[19],表明SEL差异对出行活动空间分布的影响有共同的分异规律,可为商业公司的店铺选址与场地规划提供决策支持。

4.3 工作时间分布差异

本文进一步按照是否为工作日划分个体停留点集合,分别统计2部分中工作地停留点集合的停留次数占比与停留时间占比并绘制箱线图,如图16所示。结果表明,工作日内高低SEL群体在工作地的停留次数占比与停留时间占比均显著高于非工作日。同时,在工作日内,高低SEL人群的工作强度相似,而在非工作日内,低SEL人群承受着更强的加班压力。具体来说,低SEL人群的工作地停留时间占比上四分位数在工作日内为0.391,略高于高SEL人群的0.338;而在非工作日内为0.237,显著高于高SEL人群的0.136。劳动保障政策可依据不同SEL人群的劳动强度更好地安排劳动时间、加班补偿与节假日调休,并可根据劳动强度变化分析政策实施的合理性和有效性。
图16 高低SEL群体间工作时间分布差异

Fig. 16 Differences in working hours distribution among high SEL and low SEL groups

5 结论与展望

本文提出了一种基于轨迹活动语义挖掘的个体社会经济水平评估方法。该方法借助POI数据为个体停留点赋予出行语义上下文,并提取居住、购物、餐饮、娱乐、消费喜爱度和探索欲6类消费模式刻画消费能力与意愿,从人地交互视角建模个体社会经济水平。具体而言,通过区域繁华程度、建设完善度与高档性刻画区域经济水平以构建模式语义特征,基于结构方程模型筛选时空语义特征计算消费模式价值,使用极端随机森林决策出个体社会经济水平评估结果。该方法使用的数据源较易获取(例如手机信令数据、带GPS的可穿戴设备数据及车载定位系统数据),不受问卷调查等接触式收集手段的采样规模限制;此外,通过出行活动语义建模量化消费模式,提升了社会经济水平评估的可解释性。因此,本文方法可应用于个体教育、收入与职业等敏感数据获取受限的情况,具有适用性更强、观测人群范围更广的特点,并能为其他人口统计属性推断提供参考。
本文基于深圳市635名私家车司机2019年8个月的轨迹数据验证了方法的有效性。发现个体在消费意愿上满足正态分布,即大部分人具有相似的消费意愿,而在消费能力上呈偏态分布,同时社会经济水平低于0.5的个体占总个体的63%,即更多人属于低社会经济水平人群;此外,本文以0.5为社会经济水平评估结果阈值,划分高社会经济水平人群与低社会经济水平人群,可视化两者的出行活动,发现高社会经济水平人群的清晨出行存在延迟、午后出行分布更光滑、空间分布更聚集,同时工作强度与加班压力更小。上述规律可为城市交通规划与劳动保障政策制定提供参考。
本文使用的个体出行数据均来自私家车用户,未能覆盖无车人群,可考虑融合手机信令或穿戴设备数据等其他类型的众源轨迹数据,以提升数据样本的多样性。同时,本文通过典型场景验证评估方法的有效性,但典型场景代表的社会经济水平存在一定的不确定性,今后可考虑结合问卷调查、业务数据与社区经济指标等数据获取个体真实的社会经济水平标签,辅助评估模型构建与结果验证。此外,在高低社会经济水平人群的出行模式对比分析方面,本文以高低两类社会经济水平层级为例开展讨论,也可考虑划分为更多类别,从而细致地分析不同层级社会经济水平人群出行模式的共性与差异。同时,本文将个体夜间常驻位置作为居住地、工作日工作时间常驻网格作为工作地,但个体的出行及作息模式存在多样性,上述规则可能引入偏差,未来需结合居住地与职业提取[44-45]等改进对个体出行模式的分析。
本文图文责任编辑: 蒋树芳 黄光玉
[1]
Baumann S, Szabo M, Johnston J. Understanding the food preferences of people of low socioeconomic status[J]. Journal of Consumer Culture, 2019, 19(3):316-339. DOI: 10.1177/1469540517717780

[2]
吴梦, 洪途. 居民消费水平与通货膨胀[J]. 产业与科技论坛, 2020, 19(12): 77-78.

[ Wu M, Hong T. Residents' consumption level and inflation[J]. Industrial & Science Tribune, 2020, 19(12):77-78. ] DOI:10.3969/j.issn.1673-5641.2020.12.039

[3]
刘一明, 胡卓玮, 赵文吉, 等. 基于BP神经网络的区域贫困空间特征研究——以武陵山连片特困区为例[J]. 地球信息科学学报, 2015, 17(1):69-77.

DOI

[ Liu Y M, Hu Z W, Zhao W J, et al. Research on spatial characteristics of regional poverty based on BP neural network: A case study of Wuling Mountain Area[J]. Journal of Geo-Information Science, 2015, 17(1):69-77. ] DOI:10.3724/SP.J.1047.2015.00069

[4]
Wu H Y, Gui Z P, Yang Z L. Geospatial big data for urban planning and urban management[J]. Geo-spatial Information Science, 2020, 23(4):273-274. DOI:10.1080/10095020.2020.1854981

[5]
桂志鹏, 梅宇翱, 吴华意, 等. 顾及POI人口吸引力异质性的城市人口空间化方法[J]. 地球信息科学学报, 2022, 24(10):1883-1897.

DOI

[ Gui Z P, Mei Y A, Wu H Y, et al. Urban population spatialization by considering the heterogeneity on local resident attraction force of POIs[J]. Journal of Geo-Information Science, 2022, 24(10):1883-1897. ] DOI:10.12082/dqxxkx.2022.220384

[6]
Laaksonen M, Sarlio-Lähteenkorva S, Lahelma E. Multiple dimensions of socioeconomic position and obesity among employees: The Helsinki health study[J]. Obesity Research, 2004, 12(11):1851-1858. DOI:10.1038/oby.2004.230

PMID

[7]
何柳, 施小明, 胡永华. 地区社会经济水平与心血管疾病研究进展[J]. 中国公共卫生, 2014, 30(7):936-939.

[ He L, Shi X M, Hu Y H. Research progress of regional socio-economic level and cardiovascular disease[J]. Chinese Journal of Public Health, 2014, 30(7):936-939. ] DOI:10.11847/zgggws2014-30-07-27

[8]
González M C, Hidalgo C A, Barabási A L. Understanding individual human mobility patterns[J]. Nature, 2008, 453:779-782. DOI:10.1038/nature06958

[9]
Barbosa H, Barthelemy M, Ghoshal G, et al. Human mobility: Models and applications[J]. Physics Reports, 2018, 734:1-74. DOI:10.1016/j.physrep.2018.01.001

[10]
Oswald Y, Owen A, Steinberger J K. Large inequality in international and intranational energy footprints between income groups and across consumption categories[J]. Nature Energy, 2020, 5:231-239. DOI:10.1038/s41560-020-0579-8

[11]
Howe L D, Hargreaves J R, Ploubidis G B, et al. Subjective measures of socio-economic position and the wealth index: A comparative analysis[J]. Health Policy and Planning, 2011, 26(3):223-232. DOI:10.1093/heapol/czq043

PMID

[12]
Soto V, Frías-Martínez V, Virseda J, et al. Prediction of socioeconomic levels using cell phone records[C]// KonstanJA, ConejoR, MarzoJL, et al. International Conference on User Modeling, Adaptation, and Personalization. Berlin, Heidelberg: Springer, 2011:377-388.

[13]
么晓明, 丁世昌, 赵涛, 等. 大数据驱动的社会经济地位分析研究综述[J]. 计算机科学, 2022, 49(4):80-87.

DOI

[ Yao X M, Ding S C, Zhao T, et al. Big data-driven based socioeconomic status analysis: A survey[J]. Computer Science, 2022, 49(4):80-87. ] DOI:10.11896/jsjkx.211100014

[14]
Gao J, Zhang Y C, Zhou T. Computational socioeconomics[EB/OL]. 2019: arXiv:1905.06166.

[15]
关庆锋, 任书良, 姚尧, 等. 耦合手机信令数据和房价数据的城市不同经济水平人群行为活动模式研究[J]. 地球信息科学学报, 2020, 22(1):100-112.

DOI

[ Guan Q F, Ren S L, Yao Y, et al. Revealing the behavioral patterns of different socioeconomic groups in cities with mobile phone data and house price data[J]. Journal of Geo-Information Science, 2020, 22(1):100-112. ] DOI:10.12082/dqxxkx.2020.190406

[16]
Frías-Martínez V, Virseda-Jerez J, Frias-Martinez E. On the relation between socio-economic status and physical mobility[J]. Information Technology for Development, 2012, 18(2):91-106. DOI: 10.1080/02681102.2011.630312.

[17]
Pappalardo L, Pedreschi D, Smoreda Z, et al. Using big data to study the link between human mobility and socio-economic development[C]// 2015 IEEE International Conference on Big Data (Big Data). IEEE, 2015:871-878. DOI:10.1109/BigData.2015.7363835

[18]
Lotero L, Hurtado R G, Floría L M, et al. Rich do not rise early: Spatio-temporal patterns in the mobility networks of different socio-economic classes[J]. Royal Society Open Science, 2016, 3(10):150654. DOI:10.1098/rsos.150654

[19]
Lotero L, Cardillo A, Hurtado R, et al. Several multiplexes in the same city: The role of socioeconomic differences in urban mobility[J]. SSRN Electronic Journal, 2014. DOI:10.2139/ssrn.2507816

[20]
Carra G, Mulalic I, Fosgerau M, et al. Modelling the relation between income and commuting distance[J]. Journal of the Royal Society Interface, 2016, 13(119):20160306. DOI:10.1098/rsif.2016.0306

[21]
Toole J L, Lin Y R, Muehlegger E, et al. Tracking employment shocks using mobile phone data[J]. Journal of the Royal Society, Interface, 2015, 12(107):20150185. DOI: 10.1098/rsif.2015.0185

[22]
Blumenstock J, Cadamuro G, On R. Predicting poverty and wealth from mobile phone metadata[J]. Science, 2015, 350(6264):1073-1076. DOI:10.1126/science.aac4420

PMID

[23]
Zhang Z. Prediction of economic operation index based on support vector machine[J]. Mobile Information Systems, 2022,2022:1-11. DOI:10.1155/2022/3232271

[24]
Ding S, Huang H, Zhao T, et al. Estimating socioeconomic status via temporal-spatial mobility analysis - a case study of smart card data[M]. Valencia,Spain, 2019. DOI: 10.1109/ICCCN.2019.8847051

[25]
Rafiei M H, Adeli H. A novel machine learning model for estimation of sale prices of real estate units[J]. Journal of Construction Engineering and Management, 2016, 142(2): 04015066. DOI:10.1061/(asce)co.1943-7862.0001047

[26]
Yeh C, Perez A, Driscoll A, et al. Using publicly available satellite imagery and deep learning to understand economic well-being in Africa[J]. Nature Communications, 2020, 11(1):2583. DOI:10.1038/s41467-020-16185-w

PMID

[27]
Blei D, Ng A, Jordan M. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003,3:993-1022. DOI:10.5555/944919.944937

[28]
Hong L Z, Frias-Martinez E, Frias-Martinez V. Topic models to infer socio-economic maps[C]// Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. ACM, 2016:3835-3841. DOI:10.5555/3016387.3016444

[29]
Zhu Y D, Chen F, Li M, et al. Inferring the economic attributes of urban rail transit passengers based on individual mobility using multisource data[J]. Sustainability, 2018, 10(11):4178. DOI:10.3390/su10114178

[30]
Li D, Liu J M. Uncovering the relationship between point-of-interests-related human mobility and socioeconomic status[J]. Telematics and Informatics, 2019, 39(C):49-63. DOI:10.1016/j.tele.2019.01.001

[31]
初晨, 张恒才, 陆锋. 大型商场顾客消费行为轨迹推断[J]. 地球信息科学学报, 2022, 24(6):1034-1046.

DOI

[ Chu C, Zhang H C, Lu F. Inferring consumption behavior of customers in shopping malls from indoor trajectories[J]. Journal of Geo-Information Science, 2022, 24(6):1034-1046. ] DOI:10.12082/dqxxkx.2022.210690

[32]
Gui Z P, Sun Y Z, Yang L, et al. LSI-LSTM: An attention-aware LSTM for real-time driving destination prediction by considering location semantics and location importance of trajectory points[J]. Neurocomputing, 2021, 440:72-88. DOI:10.1016/j.neucom.2021.01.067

[33]
Xiao X Y, Zheng Y, Luo Q, et al. Inferring social ties between users with human location history[J]. Journal of Ambient Intelligence and Humanized Computing, 2014, 5(1):3-19. DOI:10.1007/s12652-012-0117-z

[34]
Huang W, Li S N. Understanding human activity patterns based on space-time-semantics[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 121:1-10. DOI: 10.1016/j.isprsjprs.2016.08.008

[35]
曹劲舟, 涂伟, 李清泉, 等. 基于大规模手机定位数据的群体活动时空特征分析[J]. 地球信息科学学报, 2017, 19(4):467-474.

DOI

[ Cao J Z, Tu W, Li Q Q, et al. Spatio-temporal analysis of aggregated human activities based on massive mobile phone tracking data[J]. Journal of Geo-Information Science, 2017, 19(4):467-467. ] DOI:10.3969/j.issn.1560-8999.2017.04.004

[36]
Li F, Gui Z P, Zhang Z Y, et al. A hierarchical temporal attention-based LSTM encoder-decoder model for individual mobility prediction[J]. Neurocomputing, 2020, 403:153-166. DOI:10.1016/j.neucom.2020.03.080

PMID

[37]
齐凌艳, 陈荣国, 温馨. 基于语义轨迹停留点的位置服务匹配与应用研究[J]. 地球信息科学学报, 2014, 16(5):720-726.

DOI

[ Qi L Y, Chen R G, Wen X. Research on the LBS matching based on stay point of the semantic trajectory[J]. Journal of Geo-Information Science, 2014, 16(5):720-726. ] DOI:10.3724/SP.J.1047.2014.00720

[38]
Kaplan D, Depaoli S. Structural equation modeling[J]. Handbook of Structural Equation Modeling, 2001:650-673. DOI:10.1016/B0-08-043076-7/00776-2

[39]
Geurts P, Ernst D, Wehenkel L. Extremely randomized trees[J]. Machine Learning, 2006, 63(1):3-42. DOI:10.1007/s10994-006-6226-1

[40]
Kline R. B. Principles and practice of structural equation modeling[M]. Guilford publications, 2023.

[41]
Hair J F. Multivariate data analysis: An overview[M]// International Encyclopedia of Statistical Science. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011:904-907. DOI:10.1007/978-3-642-04898-2_395

[42]
Marsh H, Balla J, McDonald R. Goodness-of-fit indexes in confirmatory factor analysis: The effect of sample size[J]. Psychological Bulletin, 1988,103:391-410. DOI:10.1037/0033-2909.103.3.391

[43]
姚可桢, 岳书平. 网络大数据下的中国现代食甜习惯空间分布特征及其影响因素研究[J]. 地球信息科学学报, 2020, 22(6):1202-1215.

DOI

[ Yao K Z, Yue S P. Study on spatial distribution of modern sweet diet and its impact factors in China based on big data from Internet[J]. Journal of Geo-information Science, 2020, 22(6):1202-1215. ] DOI:10.12082/dqxxkx.2020.190432

[44]
Lv M Q, Chen L, Xu Z X, et al. The discovery of personally semantic places based on trajectory data mining[J]. Neurocomputing, 2016, 173(P3):1142-1153. DOI:10.1016/j.neucom.2015.08.071

[45]
Chen C, Bian L, Ma J T. From traces to trajectories: How well can we guess activity locations from mobile phone traces?[J]. Transportation Research Part C: Emerging Technologies, 2014, 46:326-337. DOI:10.1016/j.trc.2014.07.001

文章导航

/