新时代地图的机遇与挑战

声音地图:元素解析与符号化方法研究

  • 吴明光 , 1, 2, 3 ,
  • 孙彦杰 , 1, 2, * ,
  • 路威 4 ,
  • 王静文 1, 2
展开
  • 1.南京师范大学地理科学学院,南京 210023
  • 2.南京师范大学虚拟地理环境教育部重点实验室,南京 210023
  • 3.江苏省地理信息资源开发与利用协同创新中心,南京 210023
  • 4.中国人民解放军陆军工程大学通信工程学院,南京 210001
* 孙彦杰(1996— ),男,湖北十堰人,博士生,主要从事地图可视化、空间分析等研究。 E-mail:

吴明光(1979— ),男,湖北武汉人,教授,主要从事空间数据模型、空间信息可视化、空间信息服务等研究。E-mail:

Copy editor: 蒋树芳

收稿日期: 2022-08-29

  修回日期: 2022-11-09

  网络出版日期: 2024-03-26

基金资助

国家自然科学基金项目(41971417)

国家自然科学基金项目(41571433)

Of Sound Maps: Methods of Element Analysis and Symbolization

  • WU Mingguang , 1, 2, 3 ,
  • SUN Yanjie , 1, 2, * ,
  • LU Wei 4 ,
  • WANG Jingwen 1, 2
Expand
  • 1. College of Geographic Sciences, Nanjing Normal University, Nanjing 210023, China
  • 2. Key Laboratory of Virtual Geographic Environment of Ministry of Education, Nanjing Normal University, Nanjing 210023, China
  • 3. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
  • 4. Institute of Communication Engineering, Army Engineering University of PLA, Nanjing 210001, China
* SUN Yanjie, Email:

Received date: 2022-08-29

  Revised date: 2022-11-09

  Online published: 2024-03-26

Supported by

National Natural Science Foundation of China(41971417)

National Natural Science Foundation of China(41571433)

摘要

声音地图在描述自然人文环境、记录历史文化、辅助城市规划等方面有着较大的应用潜力。当前的声音制图以噪音制图为主,对声音景观的关注不够,还存在声源数据获取成本高,听觉信息难以视觉表达等问题。针对上述问题,本文提出一种利用带位置标签的声音数据进行声音制图的方法。首先,综合声音景观理论和城市印象理论,梳理出声音地图的四类构成元素:声音标志、声音路径、声音区域和背景声音。然后引入深度学习、空间聚类等方法,设计了从带位置标签的声音数据中解析声音地图元素,提取声音类型、声压级、频率以及情感的技术方法。在此基础上引入联觉的概念,设计了声音标志点符号、声音路径线符号和声音区域面符号,给出了它们的多变量颜色编码方案。最后,以南京仙林大学城为例,对所提出的数据分析和符号化方法进行了实验验证,结果表明本文方法在有效性和效率均优于象形符号方法。本文所提出的方法有望丰富声音数据的分析手段、丰富声音的符号化方法。

本文引用格式

吴明光 , 孙彦杰 , 路威 , 王静文 . 声音地图:元素解析与符号化方法研究[J]. 地球信息科学学报, 2024 , 26(1) : 56 -71 . DOI: 10.12082/dqxxkx.2024.220640

Abstract

Sound maps have great potential for a series of application, such as describing natural and humanistic environments, recording history and culture, and assisting urban planning, etc. However, current sound maps are dominated by the topic of noise mapping, with insufficient attention to various sound landscapes. Sound maps should not only focus on the location and physical properties of sound, but also involve people's experience and emotion of the sound environment. They also suffer from high cost of acquiring sound source data and much difficulty of visualizing auditory attributes. To address those issues, this paper proposes a sound mapping method by using geo-tagged sound data. Firstly, we sort out four types of constituent elements of sound maps from the theory of sound landscape and the image of city: sound landmark, sound path, sound area, and background sound. Then, deep learning and spatial clustering methods are then introduced to parse sound map elements from geo-tagged sound data and extract sound attributes such as types, sound pressure levels, frequencies, and emotions. On this basis, the idea of synaesthesia and metaphor are introduced to design symbols of sound landmarks, sound paths, and sound areas. Multivariate color-coding schemes are also crafted to colorize those sound symbols. Finally, the proposed data analysis and symbolization methods are experimentally evaluated by using Nanjing Xianlin University Area as an example. And from the four tasks of listening matching, recognition, comparison, and distribution, the performance of the proposed method and the pictographic-based method is compared and evaluated. The results show that the proposed method outperforms the pictographic-based method in both effectiveness and efficiency. The method proposed in this paper is expected to enrich the means of sound data analysis and sound symbolization. In future studies, the method could be applied to the preservation of sound intangible cultural heritage and urban planning.

1 引言

1.1 声音地图理论

从物理学的角度来讲,声音是能够引起听觉感知的声波现象;从“人-地”关系的角度来看,声音则有多重含义:首先,声音是环境因子。燕语莺声、虫鸣蝉叫反映的是生物多样性。随着物质生活水平的日益提高,人们开始关注声、光、电磁等人居环境,轰鸣的汽笛、刺耳的电机声等是当前污染城市声音环境的主要因子。其次,声音是文化载体。街巷里抑扬顿挫的叫卖声、庙会上此起彼伏的吆喝声代表的是城市印象、历史记忆。“醉里吴音相媚好”- 方言与戏曲更是文化遗产、城市名片。再次,声音还是城市景观。音乐广场、声音喷泉等是现代城市设计的重要景观元素。《国家环境保护标准“十三五”发展规划》[1]明确指出要开展声景观设计研究。
声音地图属于“视-听”的有机融合[2-3],在描述自然人文环境[4]、记录历史文化[5]、辅助城市规划设计[6]等方面有着较大的应用潜力。Thulin[7]归纳了声音和地图的5种关系。① maps of sound:通过地图图形来呈现声音类型、属性、位置与空间分布等。② map into sound:把地图信息映射到听觉中,比如语音导航地图;还可以利用声音扩展地图的表达维度,比如链接了声音的地图符号。③ sound into map:把声音数据融合到地图中,例如,用声纳技术绘制海底地形图。④ sound as map:通过回声等来确定位置信息。⑤ maps of sound as interface,它可以视为第一、二种形式的组合,不仅用地图来表达声音,还利用声音来改进用户体验、扩展地图的表达维度。本文将地图视作探索空间(space)、体验地方(place)的工具,重点讨论Thulin的第一种声音地图:“大珠小珠落玉盘”,用图形来表达声音;同时兼顾Thulin的第5种声音地图:“蝉噪林逾静,鸟鸣山更幽”,用声音来强化地图的空间感和地方感。
声音制图理论引起了地理学、生态学、地图学等领域学者的广泛关注。芬兰地理学家Granö类比地理景观(Landscape)的概念,提出了声音景观(Soundscape)的概念[8]。加拿大作曲家Schafer[9]将声音景观定义为一个人或多人感知、体验和/或理解的声环境。2014年国际标准化组织将声音景观定义为特定场景下,个人、群体或者社区所感知、体验及(或)理解的声环境[10]。如何对声音进行图形表达也引起了广泛的讨论。Southwork[11]使用黑白图形来编码前景声音、背景声音,以及声音的强弱等。Krygier[12]总结出了位置、响度、音调、音域、音色、时长、变化速率、顺序、骤变等声音变量。Kornfeld[13]考虑声源类型、声压级、声音频率等特征,设计了一套点、线、面声音地图符号。Schiewe和Weninger[14]进一步完善了该设计框架,讨论声音变量的适用范围,并将其应用于噪音制图中。王静文[15]提出一种基于联觉理论的声音表达方式,并进行了认知实验。

1.2 典型声音地图

近年来,国内外出现了大量声音地图。从制图主题来看,噪音地图是当前应用最为广泛的一类声音地图;主要围绕噪音的声源、传播,以及声压级等属性进行可视化[16]。如图1(a)所示,Sun等[17]基于道路监控视频数据,采用对象识别、轨迹跟踪等技术,生成了高精度的南京道路噪音地图。除了噪音地图以外,部分声音地图开始涉及声音环境多样性。如图1(b)所示的伦敦声音调查地图[18],以网格的形式记录了自然、人文声音,可以通过网格对区域内的声音数据进行查询、对比与统计分析。从符号设计的角度来看,该地图上的符号主要描述了声源的视觉特征,没有考虑听觉特征。图1(c)所示的耶路撒冷声音地图[19]则考虑了声音的听觉特性,它以圈形涟漪符号来表达声源和声音的传播范围,通过颜色来区分声音类型,通过颜色的叠加来反映声音的混响。但是其制图区域比较小,声音类型也比较单一。如何获取大范围、高精度、多类型的声音数据是当前声音制图面临的一个棘手问题。近年来,具有位置标签的声音数据在社交媒体、网络社区中大量涌现,为绘制高精度声音地图提供了新的数据源。图1(d)所示的记录地球(Record the earth)声音地图[20],允许用户上传带有位置标签的声音文件,目前已经汇集了112个国家共7 000余条声音数据。该声音地图还可以以标签、词云、统计图表的方式来展示所汇集的声音数据;类似的声音地图还有如图1(e)所示的耳聆网声音地图[21],它记录了戏曲、武术、民族歌舞等具有我国民俗特点的声音。近年来,也有学者采用爬虫技术,从社交媒体上获取声音数据,如图1(f)所示的Chatty map声音地图[22]采用众筹的方式采集、绘制了街道级的城市声音。该地图将城市声音分为交通、自然、人类、音乐以及室内5种类型并以颜色加以区分。
图1 6个典型声音地图

Fig. 1 Six typical sound maps

1.3 问题分析

综合来看,如图2所示,声音地图是一个多学科交叉的领域。物理声学(Acoustics)主要关注声波的各类属性,如声强、声压、响度、频率等,研究声音的产生、传播、吸收、反射等;其对声音的可视化主要应用于场馆、舞台等的声效模拟。心理声学(Psychoacoustics)注重人对声音的生理与心理反应,如悠长、短促等声音体验,以及愉悦、悲伤等声音情感等;康定斯基等艺术家利用试听联觉特征,通过线条和颜色来呈现声音。地理信息科学则关注人与声音环境的关系,如声音景观、声音的空间分布等,较为常见的是城市噪音模拟。
图2 不同视角下的声音制图

Fig. 2 Sound mapping from different perspectives

声音地图不应该仅局限于噪声,而应该关注丰富的声音景观,以期实现对声音的趋利避害;除了图1(b)、(d)、(e)所示的记录声音数据的制图目的,声音地图还可以服务于声音环境评价。在此目的下,声音制图的重点不是描述声音的物理指标,而是要表达人对声音环境的听觉体验与情感。
针对这一需求,现有声音制图尚存在2个问题:① 声音景观的讨论缺少对声音地图元素的辨析;具有位置标签的城市声音数据日益丰富,却缺少声音景观元素的提取与分析方法。② 声音景观是听觉与情感的综合体,当前声音地图的表达形式比较单一,主要采用网格(图1(b))、词云与图表(图1(d))等方式来进行统计性展示,缺少听觉体验与情感的描述。虽然存在描述声音类型、情感的案例(图1(f)),但缺少对多元声音属性进行综合表达的方法。
针对上述问题,本文试图梳理声音制图的基本元素,探索声音特征的符号化方法,基于带有位置标签的城市声音数据,提出一种声音地图制图方法。

2 声音数据分析与符号化方法

不同于现有声音地图,本文方法不侧重对声源数据进行统计性描述,而是强调人对声音环境的认知与体验。本文综合默里·谢弗(Murray Schafer)的声音景观理论[9]和凯文·林奇(Kevin Lynch) 的城市印象理论[23]来梳理声音地图的构成元素。默里·谢弗的声音景观理论主要包括3个基本元素:soundmark(标志声)、signal(声信号)和keynote(基调声)。其中,声音标志的概念来源于地标(landmark)的概念,指独特的或被人们特别关注的声音,例如图1(c)中耶路撒冷地区源于教堂、清真寺的声音;声信号指被有意识地听到的、有一定显著度的声音,比如汽笛、鸟鸣等,可以理解为前景声音;基调声通常指被无意识听到的声音,比如餐厅里的喧哗声、海边风浪的声音等,可以理解为背景声音。这3类元素区分了人对声音的感知差异,但是缺少人对声音空间的体验。比如,沿着繁华的街道游走的时候,声音会“移步换景”;急速通过救护车会引起多普勒效应;声压级会随着距离而衰减,远离的声音标志会湮灭为背景声音;人在混杂的声音环境中会识别出主导声音信号,而主导声音还会抑制次要声音信号。
林奇将城市印象元素分为路径、边界、区域、节点、地标,其以人为表达尺度,采用人在环境中的第一视角,以人的活动(如游走、目视、进入等)为中心,提炼出了人对城市环境的体验特征。比如,路径针对的是可游走的、线性的人类活动空间,如沿线分布着各类景观的道路等;区域是中大尺度、可进入的环境单元,容易产生被区域内部元素环绕的沉浸感。节点和地标的区分在于人是否可以进入[23],本质上是人在环境中活动依赖不同的空间参考系统。认知科学的研究表明,人在地理空间中活动时会综合使用3种空间参考系统:① 全局空间参考系统,如我在城市中心;② 沿着线性地物游走时的惯性参考系统,如沿中央路前行500 m;③ 以自我为中心的局部参考系统,如超市在我右边[24]。灯塔、远山等,因距离过远而人在其外且不进入其中,可以作为相对的全局位置参考点,成为地标。广场等人可进入,则由全局参考系统或者惯性参考系统切换到局部参考系统,可以视作节点;节点发挥聚合、衔接、转换的认知作用。地标和节点之间可以互相转化,比如进入本来在远处的建筑,则地标变成了节点。
综合这2种理论,将声音地图分为为4类基本元素:声音标志、声音路径、声音区域和背景声音。考虑到声音的复杂性以及用户兴趣的多样性,本文不显式区分谢弗的soundmark与signal概念,统称为前景声音信号;借鉴林奇的地标、路径和区域的概念,将前景声音信号细分为声音标志、声音路径与声音区域:声音标志定义为声音属性上具有一定显著度,独立且固定位置上的声信号,如钟鼓楼的报时声;声音路径是沿着线性地理空间延展的声信号,如沿某一商业街分布的连续声音信号;声音区域代表可进入的区域范围内的整体声音信号分布,如建筑工地上的大范围的机械轰鸣声。背景声音对应于谢弗的基调声的概念,代表某一范围内无意识的声音存在,如夜晚的虫鸣鸟叫。
在声音地图概念元素梳理的基础上,设计了如图3所示的声音制图技术路线。首先,我们通过前背景分离、特征分析等方法,解析声音的类型、声压级和频率等物理属性。在声音属性分析的基础上,结合声音位置,解析出声音标志、声音路径、声音区域和背景声音4类元素。然后,引入联觉的概念,设计声音元素的符号化表达方法。下文将重点介绍其中声音属性分析、声音地图元素解析、符号化3个关键环节。
图3 声音地图制图技术路线

Fig. 3 Flowchart of sound mapping method

2.1 声音属性分析

声音属性分析主要包括:① 前背景分离; ② 属性提取。目前,基于神经网络的声音信号分离方法表现出良好的性能和适用性,比较典型的是Stoller等[25]提出的音频数据分离方法:Wave-U-Net。该方法在语义分割网络的基础上加入声音信号的多尺度时域特征分析,实现了声音信号的前景和背景分离,具有一定的通用性。因此本文采用Wave-U-Net进行声音前背景分离,然后再进行声音类型、声压级、声音频率以及声音情感等变量的提取。
(1)声音类型
采用Aiello[26]的声音层次分类体系,将声音分为2个等级,一级分类包括交通、自然、人类、机械和音乐5类,二级分类包含其中典型的类型,如交通类声音包含机动车和非机动车声音;自然包括风声、虫鸣、鸟鸣等;人类声包括谈话声、行走的脚步声等。
声音类型分析的方法主要可以分为2类:基于信号处理和基于机器学习[27]。基于信号处理的方法通过捕捉声音信号的变化规律来识别类型,比如过零率等。这些方法在特定场景下能够取得较好的声音分类结果,但是难以适用于混杂多变的声音场景。基于机器学习的方法不需要设计复杂的信息处理算法,高斯混合模型和支持向量机等方法已经表现出了较高的分类精度。近年来,深度神经网络开始成为声音分类的主要方法。考虑到构建大型声音样本费时费力,Aytar等[28]提出了Soundnet深度学习声音分类模型,该模型使用大量无标签的视频作为训练样本,利用迁移学习将视频的视觉判别知识转移到声音识别中,可以有效提高声音样本的训练效率。因此本文使用Soundnet模型进行声音类型提取。
(2)声压级和频率
声压级是对声音强度的度量,频率是指每秒的振动次数,它们均对声音的听觉感受有重要的影响。本文使用Picaut等[29]提出的NoiseCapture众包声音数据处理算法进行声音频率和声压级的提取。首先通过海宁(hann)窗口对原始音频数据进行分帧处理,然后进行傅里叶变换实现音频时域到频域的转换,得到反映不同频率下声音振幅的频谱图,选择振幅最大的频率作为该声音数据的频率。然后以3倍频程对声音数据进行频率采样,计算不同频段中心频率的声压级Li,如式(1)所示。
L i = 20 × l o g 10 a i / a r e f
式中:ai为第i个频段下的幅值;aref为标准声压强。最后计算声音信号的全局的等效A加权的声压级,如式(2)所示。
L g l o b a l = 10 × l o g 10 1 N i 10 0.1 × L i
式中:为最终的声音等效A加权声压级;N为采样的频段的数量。
(3)声音情感
Kallinen[30]证明人在聆听环境声音时会引起2种情感:感知情感和诱发情感。感知情感是指声音本身传达的情感,更加客观;诱发情感是声音使听众引起的情绪反应,更为主观。比如开心的音乐并不一定让听众产生开心的情绪。因此更关注声音客观的感知情感。现有的情感模型可以分连续情感模型和离散情感模型两种类型。连续情感模型使用二维或者三维连续空间表示情感状态,如情绪沙漏模型[31]。离散情绪模型则使用情感词进行情感分类,如Plutchik等[32]提出的情绪轮模型使用愤怒、恐惧、悲伤、厌恶、惊讶、幸福、信任和期望八种基本情绪进行情感描述。现有的情绪样本库和基于机器学习的情绪识别方法大多基于离散情绪模型。本文也采用离散情绪模型,将人对环境声音的情感反应粗分为愉悦、无感和烦扰3类。
本文使用循环卷积神经网络进行环境声音情感识别。循环神经网络是以序列数据为输入,包含大量重复神经网络模块,通过使用上下文信息可以很好的适应变长序列的数据分析。收集了600例不同区域的声音样本,对其情感类型进行人工标注,得到包含3类情感类型的声音情感样本集。对于输入的声音样本,首先提取样本声音的梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)作为特征值。MFCC模拟了人耳频率的非线性特征,可以反映人对声音的感知特性[33]。然后输入神经网络进行训练。由于引入了长短期记忆结构, Graves等[34]提出的深度循环神经网络(Deep Recurrent Neural Networks, Deep-RNN)增强了对音频上下文数据的记忆能力,具有良好的分类精度,因此本文使用该网络模型进行情感识别。

2.2 声音地图元素解析

本文将具有位置标签的声音数据分为固定点声音和声音轨迹2大类型,本文从固定点声音数据中解析出声音标志、声音区域和声音背景3类声音地图元素,从声音轨迹中提取声音路径元素。
(1)固定点声音
对于给定区域的固定点声音,首先通过前文所述的声音属性处理方法得到固定点的声音类型,然后,综合考虑声音点的空间分布特征、类型与属性特征,提取3类声音地图元素。如图4所示,声音标志可以看作区域内显著的、具有典型特征的点状声音,可以通过典型化操作来提取。采用窗口扫描的方法,逐点考察声音点位与周边点的位置、类型以及属性差异,通过异常值检测,提取与周边声源均有显著差异的点,将其归类为声音地标。声音区域代表同质的声音分布,可以通过聚合操作来提取。通过邻域分析,将一定距离范围内类型相同的声音点进行聚类,得到声音类型基本一致的面状声音区域;通过概化操作,对区域内的所有声音点进行综合统计,计算定性声音变量的各类占比以及定量声音变量的平均数值,将统计结果视作区域的声音背景,确定声音基调。
图4 声音标志和声音区域处理流程

Fig. 4 Processing flow of soundmark and sound area

(2)声音轨迹
声音轨迹是声音与移动轨迹同时记录的结果,多用来描述道路、水路附近的声音环境,也可能是在无通道情况下(如树林等)对声音环境的线性采样。轨迹数据往往会密集采样,但是城市尺度内声音类型的变化频率可以低于位置采样频率,导致声音轨迹上可能存在大量冗余。另外,由于卫星信号的原因,轨迹数据往往会出现偏移、跳跃等情况。因此,如图5所示,考虑有、无对应道路2种情况,通过匹配和抽稀操作来得到声音路径:在有对应道路的情况下,先将道路进行等间隔分割,然后计算轨迹点到分割路段的距离,将距离阈值内的轨迹点与路段节点进行最近邻匹配,对声音位置进行纠正,再对纠正后的声音点进行抽稀,得到声音路径。如果没有对应道路,则直接进行抽稀得到声音轨迹。
图5 声音路径处理流程

Fig. 5 Processing flow of sound path

2.3 声音符号化方法

不同于传统地图上的视觉地物,声音通过听觉被人所感知,需要统筹考虑声音的听觉感知和声音符号的视觉感知。另一方面,如前文所述,关注的声音地图不是以统计描述为主,而是强调声音的听觉与情感体验,涉及到多种物理、心理变量,比如声压级、频率、情感等。引入联觉的概念进行多变量声音地图符号设计。
声音标志点符号一般用来表示固定位置上具有一定显著性的声源,需要考虑是否存在多普勒效应、是否具有节奏感等特征。引入“视-听”联觉原理来进行声音标志点符号设计(图6)。生理学研究表明一种感官刺激能够带来另一种感官刺激,即大脑中2个感官刺激具有相互连通的关系,是一种较为常见的下意识生理现象[35]。康定斯基(Kandinsky)较早采用“视-听”联觉来进行绘画创作,如其作品《构图八号》[36]。实验证明音调和视觉形状具有联觉特征:音调高的声音与锐角对应,而音调低的声音与圆形或缓和的钝角对应[37]。除此之外,声音与视觉变量之间存在着广泛的联觉,比如:尺寸和声音响度[38]、亮度和响度[39]、颜色与声舒适度[40]、间隔与声音节奏[41]等。
图6 声音标志点符号设计示例

Fig. 6 Example of soundmark point symbol design

如前文所述,人往往处在地标的外部,声音标志一般具有距离感,因此,采用声波截面的圆形作为声音标志点符号的基本构成图元,采用中心-边缘扩散结构来表达声音的传播,结合上述“视-听”联觉规律,设计了一套具有一定系统性的声音标志点符号。同类声音符号由一组相似的图形特征派生得到细分声音类型的符号。如图6所示,对于交通类声音,机动车声一般产生于移动声源,具有多普勒效应,因此用一组具有移动感的圆形来表示;非机动车声与之类似,但速度更慢,声压级更小,因此采用一组外形更小且尺寸无差异的圆来表示。对于自然类的声音,采用一组大小不等的实心圆来表示鸟鸣声;采用数量更多,密度更大,颜色更深的实心圆来表示虫鸣。对于人类声音,用多个分离的圆形组合来表示人群谈话声,体现其分散性和聚集性同时存在的特征;用小而密集的椭圆来表示脚步声,体现其节奏感;对于机械类声音,建筑噪声往往频繁出现且不规律,采用多个粗细不一的圆环来表示;机器运行通常是规律的,具有特定节奏,因此采用等间隔、等粗细的圆环来表示。对于音乐类声音,用圆环表示声音的连续性,辅以大小不同、形状各异的形状表示音乐的韵律;轻音乐较为柔和,用圆形表示,电子音乐一般音调较高,用锐度较高的三角形表示。
声音路径线符号反映声音沿线状地物的延展与分布情况。需要表达声音的类型、属性及其变化。声音标志点符号中的扩散状圆形描绘了声音的传播,但是无法表达出声音的线性分布。本文设计了一种“音轨”符号来表达多变量的声音路径(图7)。“音轨”图形常用来描述声音属性随着时间的变化,本文将音轨图形的横轴定义为(线性)空间,解析出如图7(a)所示的间隔、尺寸(宽高)、形状、角度等视觉变量,结合前面分析的联觉规律,设计了一套声音路径线符号。对于声压级,我们运用“听觉上的声强-视觉上的大小”联觉,利用高度来表示;对于频率(音调),我们运用“听觉上的音调-视觉上的大小”联觉,利用宽度来表示;对于声音类型,我们采用形状来区分:相比较而言(并非绝对),车辆交通声离散、急促,采用堆叠的方块来表示;交谈的人声离散、平缓,采用堆叠的圆形来表示;流水自然声舒缓,采用波形来表示;机械声尖锐,采用三角波形;轻音乐声绵柔,采用纺锤波形;未分类或者分类不显著的声音则采用规则矩形。
图7 声音路径线符号设计示例

Fig. 7 Example of sound path line symbol design

声音区域面符号反映的是一定空间范围内声音的分布与基调。实际上,它可能包含声音标志、声音路径。因此,从构成上讲,我们采用与声音标志、声音路径符号一致的构成元素,以保持对声音概念理解的一致性。从表达尺度来看,声音区域面符号往往突出的是概览,而声音标志、声音路径符号反映的是细节;为避免与声音标志、声音路径符号表达内容冲突,本文不是将声音区域面符号定义为它可能包含的声音标志、声音路径符号的简单叠加,而是突出表达区域内声音的类型、基调等概览信息。我们通过填充纹理来进行表达。纹理包括填充图元、排列方式、粒度等视觉变量。如图8所示,采用类似点符号基本图元(局部简化)的填充图元来分别表示机动车、机械、鸟鸣、人群脚步、电子音乐声源区域;填充元素可以混合,用来反映区域声源的多样性。填充密度反映声音的多少;如果声源以自然为主的,采用随机排列,否则就采用规则排列。
图8 声音区域符号设计示例

Fig. 8 Example of sound area symbol design

在上述符号形状设计的基础上,采用双变量颜色编码同时表达声音情感和声压级。声音情感为定性描述,强调的是声音带来的喜怒哀乐体验,我们采用质别型配色,通过色相来区分声音情感:绿色代表愉悦,黄色表示无感,红色表示烦扰;声压级为级别型数据,我们用亮度和饱和度的渐变来表示声压级,颜色越深表示声压级越高。如图9所示,区分3个级别的声压级,得到一个3×3的双变量型颜色编码方案,其中声压级和声音情感类型均可以按需扩展。该声音符号可以直接用于背景声音、声音区域、声音地标的表达;如声音路径符号中已经采用了尺寸来表达声压级,则仅通过颜色来区分声音的情感类型。
图9 双变量声音符号颜色设计

Fig. 9 Bivariate color design of sound symbols

3 声音制图实验

3.1 数据收集与处理

本文以南京仙林大学城为实验区进行声音制图实验,研究区域如图10所示。该地区包括商业区、文教区、居民区等,还包括建筑工地、音乐喷泉等,声音类型丰富,具有一定的典型性。利用NoiseCapture手机软件采集了实验区2021年10月1日至7日期间的声音,获得固定点声音239个,声音轨迹37条,共计7 186个采样点。
图10 实验区概况

Fig. 10 Overview of the study area

3.2 结果展示与分析

采用本文第二章介绍的技术路线,对固定点声音、声音轨迹数据进行了声音属性分析,提取了4类声音地图元素。其中,对于声音类型,通过Soundnet模型进行上述二级声音类型识别,识别正确率为84%。识别过程中,尽管在声音数据分析时,我们进行了前背景声音分离,然而对于一些混杂声音,由于声音样本库类型覆盖不足,识别精度依然较差。对于声音情感,在本文所构建的样本集的基础上,通过深度循环神经网络进行情感识别,将情感分为愉悦、无感和烦扰3类,识别正确率为82%。然而考虑到情感的连续特征,本文采用的离散情绪模型在区分情感的细微差别和连续变化时还不够精确。本文使用了基于神经网络的声音属性分析方法,实现了端到端的声音属性的提取,降低了声音属性分析过程中特征提取的复杂度,为众包声音数据的分析提供了初步的方法,然而考虑到精确度和声音连续性等方面需求,后续还需设计面向混杂声音和连续情感模型的声音属性识别方法。
采用本文设计的声音符号对分析结果进行了符号化表达。整个研究区背景声音为混杂基调,因此采用灰色调背景(图11)。声音区域的符号化结果如图11(a)所示,可以看出该区域主要包括机动车、脚步声、鸟鸣声等。声音路径的符号化结果如图11(b)所示,整体来看,该区域道路附近的声音环境较为单一,主要以机动车、人群谈话为主,声音情感多为烦扰和无感。声音标志的符号化结果如图11(c)所示,可以看出,该区域的声音标志主要以机动车、人群谈话声为主,声音情感多为烦扰和无感。
图11 试验区声音区域、声音路径和声音标志符号化结果

Fig. 11 Symbolization results of sound area, sound path and sound mark in the study area

声音环境综合符号化的结果如图12所示。整体来看,3个子区的声音环境与道路、绿地、居民点等地物均高度相关,但也存在局部差异,表明声音环境是自然、人文相互作用的结果。区域a为教学区,声音类型以交通声音为主,声音情绪以无感为主,区域b为生活区,声音类型以人群声音为主,声音情绪以无感为主,区域c为休闲区,以人群声音为主,声音情绪以烦扰为主。可以看出该区域的声音环境并不理想,整体声音环境对人的情绪影响是负面的。该地区有文教单位,其声音环境不利于学习和科研,该地区还分布了众多居民区,却包含了众多的令人烦扰的交通声。
图12 3个试验子区声音综合制图结果

Fig. 12 Compound sound mapping results of the three sub areas

3.3 符号可用性实验

通过用户评价实验对比本文提出的基于视听联觉的声音点符号与象形点符号进行可用性对比分析。本文参考文献[13]中的象形声音符号,设计了一组象形声音符号(图13(b)),将其与本文设计的基于视听联觉的声音点符号进行可用性对比实验,2组符号采用同样的配色方案。
图13 联觉声音点符号和象形声音点符号对比

Fig. 13 Comparison of synesthetic and pictographic sound point symbols

读图任务包括4种类型:听音匹配、识别、比较和分布。在听音匹配任务中,图例中不包含对声音类型视觉符号的语义提示,每道题框选出地图中的3个区域,并给出3段音频,实验参与者需要将音频匹配到地图的3个区域上,以考察声音符号和声音听觉感受之际的对应性。每道题的音频选择条件是:3处音频数据至少能在一个声音属性上做明显区分,在表中用较大的黑色圆形表示,较小的圆形则表示题目涉及到的声音属性。对于识别型任务,题目考察了对4种声音属性的值的识别。对于比较型任务,主要是针对声压级和频率的单变量任务。对于分布型任务,从4种声音参数视角下判断声音的空间分布特征。读图任务设计详见表1
表1 声音点符号读图任务设计

Tab. 1 Reading task of sound point symbol map

序号 任务类型 声音属性
声压级 频率 声音类型 声舒适度
1 听音匹配
2 听音匹配
3 听音匹配
4 听音匹配
5 听音匹配
6 识别 - - -
7 识别 - - -
8 识别 - - -
9 识别 - -
10 识别 - -
11 比较 - - -
12 比较 - - -
13 比较 - - -
14 比较 - - -
15 比较 -
16 分布 - - -
17 分布 - - -
18 分布 - - -
19 分布 - - -
20 分布 -

注:•表示该声音属性只有一种类型,●表示该声音属性存在多种类型,-表示不考虑该声音属性。

本实验共计邀请70实验参与者,其中男性33人,女性37人,无色盲、色弱人员,均为南京师范大学地理科学学院的本科生、硕士生或博士生,年龄分布为19~29岁。每位实验人员在相同的实验环境下进行读图实验,室内光线充足,屏幕亮度适中可清晰呈现屏幕信息,室内无干扰性噪音。
读图任务完成时长的统计结果(表2)表明基于联觉的声音点符号可视化方案具有更高的读图效率, 4个统计结果中的3个具有统计学意义(p值< 0.05)。
表2 读图任务完成时长的独立样本t检验

Tab. 2 Independent sample t test of completion time of the reading task

任务类型 联觉点符号/s 象形点符号/s 差值 t 自由度 p
平均值 标准差 平均值 标准差
听音匹配 141.09 14.15 151.31 17.19 -10.23 -2.72 68 0.008*
识别 49.77 5.62 51.49 6.96 -1.71 -1.13 68 0.261
比较 77.14 6.36 80.57 6.60 -3.43 -2.21 68 0.030*
分布 65.17 6.55 68.66 5.63 -3.49 -2.39 68 0.020*

注:*表示p值<0.05。

听音匹配任务涉及到3个推理过程:对音频信息的听觉解译;对地图符号的视觉解译;视觉解译结果和听觉解译结果的匹配。对于第一个过程, 2种方案是没有差异,但是在地图符号的视觉解译过程中,联觉点符号的解译是人体的下意识反映,非主动的推理过程,而象形符号的解译需要经验联想,是更复杂的心理过程,因此,后者需要花费更多的时间。在将视觉解译结果和听觉解译结果的匹配过程中,由于声音符号没有在图例中做语义解释,需要用户自行建立起音频和视觉符号之间的联系。联觉点符号视觉解译的结果是某种发声体的听觉变量的值,而对象形点符号的视觉解译结果是某种发声体的视觉形象。前者的匹配对象是发声体的听觉变量的值和音频信息,属于听觉模态信息的对比,后者的匹配对象是发声体的视觉形象和音频信息,属于跨模态信息的对比,耗时更长。
另外,基于联觉的点符号在比较性和分布型任务中也更具优势,实验参与者花费更少的时间完成相同的任务。可能原因在于,尽管对于联觉点符号和象形点符号都对声音类型做了视觉编码,但基于联觉的点符号是先将声音现象拆解成多个听觉变量,再对听觉变量进行视觉编码,而象形点符号是对发声体的视觉编码。
针对每种任务类型中的5道题,统计每个人的答题正确个数(1、2、3、4或5题,因为每个人都至少对1题,因此,对于正确个数等于0的情况不讨论),统计每种正确个数占总人数(35人)的比例,如图14所示,统计结果表明在听音匹配型和分布型读图任务中,联觉点符号方案组的正确率明显高于象形点符号方案组,整体正确率更高。在识别型和比较型读图任务中,实验参与者在2种可视化方案中的读图正确率整体差异不明显。和读图效率中产生差异的原因类似,联觉点符号的解译结果是听觉变量的值,可以直接与音频信息进行匹配。而象形点符号的解译结果是间接的,涉及到发声体视觉形象到发声体所发出的声音的联想过程,再将声音与音频信息做匹配,更多的信息推导过程会带来更高的出错可能性。
图14 读图任务正确率统计

Fig. 14 Accuracy statistics of the reading task

以上读图效率和正确率的综合实验结果表明:相对于形象声音符号而言,本文设计的符号由于引入了试听联觉机制,能够加快声音信息的匹配和识别,具有较高的可用性。另外,需要特别指出的是,本节的符号可用性测试中,测试底图不包含点状POI地物目标。实际上,底图上的POI符号会干扰前景声音符号的阅读。本文所设计的声音符号在形态上与常见的图形符号由较大差别,当与POI符号叠加时,容易区分出声音和POI地物。而图13(d)所示的象形声音符号则容易与POI符号产生混淆,降低声音信息解读的效率。

4 结论

声音地图涉及到物理声学、心理声学、地理信息科学,不仅要关注声音的位置和物理属性,还需要关注人对声音环境的体验与情感。本文探索了一种利用具有位置标签的声音数据进行声音制图的方法,主要贡献包括:① 综合声音景观理论和城市印象理论,梳理出声音地图的4类构成元素:声音标志、声音路径、声音区域和背景声音;组合使用深度学习、空间分析等技术,探索了从具有位置标签信息的声音数据中解析上述4类元素,提取声音类型、声压级、频率、情感等属性的技术方法。② 针对当前声音地图的表达形式比较单一、缺少对多元声音属性进行综合表达的方法的问题,结合联觉概念,设计了一组多变量声音符号,给出了声音颜色双变量表示方法。③ 采用所提出的理论和方法,结合典型试验区进行了声音制图实验,基于所实现的声音地图,进行了声音环境分析。设计了与象形符号的认知对比实验,表明本文提出的符号设计方法具有一定的认知优势。
本文所提出的方法有望扩展声音数据的分析手段、丰富声音的符号化方法,但是,从3.2章节的实验结果来看,声音的前背景分离、声音情绪提取等算法尚存在精度不高的问题。后续将继续关注声学、计算机科学等领域的研究成果,进一步完善从具有位置标签信息的声音数据中提取4类声音元素的技术路线,以制作高精度、高可用性的声音地图。也还需要对所设计的声音符号化方法进行更为全面的认知实验,分析其有效性与局限性,以期更好的服务于声环境的趋利避害,以及应用于声音的非物质文化遗产保护与城市规划。
[1]
环境保护部. 国家环境保护标准“十三五”发展规划[EB/OL]. https://www.mee.gov.cn/gkml/hbb/bwj/201704/W020220718355235681071.pdf,2021-07-01.

[Ministry of Environmental Protection. National 13th Five-Year Plan for Standards for the Environmental Protection[EB/OL]. https://www.mee.gov.cn/gkml/hbb/bwj/201704/W020220718355235681071.pdf,2021-07-01.]

[2]
郭仁忠, 陈业滨, 马丁, 等. 论ICT时代的泛地图表达[J]. 测绘学报, 2022, 51(7):1108-1113.

DOI

[Guo R Z, Chen Y B, Ma D, et al. Pan-map representation in ICT era[J]. Acta Geodaetica et Cartographica Sinica, 2022, 51(7):1108-1113.] DOI:10.11947/j.AGCS.2022.20220140

[3]
杜清运, 邬国锋, 蔡忠亮. 多媒体电子地图集中超媒体结构的语言学机制[J]. 武汉测绘科技大学学报, 2000, 25(1):18-24.

[Du Q Y, Wu G F, Cai Z L. Linguistic mechanism of hypermedia structure in multimedia electronic atlas[J]. Journal of Wuhan Technical University of Surveying and Mapping (Wtusm), 2000, 25(1):18-24.] DOI:10.13203/j.whugis2000.01.004

[4]
郑束蕾, 陈毓芬. 《福建省生态环境多媒体电子地图集》的设计[J]. 测绘科学, 2005, 30(4):103-105,8.

[Zheng S L, Chen Y F. The application of multimedia technology in electronic atlas[J]. Science of Surveying and Mapping, 2005, 30(4):103-105,8.] DOI:10.3771/j.issn.1009-2307.2005.04.033

[5]
苏世亮, 张江玥, 杜清运, 等. 历史文化风貌区叙事地图设计——可读性框架与表达策略[J]. 测绘科学, 2021, 46(10):194-201.

[Su S L, Zhang J Y, Du Q Y, et al. Narrative map design for the areas with historical cultural features—Readable framework and visualization strategy[J]. Science of Surveying and Mapping, 2021, 46(10):194-201.] DOI:10.16251/j.cnki.1009-2307.2021.10.025

[6]
杜清运, 任福, 侯宛玥, 等. 大数据时代综合性城市地图集设计的思考[J]. 测绘地理信息, 2021, 46(1):16-20,3.

[Du Q Y, Ren F, Hou W Y, et al. Thoughts on the design of comprehensive city atlas in the era of big data[J]. Journal of Geomatics, 2021, 46(1):16-20,3.] DOI:10.14188/j.2095-6045.2020612

[7]
Thulin S. Sound maps matter: Expanding cartophony[J]. Social & Cultural Geography, 2018, 19(2):192-210. DOI:10.1080/14649365.2016.1266028

[8]
van Cleef E, Grano J G. Reine geographie: Eine methodologische studie beleuchtet mit beispielen aus finnland und estland[J]. Geographical Review, 1930, 20(1):171.

DOI

[9]
Schafer R M. The tuning of the world[M]. New York: Knopf, 1977.

[10]
Acoustics - Soundscape - Part 1: Definition and conceptual framework: ISO 12913-1:2014[S]. International Organization for Standardization [ISO], 2014.

[11]
Southworth M. The sonic environment of cities[J]. Environment and Behavior, 1969, 1(1):49-70. DOI:10.1177/001391656900100104

[12]
Krygier J B. Sound and geographic visualization[M]// Visualization in Modern Cartography. Amsterdam: Elsevier, 1994:149-166. DOI:10.1016/b978-0-08-042415-6.50015-6

[13]
Kornfeld A L, Schiewe J, Dykes J. Audio cartography: visual encoding of acoustic parameters[M]//Lecture Notes in Geoinformation and Cartography. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011:13-31. DOI:10.1007/978-3-642-19143-5_2

[14]
Schiewe J, Weninger B. Visual encoding of acoustic parameters - framework and application to noise mapping[J]. The Cartographic Journal, 2013, 50(4):332-344. DOI:10.1179/1743277412y.0000000026

[15]
王静文. 声景制图的符号化方法研究[D]. 南京: 南京师范大学, 2022.

[Wang J W. Research on Cartographic Symbolization of Soundscape[D]. Nanjing: Nanjing Normal University, 2022.]

[16]
付乐宜, 艾廷华, 黄丽娜, 等. 基于交通轨迹数据的三维动态噪声地图[J]. 地球信息科学学报, 2020, 22(9):1789-1798.

DOI

[Fu L Y, Ai T H, Huang L N, et al. Three-dimensional dynamic noise map based on traffic trajectory data[J]. Journal of Geo-information Science, 2020, 22(9):1789-1798.] DOI:10.12082/dqxxkx.2020.200140

[17]
Sun Y J, Wu M G, Liu X Y, et al. High-precision dynamic traffic noise mapping based on road surveillance video[J]. ISPRS International Journal of Geo-Information, 2022, 11(8):441. DOI:10.3390/ijgi11080441

[18]
Rawes I M. The London Sound Survey[EB/OL]. https://www.soundsurvey.org.uk/index.php/survey/soundmaps, 2021-07-01

[19]
Levit R. Jerusalem Sound Map[EB/OL]. https://visual.ly/community/Infographics/politics/jerusalem-sound-map, 2021-07-01.

[20]
Pijanowski B. Record the earth[EB/OL]. https://www.recordtheearth.org/explore.php, 2021-07-01.

[21]
耳聆网. 耳聆网声音地图[EB/OL]. 2021-07-01.

[Ear0. Sound map of Ear0[EB/OL]. 2021-07-01.]

[22]
Goodcitylife. Chatty Maps[EB/OL]. http://goodcitylife.org/chattymaps, 2021-07-01.

[23]
Lynch K. The Image of the City[M]. Cambridge, Massachusetts: MIT Press, 1964.

[24]
Waller D A, Nadel L. Handbook of Spatial Cognition[M]. 1st ed.ed. WashingtonD. C: American Psychological Association, 2013.

[25]
Stoller D, Ewert S, Dixon S. Wave-U-net: A multi-scale neural network for end-to-end audio source separation[EB/OL]. 2018: arXiv: 1806.03185. https://arxiv.org/abs/1806.03185

[26]
Aiello L M, Schifanella R, Quercia D, et al. Chatty maps: Constructing sound maps of urban areas from social media data[J]. Royal Society Open Science, 2016, 3(3):150690. DOI:10.1098/rsos.150690

[27]
Sharan R V, Moir T J. An overview of applications and advancements in automatic sound recognition[J]. Neurocomputing, 2016, 200:22-34. DOI:10.1016/j.neucom.2016.03.020

[28]
Aytar Y, Vondrick C, Torralba A. SoundNet: Learning sound representations from unlabeled video[EB/OL]. 2016: arXiv: 1610.09001. https://arxiv.org/abs/1610.09001

[29]
Picaut J, Fortin N, Bocher E, et al. An open-science crowdsourcing approach for producing community noise maps using smartphones[J]. Building and Environment, 2019, 148:20-33. DOI:10.1016/j.buildenv.2018.10.049

[30]
Kallinen K, Ravaja N. Emotion perceived and emotion felt: Same and different[J]. Musicae Scientiae, 2006, 10(2):191-213. DOI:10.1177/102986490601000203

[31]
Cambria E, Livingstone A, Hussain A. The hourglass of emotions[M]//Cognitive Behavioural Systems. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012:144-157. DOI:10.1007/978-3-642-34584-5_11

[32]
Plutchik R, Kellerman H. Emotion, Theory, Research, and Experience: Theories of emotion[M]. Cambridge, Massachusetts: Academic Press, 1980.

[33]
Logan B. Mel frequency cepstral coefficients for music modeling[C]// Proceedings of the International Symposium on MusicInformation Retrieval. 2000:1-11.

[34]
Graves A, Mohamed A R, Hinton G. Speech recognition with deep recurrent neural networks[C]// 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. 2013: 6645-6649. DOI:10.1109/ICASSP.2013.6638947

[35]
Cytowic R E. Synesthesia and mapping of subjective sensory dimensions[J]. Neurology, 1989, 39(6):849-850. DOI:10.1212/wnl.39.6.849

PMID

[36]
Kandinsky V. Composition 8[EB/OL]. https://www.guggenheim.org/artwork/1924, 2023-06-08.

[37]
俄)康定斯基著.余敏玲译. 点线面[M]. 重庆: 重庆大学出版社,2011:165.

[Kandinsky.Translated by YuM L. Point and line to plane[M]. Chongqing: Chongqing University Press, 2011: 165.]

[38]
Smith L B, Sera M D. A developmental analysis of the polar structure of dimensions[J]. Cognitive Psychology, 1992, 24(1):99-142. DOI:10.1016/0010-0285(92)90004-L

PMID

[39]
Marks L E. Bright sneezes and dark coughs, loud sunlight and soft moonlight[J]. Journal of Experimental Psychology Human Perception and Performance, 1982, 8(2):177-193. DOI:10.1037/0096-1523.8.2.177

[40]
Kaya N, Epps H. Relationship between color and emotion: A study of college students[J]. College Student Journal, 2004,38:396.

[41]
Benadon F. A circular plot for rhythm visualization and analysis[J]. Music Theory Online, 2007, 13(3):1-5. DOI:10.30535/mto.13.3.1

文章导航

/