A Method for Multi-Person Motion Capture based on Multi-Mode in Virtual Geographic Environments

  • YI Chao , 1 ,
  • CHEN Bin , 1, * ,
  • YUAN Shuai 1, 2 ,
  • XU Bingli 3
Expand
  • 1. Institute of Remote Sensing and GIS, Peking University, Beijing 100871, China
  • 2. China Fire and Rescue Institute, Beijing 102202, China
  • 3. Academy of Armored Force Engineering, Beijing 100072, China
*Corresponding author: CHEN Bin, E-mail:

Received date: 2018-09-10

  Request revised date: 2018-12-31

  Online published: 2019-03-15

Supported by

Pre-research Project of Equipment Development Department, No.315050501

National Natural Science Foundation of China, No.41771442, 41271402.

Copyright

《地球信息科学学报》编辑部 所有

Abstract

As the next generation of geographic language, virtual geographic environments (VGE) play an important role in understanding and exploring geographic phenomenon and in discovering associations between geographic phenomena. The development of virtual reality (VR) technology has enhanced VGE, as it provides users with a more immersive experience. However, this new technology carries problems within the human-computer interaction because the traditional methods of interaction (such as a mouse and keyboard) are no longer deemed as efficient. Greater efficiency and natural interaction is critical to the accessibility of VGE systems which rely heavily on VR technology and the efficiency of understanding and exploring geographic phenomenon. In order to interact with VGE systems more efficiently and naturally, users are required to rely less on the traditional input devices and turn to more advanced motion capture technology. This technology can provide the VGE system with more detailed information about the users. It is indisputable that motion capture technology is more advantageous than traditional input technology in many aspects. However, there are some issues with motion capture technology when applied to a VGE system, which usually has several people using the system at the same time and conversing with each other. The problems that have arisen include occlusion (caused by other people blocking the signal), positioning drift, and limited capture accuracy. In general, existing motion capture devices have failed to solve these issues because they are based on the single mode which has some limitations. Motion capture devices usually capture the actions of only a single person; therefore it cannot satisfy the demands of VGE systems. To overcome this device limitation when applied in VGE, interaction requirements within the VGE system and its special motion capture requirements were analyzed in this study. A method was proposed based on using multi-mode to enable the capture of multi-person motion. The method used in this paper has a focus on how to merge motion data from several devices in different modes, for example merging devices based on inertial positioning technology with those based on optical location tracking technology. By doing this, it is possible to solve the current issues through integrating the advantages of devices in various motion capture modes. The motion capture framework is deliberately designed to make the motion capture system more accessible, providing opportunity to develop related technologies that can merge the various real-time data streams. Through this method, significant improvements were obtained in most aspects of motion capture and a prototype system was then developed to verify the viability and efficiency of this method.

Cite this article

YI Chao , CHEN Bin , YUAN Shuai , XU Bingli . A Method for Multi-Person Motion Capture based on Multi-Mode in Virtual Geographic Environments[J]. Journal of Geo-information Science, 2019 , 21(3) : 305 -314 . DOI: 10.12082/dqxxkx.2019.180460

1 引言

虚拟地理环境是一类以地理特征、地理规律为本源,以地理感知、地理分析为目的,利用网络、计算机、虚拟现实等技术构建的开放式地理环境及空间[1]。虚拟地理环境包括人类社会在虚拟空间中的化身以及虚拟环境组成,它包含实境和虚境2个层面。实境层面包括因特网、内部网、计算机、设备、数据、图形等实体或符号;虚境层面则包括基于文本、音像、图形、图像等媒介,通过交互、感知认知和想象在人脑中形成的虚拟世界以及在虚拟世界中主体与主体互动形成的虚拟社会世界[2]。在虚拟地理环境中,用户可以沉浸式的感知地理现象,利用定量方法对动态地理过程进行模拟、对地理规律进行总结,以协同交互的方式开展地理实验,从而认识世界、设计世界乃至改造世界[2,3,4,5]
在虚拟地理环境中,虚拟交互技术作为其不可缺少的一部分,对虚拟地理环境系统的可用性以及效率起到很重要的作用[3,6]。近年来,计算机软硬件技术以及动作捕捉技术的进步给虚拟交互赋予了新的形式。虚拟地理环境中的交互不再局限于通过传统的鼠标、键盘、手柄、数据手套等,而趋向于如使用手势、身体动作等进行更自然的交互。传统动作捕捉技术通过在一定空间范围内对特殊标记点的跟踪来记录捕捉对象运动信息,然后将其换算为可使用数学方式进行表达的运动的过程。其原理是测量、跟踪、记录物体或标记点的空间坐标与轨迹,数据经过处理后,驱动虚拟角色运动[7]。而当前新的动作捕捉技术,基于深度学习方法,可从多个实时的视频流中定位用户各个关节点的位置,使用双目视觉原理重构出用户在三维空间中的实时位置,从而实现对用户动作的捕捉。
在将动作捕捉技术应用到虚拟地理环境系统中,实现更为自然的交互上已有一些尝试和探索。例如,在基于三维动作捕捉技术的虚拟消防模拟训练系统中,通过在消防员的各个关节上固定由特殊反光材质制成的标记点,由两台或两台以上的摄像机进行实时视频捕捉,获得标记点随着时间变化的连续运动轨迹对消防员的动作进行捕捉[8]。李小杰等[9]探讨了将手势识别技术应用到虚拟地理环境中,并得出结论将手势识别技术用于虚拟地理环境会使VGE成为更适于表达地理信息、表示地理现象和过程的地理学语言。杨俊超等[10]设计了一种基于动作捕捉技术的航空装备虚拟维修训练系统。该系统由动作捕捉系统、虚拟人软件、场景及装备维修模型、立体投影以及数据手套等模块组成,具备航空维修流程、拆卸装配、故障分析与排除等虚拟训练功能。张瑒等[11]提出了一种基于RGB-D与惯性测量单元数据融合的动作捕捉系统,并在虚拟现实原型系统中对此方法进行了检验。而在动作捕捉技术的研究和探索上,周飞[12]介绍了动作捕捉技术的诞生源头和背景,以及动作捕捉技术在当今的用途以及未来多个领域(影视、动画、游戏、医疗、乃至军事训练等)的应用。Sigal等[13]搜集了用于训练和评估动作捕捉模型的数据集并提出了评价指标,使比较不同动作捕捉模型的性能成为可能,从而推动了动作捕捉技术的进步。Hwang等[14]提出了一个包含14个常态姿态、10个异常姿态和30个命令姿态的全身姿态数据库,该数据库对二维和三维人体姿态的研究和应用具有很大帮助。Evans等[15]采用一套电磁捕捉系统对高尔夫球员的相关动作进行了多项测试实验与分析。
虽然目前关于在虚拟地理环境系统中使用动作捕捉技术的研究已经取得一些进展,但是这些研究大多局限于探讨基于单种模式捕捉单个人的动作。例如,基于惯性动作捕捉原理、计算机视觉原理、基于光学测量原理等中的一种原理,基于2种原理的研究不多。关于动作捕捉技术的研究主要专注于对基于单种模式的动作捕捉算法进行优化,很少考虑将多种不同的原理结合,对技术及系统进行优化。
在多人动作捕捉方面也基本只从单模式入手,相较于通过单模式捕捉单人动作,通过单模式捕捉多人动作捕捉难度增加了很多。例如,通过计算机视觉的方式对多人动作捕捉时,随着多个人位置不断变化,不可避免地产生遮挡以及错误地识别人体骨骼,从而出现动作误判的情形。典型的产品代表如Kinect,虽然采用了深度摄像头,可以获得比正常摄像头更高维度的信息,但这些遮挡导致的误判问题仍然存在且较为严重;基于惯性设备捕捉动作时,由于惯性设备误差随着时间不断累积,定位易出现漂移,多人在场时不同人之间的位置关系受到极大的影响。典型的产品为Foheart,而多人的相对位置对于多人动作的含义判断至关重要,因此多人动作捕捉效果不佳。
基于lighthouse激光定位的动作捕捉由于通常只捕捉少数点的位置(头部和双手),无法得到细节的动作信息,典型产品代表为HTC vive,在系统中通常使用动画补充丢失的动作细节,导致用户沉浸感受到影响,因此不适合在多人动作捕捉应用场景中单独使用。而在虚拟地理环境的应用场景中,往往需要多个人在同一个空间中同时进入虚拟地理环境系统研究地理现象及其规律,例如在用于地理研究的虚拟地球系统中,多个用户同时进入系统可看到同一个虚拟的地球,并且需要做出一系列动作与虚拟地球以及和其他用户交互,为了使得用户体验更真实,更贴近现实世界面对面的交流,用户之间需要能互相看见,并且用户的虚拟化身需要实时响应用户的动作,即用户化身需要实时反应用户的姿态。因此,虚拟地理环境的交互对多个人的动作捕捉提出了需求,目前的单人动作捕捉技术在一定程度上限制了虚拟地理环境的应用,而基于单模式的多人动作捕捉技术的捕捉精度较低,难以实现真实、自然的交互。
通过综合多种模式的动作捕捉设备的数据,如使用lighthouse定位数据确定每个用户的绝对空间位置,而使用惯性设备捕捉用户的更为详细的关节点数据,惯性设备的误差累积引起的位置漂移问题可以得到缓解,至少每个用户之间的相对位置是准确的,多人动作捕捉受到的影响更小了。而加入基于计算机视觉的设备,其数据虽易受到遮挡的影响,但受遮挡影响最为严重的部位通常是手、胳膊等较为细小的部位,人体整体躯干不容易被完全遮挡且即使部分遮挡,主要躯干位置算法可准确推测,因此可使用惯性设备捕捉到的较小部位数据替代被遮挡的数据,而主要躯干的数据使用计算机视觉设备的数据,遮挡对动作捕捉的影响更小了。通常只要新加入的基于某种模式的设备具有自身独特的优点,最终实现的综合效果将更好。而基于单种模式的单人和多人动作捕捉,虽然算法可以进一步优化,但优化空间单种模式下信息不足,远不及多种模式的信息,能够实现的最好动作捕捉效果通常不如多模式综合。因此鉴于虚拟地理环境的特殊需求以及基于单模式动作捕捉的不足,多模式综合更有优势。
因此,本文提出了一种基于多种模式的多人动作捕捉方法。该方法旨在融合当前已有的基于不同模式的动作捕捉方法,实现不同模式之间优势互补,从而在复杂的干扰环境中准确捕捉多人动作,解决虚拟地理环境应用中的多人自然的交互需求。该方法由多模式多人动作捕捉的软硬件框架及其使用的优化策略和多模式动作融合相关算法。本文通过包含基于不同模式的动作捕捉设备组成的原型系统,验证了该方法的可行性和效果。

2 多模式多人动作捕捉软硬件框架

2.1 动作捕捉软硬件框架

根据动作捕捉数据的流向及多模式多人动作捕捉系统不同模块的功能,本文提出的多模式多人动作捕捉系统软硬件框架如图1所示。
Fig. 1 Software and hardware framework for multi-person motion capture

图1 多人动作捕捉软硬件框架

对于多模式多人动作捕捉软件框架,图1中捕捉客户端对应某一种模式的动作捕捉算法及其数据发送软件,其功能为根据某一种模式的输入数据,对其进行处理,输出其处理结果,并且将结果发送给数据融合服务器。其输出结果根据具体算法及使用的动作捕捉原理不同而不同,可以是仅仅对用户的定位数据,即用户所处的实时空间位置,也可以是用户的骨骼关节点数据,即用户的各个关节点的实时空间坐标。捕捉客户端软件一般有多个,包括基于同种模式的和基于不同模式的算法软件,也可以是同一份算法软件的复制,用于安装在不同的硬件设备上,从不同的角度对用户动作进行捕捉。融合服务器包括数据接收模块、数据配准模块、数据融合模块、数据发布模块和数据解析及存储模块。数据接收模块用于接收动作捕捉客户端捕捉到的动作数据,再由数据解析模块解析后交由数据融合模块处理。由于不同捕捉客户端捕捉到的动作数据处于不同的坐标空间,在整个过程执行之前需要先对不同的坐标空间配准,即求解不同坐标空间之间的坐标变换关系,求解之后存储变换参数。即数据流动分为2个阶段,第一阶段为:捕捉客户端—>数据接收模块—>数据配准模块。第一阶段获得的结果为配准参数,即不同动作数据所处坐标空间之间的变换参数。第二阶段为:捕捉客户端—>数据接收模块—>数据融合模块—>数据发布模块—>数据接收客户端。其中数据融合模块在运行过程中需要获取第一阶段得到的配准参数。数据融合模块对所有接收到的数据进行融合,完成后交由数据发布模块,数据发布模块等待数据接收客户端获取数据。整个过程实时进行。
对于多模式多人动作捕捉硬件框架,图1中每个动作捕捉客户端对应一套动作捕捉硬件,动作捕捉硬件可由摄像头、计算机等组成,融合服务器对应一台计算机,每个接收客户端对应一套硬件设备。
一套动作捕捉算法软件可对应一套动作捕捉硬件,在允许的情况下也可以多套捕捉算法软件共用计算机硬件。整个融合服务器软件对应一台计算机,而数据接收客户端软件可每个对应一套硬件或共用硬件。每个捕捉客户端根据其算法原理可对单人或多人的动作进行捕捉。数据接收客户端获取到的数据为所有用户在同一三维空间中的动作数据。

2.2 动作捕捉软硬件框架关键策略

本文提出的动作捕捉软硬件框架包含如下策略,对多人动作捕捉的准确性,系统开发的方便性进行了优化。
(1)多角度、多硬件、分布式的动作捕捉。单个捕捉客户端的多人动作捕捉具有较大的局限性,包括多用户之间的遮挡、捕捉的空间范围有限、用户被捕捉空间中的物体遮挡等。使用多个捕捉客户端,包括同种客户端或不同种类的,并将其放置于捕捉空间的不同位置,每个捕捉客户端负责一片空间区域,可实现对捕捉空间范围多角度无遗漏的全范围捕捉。对于同种类的捕捉客户端,若其中某些捕捉客户端的数据受到遮挡影响,而剩余的其它客户端由于在其它位置,可避免数据受到遮挡影响,因此用户动作能被正确捕捉。另外通过不同模式的捕捉客户端,使用不受遮挡影响的设备,也可实现补充从而提高捕捉数据的精度。
(2)捕捉客户端、融合服务器各模块、接收客户端软件之间解耦合。动作捕捉系统中各个部分解耦合包含两个方面:软件编写解耦合和不同部分运行的解耦合。软件编写解耦合主要涉及融合服务器内的各个模块,捕捉客户端和接收客户端以及融合服务器通常不在同一台服务器上,对应于不同的软件程序,它们之间自然不会耦合在一起。融合服务器各个模块解耦合对于不同模块的维护及调试效率的提升影响很大。运行的解耦合指每个部分可单独运行,任何部分的停止或重启不会引起其它部分出现运行错误。对于捕捉客户端,融合服务器和接收客户端之间运行解耦合可通过简单的异常捕捉机制实现,而融合服务器各个模块之间的运行解耦合可通过共享硬盘存储空间实现,即每个模块循环实时的从硬盘特定文件读取数据,并且将结果写入到硬盘特定文件,通过硬盘传输数据,该方法可简化实现过程。运行的解耦合对于系统的使用及调试效率的提升至关重要,因为系统包含多个硬件设备,需要逐一启动,不需要按顺序启动可以很大的降低系统的管理复杂度。调试可对每个部分单独进行,不需要反复启动或关闭其它部分。

3 多模式多人动作捕捉关键技术

由于实现多模式多人动作捕捉需要综合多台不同模式的设备的数据,不同模式的设备以及同种模式的多台设备的数据之间通常是独立的,即无法通过事先指定从而确定两份数据对应同一个人,这种情况在捕捉单人动作时不会出现,而捕捉多人动作时一份数据所属的用户有多个选择,做出的选择对动作融合的结果影响很大。设备捕捉数据的精度即关节点定位精度不高的情况下很容易做出错误的选择。因此如何对数据归属做出选择以及如何克服捕捉数据精度限制是本文方法的难点和关键点之一,本小节第一部分阐述了使用坐标变换的方式,将不同份数据转换到同一坐标系,从而确定数据归属,并且通过大量坐标点拟合以降低单次捕捉的数据精度低的问题。在确定数据归属后,多份数据如何融合是本文方法需要解决的第二个问题,3.2节对数据的归属确定及融合的算法步骤做出了介绍。

3.1 数据配准方法

数据配准旨在求解不同捕捉客户端捕捉到的动作数据之间的空间坐标关系,每一对空间坐标系之间存在一个变换关系,通常为了降低需要配准的次数,将所有捕捉客户端的空间坐标系变换到同一公共的空间坐标系,而不需要对每对捕捉客户端计算变换关系。由于不同捕捉客户端的空间坐标系原点和坐标轴的朝向各有差异,并且移动位置后坐标系原点及朝向发生变化,直接测量效率低下,并且在实际场地通常不易测量,加大了安装和调试难度。本文提出坐标点对拟合的方法以计算各个空间坐标系之间的变换关系。理论上,在三维空间中测量得到3个点分别在2个空间直角坐标系中的坐标值即可求得坐标系变换关系。考虑到在实际环境中直接得到3个点空间坐标操作不方便,并且难以保证较小操作误差,加上捕捉客户端捕捉数据存在一定误差,因此本文方法使用尽量多的坐标点对,即尽量多的空间点在2个坐标系下的坐标值以求解坐标系变换关系。另一方面,虽然各种设备的坐标系为空间直角坐标系,但难以避免其测量的坐标值变化与实际空间位置变化不一致,可能随位置呈现非线性关系,例如随着距离设备越来越远,越远位置处的单位距离对应的设备测量到的值越来越大,即实际设备的误差和位置相关。在这种情况下,通过获得大量2个坐标系下的坐标点对,本节方法可以从中发现这种非线性关系,从而在后续使用坐标变换的时候将其考虑进去。
在理想情况下(不考虑误差的影响),假定同一个点在两空间直角坐标系的坐标值呈线性关系。给定n个点在空间坐标系1和空间坐标系2下的坐标X1ix1i, y1i, z1iTX2ix2i, y2i, z2iT,其中i=1,2,3,…,n,对于每个点对应的两个空间直角坐标,考虑旋转和平移其变换关系可表示为式(1)。
a 11 x 1 i + a 12 y 1 i + a 13 z 1 i + b 1 = x 2 i a 21 x 1 i + a 22 y 1 i + a 23 z 1 i + b 2 = y 2 i a 31 x 1 i + a 32 y 1 i + a 33 z 1 i + b 3 = z 2 i (1)
因此通过3×4共12个参数即可表示其变换关系,式(1)可表示为矩阵乘法形式如式(2)所示。
a 11 a 12 a 13 b 1 a 21 a 22 a 23 b 2 a 31 a 32 a 33 b 3 x 1 i y 1 i z 1 i 1 = x 2 i y 2 i z 2 i (2)
式(2)可进一步简化表示为式(3):
M X i = Y i (3)
式中:M对应式(2)中3×4的矩阵,Xi为长度为4的列向量并且第4个元素值恒为1,Yi为长度为3的列向量。
随机初始化M矩阵各个元素,对于点i在空间坐标系1的坐标X1i增加一个元素1得到式(3)中Xi,进一步可计算出Yi,Yi为根据此变换关系预测的点i在空间坐标系2中的坐标,预测误差表示为式(4)。
L i = | | Y i - X 2 i | | 2 (4)
对所有n个点进行预测并计算预测误差,加和后得到n个点的总体预测误差如式(5)。
L = L i (5)
式中:i=1,2,3,…,n
为了降低预测误差L,使用梯度下降法对目标L进行优化[16],如果需要拟合的点数目n很大,可以考虑使用随机梯度下降法优化目标L[17]。最小化L后即得到了对这n个点最优的坐标系变换参数M,后续使用时直接用此M根据式(3)计算变换后的坐标值。
在考虑设备误差的情况下(误差与位置相关),同一个点在两空间直角坐标系中的坐标值可呈现非线性关系,上述方法可进一步扩充,式(3)相应变为式(6)。
M 2 Activation ( M 1 X i ) = Y i (6)
式中:M1k×4的矩阵;M2为3×(k+1)的矩阵;k为可调的参数,通常k>3,当设备误差的大小与空间位置的关系越复杂,k取值越大,越简单,k相应越小。Activation表示激活函数,通常为Sigmoid函数[18]或ReLU函数[19],引入非线性激活函数使得此变换可表达非线性关系。理论上,当k足够大,式(6)可表达任意复杂非线性关系[20]。相应的,在考虑非线性关系的情况下,参数为M1M2,优化目标和优化方法与仅考虑线性关系时一致。

3.2 数据融合方法

数据融合指将捕捉客户端捕捉到的所有用户数据融合为一套数据,即如果捕捉区域有多个用户,每个用户被多个捕捉客户端捕捉到,通常每个捕捉客户端捕捉到的数据对应不同的空间坐标系,融合后的数据为所有用户数据处于同一个空间坐标系,并且每个用户对应一套完整、准确、无冗余的数据。
本文方法具体分为2个阶段,在第一阶段确定不同设备的空间坐标之间的关系。选取某个位置较为固定的设备的坐标系作为基准,计算其它设备的空间坐标系与此设备坐标系之间的关系。在实际操作时,单个用户只要佩戴好(有些设备不需要佩戴,如Kinect,用户在其前面即可捕捉)相应设备,在整个捕捉空间中自由移动,同时系统实时读取每一帧的所有捕捉数据,当成同一时刻同一用户在所有设备下的捕捉数据。在得到大量的数据后,空间坐标系关系的计算离线进行,对每2种需要计算空间坐标关系的设备,取出其对应的点(例如HTC vive和Kinect,可取HTC vive头盔的位置和Kinect捕捉到的骨骼的头部点)作为点对,使用3.1中的方法获得变换关系,并且将参数保存。在后续每次使用中,如果设备位置未移动,第一阶段进行一次即可,不需要重新寻找坐标系关系。第二阶段为动作数据的融合,实时进行,需要使用到第一阶段获得的坐标变换参数,具体流程如下。
(1)实时获取一帧所有捕捉客户端捕捉到的数据(每个捕捉客户端实时循环更新其数据,按顺序取每个客户端最新的数据,由于取数据的速度很快,认为这些数据为用户在同一时刻的数据),根据数据配准得到的配准参数将不同捕捉客户端的实时捕捉数据变换到基准空间坐标系下。
(2)在基准空间坐标系下为捕捉到的数据聚类,类别数目为捕捉的用户数目。聚类通过距离实现,即设定距离阈值,距离小于阈值的两份数据认为对应同一个人,以此方法得到每个类别。计算距离采用的参考点可根据捕捉客户端的种类确定,一般可取用户头部位置的数据点作为参考点。
(3)对于每个类别,基于如下原则对数据合并,即合并不同类型数据,同类型数据去除冗余。
① 最佳位置原则:若分在同一类别的数据包括同种类的多个捕捉客户端捕捉到的数据,则只选择 处于最佳精度位置的客户端捕捉到的数据;
② 精确度原则:若分在同一类别的数据包括不同种类客户端捕捉到的数据,则选择精度高的客户端的数据或使用精度高的客户端的数据对精度低的客户端的数据进行补充;
③ 数据互补原则:若同一用户的数据包括多个不同种类的客户端捕捉到的数据,不同客户端捕捉到用户的不同部位,则将不同客户端捕捉到的不同部位的数据合并,以获取该用户更加丰富的动作和姿态信息;
④ 缺失互补原则:当出现干扰,导致某种类别客户端的数据丢失,使用其它类别的客户端捕捉的同种数据进行补充。
(4)使用步骤(3)中合并后的数据更新融合数据。
(5)重复步骤(1)到步骤(4)。
本文融合方法中可能的延迟主要表现在三方面,不同动捕设备自身的延迟、网络延迟和融合计算延迟。动捕设备的延迟为动捕设备获取原始数据并计算出结果需要的时间,本文方法假设使用的单独的动捕设备为成熟的产品,帧率能到达到要求。而网络的延迟在使用局域网交换机时,传输延迟一般为几十微秒,可以忽略不计。融合计算的性能瓶颈为上述步骤(2),因考虑到本节方法的通用性使用聚类方法,聚类需要迭代进行,若系统涉及到的设备较多,需要聚类的数据较多,时间复杂度相对其它步骤更高,若系统中存在某些单人动作捕捉设备或者可以确保每个人只有一份数据的多人动捕设备,并且该设备空间定位较为准确,则以该设备数据为中心,每份数据作为一个类别,在基准空间坐标系下可直接简单求取其它数据和这些数据点的距离,选择距离更近的作为类别,从而将数据归类,不需要聚类,复杂度可大幅降低。通常情况下系统中带有这种设备,例如HTC vive和Motion Analysis等。本节方法的其它步骤算法复杂度较低,若考虑特定设备数据内部之间更为精细的融合,视特定设备和使用的特定方法,算法复杂度可能会较高。

4 多模式多人动作捕捉原型系统

4.1 原型系统简介

原型系统采用四种动作捕捉设备,包括HTC vive、Kinect、Foheart和Motion Analysis,其中:
(1)HTC vive基于Lighthouse室内定位技术,属于激光扫描定位,通过墙上的两颗激光传感器识别佩戴者佩戴的机身上的位置追踪传感器,从而获得位置和方向信息。其优点为其需要的计算能力非常小、延迟很小、追踪物体的数量理论上没有上限,缺点为Lighthouse系统的可扩展性低和定位设备易受遮挡影响。
(2)Kinect通过获取深度图像数据流,解算人物骨骼关节点的空间位置,实现对人物骨骼关节点的追踪;利用人体预定义姿态,匹配骨骼模型,输出人体姿态捕获结果,实现对姿态和动作的识别。其优点为可以追踪多名用户形体和位置、采样频率高且使用便捷,缺点为对手势的支持还十分有限,只能捕捉一些简单的动作、深度感应范围有限。
(3)Foheart利用穿戴在用户身体相应部位(头、四肢、手指等)的陀螺仪和加速计等惯性检测及测量传感器来检测身体的运动参数,达到捕捉动作的目的,其优点为采集信号量少,便于实时捕捉、对捕捉环境适应性高、可以实现多目标捕捉,缺点为运动参数有严重噪声干扰,无法长时间的捕捉、定位误差会随着时间逐步累加。
(4) Motion Analysis利用特殊反光材质制成的标记点,将标记点贴于需要定位的物体之上,通过多台具有发射红外线功能的摄像机获取视频图像,根据视频图像上的特殊标记点计算出此标记点的三维空间位置,从而实现定位,其优点为获取的定位数据精度高,可以达到毫米级,缺点为易受到遮挡的影响,以及超出其捕捉空间范围捕捉数据将丢失。
所使用的各种设备的数目为HTC vive两套,共用一套基站,Kinect两个,Foheart一套,Motion Analysis一套,包含6个摄像头。所使用的开发语言包括C++、C#和Python,其中Python用于编写服务端和部分捕捉客户端,C++用于捕捉客户端,用来从设备SDK读取数据并发送,C#用在数据接收客户端,为unity脚本,用于模拟请求融合后的数据。由于Motion Analysis安装好后位置通常固定不动,其捕捉数据空间坐标系也不会改变,因此所有设备的捕捉数据空间坐标系统一和其空间坐标系建立关联,即所有数据最终转换到此空间坐标系。数据传输使用socket套接字。HTC vive和Motion Analysis用于获取定位数据,即用户的头部位置,Kinect和Foheart用于获取全身骨骼数据。实验场地的布置如图2所示。
Fig. 2 Layout of experimental environment

图2 实验场地布置

4.2 实验结果

原型系统实验旨在检验本文提出方法的可行性以及效率,主要包含两方面的指标,即系统的动作捕捉响应速度及动作捕捉的准确性。动作捕捉的响应速度指接收客户端接收到动作数据的时间相对用户实际发生该动作的时间延迟,动作捕捉的准确性指捕捉到的动作数据是否有丢失、捕捉数据和用户的实际动作是否一致以及多人参与的动作的协调性。实验方式为两个用户戴好设备进入捕捉区域,通过unity编写的客户端读取融合数据并在屏幕实时显示用户各个关节的位置,如图3所示,每个小球代表用户的关节位置,第三个用户通过观察屏幕和捕捉区域的用户实际动作对系统的上述指标做出评价,同时作为动作捕捉的干扰因素(第三人在场也会被动捕设备识别或遮挡信号,但该人不作为动捕的对象)。为了避免用户个人判断对实验结果造成的影响,实验进行三轮,三个用户在三轮中依次作为评价者,其余2个在捕捉区域做出动作。实验测试了袁帅等[21]提出的VGE中沉浸式多人协同交互模式对应的动作,包括用户与用户之间的交互动作和用户与VGE之间的交互动作,并且将评价指标分为3个等级,测试的动作及结果如表1所示。其中不明显指在用户无法感觉到的精度范围内,对用户与VGE的交互动作因其不涉及协调性,结果以“无”表示。各个动作测试结果均较好除了互相握手稍微不准确,其原因握手时手部互相接触区域连接在一起,Kinect无法识别出手部的较为精确的位置,而Foheart并未提供关于手部的信息。总体上看相对每个单独的单模式设备在各方面均有较大提升,包括设备能力(如捕捉范围)和效率(如捕捉准确性)。
Fig. 3 Visual of motion capture results showing a discussion between users

图3 动作捕捉结果可视化(用户讨论)

Tab. 1 Result of motion capture

表1 动作捕捉测试结果

动作(类型) 延迟(不明显、
稍微、明显)
动作丢失(不明显、
稍微、丢失严重)
动作一致性(一致、
中等、不一致)
多人动作协调性(协调、
一般、不协调)
转向(用户与用户) 不明显 不明显 一致 协调
蹲下(用户与用户) 不明显 不明显 一致 协调
起立(用户与用户) 不明显 不明显 一致 协调
传递(用户与用户) 不明显 不明显 一致 协调
握手(用户与用户) 不明显 稍微 中等 协调
研讨(用户与用户) 不明显 不明显 一致 协调
指点(用户与VGE) 不明显 不明显 一致
拾取(用户与VGE) 不明显 不明显 一致
移动(用户与VGE) 不明显 不明显 一致
放置(用户与VGE) 不明显 不明显 一致
增加(用户与VGE) 不明显 不明显 一致
删除(用户与VGE) 不明显 不明显 一致
放大(用户与VGE) 不明显 不明显 一致
缩小(用户与VGE) 不明显 不明显 一致
漫游(用户与VGE) 不明显 不明显 一致

4.3 讨论

本文的实验表明本文提出的方法是可行并且在本文的实验环境下是可用的,也意味着相对单独的动捕设备,本文提出方法对于捕捉多人动作具有不受遮挡影响、定位准确、动作细节丰富的优点,而目前单独的设备都无法满足这些要求。在实验设计上,三个人在场,并且相对位置会移动,在此期间会对HTC vive和Kinect以及Motion Analysis产生遮挡,而遮挡造成的结果为动作丢失,因此包含在了实验的评价中。而对于延迟的评价上,由于实验尽量模拟真实的使用场景,实验参与者的动作速度快慢不一,而过快的动作在虚拟地理环境的使用场景下不常见,并且由于通常用户需要佩戴虚拟现实头盔,动作过快会增加使用者的危险因素,例如撞击到其他用户,因此并未特别设置用户快速运动下的延迟实验。在实际的使用场景下,当动捕设备足够丰富(类型和数量上),用户佩戴所有设备不是必须的(有些设备不需要佩戴,如Kinect),并且有些设备可以合并成一种设备(例如将较小的设备固定于较大的需要佩戴的设备上),因此用户可以选择性的佩戴一些设备,如本文试验中不同用户佩戴的设备不尽相同。本文实验仍然只是初步验证了本文的方法,受限于种种因素(场地、设备价格、人员等),在实验上必然存在一些不足,例如参与人员、设备数目和种类越多越好,更能够充分的评价本文方法。

5 结论

VR技术的进步给虚拟地理环境带来了更自然更真实的可视化体验,同时也对在虚拟地理环境中的交互提出了新的挑战。本文针对在虚拟地理环境中的交互,分析了当前基于动作捕捉的交互技术的不足,提出了一种融合多种不同模式的动作捕捉技术的方法,并且通过实验进行了验证,实验证明了本文方法的可行性以及在捕捉效率上的提升。本文方法仍存在一些不足,本文虽然提出了融合多种动作捕捉技术捕捉到的数据,但是本文没有考虑当需要融合的设备数目过多从而造成融合服务器网络带宽以及计算资源不足的情形。本文也没有考虑当不同的用户在不同的地方(如不同城市),同时进入虚拟地理环境系统,系统需要融合不同地方的动作捕捉设备数据的情形,在这种情形下网络延迟比在同一局域网下更大。

The authors have declared that no competing interests exist.

[1]
林珲,胡明远,陈旻.虚拟地理环境研究与展望[J].测绘科学技术学报,2013,30(4):361-368.首先从地图到地理信息系统再到虚拟地理环境的演化过程,剖析发展虚拟地理环境的实际需求,从而对现阶段的虚拟地理环境进行定位;其次,从虚拟地理环境架构设计的角度,对虚拟地理环境各个组件功能设计过程中的关键难点进行阐述;最后,面向国家层面的重大需求,以虚拟地理环境与遥感技术、全球变化研究相结合为契合点,提出对虚拟地理环境发展的展望.

DOI

[ Lin H, Hu M Y, Chen M.Research progress and prospect of virtual geographic environments(VGEs)[J]. Journal of Geomatics Science & Technology, 2013,30(4):361-368. ]

[2]
林珲,龚建华.论虚拟地理环境[J].测绘学报,2002,31(1):1-6.

[ Lin H, Gong J H.On virtual geographic environments[J]. Acta Geodaetica Et Cartographic Sinica, 2002,31(1):1-6. ]

[3]
林珲,黄凤茹,闾国年.虚拟地理环境研究的兴起与实验地理学新方向[J].地理学报,2009,64(1):7-20.虚拟地理环境是一个可用于模拟和分析复杂地学过程与现象,支持协同工作、知识共享和群体决策的集成化虚拟地理实验环境与工作空间,是地理学研究的虚拟实验室,可为现代实验地理学研究提供科学方法和技术手段.本文阐述虚拟地理环境和实验地理学研究的发展过程及当前进展.探讨虚拟地理环境与虚拟地理实验对现代实验地理学研究的意义,并分析当前虚拟地理环境研究的关键问题及存在的误区。虚拟地理环境的兴起与发展为地理过程表达、地理知识获取、地理问题求解提供了新思路、新方法和新技术。实验地理学的研究方法可从野外考察与观测、室内物理模拟及地理数学建模和计算机模拟,拓展到虚拟地理环境平台下的虚拟地理实验。

DOI

[ Lin H, Huang F R, Lu G N.Development of virtual geographic environments and the new initiative in experimental geography[J]. Acta Geographica Sinica, 2009,64(1):7-20. ]

[4]
Lu G N.Geographic analysis-oriented virtual geographic environment: framework, structure and functions[J]. Science China Earth Sciences, 2011,54(5):733-743.Previous research on the Virtual Geographic Environment(VGE) has focused mainly on representation rather than geographic analysis.However,geographic analysis plays a significant role in modern geography.To address this issue,this paper systematically examines theories and implementing VGE techniques that support geographical analysis and simulation.Based on its framework,VGE can be divided into four subtypes.These are the data environment,modeling environment,expression environment,and collaborative environment.The functions and key techniques of each are examined,and some case studies are discussed.This study provides direction for necessary new developments of advanced VGE platforms.

DOI

[5]
Lin H, Chen M, Lu G N.Virtual geographic environment: A workspace for computer-aided geographic experiments[J]. Annals of the Association of American Geographers, 2013,103(3):465-482.A virtual geographic environment (VGE) is a type of workspace for computer-aided geographic experiments (CAGEs) and geographic analyses. By supporting geo-visualization, geo-simulation, geo-collaboration, and human participation, it provides open virtual environments that correspond to the real world to assist computer-aided geographic experiments involving both the physical and human dimensions. Based on a discussion of how VGEs can contribute to CAGEs and geographic analyses, this article proposes a clear, systematic framework for VGEs. Four subenvironments are discussed according to their different functions, pertinent issues, and corresponding solutions: (1) the data environment, (2) the modeling and simulation environment, (3) the interactive environment, and (4) the collaborative environment. Furthermore, a case on the simulation of air pollution and its analysis at different geographic scales is used to demonstrate VGEs ability to facilitate computer-aided geographic experiments.

DOI

[6]
龚建华,周洁萍,张利辉.虚拟地理环境研究进展与理论框架[J].地球科学进展,2010,25(9):915-926.lt;p>阐述虚拟地理环境的形成、发展与研究现状,并从&ldquo;虚拟现实技术&rdquo;与&ldquo;虚拟现实&rdquo;的相互关系探讨虚拟地理环境基本概念。从基本思想、系统结构、在线参与者社会组织水平、与GIS/数字地球的关系等角度,分析虚拟地理环境的特征。从数据、模型、表现以及协同4个方面,讨论了虚拟地理环境系统建设的关键技术与研究前沿。尝试建立了一个虚拟地理环境基本理论初步研究框架,认为在地理哲学思想层次应该重点研究复杂性人地系统、地理虚/实关系论、地理/遥感信息本体论,在地理/地理信息科学层次需要重点研究地理认知与思维、地理相似原理、地理计算模拟;同时讨论虚拟地理环境与面向&ldquo;人&rdquo;的地理信息科学、基于虚拟地理环境地理科学方法论,以及可计算人地关系的相关理论问题。</p>

DOI

[ Gong J H, Zhou J P, Zhang L H.Study progress and theoretical framework of virtual geographic environments[J]. Advances in Earth Science, 2010,25(9):915-926. ]

[7]
吴少军,胡燕红.动作捕捉技术发展新趋势及其对影视工业影响简论[J].群文天地,2012(3):129-129.动作捕捉技术应用在影视动画制作中已经有近40年历史,随着技术的发展,动作捕捉技术近年来呈现出一些新的特点与新的发展趋势,文章介绍该技术的发展新趋势,并就其对影视动画制作产生的影响进行论述。

[ Wu S J, Hu Y H.A new trend in the development of motion capture technology and its impact on the film industry[J]. Folk Art and Literature, 2012(3):129-129. ]

[8]
张晓丽. 三维运动捕捉技术在消防模拟训练中的应用[J].武警学院学报,2011,27(8):88-90.从角色模型的创建、消防员个性化动作数据的捕捉和处理以及利用该 数据对模拟训练场景里消防员的驱动,探讨了如何将三维运动捕捉技术应用于消防模拟训练中.结果表明:三维运动捕捉技术的应用为解决消防模拟训练场景中虚拟 消防员实时动画问题,人员疏散的视景仿真问题等探索了道路,奠定了基础.

DOI

[ Zhang X L.A research on the application of three-dimensional motion capturing technology in fire simulation training[J]. Journal of Chinese People's Armed Police Force Academy, 2011,27(8):88-90. ]

[9]
李小杰,李响.手势识别技术在虚拟地理环境中的应用初探[J].测绘与空间地理信息,2010,33(5):41-44.计算机软硬件技术的发展使非接触的人机交互方式成为可能,其中基于计算机视觉的手势识别技术 就是一种正在被广泛应用的交互方式,它可以实现对计算机的连续、快速及直观的输入。虚拟地理环境(VGE)作为新一代地理学语言,以最接近人类自然的交流 方式来表达地理现象和过程,因此对人机交互方式有更高的要求。本文试图将目前比较前沿的人机交互技术——基于计算机视觉的手势识别技术引入到虚拟地理环境 中,增强虚拟地理环境交互方式的友好性、直观性。

DOI

[ Li X J, Li X.Preliminary application of gesture recognition to virtual geographical environment[J]. Geomatics & Spatial Information Technology, 2010,33(5):41-44. ]

[10]
杨俊超,史越,杨达玲,等.基于动作捕捉的航空装备虚拟维修训练系统[J].装甲兵工程学院学报,2016,30(4):78-82.为满足航空装备维修训练手段创新的需求,设计了一种基于动作捕捉技术的航空装备虚拟维修训练系统。该系统由动作捕捉系统、虚拟人软件、场景及装备维修模型、立体投影以及数据手套等模块组成,具备航空维修流程、拆卸装配、故障分析与排除等虚拟训练功能。以某型飞机主机轮拆装任务的虚拟维修训练为例进行了应用分析,结果表明该系统能满足设计功能要求。

DOI

[ Yang J C, Shi Y, Yang D L, et al.Aviation equipment virtual maintenance training system based on motion capture[J]. Journal of Academy of Armored Force Engineering, 2016,30(4):78-82. ]

[11]
张瑒,许林,孙广毅.基于RGB-D摄像机与IMU数据融合的动作捕捉系统[J].系统仿真学报,2015,27(10):2582-2588.近年来,低功耗全身动作捕捉在计算机视觉与自动化等领域都获得了广泛的关注。单目深度视觉与基于惯性的动作捕捉系统以其相对低廉的价格、良好的捕捉效果成为中小型用户的首选。然而,这两种系统却具有包括身体遮挡与误差漂移等一系列固有缺陷。因此创新性地提出一种基于RGB-D摄像机与惯性测量单元(IMU)数据融合的动作捕捉系统。该系统引入快速遮挡检测、动态阈值判断与权值分配策略,集成惯性测量技术和光学捕捉技术的优点,成本低、不易受环境影响。实验表明基于本方法的动作捕捉系统在精度、可靠性与稳定性上都具有良好的表现。

[ Zhang Y, Xu L, Sun G Y.Motion tracking system by direct fusion of RGB-D camera and micro-IMU sensors[J]. Journal of System Simulation, 2015,27(10):2582-2588. ]

[12]
周飞. 深入浅出动作捕捉技术[J].湖北经济学院学报(人文社会科学版),2013(12):25-26.本文探究了动作捕捉技术的诞生源头和背景,介绍了动作捕捉技术在当今的用途以及未来,包括影视、动画、游戏、医疗、乃至军事训练等多个领域的应用,同时也探讨了由动作捕捉技术所带来的社会影响和道德方面的争议和问题。本文是一篇对动作捕捉技术深入浅出全面探讨的文章。

DOI

[ Zhou F.In-depth motion capture technology[J]. Journal of Hubei University of Economics(Humanities and Social Sciences), 2013(12):25-26. ]

[13]
Sigal L, Black M J.HumanEva: Synchronized video and motion capture dataset for evaluation of articulated human motion[J]. International Journal of Computer Vision, 2006,87(1-2):4-27.

[14]
Bon-woo H, Sungmin K, Seong-whane L. A full-body gesture database for human gesture analysis[J]. International Journal of Pattern Recognition & Artificial Intelligence, 2008,21(6):1069-1084.This paper presents a full-body gesture database which contains 2D video data and 3D motion data of 14 normal gestures, 10 abnormal gestures and 30 command gestures for 20 subjects. We call this database the Korea University Gesture (KUG) database. Using 3D motion cameras and 3 sets of stereo cameras, we captured 3D motion data and 3 pairs of stereo-video data in 3 different directions for normal and abnormal gestures. In case of command gestures, 2 pairs of stereo-video data were obtained by 2 sets of stereo cameras with different focal lengths in order to capture views of whole body and upper body, simultaneously. The 2D silhouette data was synthesized by separating a subject and background in 2D stereo-video data. In this paper, we describe the gesture capture system, the organization of database, the potential usages of the database and the contact point for the KUG database. We expect that this database would be very useful for the study of 2D/3D human gesture and its application.

DOI

[15]
Evans K, Horan S A, Neal R J, et al.Repeatability of three-dimensional thorax and pelvis kinematics in the golf swing measured using a field-based motion capture system[J]. Sports Biomechanics, 2012,11(2):262-272.Field-based methods of evaluating three-dimensional (3D) swing kinematics offer coaches and researchers the opportunity to assess golfers in context-specific environments. The purpose of this study was to establish the inter-trial, between-tester, between-location, and between-day repeatability of thorax and pelvis kinematics during the downswing using an electromagnetic motion capture system. Two experienced testers measured swing kinematics in 20 golfers (handicap 14 strokes) on consecutive days in an indoor and outdoor location. Participants performed five swings with each of two clubs (five-iron and driver) at each test condition. Repeatability of 3D kinematic data was evaluated by computing the coefficient of multiple determination (CMD) and the systematic error (SE). With the exception of pelvis forward bend for between-day and between-tester conditions, CMDs exceeded 0.854 for all variables, indicating high levels of overall waveform repeatability across conditions. When repeatability was compared across conditions using MANOVA, the lowest CMDs and highest SEs were found for the between-tester and between-day conditions. The highest CMDs were for the inter-trial and between-location conditions. The absence of significant differences in CMDs between these two conditions supports this method of analysing pelvis and thorax kinematics in different environmental settings without unduly affecting repeatability.

DOI PMID

[16]
Sutton R S.Two problems with backpropagation and other steepest-descent learning procedures for networks[C]. Proc of 8th Annual Conference of the Cognitive Science Society, Amherst, USA, 1986.

[17]
Duchi J, Hazan E, Singer Y.Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011,12(7):257-269.We present a new family of subgradient methods that dynamically incorporate knowledge of the geometry of the data observed in earlier iterations to perform more informative gradient-based learning. Metaphorically, the adaptation allows us to find needles in haystacks in the form of very predictive but rarely seen features. Our paradigm stems from recent advances in stochastic optimization and online learning which employ proximal functions to control the gradient steps of the algorithm. We describe and analyze an apparatus for adaptively modifying the proximal function, which significantly simplifies setting a learning rate and results in regret guarantees that are provably as good as the best proximal function that can be chosen in hindsight. We give several efficient algorithms for empirical risk minimization problems with common and important regularization functions and domain constraints. We experimentally study our theoretical analysis and show that adaptive subgradient methods outperform state-of-the-art, yet non-adaptive, subgradient algorithms.

DOI

[18]
Ito Y.Representation of functions by superpositions of a step or sigmoid function and their applications to neural network theory[J]. Neural Networks, 1991,4(3):385-394.The starting point of this article is the inversion formula of the Radon transform; the article aims to contribute to the theory of three-layered neural networks. Let H be the Heaviside function. Then, for any function 06∈ ja:math ( R n there is a function g f such that f can be represented on R n by an integral ja:math , where μ is the uniform measure on the unit sphere S n 611 and ja:math Further-more, f can be approximated uniformly arbitrarily well on the whole space S n by a finite sum of the form Σ k a k H ( x · ω ( k ) 61 t ( k ) ). Let H ρ be a sigmoid function on R defined by ja:math , where ρ is a spherically symmetric probability measure. Suppose that ρ satisfies a few further conditions. Then, for any 06∈ ja:math ( R n , there is a function g f , ρ such that f can be written ja:math with the unscaled sigmoid function H ρ fixed beforehand. This expression can also be approximated uniformly arbitrarily well on R n by a finite sum.

DOI

[19]
Li Y, Yuan Y.Convergence analysis of two-layer neural networks with ReLU activation[C]. 31st Conference on Neural Information Processing Systems, Long Beach, USA, 2017.

[20]
Hornic K.Multilayer feedforward networks are universal approximators[J]. Neural Networks, 1989,2(5):359-366.This paper rigorously establishes that standard multilayer feedforward networks with as few as one hidden layer using arbitrary squashing functions are capable of approximating any Borel measurable function from one finite dimensional space to another to any desired degree of accuracy, provided sufficiently many hidden units are available. In this sense, multilayer feedforward networks are a class of universal approximators.

DOI

[21]
袁帅,陈斌,易超,等.虚拟地理环境中沉浸式多人协同交互技术研究及实现[J].地球信息科学学报,2018,20(8):1055-1063.在VGE的发展过程中,自然高效的人机交互一直是其研究的核心内容之一,但在当前众多VGE应用案例中,用户仍然是基于传统的人机交互界面与VGE进行交流,这导致了:① 用户的沉浸感不高;② 多人在VGE中协同交互的需求无法得到有效满足。因此,为了实现VGE中的沉浸式多人协同交互,本文首先综述了VGE中人机交互技术研究和应用现状,并简要阐述了动作捕捉技术发展历程、基本原理及其在提高VGE用户交互沉浸感上的优势。在此基础上,对VGE中沉浸式多人协同交互系统进行了重点设计,主要包括分析了基于动作捕捉技术的沉浸式多人协同交互模式及其对应的交互动作语义,提出了多人协同冲突控制机制,以及着重介绍了VGE中沉浸式多人协同交互系统的结构和功能。最后,以北京大学为例开发了虚拟燕园辅助规划设计原型系统,并进行了实验。研究结果表明,沉浸式多人协同交互技术的交互效果受到用户认可,它在提高化身之间及化身与VGE之间的协同交互方面具有明显的优势,可应用于地学教育、城市规划、应急救援和军事指挥等领域,具有良好的应用前景。

[ Yuan S, Chen B, Yi C, et al.Research and implementation of immersive multi-user collaborative interaction technology in virtual geographic environment[J]. Journal of Geo-information Science, 2018,20(8):1055-1063. ]

Outlines

/