Orginal Article

A Geospatial Representation Framework for Geo-tagged Video Objects

  • HAN Zhigang ,
  • KONG Yunfeng , * ,
  • QIN Yaochen ,
  • QIN Fen
Expand
  • 1. Key Laboratory of Geospatial Technology for the Middle and Lower Yellow River Regions, Ministry of Education, Kaifeng 475004, China
  • 2. College of Environmental & Planning, Henan University, Kaifeng 475004, China
*Corresponding author: KONG Yunfeng, E-mail:

Received date: 2014-12-18

  Request revised date: 2015-02-23

  Online published: 2015-09-07

Copyright

《地球信息科学学报》编辑部 所有

Abstract

Geo-tagged video contains location information, and it is critical for true geographic representation. The geospatial representation of geo-tagged video is the key feature for the integration of video and GIS. Regarding to the disadvantage of geo-tagged representation methods for video objects with monotone spatial semantic information, a geographic representation framework for geo-tagged video objects is proposed. On the basis of extending OGC specifications for geographic information, this paper defined the respective objects in 7 types from 3 categories to describe the spatial information on two levels, including the video frame and video clip. The 3 categories include: (1) the video positions (point) to represent the location and attitude as the camera taking shoots; (2) the video trajectories (line) to portray the track of the video clip; and (3) the video field of view in plain view (polygon) or 3D (solid) space to describe the spatial extent of the video scene. The framework consists of the main spatial objects including the point, line, polygon and solid. It is more competent for demonstrating video spatial information. Meanwhile, the framework supports different levels of video data, such as the video frame and video clip. It achieves the loosely-coupled and perfectly-integrated integration of video and GIS, which does not need to alter the data structures. This paper discussed the data acquisition methods for the spatial information of video frames or clips in detail, which take use of the GPS receiver and 3D digital compass. We also developed 9 tables and defined their relations for the logical model to realize the geographic representation of geo-tagged video objects, and we analyzed the data visualization and retrieval methods by taking them as the application cases. The results show that the geographic representation framework for geo-tagged video extends the current spatial database standard. It is easy to implement and applicable in geographic visualization, video retrieval and spatial analysis or data mining.

Cite this article

HAN Zhigang , KONG Yunfeng , QIN Yaochen , QIN Fen . A Geospatial Representation Framework for Geo-tagged Video Objects[J]. Journal of Geo-information Science, 2015 , 17(9) : 1014 -1021 . DOI: 10.3724/SP.J.1047.2015.01014

1 引言

地理表达是对地球表层及近表层的描述[1],是人类认识地球系统环境与人类交流、传递地理信息的重要媒介,也是地理信息科学研究的一个核心问题。地理表达早期以自然语言描述为主,随着地图学与GIS的发展,它演进到以地图为媒介的图形化表达形式,并应用GIS表达地理空间格局与时空过程[2-3]。其中,GIS表达继承了传统地图学以纸质模拟地图为基础的研究范式,形成了二维几何的表达框架。在地理信息应用日益深入的背景下,地理世界的复杂性使GIS表达存在3个挑战:二维正射(鸟瞰)与三维透视(侧视)相统一,抽象理解(地图)与形象理解(多媒体)相统一,以及专业化(专业人士)与大众化(社会公众)相统一[4]。可定位视频是包含位置信息的视频,它本身蕴含丰富的空间和属性信息,在应对上述挑战方面具有独特的价值。视频拍摄时的观察视角是三维透视的(侧面看世界),拍摄场景是形象化的实景数据(形象理解),并且随着智能手机、平板电脑等手持设备的普及,视频数据的获取、分享日益普及(大众化)[5-6];这些特征使得视频对象可弥补单一地图或GIS表达的不足,成为以GIS为核心的地理表达形式的有力补充,二者的组合或协同表达在一定程度上能解决地理表达的一系列挑战。而如何对视频对象进行地理空间表达,则成为可定位视频与GIS集成的核心问题。
近年来,在视频对象空间信息的应用方面出现了一系列案例:Kim等深入研究了利用视频位置及视域(Field of View,FOV)进行视频检索的相关技术,定义了矢量FOV估算模型,开发了视频检索原型[7-10];孔云峰通过描述视频帧位置、视频轨迹和视频语义,定义了地理视频的实体-关系模型,以集成地理视频数据与常规地理空间数据[11-12];宋宏权等应用位置信息实现了RIA模式的视频GIS系统,并实现了网络环境下视频与三维地理场景的交互与融合[13-14];Luo等讨论了基于位置信息的视频等多媒体研究与应用领域,包括多媒体数据组织与数据检索、数据可视化等方面[15];丰江帆以ASF格式为容器,集成视频影像与空间位置等信息,并利用时间轴实现同步[16];Antonio分析了多媒体环境下专题地理信息语义集成问题,基于语义设计了地理视频序列索引算法[17;王美珍等将位置信息与视频信息融合,应用可定位视频开发了电子导游系统[18];陈欣欢结合地理信息与视频影像管理公路,建立了路产视频数据库,实现了位置、路产及视频之间的映射[19]
这些案例对视频对象的地理表达多以含有地理位置的标签(Tag)实现,这种方式简单易行,在网络视频帧中得到了广泛应用。但由于该方式以视频拍摄位置为主要对象,未完整利用视频场景、视频帧中丰富的空间信息,导致视频对象空间语义较为单一,难以充分发挥二者协同表达地理空间的优势。本文结合OGC空间几何对象定义,设计了一个可定位视频对象的地理表达框架,以点、线、面、体4类几何对象,完整描述视频对象空间信息(视频位置/轨迹/视域范围),并结合主流空间数据库模型实现视频对象与GIS间松散耦合与有机集成。数据获取与应用分析表明,该框架扩展了现有空间数据标准对可定位视频对象的支持,具备可定位视频可视化、检索及分析挖掘等功能,能拓展并深化GIS应用。

2 可定位视频对象的地理空间表达

可定位视频对象包括视频帧和视频片段[20]:视频帧是某一时刻在特定路径的特定位置拍摄的静态图像(VFrame);视频片段是特定路径上拍摄的时间、空间连续的视频帧集合(VSegment)。可定位视频对象的地理表达是对视频中包含的空间信息进行描述。在GIS领域,OGC SFS for SQL规范(Simple Features Specification for SQL)定义了地理要素的空间几何数据,被广泛用于空间数据库中(如ESRI Geodatabase等),且ISO的SQL/Multimedia标准也采用了类似的概念框架描述空间数据[21]。该规范是抽象的,独立于具体平台,兼容现有标准并易与GIS集成。本文基于该Geometry框架定义了3类、7种对象描述视频对象的地理空间信息(图1)。
Fig. 1 Geographic representation framework for geo-tagged video objects

图1 可定位视频对象的地理空间表达框架

2.1 视频位置

视频位置是描述视频对象拍摄位置的地理空间信息。每一视频对象在拍摄时,均可同步记录相机位置及其方位、俯仰、横滚等姿态信息,并在地图上定位;结合姿态信息可描述视频对象拍摄角度。由此定义VFLocationVSLocation点对象表达视频帧及视频片段位置(图1),其一般形式为:
( x , y , z , yaw , pitch , roll ) (1)
式中, x , y , z 为拍摄位置坐标; yaw , pitch , roll 分别为拍摄时相机的方位角、俯仰角及横滚角度。
在固定位置拍摄的视频片段,其位置保持不变,而姿态信息可能发生变化;移动载体上拍摄的视频对象,其视频帧位置是不断变化的,而视频片段位置不易确定,可由关键帧位置或移动轨迹特征点(如中点)加以描述。
VFLocationVSLocation对象存储了视频拍摄位置及相机姿态信息,根据给定检索参数,应用该对象可检索符合点位空间约束条件的视频数据,实现视频对象点数据的地理表达。

2.2 视频轨迹

视频片段由一系列视频帧组成;每一帧均有其拍摄位置,一系列拍摄位置(点)构成了该视频片段的拍摄轨迹(线)。VSTrajectory对象表达视频轨迹如式(2)所示。
{ VFLocatio n i } , i = 1,2 , 3 , (2)
VSTrajectory对应于视频片段,由视频帧位置VFLocation组成(图1)。该视频片段是在移动载体上拍摄的,即视频帧位置是不断变化的;对于固定位置的视频片段,其视频帧位置不变,可忽略视频轨迹,由视频片段位置描述。
应用VSTrajectory可建立视频播放时间、帧数等与拍摄位置的对应关系,利用路径或线性参照量测值进行视频检索,实现视频对象线数据的地理表达。

2.3 视频视域

(1)平面视域
Fig. 2 Field of view of video frame in 2D

图2 视频帧平面视域示意图

视频帧场景对应于现实世界局部区域范围,根据相机内、外方位元素,可定义视频帧平面视域(Field of View)。对于给定视频帧,假定拍摄时相机为水平放置(俯仰、横滚角度均为0),其平面视域为扇形(图2)。该扇形区域特征参数包括:①扇形顶点P,即拍摄时相机位置;②扇形半径R,为该帧图像的最远可视距离;③扇形朝向d,即拍摄时相机朝向(方位);④相机角度θ,即相机视场角。如为立体相机,还可通过匹配同一场景左、右视频帧进行视差计算,获取拍摄场景三维结构信息;结合VFLocation对象,可估算拍摄场景实际视域范围(排除了场景内被遮挡的范围)。定义了VFFOView对象进行视频平面视域表达(式(3))。
{ x i , y i } , i = 1,2 , 3 , (3)
通过将多个视频帧平面视域进行组合,去除重复部分,可生成视频片段平面视域VSFOView,以表达视频片段拍摄的空间范围。其实质是视频帧视域的并集,如式(4)所示。
VFFOVie w i (4)
应用平面视域,根据定义的检索多边形,查询符合多边形约束条件的视频对象,实现视频对象面数据的地理表达。
Fig. 3 Field of view of video frame in 3D

图3 视频帧立体视域示意图

(2)立体视域
从三维的角度,视频拍摄场景是一个三维立体空间,每一视频对象均具有三维立体视域。无遮挡情况下,立体视域是一个朝向拍摄目标的三维视锥体(Viewing Frustum),如图3所示,XYZ为相机坐标系,参数定义为:①顶点P,即拍摄时相机位置,包括相机高度信息;②半径R,为该帧图像的最远可视距离;③方向矢量d,即拍摄时相机朝向;④角度θ、ϕ,即相机水平与竖直视场角。如采用立体相机拍摄,同样可应用计算的场景三维结构信息生成实际立体视域(不规则的三维形体)。本文定义VFFOVCone表达视频帧的立体视域,其形式为三维实体,即
{ x i , y i , z i } i = 1,2 , 3 , (5)
在具体应用时,根据不同的三维形体建模方法,立体视域可定义为不同的形式。如采用四面体格网(TEN)时,它是不规则四面体的集合,即(t为四面体):
{ t i } , i = 1,2 , 3 , (6)
通过复合一个视频片段的各帧立体视域,可定义视频片段立体视域VSFOVolume,以描述该视频片段拍摄场景的三维空间范围;它是一个不规则三维形体,为各帧视域体的并集,即
VFFOVCon e i (7)
应用立体视域对象,可在三维空间中表达视频拍摄场景的空间范围,用以支持三维空间中的数据检索、视频数据可视化,实现视频对象三维实体的地理表达。
上述3类、7种对象可完整描述可定位视频对象(视频帧/视频片段)的拍摄位置、拍摄轨迹及视域范围等空间信息。在OGC SFSQL标准的基础上,通过继承其中相应几何对象的父类型实现视频对象的地理空间表达。需要说明的是,这一框架侧重于描述视频对象自身的地理空间信息,视频对象场景中所包含的地理实体(如建筑物、兴趣点等)仍通过GIS进行描述,并可通过空间包含关系判断(视域范围是否包含地理实体)实现与视频对象的关联。

3 可定位视频对象空间数据获取与应用

3.1 空间数据获取

根据定义的可定位视频对象地理表达框架,需借助于GPS接收机、三维电子罗盘等设备,获取如下3类数据:(1)视频数据,由相机所拍摄的视频片段,并抽取相应视频帧(图4(a));(2)相机位置数据,包括视频拍摄时相机所在空间位置,包含高度信息;(3)相机姿态数据,包括拍摄视频时相机的方位、俯仰及横滚角度。上述数据需进行同步采集。获得原始数据后,可分别生成上述定义的各空间对象,实现可定位视频对象的地理空间表达。
视频位置:如为固定位置拍摄,则视频片段位置可直接读取GPS接收机所测坐标信息;如在移动载体上拍摄,若视频帧率与GPS接收机采样频率不一致,需进行位置插值估算每一视频帧位置(图4(b))。
Fig. 4 Examples of the geographic representation of geo-tagged video object

图4 可定位视频对象地理表达实例

视频轨迹:通过合成视频片段内各帧位置,可获得视频片段轨迹;考虑到视频拍摄时多为沿着某一路径拍摄,还需对视频帧位置进行地图匹配,生成相应路径上视频轨迹(图4(b))。
视频视域:如采用普通相机拍摄,根据视频帧位置及姿态参数,可生成视频帧理论视域范围(图4(b));在实际拍摄区域中,由于存在有对象间相互遮挡关系,其实际视域并非规则的扇形区域。在应用立体相机进行拍摄的情况下,通过立体视觉算法获取视差信息,根据立体相机的内、外方位元素解算出拍摄场景内对应的三维坐标点集数据;应用凸包算法计算该点集的凸包,以此凸包对象(二维多边形或三维多面体)作为视频帧实际视域范围(图4(c));合并各帧视域范围即可生成视频片段视域(图4(d)、(e));应用三维视锥体表达视频帧立体视域(图4(f))。
由于拍摄对象的遮挡,视频实际视域范围小于理论视域(图5)。相对于作为理论视域的扇形区域,估算的拍摄场景点云凸包范围能部分排除场景中的遮挡部分,更接近于实际视域;在视频检索与分析时,可显著提高查询或分析精度。
Fig. 5 Comparison for actual and theoretical FOV of video frame

图5 视频帧理论视域与实际视域对比示意图

3.2 应用分析

可定位视频对象地理表达框架扩展了OGC空间数据标准,可方便地转换为主流空间数据库逻辑模型(如ESRI Geodatabase),以实现可定位视频与GIS的集成、组织与管理。图6给出了该逻辑模型的一个实例。通过定义9个表及其关联关系,分别存储视频对象及其空间信息。其中,视频片段与视频帧分别定义主键VID、FrameID,二者通过VID建立了参照联系;其他视频位置、轨迹及视域对象分别通过VID、FrameID等外键列与视频对象间建立参照联系。视频数据以二进制对象(LOB/RAW等)或文件路径进行存储;空间数据以空间几何对象类型或其他形式(Oracle SDO_Geometry/LOB)进行组织,为简单起见,在这一逻辑模型中省略了空间几何对象父类型(Point/Curve/Surface/Solid等)的结构定义。
Fig. 6 Logical model of the geographic representation of geo-tagged video object

图6 可定位视频对象地理表达逻辑模型实例

该框架支持可视化、检索及分析挖掘等功能。(1)可视化。框架可实现对拍摄场景的实景可视化,并与地图集成,视频播放时同步显示视频对象的位置、轨迹及视域范围(图7(a))。(2)检索。基于定义的VFLocation等7种空间对象,判断其与检索对象(如特定位置/路径/区域等)的空间关系,可实现视频对象的空间检索。例如,图7(b)为检索拍摄位置在指定矩形区域内的视频帧,图7(c)为检索拍摄位置在指定路径上的视频帧,图7(d)为检索视域范围包含某一地理实体的视频对象。(3)分析挖掘。结合视频对象的位置、范围等上下文信息,采用空间分析法,用于视频内容理解与挖掘。
Fig. 7 Application of the geographic representation of geo-tagged video object

图7 可定位视频对象地理表达应用实例

该框架特点:(1)完备性。现有方法仅考虑了视频位置、平面视域,而该框架分别定义了视频位置、视频轨迹、视频平面视域及立体视域等空间几何对象,包含了主要二维、三维空间对象类型(点/线/面/体),空间表达范围具有完备性。(2)集成化。现有方法仅考虑了视频帧数据,该框架借助于定义的空间几何对象,支持视频帧、视频片段不同层次数据与GIS的有机集成,由此可实现点、线、面及体对象、视频与GIS间双向检索与可视化。(3)松耦合。该框架在OGC规范基础上,通过空间对象参照、索引等机制关联视频对象与GIS,使得该框架易于与现有系统进行集成,具有较好的灵活性与可扩展性。

4 结语

可定位视频数据的地理表达是集成视频与GIS的关键问题。从视频片段与视频帧的角度,本文设计了一个可定位视频数据的地理表达框架。视频帧通过包含姿态信息的位置(点)、平面视域(面)与立体视域(体)描述其空间信息,而视频片段则应用视频位置(点)、视频轨迹(线)、平面视域(面)与立体视域(体)进行地理表达。借助GPS接收机、三维电子罗盘等设备,以及地图匹配、计算机视觉等技术方法,可生成视频片段与视频帧的位置、轨迹及视域等空间几何对象。该框架扩展了OGC空间数据库几何要素规范,有助于实现可定位视频与GIS的双向检索与可视化,提供对地理实体的地图表达与实景表达,在地理可视化、空间认知及可定位视频分析挖掘具有应用价值,从而拓展并深化GIS应用。但在三维视频视域方面,还需进一步研究相应的数据生成与优化方法,以更为精确、高效地描述视频场景的三维视域范围。

The authors have declared that no competing interests exist.

[1]
Paul L, Michael F G, David J M,等. 地理信息系统与科学[M].张晶,刘瑜,张洁,等译.北京:机械工业出版社,2007.

[2]
韩志刚,孔云峰,秦耀辰.地理表达研究进展[J].地理科学进展,2011,30(2):141-148.

[3]
林珲,龚建华,施晶晶.从地图到地理信息系统与虚拟地理环境——试论地理学语言的演变[J].地理与地理信息科学,2003,19(4):18-23.

[4]
韩志刚,孔云峰,秦奋,等.地理立体视频数据分析与模型设计[J].地理与地理信息科学. 2013,29(1):1-7.

[5]
刘学军,闾国年,吴勇,等.侧面看世界——视频GIS框架综述[C].中国地理信息系统协会GIS理论与方法专业委员会2007年学术研讨会暨第2届地理元胞自动机和应用研讨会论文集,广州,2007.

[6]
韩志刚. 地理超媒体数据模型及Web服务研究——以立体视频为例[D].开封:河南大学,2011.

[7]
Kim S H, Ay S A, Yu B, et al.Vector model in support of versatile georeferenced video Search[C]. Proceedings of ACM MM10.ACM, 2010:235-246.

[8]
Ay S A, Zimmermann R, Kim S H.Relevance ranking in georeferenced video search[J]. Multimedia Systems Journal, 2010,16(2):105-125.

[9]
Kim S H, Ay S A, Zimmermann R.Design and implementation of geo-tagged video search framework[J]. Journal of Visual Communication and Image Representation, 2010,21(8):773-786.

[10]
Ma H, Ay S A, Zimmermann R, et al.Large-scale geo-tagged video indexing and queries[J]. Geoinformatica, 2013,18(4):671-697.

[11]
孔云峰. 地理视频数据模型及应用开发研究[J].地理与地理信息科学,2009,25(5):12-17.

[12]
孔云峰. 地理视频数据模型设计及网络视频GIS实现[J].武汉大学学报(信息科学版),2010,35(2):133-137.

[13]
宋宏权,孔云峰.Adobe Flex框架中的视频GIS系统设计与开发[J].武汉大学学报(信息科学版),2010,35(6):743-746.

[14]
宋宏权,刘学军,闾国年,等.基于视频的地理场景增强表达研究[J].地理与地理信息科学,2012,28(5):6-9.

[15]
Luo J B, Joshi D, Yu J, et al.Geotagging in multimedia and computer vision——a survey[J]. Multimedia Tools and Applications, 2011,51(1):187-211.

[16]
丰江帆. 视频GIS关键技术研究[D].南京:南京师范大学,2007.

[17]
Antonio N T.Semantic integration of thematic geographic information in a multimedia context[D]. Barcelona, Spanish: Universitat Pompeu Fabra,2006.

[18]
王美珍,刘学军,吴勇,等.基于可定位视频的电子导游系统[J].测绘通报,2011(2):48-52.

[19]
陈欣欢. 基于GIS的路产视频管理系统研究[D].西安:长安大学,2009.

[20]
Amr A.Video representation and processing for multimedia data mining[C]. In: Tao D C, Xu D, Li X L (eds.). Semantic Mining Technologies for Multimedia Databases. IGI Global: New York, 2009:1-31.

[21]
张纯,陈荣国,程昌秀.两种主流空间数据库国际标准与应用分析[J].地球信息科学学报,2009,11(4):526-534.

Outlines

/