虚拟视点图像/视频质量度量及应用

978-7-115-59935-3
作者: 王晓川
译者:
编辑: 刘盛平
分类: 其他

图书目录:

详情

随着网络传输技术以及移动设备的发展与进步,以基于深度图像的绘制技术为核心的3DTV、立体视频、自由视点视频、三维场景远程绘制等图形图像系统逐渐得到广泛应用。这类系统的特点是服务器端仅传输稀疏的参考视点深度图像,客户端可以合成任意视点下的图像,其呈现给用户的结果称为虚拟视点图像。与传统图像失真不同,虚拟视点图像的失真具有非结构性、局部性的特点,因此,需要给出合理的、符合人的主观认知的质量度量指标,并以此来优化参考视点获取、深度图像编码与传输、虚拟视点合成等环境,从而提升系统的服务质量与用户体验质量。本书以虚拟视点图像质量度量方法研究为切入点,介绍了作者在虚拟视点图像无参考质量度量、基于虚拟视点图像质量度量的应用等方面的研究成果,并对每一研究内容,尽量给出相关重要、里程碑式的方法,以揭示技术演化的脉络,便于读者在了解当前研究进展的同时把握未来的发展趋势。

图书摘要

版权信息

书名:虚拟视点图像 / 视频质量度量及应用

ISBN:978-7-115-59935-3

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

著    王晓川

责任编辑 刘盛平

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内容提要

随着5G技术的发展以及移动终端的普及,以基于深度图像的绘制技术为核心的3DTV、立体视频、自由视点视频、三维场景远程绘制等图像系统逐渐得到广泛应用。这类系统的特点是服务器端仅传输稀疏的参考视点深度图像,客户端可以合成任意虚拟视点下的图像,其呈现给用户的结果称为虚拟视点图像。与传统图像的失真不同,虚拟视点图像的失真具有非一致性、局部性的特点,因此,需要给出合理、符合人的主观认知的质量度量指标,并以此来优化参考视点获取、参考视点深度图像编码与传输、虚拟视点合成等任务,从而提升图像系统的服务质量与用户体验。本书共5章,以虚拟视点图像/视频质量度量方法为切入点,介绍了作者在无参考虚拟视点图像/视频质量度量、虚拟视点图像质量度量的应用等方面的研究成果,并对每一研究内容,尽量给出相关重要、里程碑式的方法,以揭示技术演化的脉络,便于读者在了解虚拟视点图像/视频质量度量当前研究进展的同时把握未来的发展趋势。

本书既可作为高等学校计算机类相关专业高年级本科生及研究生的教材,也可作为机器视觉、虚拟现实相关领域从业人员的参考书。

前  言

随着5G技术的发展和移动终端的普及,基于深度图像的绘制技术被广泛用于3DTV、立体视频、自由视点视频、三维场景远程绘制等图像系统中,由此产生了虚拟视点图像这一新型可视媒体。给定参考视点下的彩色图和深度,基于深度图像的绘制技术就可以合成任意虚拟视点下的图像。与传统绘制方法相比,基于深度图像的绘制技术可以有效减少网络传输数据量,同时降低移动终端上的绘制与存储开销,有利于高真实感、高自由度图像或视频应用在中低端移动设备上。然而,参考视点对应的彩色图和深度的获取、编码、传输,以及虚拟视点合成等环节引入的失真,会影响最终呈现给用户的合成图像的视觉质量,最终降低移动终端交互式应用的用户体验。

图像质量度量发端于20世纪80年代,以结构相似性(structural similarity,SSIM)、盲/无参考图像空间质量评估器(blind/referenceless image spatial quality evaluator,BRISQUE)等为代表的图像质量度量指标因其能较好地反映图像的失真程度,被广泛应用于图像系统中。例如,Netflix视频引擎里集成了BRISQUE,在向远程终端推送视频时,视频引擎会实时监控终端上呈现的视频质量,当视频质量因网络拥塞低于某个阈值时,可通过增加缓冲时间、调整视频分辨率、改变关键帧编码模式等策略来调节。然而,上述方法在3DTV等系统中尚未得到普遍应用,其主要原因有以下两点。

(1)虚拟视点图像与传统图像不同。在远程终端呈现时,除引入传统图像的编码与量化失真、有损传输失真,还包含了因参考视点到虚拟视点的几何变换而引入的几何失真。该类失真与传统失真,如高斯白噪声、块效应等量化失真的表现形式迥异,具有非一致性、局部性的特点。因此,传统的图像质量度量指标难以准确评估虚拟视点图像的失真程度。

(2)作用环节不同。在传统的图像或视频系统中,图像质量度量结果大多是控制编码量化参数,使网络传输的数据满足率失真阈值要求。3DTV等系统除包含编码与传输环节,还包括参考视点与深度图像获取、虚拟视点合成与虚拟视点图像显示等环节。特别地,该系统编码与传输环节作用的对象不是传统的图像或视频,而是深度图像或视频,如何使用图像质量度量来优化上述环节是一个难点。

为此,本书通过分析虚拟视点图像失真的特点,介绍了无参考虚拟视点图像/视频质量度量方法,在此基础上研究虚拟视点图像质量度量的应用,并分别探索其在参考视点处理、深度图像传输以及虚拟视点合成等环节的作用。

本书共5章。第1章介绍虚拟视点图像的产生及应用、虚拟视点图像的失真特点,以及虚拟视点图像质量度量的意义;第2章介绍虚拟视点图像质量度量方法、国内外关于图像质量主观度量与图像质量客观度量的研究现状,以及虚拟视点图像质量度量的研究现状;第3章介绍无参考虚拟视点图像/视频质量度量方法的研究成果,包括基于视觉权重图的无参考图像质量度量方法、基于局部显著度的无参考虚拟视点图像质量度量方法、基于多模态特征聚合的无参考虚拟视点视频质量度量方法;第4章介绍虚拟视点图像质量度量的应用,包括基于虚拟视点图像质量度量的参考视点深度图像传输方法,以及基于视觉感知的无监督虚拟视点合成方法;第5章则对研究成果进行了总结,并对虚拟视点图像质量度量及其应用的发展做出展望。

本书主要内容是在国家自然科学基金(No.61877002)、北京市自然科学基金-丰台轨道交通前沿研究联合基金(No.L191009)的资助下完成的。本书的编写得到了北京工商大学计算机学院各级领导的大力支持与帮助,北京航空航天大学赵沁平院士、梁晓辉教授,北京工商大学李海生教授等在图书编写过程中给予了详细指导,在此表示衷心的感谢。

本书引用、借鉴和参考了上海交通大学、西安电子科技大学、法国南特大学等国内外同行专家的研究成果,在此表示衷心的感谢。

由于作者水平有限,书中不足之处敬请广大读者批评指正。

王晓川

2023年11月于北京工商大学耕耘楼

第1章 绪论

本章首先从虚拟视点图像产生的原理出发,介绍虚拟视点图像的应用,然后分析虚拟视点图像的失真特点以及虚拟视点图像质量度量的意义,最后介绍全书的组织结构。

| 1.1 虚拟视点图像的产生及应用 |

1.1.1 基于深度图像的绘制技术

基于深度图像的绘制(depth-image-based rendering,DIBR)技术是指将参考视点的深度图像(颜色图与对应视点的深度信息),通过三维图像变换(3D image warping)合成虚拟视点的图像。DIBR技术只利用少量参考视点深度图像便可合成任意虚拟视点,极大地提升了用户在客户端的交互自由度,因此被广泛应用在3DTV[1]、立体视频[2]、自由视点视频(free-viewpoint video,FVV)[3]以及三维场景远程绘制[4]等图像系统中。DIBR系统大幅增强了用户体验(quality of experience,QoE),虚拟视点图像则直接影响着用户的视觉感受。在此背景下,有关虚拟视点图像的分析与研究工作已经成为近年来图像处理领域的热点之一。与虚拟视点图像紧密相关的研究工作可大致分为以下几个环节。

(1)获取

该环节的主要目的是获取参考视点的深度图像,主要任务有参考视点预测[5-6]、最优视点选择[7]等。

(2)编码与传输

该环节的主要目的是将参考视点的深度图像编码后传输给客户端,主要任务有深度图像压缩[8-9]、深度图像传输[10-11]等。

(3)合成

该环节的主要目的是在客户端上根据用户的交互信息,实时地生成任意虚拟视点的图像,主要任务有虚拟视点合成[12-13]、虚拟视点图像增强[14-15]等。

(4)度量

该环节的主要目的是实时地评估客户端的用户视觉感知质量,并将度量结果反馈给服务器端,以此来动态控制参考视点预测策略、深度图像压缩参数等,确保用户体验。该环节的主要任务有虚拟视点图像质量度量[16-17]、虚拟视点视频质量度量[18]等。

上述环节中,直接与虚拟视点图像相关的环节是合成与度量。其中,虚拟视点图像质量度量又是整个DIBR系统服务质量的根本,直接影响用户体验;此外,虚拟视点图像质量度量又可反馈给DIBR系统的其他环节,如编码与传输、合成等。因此,本书以虚拟视点图像的质量度量为切入点,重点介绍作者及所在团队在虚拟视点图像质量度量方向的研究进展;以此为基础,介绍虚拟视点图像质量度量在DIBR系统其他环节的应用。

本书所指的虚拟视点图像特指由DIBR技术得到的虚拟视点的图像。类似地,将DIBR技术得到的虚拟视点的视频称为虚拟视点视频(DIBR synthesized video)。

DIBR技术的核心算法是McMillian于1997提出的三维图像变换[19],其原理如图1-1所示。

图1-1 DIBR技术核心算法的原理

如图1-1所示,已知参考视点vref的参考视点图像和三维场景中物体到参考视点像平面的深度,通过三维图像变换,可以将参考视点图像中的像素依照深度变换到虚拟视点vvir下,最终得到虚拟视点图像。整个计算过程实际上遵循了多视点几何重建原理,可大致分为以下两步:首先,根据参考视点的相机参数与参考视点深度,将参考视点图像中的像素反投影(back projection)到三维空间世界坐标系中;然后,根据虚拟视点的相机参数,将反投影到三维空间中的像素重投影(reprojection)到虚拟视点像平面上,最终得到虚拟视点图像。图1-1中的Oxyz即三维空间世界坐标系;O1x1y1O2x2y2则分别表示参考视点图像与虚拟视点图像的像平面。

设参考视点与虚拟视点的相机均为针孔相机,则上述两个步骤可以形式化描述为

  (1-1)

  (1-2)

式中,Z1Z2分别表示三维场景中物体到参考视点相机与虚拟视点相机的深度,分别是三维空间中任意一点投影到参考视点像平面的像素与虚拟视点像平面的像素的图像坐标,分别表示参考视点相机的内参数矩阵与外参数矩阵,表示虚拟视点相机的内参数矩阵与外参数矩阵。关于相机参数矩阵的详细描述可参见文献[20]。表示在三维空间世界坐标系中的坐标。通过联立式(1-1)和式(1-2),便可得到三维图像变换方程(将参考视点图像中的像素变换到虚拟视点图像中):

  (1-3)

参考视点图像与通过DIBR技术合成的虚拟视点图像如图1-2所示。其中,参考视点图像来源于微软三维视频(3D video)序列库[21]。可以看到,虚拟视点图像存在明显的不同于传统自然图像由量化编码引起的新的失真类型。以图1-2(b)所示为例,人物的边缘附近出现了大片空洞,严重影响视觉体验。因此,建立主客观一致的质量度量方法来恰当地表征虚拟视点图像中的失真对用户视觉感知的影响,并将虚拟视点图像质量度量方法应用于以DIBR为核心技术的交互式图像系统中,以提升用户体验和系统服务质量,成为学术界与工业界目前的研究热点。

图1-2 参考视点图像与通过DIBR技术合成的虚拟视点图像

1.1.2 虚拟视点图像的应用

虚拟视点图像作为一类新型视觉信号,随着DIBR的交互式图像系统的发展,越来越受到学术界和工业界的关注。与自然图像相比,虚拟视点图像不需要复杂的光学仪器及成像过程;与已有的图像合成技术,如插值(interpolation)、图像变形(image morphing),基于图像的绘制(image-based rendering,IBR)等相比,DIBR技术仅需要少量参考视点下的彩色图(color image)和深度图(depth map),便可以合成任意虚拟视点下的图像,而不需要显式的几何信息,所生成的虚拟视点图像能够保证与参考视点的几何一致性,确保用户在视点变换时的临场感。此外,将DIBR技术应用于三维场景远程绘制系统中,可以极大地减轻客户端的图像绘制与存储开销。更重要是,DIBR技术支持用户与场景的三维交互,只要计算出用户交互对应的从参考视点到虚拟视点的相机变换参数矩阵,便可以实时高效地绘制出用户想要观看的图像,交互的自由度高于传统图像合成方法。此外,与传统的流媒体传输方法或者远程绘制方法相比,交互延迟大大降低。因此,DIBR技术被广泛用于立体视频、自由视点视频、三维场景远程绘制系统中。一个典型的DIBR系统的工作流程如图1-3所示。

图1-3 典型的DIBR系统的工作流程

如图1-3所示,DIBR系统主要包括参考视点深度图像获取、深度图像编码、深度图像传输、虚拟视点合成和虚拟视点图像显示5个环节。

其中,参考视点深度图像获取是指通过主动采集,或由计算机绘制得到的参考视点的深度图像。在一些文献中,深度图像与深度图是同一概念。为避免歧义,本书后面中提到的深度图像特指彩色图和对应视点的深度图这一图像对(image pair)。深度图像编码与深度图像传输主要是指对参考视点深度图像压缩(即同时考虑彩色图和深度图的压缩,下同),然后通过网络传输到客户端,再进行图像重建的过程。编码环节侧重于减少冗余编码信息,传输环节则主要考虑错误隐藏等问题。不同的应用场景下,编码传输的数据格式可能有较大的差异。例如,自由视点视频将参考视点深度图像组织为深度视频,以流的方式进行编码传输;三维场景远程绘制系统则倾向于传输单帧深度图像,以保证客户端较低的交互延迟。虚拟视点合成主要基于前述三维图像变换算法。由于三维图像变换本身是对参考视点像素的一种变换,并不能推断出参考视点图像中被遮挡的像素,因此虚拟视点图像中往往存在明显的失真。常见的虚拟视点合成中往往会附加一个后处理,例如使用纹理合成(texture synthesis)[22]、图像修复(image inpainting)[23]等方法以减少虚拟视点图像中的失真。虚拟视点图像显示环节则是指将虚拟视点图像显示到观察设备,供用户观看。根据显示设备的不同,还有可能对虚拟视点图像进行分辨率适应[24]、重定位(re-targeting)[25]或是立体显示[26]等操作。

下面举例介绍一些目前学术界与工业界具有影响力的DIBR系统。

(1)立体视频系统

2009年,三维电影《阿凡达》以出色的视觉效果将立体视频带入普罗大众的视野。此后,日本的松下、富士,韩国的LG等公司纷纷推出三维相机,丰富了立体图像/视频的采集途径。目前,三维相机价格相对昂贵,制约了立体视频数据的采集,而对单视点视频进行深度估计,再使用DIBR技术生成左右视点的视频,成为目前的研究热点。其中,清华大学戴琼海团队对立体视频生成技术和装置开展了长期研究,并研制出具有自主知识产权的立体视频重建装置,可以实时地实现普通二维视频的立体显示[27-29]

(2)自由视点视频系统

立体视频虽然能够给用户以立体感,提升用户观看时的沉浸感,然而其提供的视场较小,且不具有交互性。国际标准化组织动态图像专家组自2003年起组织研究新一代视频系统方案,提议将自由视点视频系统作为下一代沉浸式视频系统的主要方案。2004年,日本三菱电子研究实验室率先设计了自由视点视频系统,支持用户自由切换观察视点,从任意角度观看视频。此后,日本名古屋大学、美国斯坦福大学等又利用光场构建了具有更大视场的显示系统,用户不需要佩戴辅助设备便可切换任意视点。此外,德国弗劳恩霍夫通信技术研究所(Heinrich-Hertz Institute,HHI),以及美国微软研究院针对自由视点视频编码,以及虚拟视点合成等环节开展了研究。国内学术界,如上海大学的张兆扬团队、西安电子科技大学的石光明团队等关于自由视点视频系统的研究已经取得了一些成果。

(3)三维场景远程绘制系统

三维图像变换算法最初便是为三维场景远程绘制设计的,因而适用于远程绘制系统。Mark[19]在他的博士论文中详细阐述了DIBR技术的三维场景远程绘制系统的实现细节。此后,Bao等[30-31]、Shi等[32]分别针对DIBR技术的三维场景远程绘制系统中存在的虚拟视点图像失真、交互延迟等问题提出相应的改进策略,提升了DIBR技术的三维场景远程绘制系统的服务质量。

| 1.2 虚拟视点图像的失真特点 |

虚拟视点图像与普通二维图像的区别有以下几点。

(1)图像获取方式不同

普通二维图像的获取方式主要包括两种:一种是使用相机等直接从自然场景中采样;另一种是使用计算机绘制生成。与普通二维图像不同的是,虚拟视点图像由参考视点深度图像经过像素变换得到的。从数据源的角度来看,虚拟视点图像来源于参考视点而不是真正地从虚拟视点采样或生成的。因此,虚拟视点图像的获取方式并不完全遵守光学成像原理。

(2)编码与传输方式不同

普通二维图像主要通过离散余弦变换(discrete cosine transform,DCT)量化编码来消除帧内与帧间的冗余信息,进而达到率失真优化的目的;与普通二维图像不同的是,在DIBR系统中,虚拟视点图像编码与传输的对象大多数情况下是参考视点深度图像,而不是虚拟视点图像。此外,深度图像编码过程中还需要额外考虑深度图,因为深度精度对虚拟视点图像视觉质量有重要影响。

(3)显示方式不同

普通二维图像是直接呈现在屏幕上的。虚拟视点图像在最终显示之前,往往还需要经过图像增强,以消除虚拟视点图像中的失真。换言之,用户观察到的最终图像是经历了从参考视点深度图像重建、三维图像变换以及图像增强等一系列处理后的结果。

由于虚拟视点图像具有上述特点,其视觉质量的影响因素相比普通二维图像而言更为复杂。考虑虚拟视点图像最终呈现给用户前经历了参考视点深度图像获取、深度图像编码、深度图像传输、虚拟视点合成以及虚拟视点图像显示5个环节,每个环节都有可能引入图像误差。因此,虚拟视点图像的质量损伤是一个多因素、高耦合的复杂降质(degradation)过程,如图1-4所示。

图1-4 虚拟视点图像的复杂降质过程

式中,vref表示参考视点,分别表示原始无损伤的参考视点深度图像、编码后的参考视点深度图像、传输后的参考视点深度图像,以及重建后的参考视点深度图像。特别地,最终得到的虚拟视点vvir下的图像还要经过合成过程,也就是三维图像变换。

由于虚拟视点图像特有的生成过程,最终得到的图像的失真类型也与传统图像不同。

如图1-5所示,虚拟视点图像的特有失真类型包括空洞(holes)、裂缝(cracking)、鬼影(ghosting artifact)及拉伸(stretching)等。

图1-5 虚拟视点图像的特有失真类型

虚拟视点图像的失真往往分布在场景中物体的边缘,如图1-5(a)中男子身体的右侧,图1-5(c)中石狮子的左侧等。与传统图像失真类型,如白噪声、模糊相比,虚拟视点图像中的失真具有非一致性(non-uniform)、局部性(local-structural)的特点,难以使用参数化的降质方程表示。不失一般性,将由三维视点变换(不仅仅包含三维图像变换,也包括视图插值等)引起的,与场景三维几何结构有关的图像失真统称为几何失真(geometry distortion)。与之相比,将由图像有损编码以及有损传输引入的失真定义为量化失真(quantization distortion),如高斯白噪声(white Gaussian noise,WGN)、块效应(blocking artifact)、振铃效应(ringing artifact)等。与几何失真相比,量化失真往往齐次(homogeneous)地分布在整张图像中,且可以用参数化的降质方程表示。

虚拟视点图像既包含了三维图像变换引入的几何失真,又包含了由参考视点图像有损编码与传输引入的量化失真,主要失真类型如图1-6所示。

图1-6 虚拟视点图像的主要失真类型

虚拟视点图像中的失真类型复杂且多样化,并且几何失真与量化失真存在差异,导致为传统图像设计的图像质量度量指标在虚拟视点图像数据集上的质量预测性能往往较差。近年来,已有学者通过分析几何失真,提出了新的虚拟视点图像质量度量指标。然而,现有的虚拟视点图像质量度量方法一方面依赖手工设计的特征,对几何失真的质量度量性能提升仍有较大的改进空间;另一方面则忽视了量化失真与几何失真对图像质量的综合影响。具体来说,现有的关于虚拟视点图像质量度量的研究仍面临以下困难与挑战。

(1)虚拟视点图像中几何失真的特征表示方式

虚拟视点图像中的几何失真产生的主要原因是三维场景中几何结构的改变,使在参考视点下被遮挡的像素在虚拟视点下暴露出来,进而产生空洞等严重失真。由于三维场景中的几何结构本身难以参数化表示,故虚拟视点图像中的几何失真也难以像传统图像失真(如高斯模糊等)那样使用参数化的降质方程来表示。因此,如何设计合适的面向虚拟视点图像几何失真的特征表示方式,并用其建立主客观一致的虚拟视点图像质量度量指标,成为目前的研究难点。

(2)面向实际应用中时空域复合失真的虚拟视点质量度量

在实际DIBR系统中,除考虑虚拟视点中的几何失真之外,还要综合考虑由参考视点深度图像编码引入的量化失真。这种复合失真既具有局部非一致性,也具备全局齐次性的特点,并有可能拓展到时空域。对这种复杂的失真情况,如何设计合理的特征表示方式,并利用所设计的特征实现无参考虚拟视点视频质量度量,以满足实际应用的需要,也是目前的研究难点。

(3)基于视觉感知的DIBR系统的优化

近年来,图像质量度量已被广泛用于编码、图像增强等算法的优化中,初步实现了“用户中心”的图像系统。然而,将虚拟视点图像质量度量用于DIBR系统的优化研究工作仍存在不足。对参考视点深度图像传输来说,如何根据虚拟视点图像的质量度量结果来优化参考视点预测与深度图像的传输策略,从而在保证用户视觉感知的前提下尽可能地减少传输开销;对虚拟视点合成来说,如何在缺少三维场景几何信息,以及虚拟视点监督信息的前提下,使用虚拟视点图像质量度量来学习一个参数化的虚拟视点合成模型,优化虚拟视点的视觉质量,均给研究工作带来了挑战。

| 1.3 虚拟视点图像质量度量的意义 |

虚拟视点图像质量度量是影响DIBR系统用户体验的主要因素,也是改进DIBR系统性能的前提。近年来,随着远程图像系统由技术驱动服务转为用户导向服务,虚拟视点图像质量度量除了用于对不同的参考视点图像获取、编码传输、虚拟视点合成、虚拟视点图像显示等技术手段进行评估、测试及验证,更重要的是能够对DIBR系统各环节(如参考视点预测、深度图像编码、深度图像传输等)的性能起到优化作用。目前,DIBR系统主要使用传统图像质量度量方法,通过数学和计算机的方法,建立与人的主观质量评分一致的客观度量模型,预测虚拟视点图像失真程度,进而应用于深度图像压缩编码等环节。然而,与传统自然图像相比,虚拟视点图像具有失真类型多样、失真因素复杂等问题。将传统图像质量度量方法直接应用于深度图像压缩编码等环节时,容易导致最终呈现给用户的虚拟视点图像的视觉质量不佳。目前,关于虚拟视点图像质量度量的研究方兴未艾,尚缺乏比较成熟的评价指标以及相应的质量评价数据集。

虚拟视点图像质量度量主要应用于参考视点预测、深度图像编码、深度图像传输等环节。此外,虚拟视点图像质量度量还可用于虚拟视点图像的视觉增强。例如,通过在客户端实时度量虚拟视点图像的质量,一旦度量结果低于预设的阈值,便通知服务器端更改深度图像编码的量化步长,以此来提升最终虚拟视点图像的视觉效果;又如,利用虚拟视点图像质量度量来引导虚拟视点的合成过程,包括但不限于深度估计精度的提升、空洞填补效果的提升、虚拟视点图像失真的消除等。上述研究尚未完全展开,且尚未被广泛应用于DIBR系统中。

| 1.4 本书组织结构 |

本书主要内容是在国家自然科学基金(No.61877002)、北京市自然科学基金-丰台轨道交通前沿研究联合基金(No.L191009)的资助下完成的。项目的研究目标是针对移动终端资源有限的特点,设计能支持多终端、高交互性与低交互延迟的三维场景远程绘制引擎,在确保用户交互延迟与绘制帧率的前提下,尽可能地减少移动终端的资源消耗以及网络传输开销。

考虑要在有限资源的移动终端上实现真实感的绘制,并支持用户灵活的交互方式,本书选用DIBR技术作为设计三维场景远程绘制引擎的关键技术。在设计的引擎中,服务器端从复杂的三维场景中绘制得到参考视点深度图像,根据用户交互动态地向客户端传输深度图像。客户端根据接收到的深度图像合成虚拟视点图像。DIBR技术只需少量参考视点深度图像便可合成任意虚拟视点,计算耗时较短,传输开销较低,因而支持在中低端移动设备上的复杂三维场景交互式应用。然而,虚拟视点图像存在的几何失真等会影响用户的视觉感知。因此,建立主客观一致的虚拟视点图像质量度量模型,并将其用于参考视点深度图像传输以及虚拟视点合成等环节的控制与优化,对提升DIBR系统的用户体验与系统服务质量有重要作用。

近年来,作者及所在的团队围绕资助项目开展虚拟视点质量度量方面的研究,下面主要介绍相关工作进展。

(1)虚拟视点图像质量度量

虚拟视点图像中存在的几何失真,如空洞、裂缝、鬼影、拉伸等,主要分布在物体边缘以及图像的边界,具有非一致性、局部性等特点。传统图像质量度量方法很难准确反映几何失真对图像质量的影响。现有虚拟视点图像质量度量方法虽然取得了较好的预测性能,但是依赖手工设计的特征,计算复杂度较高。

围绕虚拟视点图像失真的特点,本书介绍3种不同的虚拟视点图像质量度量方法。根据视觉敏感度机制,提出一种基于视觉权重图的无参考图像质量度量方法,该方法主要为局部失真而设计;通过观察视觉局部显著度现象,提出了一种基于局部显著度的无参考虚拟视点图像质量度量方法,该方法主要为几何失真而设计;通过分析虚拟视点视频特征表示方式,提出一种基于多模态特征聚合的无参考虚拟视点视频质量度量方法,该方法主要为时空域复合失真而设计。

(2)虚拟视点图像质量度量的应用

现有虚拟视点图像质量度量的应用仍遵循技术主导的设计理念,关注深度图像传输开销与虚拟视点绘制开销,对最终呈现给用户的虚拟视点图像的质量考虑不足。本书将虚拟视点图像无参考质量度量应用于DIBR系统的不同环节,试图在保证用户视觉感知质量的前提下尽可能地提升用户体验与系统服务质量。

本书共5章,除本章作为全书的概述之外,第2~4章分别论述了虚拟视点图像质量度量的理论研究现状、无参考虚拟视点图像/视频质量度量方法的研究进展,以及虚拟视点图像质量度量应用的研究成果。第5章总结了目前取得的研究成果,并给出了目前研究存在的问题和未来研究的方向。

| 参考文献 |

[1] FEHN C, WOODS A J, MERRITT J O, et al. Depth-image-based rendering (DIBR), compression and transmission for a new approach on 3D-TV[C]// SPIE Electronic Imaging 2004. Bellingham, USA: SPIE, 2004(5291): 93-104.

[2] AKELEY K, WATT S J, GIRSHICK A R, et al. A stereo display prototype with multiple focal distances[J]. ACM Transactions on Graphics, 2004, 23(3): 804-813.

[3] SMOLIC A, MUELLER K, MERKLE P, et al. Free viewpoint video extraction, representation, coding, and rendering[C]//2004 International Conference on Image Processing. Piscataway, USA: IEEE, 2004(5): 3287-3290.

[4] SHI S, NAHRSTEDT K, CAMPBELL R. A real-time remote rendering system for interactive mobile graphics[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2012, 8(3s): 1-20.

[5] ZHANG C, LI J. Compression of lumigraph with multiple reference frame (MRF) prediction and just-in-time rendering[C]//2000 IEEE Data Compression Conference. Piscataway, USA: IEEE, 2000: 253-262.

[6] SCHWARZ H, WIEGAND T. Interview prediction of motion data in multiview video coding[C]//2012 Picture Coding Symposium. Piscataway, USA: IEEE, 2012: 101-104.

[7] DEINZER F, DENZLER J, DERICHS C, et al. Aspects of optimal viewpoint selection and viewpoint fusion[C]//Asian Conference on Computer Vision. Heidelberg, Berlin: Springer, 2006: 902-912.

[8] CHAI B B, SETHURAMAN S, SAWHNEY H S, et al. Depth map compression for real-time view-based rendering[J]. Pattern Recognition Letters, 2004, 25(7): 755-766.

[9] GAUTIER J, LE MEUR O, GUILLEMOT C. Efficient depth map compression based on lossless edge coding and diffusion[C]//2012 Picture Coding Symposium. Piscataway, USA: IEEE, 2012: 81-84.

[10] CHAI B B, SETHURAMAN S, SAWHNEY H S. A depth map representation for real-time transmission and view-based rendering of a dynamic 3D scene[C]//First International Symposium on 3D Data Processing Visualization and Transmission. Piscataway, USA: IEEE, 2002: 107-114.

[11] HEWAGE C T E R, MARTINI M G. Reduced-reference quality metric for 3D depth map transmission[C]//2010 3DTV-Conference:The True Vision-Capture, Transmission and Display of 3D Video. Piscataway, USA: IEEE, 2010: 1-4.

[12] STARCK J, HILTON A. Virtual view synthesis of people from multiple view video sequences[J]. Graphical Models, 2005, 67(6): 600-620.

[13] AHN I, KIM C. A novel depth-based virtual view synthesis method for free viewpoint video[J]. IEEE Transactions on Broadcasting, 2013, 59(4): 614-626.

[14] LEI J, ZHANG C, FANG Y, et al. Depth sensation enhancement for multiple virtual view rendering[J]. IEEE Transactions on Multimedia, 2015, 17(4): 457-469.

[15] RAHAMAN D M M, PAUL M. A novel virtual view quality enhancement technique through a learning of synthesised video[C]//2017 International Conference on Digital Image Computing: Techniques and Applications. Piscataway, USA: IEEE, 2017: 1-5.

[16] BATTISTI F, BOSC E, CARLI M, et al. Objective image quality assessment of 3D synthesized views[J]. Signal Processing: Image Communication, 2015(30): 78-88.

[17] LI L, ZHOU Y, GU K, et al. Quality assessment of DIBR-synthesized images by measuring local geometric distortions and global sharpness[J]. IEEE Transactions on Multimedia, 2017, 20(4): 914-926.

[18] LIU X, ZHANG Y, HU S, et al. Subjective and objective video quality assessment of 3D synthesized views with texture/depth compression distortion[J]. IEEE Transactions on Image Processing, 2015, 24(12): 4847-4861.

[19] MARK W R, MCMILLAN L, BISHOP G. Post-rendering 3D warping[C]//1997 Symposium on Interactive 3D Graphics. New York: ACM, 1997: 7-16.

[20] ZHANG Z. A flexible new technique for camera calibration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11): 1330-1334.

[21] VETRO A, YEA S, SMOLIC A. Toward a 3D video format for auto-stereoscopic displays[C]// Applications of Digital Image Processing XXXI. Bellingham, USA: SPIE, 2008(7073): 113-122.

[22] EFROS A A, FREEMAN W T. Image quilting for texture synthesis and transfer[C]//28th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM, 2001: 341-346.

[23] BERTALMIO M, SAPIRO G, CASELLES V, et al. Image inpainting[C]//27th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM, 2000: 417-424.

[24] HU Y, CHIA L T, RAJAN D. Region-of-interest based image resolution adaptation for mpeg-21 digital item[C]//12th Annual ACM International Conference on Multimedia. New York: ACM, 2004: 340-343.

[25] LIU F, GLEICHER M. Automatic image retargeting with fisheye-view warping[C]//18th Annual ACM Symposium on User Interface Software and Technology. New York: ACM, 2005: 153-162.

[26] AKELEY K, WATT S J, GIRSHICK A R, et al. A stereo display prototype with multiple focal distances[J]. ACM Transactions on Graphics, 2004, 23(3): 804-813.

[27] WU C, ER G, XIE X, et al. A novel method for semi-automatic 2D to 3D video conversion[C]// 2008 3DTV Conference: The True Vision-Capture, Transmission and Display of 3D Video. Piscataway, USA: IEEE, 2008: 65-68.

[28] CAO X, LI Z, DAI Q. Semi-automatic 2D-to-3D conversion using disparity propagation[J]. IEEE Transactions on Broadcasting, 2011, 57(2): 491-499.

[29] YAN T, LAU R W H, XU Y, et al. Depth mapping for stereoscopic videos[J]. International Journal of Computer Vision, 2013, 102(1): 293-307.

[30] BAO P, GOURLAY D. Remote walkthrough over mobile networks using 3-D image warping and streaming[J]. IEEE Proceedings-Vision, Image and Signal Processing, 2004, 151(4): 329-336.

[31] BAO P, GOURLAY D. A framework for remote rendering of 3-D scenes on limited mobile devices[J]. IEEE Transactions on Multimedia, 2006, 8(2): 382-389.

[32] SHI S, NAHRSTEDT K, CAMPBELL R. A real-time remote rendering system for interactive mobile graphics[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2012, 8(3s): 1-20.

相关图书

T20天正建筑V8.0实战从入门到精通
T20天正建筑V8.0实战从入门到精通
Marc 非线性有限元分析标准教程
Marc 非线性有限元分析标准教程
领域驱动设计工作坊
领域驱动设计工作坊
Flask Web应用开发项目实战 基于Python和统信UOS
Flask Web应用开发项目实战 基于Python和统信UOS
图解仓颉编程:高级篇
图解仓颉编程:高级篇
图解仓颉编程:基础篇
图解仓颉编程:基础篇

相关文章

相关课程