一年一度的CVPR会议正式来袭,作为计算机视觉与模式识别领域的顶级会议,每年都受到大量学术界的关注。另一方面,从中我们也能了解到某些细分领域的最新动向,以及对应公司的进展。
Facebook作为CVPR重要参与者之一,据不完全统计今年有36项研究被CVPR收录。其中,在2D转3D等相关的研究有很多新进展。接下来,我们来着重介绍一下Facebook宣布本次CVPR的几个重点研究项目。
SynSin:单张图像生成全新视角
简单来讲这是一项通过单张图片的某个固定视角作为基础,基于深度模型生产一个后者多个新的视角。例如,给定一张只有椅子的照片,如何通过照片推断墙壁、甚至茶几的视角。这就面临着大量挑战,而目标就是基于图像中的信息全面的理解三维场景。
在此之前,类似的方法基本上都是通过多张(不同角度)的图像作为输入源,进行深度感知训练,训练Ground truth深度信息。
而Facebook则提出了一个全新的端到端模型,该模型特点是:只需要一张图片,并且完全基于真实图像信息进行训练,没有任何Ground truth三维信息。而在该模型中,还引入了一个可微的潜在点云渲染器,它的作用就是将那些3D点云特征进行转换,输出目标视角的图像。这些特征信息被细分网格处理,进行缺失图像处理,从而输出新的图像。
据了解,基于SynSin方案可以将输出图像进行视频化,例如可以不断的生成某一个移动角度的图像,甚至可以生成更高分辨率的图像。
Facebook表示,经过他们在Matterport、Replica和RealEstate10K数据集的测试,SynSin方案优于此前类似的方案。
PIFuHD:高分辨率3D人像重建
高分辨率的3D人像重建是一个关键的技术,未来无论是在医疗还是游戏、AR/VR等领域都有极大的应用潜力。目前高清的3D人像重建依然难以摆脱专业的摄影工作室,不仅对摄像机和灯光等要求高,而且价格昂贵,部署繁琐。为此开始有人探索通过大容量深度学习模型进行3D人像重建,虽然潜力巨大,但是目前和专业工作室相比仍然差距较大。
而Facebook提出一项名为PIFuHD的方案,特点是只需要基于单视角的图像(视频),生成高清晰度/分辨率的三维人像,包括手指、面部细节、甚至衣服的褶皱等等。
Facebook指出:当前的类似方案没有充分利用到高分辨率的特性,例如手机可以拍摄出画质较好且分辨率足够大的图片。而且,它们较依赖于算法推理图像中的2D样式以及3D外形的映射,但实践中存在部分限制因素。
为此,Facebook创建了一个端到端多层次架构,它的特点是能以像素对其的方式,通过1K分辨的图像进行推断,判断人的几何形态(姿态)。之后引入PIFu函数,通过像素对齐,并从粗糙推理学习到整体嵌入以及图像无缝融合。
简单来说,PIFuHD的作用就是可以“生成”一个给定图像的另一个视角,例如给定人的正面视角图像,生成背后视角的图像。其中的关键点在于:可通过1K分辨率的原始图像就足够输出高清3D图像;可为未观测区域(例如人的背后)进行的高清重建。
虚拟人像合影
前不久苹果的远程全息合影专利刚刚在USPTO公开,紧接着Facebook的一项类似研究就在CVPR公布。据了解,该研究的特点是将对象(主要以人为主)叠加到现有的图片中,并且让他们通过更逼真的视角和方式融合,看上去更自然。
虽然目前各种基于神经网络模型的人像生成工具,一种是在给定条件下生成图像,另一种是让算法从零开始,自由发挥生成一个高清且逼真的人像。Facebook表示,在两者之中似乎还存在一个新的应用,那就是将给定图像中的人像嵌入到包含其它人像的图像中。
这个过程,需要生成一幅人像并嵌入到现有包含其它人像的照片中,而这个生成的人像在的质量和原有图像差别并不明显,无论是清晰度和细节。而其中的几个关键在于:人脸、衣服、头发。
据了解,Facebook通过三个GAN完成整个过程:
第一个GAN基于现有被嵌入图像中的人物之间以及人物与背景的上下文关系,并生成一副目标的人体姿势;
第二个GAN呈现出新的人物细节,包括脸部细节;
第三个GAN对生成图像的面部细节进行增强,保证人脸部分看上去足够逼真。
经过测验,Facebook表示第一步生成的虚拟人物姿势和大多数自然的任务姿态几乎相同,但是人物与人物之间的互动仍然是一个挑战。
而该研究的应用,可以融入未来的AR/VR社交(远程社交),或者其他AR衍生应用等场景。
参考:Facebook