弹幕作为一种新的互动方式,近年来逐渐在各大视频网站推广开来。在享受弹幕带来的陪伴和热闹的同时,你会不会也有观感被影响的时候?如今有一项新的技术可以把视频中的人和背景分割开来,为观众带来更好的体验。
西交利物浦大学智能工程学院学者的研究为这项技术带来新的发展,他们提出的模型在大幅度提升速度的同时还提高了识别的准确率。西交利物浦大学电气与电子工程系博士生孙铭杰介绍,他们的研究使用了强化学习算法来解决如何快速、准确地跟踪到视频中的对象并将其与视频背景进行分离的问题。这项技术能够被广泛应用在视频弹幕、影视制作等领域,未来甚至有可能让电影特技拍摄告别绿幕,直接在复杂背景中进行抠图。
孙铭杰说,在复杂背景中抠图是所有相关算法的巨大挑战,这项技术中主要使用了YOLACT分割算法,该算法将分割任务分为两个并行的子任务:一是生成一组原型掩模图,二是预测每个实例的掩模系数,最后通过将原型与模板系数线性组合来生成最终掩模图,这种方式既加快了速度,也保证算法的性能。
孙铭杰的指导老师肖继民博士指出,强化学习在人工智能领域内是一项非常前沿的技术,比如战胜了围棋世界冠军的人工智能机器人AlphaGo就是其中的知名应用。
“使用强化学习算法研究视频对象跟踪与分割的过程中有一些很容易被忽视的技术难点。”肖继民说,强化学习模型的性能对其状态变量的选择较为敏感,因此,在有关视频的任务中,如何挖掘前后帧图像的信息,进而组成一个包含尽可能多有效信息的状态变量是本任务的一大难点。另外,奖励函数的设计也是强化学习模型的关键,如何通过数据集提供的标签设计一个鲁棒的奖励函数,进而让强化学习模型的训练更为平滑且高效,也是一个常常被忽视的难点。
孙铭杰把研究重点放在目标模板的判定这一细节上。通过使用强化学习算法训练模型,它可以智能、自主地完成“是否要用新的识别对象去替换原有的目标模板”这一决策判定。他解释道:“当计算机识别视频中的对象时,首先需要一个参照物来和视频中的对象比对,这个参照物就被称作目标模板,它可能是被识别对象的照片或者其在其他视频中的截图。”
“当计算机根据目标模板识别出了视频中某一帧的对象后,理论上来说这一帧的对象是可以替换原有的目标模板来进行后续信息识别的,因为它更接近视频里的真实信息。但因为视频是动态的,可能这一帧的精确度并不高,或者周围有遮挡物,如果这种情况下依旧用它进行后续识别的话,识别的精确度就会下降,甚至会导致目标模板损坏、无法继续识别。”
孙铭杰表示,在使用强化学习算法训练这个模型后,它可以主动学习提升,能够像一个“智能开关”一样自主决定是否需要替换模板,“和以前手写很多规则的解决办法相比,我们提出的模型覆盖的规则更为全面,而且节省人力。”
肖继民认为,目前在电影行业中的主流软件仍然是基于传统算法的,虽然这些软件经过几十年的打磨已经拥有较稳定的性能,但它们无法自我升级,强化学习的应用可以赋予这些软件自我学习的能力,使之在自我迭代中不断强化。 本报记者 王 拓