本期的技术解码

为大家带来腾讯云视频插帧技术的详细解析

随着信息科技与互联网技术的高速发展,视频已逐渐成为人们获取信息的重要来源。为了提升人眼的视觉主观感受,各大厂商的视频采集和播放设备的性能也得到了飞速发展。视频的帧率作为视频质量的一个重要指标,对人眼的主观感受也影响良多。但是高帧率的视频对网络传输带宽、传输设备等的要求也随之增高。因此,为了降低成本,实现对低帧率(Low Frame Rate)的视频适时进行帧率增强是目前视频行业研究的热点问题。另外,针对现存低帧率,网络传输丢帧的视频做插帧增强也是提升视频质量的重要解决方案。

视频帧率增强的视频插帧 Video Frame Interpolation 技术,又称帧速率转换(Frame Rate Conversion)技术,是通过在原始视频的每两帧画面中增加一帧或多帧,缩短帧与帧之间的显示时间,从而提升视频的流畅度,达到更好的视觉感官效果。图1中间视频帧就是根据前后原始帧的插帧结果:

(左上角添加白色方块以区分原始帧,下同)

图 1 从左至右 原始视频前一帧,插帧结果,原始视频后一帧

早期插帧采用的算法都是依靠人工提取图像特征,而人工特征更多地依赖专家经验,这使插帧效果明显受限于专家知识水平,不能满足日益增长的实际需求。近年来,深度卷积神经网络在视频帧插值任务中逐渐显示出了其优越的性能。视频帧插值任务的本质是基于视频在时间域上的连续性特点,根据已有的相邻帧的像素信息来生成和补充中间帧的像素。显然,组成同一个物体的像素在运动的过程中,在时间域会存在一定的相似性与关联性,但是由于帧之间运动的存在,物体位置和形状都可能存在一定的改变,因此,如何充分利用视频连续帧之间的相关信息,并准确估计不同物体的运动情况,是视频插帧技术中的关键。

目前主流的视频插帧方案主要是基于flow光流(空间运动物体在观察成像平面上的像素运动的瞬时速度),少部分基于kernel核估计、可变形卷积、注意力等网络结构也取得了比较好的效果,见表一:

单独基于核估计的方案效果较差,运动较大时很容易超出核的视野范围;变形卷积、通道注意力等其他方法则是通过学习额外的偏移信息来进行隐性运动估计,但训练模型往往会过拟合;而显性运动估计方案大多是基于光流估计,并考虑将光流估计结合核估计、深度信息等,从而帮助网络更好地利用来自视频相邻帧的相关信息,这又将导致运算量巨大。总体而言,目前视频插帧方案在视频存在大位移、复杂运动等问题时插帧产生的伪影依然十分严重,主要面临的挑战有:

1. 运动幅度大产生的形变

2. 光流估计的准确性

3. 非匀速运动

4. 遮挡问题

为了解决以上所述问题,腾讯视频云团队采用的视频插帧网络如下图所示:

图2 视频插帧网络结构示意图

本方案基于光流方法的插帧网络主要包括光流估计网络(Optical flow Net)、光流修正网络Urefine,中间帧合成网络Ucombine。光流估计的准确性,直接影响插帧效果的好坏,选择快速、稳定的光流算法至关重要,我们的方案采用光流预训练模型级联Unet得到更为精准、稳定的光流。图3中可以看出,本方案采用的PWC-Net(CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume)+ Unet修正方法能明显提升光流估计的稳定性和精准性。

图3 光流估计效果

插帧效果演示如下:

可以看出,腾讯视频云团队的插帧整体方案能够很好地提升视频的帧率,实现更加流畅和丝滑的播放效果,且在大位移、复杂运动中也表现优异。

目前视频插帧服务已集成至腾讯云智能编辑(Intelligent Editing)产品中,详情可扫描下方二维码或点击文末 [阅读原文] 了解。

配合其他服务为直播、点播平台以及媒体行业提供稳定高效的“媒体质检”、“画质重生”和“编辑理解”基础能力,实现视频内容生产降本增效,可为客户实现1080P/60FPS、4K/120FPS实时插帧、超分,为电竞赛事、综艺节庆大型直播活动带来用户畅爽的大屏观看体验。

文章来源于腾讯云开发者社区,点击查看原文