近日,ECCV 2024 AIM Workshop大赛结果公布,在压缩视频质量评估赛道上,腾讯TVQA-C视频质量评估算法获得比赛冠军。未来,相关能力将在腾讯云媒体处理(MPS)产品中的落地,进一步提升产品全链路媒体质量监控与分析能力,帮助企业用户实现媒体质量升级。
比赛成绩榜单
比赛获奖证书
压缩视频质量评估标准
推动视频压缩场景的演进与创新
视频是全球互联网流量中最重要的部分,随着网络负载的增加,对高效视频压缩编码器的需求迫切增长。而视频编码器的好坏对比主要依赖于质量评价指标,其中又包括客观指标和主观指标。以全球权威的MSU世界视频编码器大赛为例,其不但有客观评价指标,也增设了主观评价赛道,通过组织观众群对不同编码器输出的视频进行投票,再把不同编码器得到的票数转换为主观分进行比较,可以得到最准确的用户观看体验分,但这种方式也需要大量的人力物力成本。
因此,准确的编码视频质量评估算法变得至关重要,一方面可以帮助编码器研发人员进行快速对比,提高迭代速度;另一方面,通过准确的编码视频质量评估算法,可以得到关于视频质量的直接反馈,帮助编码器的使用者理解不同编码设置对观看体验的实际影响,快速地将编码器用在不同的业务场景。
ECCV 2024 AIM Workshop 是欧洲计算机视觉会议(ECCV)2024 的一个关于图像操作(Image Manipulation)的研讨会,此次压缩视频质量评估是AIM 2024研讨会的相关比赛之一,由MSU世界编码器大赛的主办方Lomonosov Moscow State University联合Yandex Research、ISP RAS Research Center for Trusted Artificial Intelligence、MSU Institute for Artificial Intelligence和Julius Maximilian University of Würzburg, Germany共同举办,加速推动视频质量评估算法在视频压缩场景的演进与创新。
此次比赛的数据由MSU举办方对历年世界编码器大赛的压缩视频通过人工标注的方式收集而来。比赛从两个不同的角度评估参赛算法的性能:预测单调性和预测准确性,利用SROCC和KROCC来评估预测评分和真实主观评分之间的单调性。此外,还使用PLCC来评估预测精度,用该指标衡量预测评分和真实主观评分之间的线性关系。最终用于排名的分数通过对SROCC、KROCC和PLCC进行平均得到。参赛者可在训练集上训练模型,并提交验证集的结果初步评估模型效果,最终每个参赛队伍需要提交测试集的结果用于最后排名。
腾讯TVQA-C算法斩获第一
加速视频场景的突破与产业落地
其中,腾讯团队通过不断优化的模型结构和训练策略,以及结合业务落地的丰富经验,最终在比赛获得了第一。
具体从表中可看出,腾讯算法(TVQA-C)在SROCC指标上以0.0002的极小分差低于SJTU队伍,另外两个指标都以明显优势优于第二名,其中KROCC较第二名高0.0092,PLCC较第二名高0.0063,最终TVQA-C总成绩较之第二名高出0.0051,获得比赛冠军。
腾讯算法(TVQA-C)成绩
模型结构
具体来说,在模型结构方面,经过大量骨干框架的测试,TVQA-C算法考虑到压缩视频质量评估需要考虑更多的帧细节信息(如压缩造成的伪影),选择HVS-5M来得到压缩视频的空域以及时域特征。同时,通过大模型Q-Align从视频帧中提取特征,以增强特征的语义表达能力;然后使用特征融合模块融合上述提取的特征;最后,融合后的特征经过全连接层(FC)得到视频质量评分。
TVQA-C算法结构图
训练策略
比赛数据基于分组投票得到分数,这种方式相比传统视频打分方法操作更简单,结果更准确,更能反映视频质量的好坏关系。但是存在两个特点:第一,由于分数通过投票获得,会有较多极端情况的主观评分出现(例如0分),而这种情况只能反映这个视频差于组内其他所有视频,导致其得到的投票数为0,但并不能认为这个视频的绝对质量一定很差;第二,由于投票过程在小组内进行,不同小组中的分数没有可比性,可能会出现更低视觉质量的视频最后得出的主观评分更高,还可能会出现同一个视频在不同组里投票打分后得到的分数差异巨大。针对这两个特点,腾讯团队在训练策略上做了一些优化。
在损失函数方面,从上面的数据分析中可以知道,本次比赛数据集的主观分数是在小组内投票得到的,不同小组之间的主观分没有一致性,因此不能采用L1 Loss或L2 Loss这种直接拟合分数的损失函数,这会导致模型训练在训练过程中出现歧义。而基于排序的损失函数非常适合在这种场景中使用,最初使用SROCC Loss以及PLCC Loss作为损失函数,实验发现这两个损失函数会导致KROCC指标特别低,经过分析发现,SROCC和PLCC是基于整组数据得到的指标,而KROCC是基于组内数据成对观察值之间的一致性和不一致性的比例得到。为了优化KROCC指标,对预测的逆序对使用Pairwise-ranking loss进行优化,以此减少逆序对的数量,提高KROCC指标。因此最终使用的损失函数如下:
针对数据采样策略,基于训练数据分组打分的特点,使用了一种分组训练策略。具体来说,按照数据集打分时的分组,将整个训练集分为57组。训练时,每个batch仅包含来自同一组的数据,保证每个batch中样本的分数都是可比较的。同时考虑视频数量和分组数量较少,还进行了数据增强处理,首先每个batch从一组数据中随机抽8个视频组成,随后再将这8个视频的顺序随机打乱,以增加数据序列的多样性。
此外,在训练细节上,整个训练过程使用单卡A100完成,使用AdamW优化器,学习率使用余弦退火策略从5e-4衰减到5e-6。训练过程中发现Pairwise-rank loss的引入导致训练不稳定,为此我们还使用了指数移动平均(EMA)策略来减少训练时模型的波动,提高模型参数的稳定性和泛化能力。
展望
在不断深耕,持续保持行业领先的同时,腾讯云也一直秉承“开放合作”的理念,通过腾讯云媒体处理(MPS)产品,将腾讯在音视频领域的自研和深度积累,以公有云、私有云、可集成SDK/LIB库等多种方式提供给行业客户和广大开发者。在本次比赛中大放异彩的腾讯TVQA-C视频质量评估算法未来也将在腾讯云媒体处理(MPS)产品中落地,帮助MPS媒体质检评测系统进一步提升产品能力,为企业提供更优质的全链路媒体质量监控与分析服务,为离线、直播等多场景下QoS和QoE相关指标保驾护航。
腾讯云媒体处理(MPS)媒体质检具备格式诊断、内容质检、无参考评分、高可编排、部署灵活、支持定制等六大优势,能够分析流信息、时间信息、流状态、容器封装和解码等异常情况,支持丰富的视频封装格式和编码格式,具备智能检测黑屏、绿屏、遮挡、冻结以及对于音频的噪声回声等20余种异常检测。视频编码和主观评价能力相结合,将助力腾讯云打造更为行业领先的媒体处理能力,给用户带来更便捷优质、更清晰流畅的视频体验。
如果您想了解更多腾讯云音视频相关能力,请扫描下方二维码添加音视频小姐姐微信,我们将安排产研同学专门跟进您的需求。
腾讯云音视频在音视频领域已有超过21年的技术积累,持续支持国内90%的音视频客户实现云上创新,独家具备腾讯云RT-ONE™全球网络,在此基础上,构建了业界最完整的 PaaS 产品家族,并通过腾讯云视立方 RT-Cube™ 提供All in One 的终端SDK,助力客户一键获取众多腾讯云音视频能力。腾讯云音视频为全真互联时代,提供坚实的数字化助力。