技术干货 | 腾讯云智媒体AI中台中的视听场景多模态分类识别 - 腾讯云专区

‍

‍腾讯云智媒体AI中台是为传媒行业量身打造的解决方案，旨在提供智能化、全流程、一站式的AI中台及开箱即用的智能编目、智能拆条等九大智能应用。因此，AI中台囊括了NLP、CV、多模态等多种能力，其中视听场景的多模态分类识别作为其中的重要能力之一，是针对视频进行特定的场景分类识别。例如，在媒资管理场景，通过音视频多模态信息构建AI算法，实现深层理解视频内容，为视频打标签及长视频拆条等。不仅如此，该能力在近日首次举办多模态分类挑战的国际权威声学场景和事件检测及分类赛事（DCASE 2021）中，也达到了接近SOTA的92.1%分类准确率。

图1 视频中的音画模态

更具体地来看，如图1所示，通过对画面——观众及声音——鼓掌两个模态的感知，能够准确地判断这段短视频为观众鼓掌，而非raining on the ground。因此，多模态信息的融合学习是非常必要的。我们构建了一种多模态场景分类系统，设计了一种轻量的音频分类Transformer模型，并创新性的提出一种数据增强的方法——feature dropout，使用特征随机混合的策略训练特征融合分类模型，不仅能够提升分类器的性能，还可以在某个特征缺失时仍可以进行有效分类。

一、多模态场景分类识别系统

图2 基于多模态特征融合的场景分类系统

如图2所示，基于多模态特征融合的场景分类系统主要由四个部分组成。分别为基于卷积视觉Transformer的图像特征提取器，基于卷积神经网络的音频特征提取器，基于音频Transformer的音频特征提取器以及基于多层感知机的特征融合分类网络。首先，图像和音频模态分别输入到特征提取模块，提取而来的特征由再融合网络给出所属场景的预测。不仅如此，融合网络也可以作为融合特征的提取器，为拆条等更多的下游任务提供模态信息。

二、Feature Dropout

图3 Feature dropout过程

在特征融合部分，我们提出并使用了一种混合特征的数据扩增方法，名为feature dropout。Feature dropout的具体形式详见公式1，详细图示见图3，表示单个模态特征的选取概率，概率符合伯努利分布；表示单个模态对应的特征embedding。训练时，对于一个样本的所有特征，根据一定的概率选取至少一种特征加入训练，针对有特征概率全为0的情况，我们还加入特征选取保护机制，随机选取一类特征作为样本加入训练。这种训练方法可以使得分类器均匀地学习到每一种特征的信息，以及融合地学习特征之间的相关性。通过这种训练方式，分类器不再倾向于关注最突出的特征，忽略其他微小却重要的辨别特征。不仅如此，该训练方式具有更强的鲁棒性，当某一模态特征缺失时，分类器也可以根据其他信息较好地完成分类。

（1）

三、技术方案在DCASE上实验效果

（1）视听分类系统分类效果

本套技术方案实现了用视觉和听觉信息共同进行场景分类，极大的提高了场景分类准确率。不仅用于媒体AI中台的多项能力中，该技术方案还在真实场景数据集DCASE2021 Task1b测试集的分类中表现突出，该任务要求为1秒种的音视频输出标签（10类），具体见表1。

表1 场景分类系统在task1b的性能

（2）feature dropout性能消融实验

我们采用的feature dropout融合特征训练策略和简单使用所有特征进行训练的对比实验如表2所示。

表2 feature dropout消融实验

同时，使用混合特征策略和使用所有特征训练的分类器在只有单一特征输入时的对比如表3所示。

表3 特征缺失对是否为feature dropout训练而来的模型性能影响

显而易见，使用feature dropout的方式训练的模型在性能提升的情况下，对单个特征的鲁棒性更强。使用所有特征进行训练时，由于图像特征的主导地位，导致音频transformer的特征没有得到很好的学习。当使用混合特征训练策略时，每一种特征都得到了足够的关注，不会过于关注易区分的特征，而忽视微小但重要的特征。

四、总结

目前，多模态场景分类识别系统技术已经被广泛应用于腾讯云智媒体AI中台的视频理解相关能力中，例如新闻综艺场景分类，视频拆条等。而从技术者的角度出发，该系统在能够广泛应用和落地的同时，还有很多细节可以优化及改进，详细的各模态网络结构及实现技术细节，详见DCASE技术报告(文末点击阅读原文可查看)及之后的workshop。

关注腾讯云AI平台

了解更多AI资讯

文章来源于腾讯云开发者社区，点击查看原文