音视频的多媒体化,正在撬动大量用户的原创热情,但由此产生的海量内容却带来新的难题。
一方面,由用户端产生的内容(UGC)跨度广泛,质量参差不齐;
另一方面,部分打“擦边球”、违规内容,蒙混在海量音视频中,也进一步加剧了内容审核者的挑战。
对于网络上传播的色情恶意内容,图像鉴黄技术很好的打击了大部分色情图像和视频内容,而在一些短视频、直播等场景中,还有一些色情内容以音频方式传播,用以规避图像维度的打击。
因此腾讯云安全天御研发了基于音频的鉴黄系统,让腾讯云的整套鉴黄解决方案更具突破性,目前该系统已在腾讯云的点播、直播等业务中上线使用,进一步提高色情内容检出率。
该色情音频鉴黄系统目前日处理音视频超过1亿条,每日识别数十万条色情音视频,准确率95%以上。
先做个选择题
(答案留言给我们)
根据以下两张语谱图,
猜猜哪张是色情尖叫声?
图A
图B
双管齐下
显著提升直播平台色情音频实时检出率
看似正常的语谱图,实际却是色情尖叫声。
目前音频鉴黄面临以下技术难点:
1. 音频内容和场景多样,常常伴有周围噪声和背景音乐等,信噪比较低;
2. 大部分音频时长较短,信息量不足;
3. 信道复杂,语音质量参差不齐,常见截频截幅等情况。
针对以上问题,腾讯云采用高效的 i-vector 系统保证较长音频正确快速检出,同时对信息量不足的短音频采用 DNN embedding 系统进行特定检出,两者互为补充,加上多种信道补偿算法的融合,同时保证了系统的识别性能和高实时率。
在业务量巨大的情况下,腾讯云基于变长统计和深度学习混合的鉴黄系统达到单线50倍速于原始音频流的高实时率。也就是说:1秒的音频,腾讯云0.02秒就能识别。
[ 音频鉴黄系统框图 ]
腾讯云的音频鉴黄系统基于海量数据训练得到,对于每条业务音频,系统首先会通过静音检测去掉其中的静音部分,将保留下来的有效音频内容进行声学特征提取。
由于每条音频的时长不同,基于统计量和深度神经网络的音频识别模型将不同长度的音频特征转换为统一维度的音频表征信息。
最后再与系统中的色情模型与正常模型相比对,经过分数融合得到最终的识别结果 。
海量正负样本训练
让色情尖叫声悄然无存
音频鉴黄系统离不开海量的正负样本训练,样本标注看似简单,但实际操作起来却并不容易:
1、对于色情音频的定义,不同于语种说话人等有一个明显的定义,不同的人对色情内容理解会有偏差,一条音频在 A 听来是色情内容,在 B 听来可能只是在恶搞。
2、色情作为一种人为定义的类别,而声音是一种生物特征。同属于色情类别的声音可能从生物特征上来看差别巨大(像色情尖叫声和吮吸声),强制分为一类可能会导致训练不收敛的情况,并影响识别准确率。这就需要在标注时做细化工作,在色情与非色情之下再给出更精细化的标签。
基于以上几点,腾讯云在正负样本的标注中尽可能做到多标签区分,比如色情尖叫声、喘息声、吮吸声,专业 AV、UGC 视频等,以确保训练的模型能够有效的区分正常和色情音频,常见的标注如下:
[ 色情音频样本标注 ]
在长期的细化与标注工作中,腾讯云累积了一套多标签色情尖叫声、喘息声长达上万小时的色情音频数据集,用于音频鉴黄系统的训练提升;
同时,针对线上的识别数据也持续进行人工抽检覆盖和漏过情况,并将正负样本进行标注用于系统优化,让音频鉴黄系统更智能。
音频鉴黄技术由腾讯云安全天御打造,在文本、图片鉴黄的基础上为腾讯云的客户提供更全面的技术支持。
目前腾讯云的音频鉴黄系统已经在多个业务场景上使用,但由于场景需求的复杂性,仍有很多困难与挑战并存。紧跟音频分类相关领域的最新技术趋势,同时利用海量业务数据的优势进一步提高系统性能和速度,是腾讯云下一步的发展方向。