腾讯云MPS媒体智能，解锁大模型加持下的音视频新玩法

近年来，随着大模型的不断发展，大模型技术掀起的浪潮席卷了政务、医疗、教育等社会各个领域。作为全球领先的音视频服务商，腾讯云音视频在大模型领域也升级了许多新玩法，在直播、点播、TRTC等众多场景都取得了新的技术突破。

请在此添加图片描述

广阔应用空间

智能字幕在不同场景下的应用实践

为节约企业字幕处理成本，提升字幕处理效率以及优化字幕质量，腾讯云媒体智能基于大模型打造了高效优质的字幕解决方案。具备直播流、离线视频、TRTC等全平台支持能力，可以识别145个语种，翻译123个语种。与此同时，腾讯云智能字幕接入门槛也相对较低，直播压制流无需播放端改造，离线字幕无需代码开发，上传即可自动触发，生成对应的字幕文件。

直播场景

在直播场景中，腾讯云智能字幕可以在直播过程中实时识别、翻译语音信息，并将字幕压制到画面，为观众提供文字形式的信息传递，帮助观众更好地理解直播内容。例如在得到APP十周年庆典上，三位创始人的视频号首秀直播上，直播字幕由AI实时处理，识别准确率高，观众反馈也非常好。

请在此添加图片描述

除了实时字幕，腾讯云智能字幕也支持音频翻译合成。例如下方第一张图中的源视频是中文语音+中英字幕的形式，通过智能字幕，则可以将源字幕抹除，达到第二张图的效果，几乎看不出原本字幕的痕迹，而且还可以基于源视频，自动翻译成英文字幕+英文音频或中日字幕+日文音频等多种形式的视频，从而使用户只需制作一份视频，就能自动推广到各个国家进行出海销售。

请在此添加图片描述

点播场景

在点播场景，腾讯云智能字幕也具备多种使用模式。无需代码开发，用户在控制台配置好语种模板和编排，上传文件即可自动生成视频字幕文件。例如下图韩国的电商直播录制视频，可以基于原本的直播录制文件，在点播视频上传时自动生成韩语、英语等双语字幕，帮助观众更好理解视频卖点，提升使用体验。

请在此添加图片描述

此外，腾讯云智能字幕还支持自动生成字幕并插入轨道，防止字幕、视频分开存储导致字幕文件丢失，并能基于自动生成的字幕文件，自动转码压制到视频画面，样式、字号、字体颜色等均可自定义。针对老片字幕模糊问题，智能字幕也可以基于OCR自动提取画面字幕，从而在画面高清重制时，可以从原视频提取字幕重新压制，保留原汁原味。

请在此添加图片描述

TRTC场景

在TRTC场景中，腾讯云智能字幕可以做到TRTC 配置转推云直播，下行直播播放可自动添加字幕。同时还支持指定房间号实时回调，无需转推云直播，指定房间号即可发起任务，实时回调识别和翻译文本。此外TRTC场景也支持WebSocket字幕展示，支持返回WebSocket 链接，Web端可低门槛接入展示，无需做太大的开发适配。

请在此添加图片描述

提高理解效率

基于ASR识别结果精确提取内容摘要

借助NLP能力，腾讯云媒体智能可以对教学课程、新闻、演讲等视频场景，基于ASR识别结果进行混元大模型摘要提取。其提取和概括力强，无需反复拖拽即可快速理解视频内容。同时还支持离线分段和直播实时分段，自动提取段落摘要及关键词，帮助用户快速定位感兴趣的视频片段，提高使用效率。

请在此添加图片描述

智能遮码、智能排版

适配多种场景需求

在短视频时代，大家对隐私的重视度越来越高，用户上传视频时，经常会遇到人像、车牌等信息需要隐私遮码的情形。腾讯云智能擦除可以实现自动遮码处理，对人像、车牌等隐私信息自动模糊。除了离线视频的智能擦除，腾讯云媒体智能也支持目标动态跟踪擦除、字幕、logo等抹除。例如针对出海视频，可以自动抹除原本字幕，加入目标国家语种字幕，一份制作成本即可实现多个国家的出海需求。

请在此添加图片描述

智能擦除同样也可以用于视频排版。在直播录制网课、会议视频时，可能会出现类似下方左图这样，录制画面中右侧是主讲人摄像头画面和黑色长条的情形。腾讯云媒体智能可对这些画面内容自动识别、调整排版，从而将左图情形调整为右图效果，使排版更加美观舒适。

请在此添加图片描述

ROI识别

依据人眼兴趣智能处理画面

ROI识别即感兴趣区域自动识别。结合大模型，腾讯云媒体智能也升级了新的使用场景。在直播流场景中，腾讯云媒体智能可以自动识别人眼感兴趣区域并将区域位置编码到SEI帧，客户端解码SEI帧时可控制弹幕自动避开该区域，从而达到智能弹幕的效果。同时，ROI识别也可以自动捕捉人眼感兴趣的区域，并将16:9 的横屏视频智能裁剪成9:16 的竖版视频。

请在此添加图片描述

除了以上场景，ROI还支持智能导播。在多机位的球场赛事中，ROI可以自动识别球的运动轨迹，在进球瞬间，可以自动拉近放大画面，也可以自动切左右半场，从而达到智能导播的效果。

请在此添加图片描述

影视剧、赛事、新闻集锦拆条

自动捕捉输出精彩片段

集锦拆条适用于影视剧、体育赛事、游戏、新闻等多种场景。首先，针对电视剧、电影高光时刻集锦，传统算法需标注大量高光电影片段，再训练模型自动识别，而腾讯云媒体智能则可通过大模型，定义诸如男女主角冲突、精彩打斗等关键词，再基于文本和图像特征统一映射，便自动找出电视剧、电影的精彩片段。

足球、篮球等体育赛事场景，腾讯云媒体智能可捕捉进球、角球、中场等片段；游戏场景下，媒体智能则可基于对画面内容的分析，包括游戏、视频风格类型以及一些更细腻的画面元素，如人物、物件、防御塔的摧毁和三杀、四杀、五杀等事件的分析，从而精准捕捉游戏画面的精彩片段，自动输出游戏集锦视频。

请在此添加图片描述

新闻场景则可通过拆条，对新闻视频中的导播台，以及“快讯”等特征进行定位识别，自动拆分裁剪成一个个短视频新闻事件。除了新闻场景，腾讯云媒体智能还支持NLP语义分割。在直播场景中可以通过视频语音、画面的文字信息，提取每段视频的概要及关键词，对视频自动分段处理，做到短视频的快速分发，从而提高转化。

请在此添加图片描述

本文中使用的图片素材部分来源于网络，如有侵权请通过公众号后台联系管理员删除。

腾讯云音视频在音视频领域已有超过21年的技术积累，持续支持国内90%的音视频客户实现云上创新，独家具备腾讯云RT-ONE™全球网络，在此基础上，构建了业界最完整的 PaaS 产品家族，并通过腾讯云视立方 RT-Cube™ 提供All in One 的终端SDK，助力客户一键获取众多腾讯云音视频能力。腾讯云音视频为全真互联时代，提供坚实的数字化助力。

文章来源于腾讯云开发者社区，点击查看原文

腾讯云开发者社区

免费产品

推荐排行

官方网站

热门标签