近年来,随着大模型的不断发展,大模型技术掀起的浪潮席卷了政务、医疗、教育等社会各个领域。作为全球领先的音视频服务商,腾讯云音视频在大模型领域也升级了许多新玩法,在直播、点播、TRTC等众多场景都取得了新的技术突破。
广阔应用空间
智能字幕在不同场景下的应用实践
为节约企业字幕处理成本,提升字幕处理效率以及优化字幕质量,腾讯云媒体智能基于大模型打造了高效优质的字幕解决方案。具备直播流、离线视频、TRTC等全平台支持能力,可以识别145个语种,翻译123个语种。与此同时,腾讯云智能字幕接入门槛也相对较低,直播压制流无需播放端改造,离线字幕无需代码开发,上传即可自动触发,生成对应的字幕文件。
- 直播场景
在直播场景中,腾讯云智能字幕可以在直播过程中实时识别、翻译语音信息,并将字幕压制到画面,为观众提供文字形式的信息传递,帮助观众更好地理解直播内容。例如在得到APP十周年庆典上,三位创始人的视频号首秀直播上,直播字幕由AI实时处理,识别准确率高,观众反馈也非常好。
除了实时字幕,腾讯云智能字幕也支持音频翻译合成。例如下方第一张图中的源视频是中文语音+中英字幕的形式,通过智能字幕,则可以将源字幕抹除,达到第二张图的效果,几乎看不出原本字幕的痕迹,而且还可以基于源视频,自动翻译成英文字幕+英文音频或中日字幕+日文音频等多种形式的视频,从而使用户只需制作一份视频,就能自动推广到各个国家进行出海销售。
- 点播场景
在点播场景,腾讯云智能字幕也具备多种使用模式。无需代码开发,用户在控制台配置好语种模板和编排,上传文件即可自动生成视频字幕文件。例如下图韩国的电商直播录制视频,可以基于原本的直播录制文件,在点播视频上传时自动生成韩语、英语等双语字幕,帮助观众更好理解视频卖点,提升使用体验。
此外,腾讯云智能字幕还支持自动生成字幕并插入轨道,防止字幕、视频分开存储导致字幕文件丢失,并能基于自动生成的字幕文件,自动转码压制到视频画面,样式、字号、字体颜色等均可自定义。针对老片字幕模糊问题,智能字幕也可以基于OCR自动提取画面字幕,从而在画面高清重制时,可以从原视频提取字幕重新压制,保留原汁原味。
- TRTC场景
在TRTC场景中,腾讯云智能字幕可以做到TRTC 配置转推云直播,下行直播播放可自动添加字幕。同时还支持指定房间号实时回调,无需转推云直播,指定房间号即可发起任务,实时回调识别和翻译文本。此外TRTC场景也支持WebSocket字幕展示,支持返回WebSocket 链接,Web端可低门槛接入展示,无需做太大的开发适配。
提高理解效率
基于ASR识别结果精确提取内容摘要
借助NLP能力,腾讯云媒体智能可以对教学课程、新闻、演讲等视频场景,基于ASR识别结果进行混元大模型摘要提取。其提取和概括力强,无需反复拖拽即可快速理解视频内容。同时还支持离线分段和直播实时分段,自动提取段落摘要及关键词,帮助用户快速定位感兴趣的视频片段,提高使用效率。
智能遮码、智能排版
适配多种场景需求
在短视频时代,大家对隐私的重视度越来越高,用户上传视频时,经常会遇到人像、车牌等信息需要隐私遮码的情形。腾讯云智能擦除可以实现自动遮码处理,对人像、车牌等隐私信息自动模糊。除了离线视频的智能擦除,腾讯云媒体智能也支持目标动态跟踪擦除、字幕、logo等抹除。例如针对出海视频,可以自动抹除原本字幕,加入目标国家语种字幕,一份制作成本即可实现多个国家的出海需求。
智能擦除同样也可以用于视频排版。在直播录制网课、会议视频时,可能会出现类似下方左图这样,录制画面中右侧是主讲人摄像头画面和黑色长条的情形。腾讯云媒体智能可对这些画面内容自动识别、调整排版,从而将左图情形调整为右图效果,使排版更加美观舒适。
ROI识别
依据人眼兴趣智能处理画面
ROI识别即感兴趣区域自动识别。结合大模型,腾讯云媒体智能也升级了新的使用场景。在直播流场景中,腾讯云媒体智能可以自动识别人眼感兴趣区域并将区域位置编码到SEI帧,客户端解码SEI帧时可控制弹幕自动避开该区域,从而达到智能弹幕的效果。同时,ROI识别也可以自动捕捉人眼感兴趣的区域,并将16:9 的横屏视频智能裁剪成9:16 的竖版视频。
除了以上场景,ROI还支持智能导播。在多机位的球场赛事中,ROI可以自动识别球的运动轨迹,在进球瞬间,可以自动拉近放大画面,也可以自动切左右半场,从而达到智能导播的效果。
影视剧、赛事、新闻集锦拆条
自动捕捉输出精彩片段
集锦拆条适用于影视剧、体育赛事、游戏、新闻等多种场景。首先,针对电视剧、电影高光时刻集锦,传统算法需标注大量高光电影片段,再训练模型自动识别,而腾讯云媒体智能则可通过大模型,定义诸如男女主角冲突、精彩打斗等关键词,再基于文本和图像特征统一映射,便自动找出电视剧、电影的精彩片段。
足球、篮球等体育赛事场景,腾讯云媒体智能可捕捉进球、角球、中场等片段;游戏场景下,媒体智能则可基于对画面内容的分析,包括游戏、视频风格类型以及一些更细腻的画面元素,如人物、物件、防御塔的摧毁和三杀、四杀、五杀等事件的分析,从而精准捕捉游戏画面的精彩片段,自动输出游戏集锦视频。
新闻场景则可通过拆条,对新闻视频中的导播台,以及“快讯”等特征进行定位识别,自动拆分裁剪成一个个短视频新闻事件。除了新闻场景,腾讯云媒体智能还支持NLP语义分割。在直播场景中可以通过视频语音、画面的文字信息,提取每段视频的概要及关键词,对视频自动分段处理,做到短视频的快速分发,从而提高转化。
本文中使用的图片素材部分来源于网络,如有侵权请通过公众号后台联系管理员删除。
腾讯云音视频在音视频领域已有超过21年的技术积累,持续支持国内90%的音视频客户实现云上创新,独家具备腾讯云RT-ONE™全球网络,在此基础上,构建了业界最完整的 PaaS 产品家族,并通过腾讯云视立方 RT-Cube™ 提供All in One 的终端SDK,助力客户一键获取众多腾讯云音视频能力。腾讯云音视频为全真互联时代,提供坚实的数字化助力。