一场AI浪潮正在全球范围内席卷。
随着ChatGPT的爆火,AI这个不算年轻的词汇再次站到了聚光灯下。新一代生成式AI所展现出的强大理解力和惊人创作力正在不断刷新人们的认知,又一轮“技术爆炸”似乎近在眼前。
从文本生成到文生图,再到视频、音频等多模态生成,AI在内容生产、个性化服务方面的快速进化和巨大潜力,为内容产业打开了无限的想象空间。AI文案、AI谱曲、AI绘画、AI演唱……不断涌现的AI内容生产工具正快速渗入设计、电商、传媒、游戏等领域,并颠覆其工作流。从底层的大模型到上层的各种“AI+”应用,AIGC俨然已成为行业升级的新风口,越来越多的科技公司开始拥抱AIGC,探索将AI和大模型技术与自身应用场景相结合,利用AIGC打造新的增长曲线。
虚拟数字人与AI的创新结合就是这些探索中的一个典型。通过融合新一代AI强大的逻辑和生成能力,虚拟数字人能够更深刻地进行理解和响应,极大地提升了交互体验。乘着AIGC的东风,“智能进化”后的虚拟数字人行业,即将迎来自己的大爆发。
AI+虚拟人,从形似到神似
在新一代生成式AI出现前,我们所接触的AI更多是“苹果siri”、“小爱同学”、“小度小度”这样的经过程序设定的智能语音助手,使用场景几乎都是指令式对话,而由这类AI驱动的虚拟数字人也只是能通过语音合成、机器翻译等技术进行文本到视频的语音输出和播报,完成少量指定的交互动作。虚拟数字人虽然在外貌形象、行动姿态等方面已能媲美真人,但在内容理解、语言沟通、分析创作等方面,距离真正的“数字人”还有不小的距离。而现在,AIGC补全了这块拼图,为虚拟数字人注入了一个更智能的内核。
以ChatGPT为代表的新一代AI采用无监督学习的方法进行训练,能够处理更加复杂和抽象的自然语言文本,并生成更加自然流畅的回复,同时不需要标记训练数据即可学习自然语言规律。在庞大训练数据的支撑下,它们能够像正常人一样与人进行更真实、富有情感的交流。虚拟数字人与AI结合之后,也可以具备同样的能力,真正成为一位具有“人情味”的高颜值数字伙伴,为用户提供更个性化的服务体验。
除了虚拟数字人内核的“智能进化”外,多模态的各种AIGC应用能够高效输出图像、文本、音频等不同形式的内容,快速补足虚拟数字人的内容缺口,满足用户差异化内容需求。虚拟数字人与AIGC的结合将显著提升虚拟数字人的制作效率并大幅降低运营成本。
虚拟数字人的内容创作主要涉及图文、视频、影视、音频四大方向,之前这些内容全部需要专业人员在背后进行打磨制作,这也导致虚拟数字人长期面临制作成本高、拍摄技术门槛高、制作周期长的问题。而“AI+虚拟数字人”可以有效解决这些问题。过去,建模师们可能需要几个月才能完成的超写实虚拟人形象,在AI助力下,制作周期可以压缩到一周。另外,之前虚拟数字人的播报、动作等内容需要提前制作,如果想要实时互动还需要“中之人”通过人工驱动。在与AIGC应用结合之后,虚拟数字人可以自己创作内容,在AI驱动下自行解决不同人群的提问,生成语音播报并配合内容做出动作,与用户实时交互。在播报新闻、客服答疑、直播带货等众多应用场景中,虚拟数字人都可以依托AIGC应用智能生产内容,实现自动化编排,在内容更丰富、更贴切的同时,大幅解放运营人力。
AI加持下,虚拟数字人的升级还将推动其应用场景获得极大丰富,在教育、金融、电商、物流、社交等场景中,虚拟数字人可以化身虚拟教师、虚拟客服、虚拟主播、虚拟好友等不同角色,为用户提供个性化的沟通服务。例如在各种虚拟活动场景中,新一代的虚拟数字人能够自然应对用户咨询,随时随地为用户提供指引;在社交娱乐场景中,新一代的虚拟数字人可以为用户提供24小时的陪伴,用户还能够定制自己专属的个性化数字人,创造一个时刻在线的贴心好友;在虚拟直播场景,新一代的虚拟数字人不仅能够全天候直播卖货,还能智能生成话术、回复问题、弹幕互动,帮助企业实现服务与营销的数智化转型。
AIGC浪潮之下,已有多家企业推出了自己的新一代AI数字人。世优科技推出的AI数字人可以通过数字人自身的人设背景等相关数据集,基于AI能力对数字人的专有大脑进行个性化模型训练。同时,数字人还可接入世优科技开发的微信小程序“世优数字人元宇宙”,在其中与用户进行实时内容互动,并拥有切换机位、旋转模型、语音/文字输入等多种功能。
八点八数字科技基于AIGC技术自研出的双引擎渲染架构虚拟人内容生成引擎XMEN.AI,则能够帮助用户更加方便、快捷以及零成本在线生成虚拟人海报视频、AI直播、对话机器人、虚拟活动等虚拟人内容,大幅降低用户制作门槛和周期。
变革当前,如何抓住虚拟人新机遇
在AIGC的驱动之下,虚拟数字人行业已经步入“智能升级”的快车道,但想要抓住机遇,在这条赛道上抢占先机,云渲染技术的支持也必不可少。无论是世优科技的AI数字人还是八点八数字科技的虚拟人内容生成引擎,其超高精度、流畅细腻的虚拟数字人内容都来自于腾讯云应用云渲染及快直播的能力支撑。
高精度的虚拟数字人画面渲染需要大量的算力支持,在与AI结合后,各种自生成内容对算力的依赖进一步提高。腾讯云应用云渲染依托腾讯丰富的边缘计算节点、灵活的GPU虚拟化技术和稳定低延时的音视频串流能力,可以将应用云化,通过将云端渲染出的应用画面低延迟传输至用户终端设备,并将用户操作实时反馈至云端的方法,实现用户在小程序、H5等轻量化终端流畅体验大型3D应用的效果。另一方面,随着虚拟数字人的对话互动能力不断增强,其对各种直播场景下的延时性能要求也会持续提高。腾讯云超低延时快直播能够为用户提供流畅高清的毫秒级延时直播画面,端到端平均延时只有800ms,真正意义上实现了在线的“无感”实时互动。这样的超低延时也让用户能够在线上和虚拟数字人无阻交流,尽情探索AI赋予虚拟数字人的无限可能性。
应用云渲染产品技术优势:
支持所有应用:支持 x86 和 ARM 架构并发混合调度,同时支持exe应用和apk应用的快速云化。
支持0开发快速上线:可在控制台上通过简单配置,0开发生成一个标准化的前端页面,快速上线使用。
低延迟、高画质:产品可实现低至60-80ms的端到端延迟,画质最高可达8K,可以为用户提供接近原生的操作体验,再复杂的3D场景也能实现秒级渲染加载!
全端SDK:提供JS、Android、IOS SDK以及接入Demo,可帮助您打造更丰富的功能,形成小程序、H5、App等多终端一致的体验。
弱网保障:使用了专为云渲染场景定制优化的RTC带宽评估、Pacing发送算法、丢包重传以及智能编码调控等技术,确保用户在弱网情况下依然能得到流畅的体验。
资源调度服务:具备自动化的资源管理及动态伸缩能力,已成功为数百个客户提供数十万的并发资源的全球化就近调度能力,为用户以低延迟实时交互云渲染提供基础保障。
快直播产品技术优势:
超低延时:采用UDP协议,为用户提供流畅高清的毫秒级延时直播画面,端到端平均800ms延时;
网络抗性:抗弱网能力强,在弱网环境下(高丢包率、高延迟)也可以流畅播放;
多平台支持:协同腾讯云音视频终端SDK提供全平台解决方案,5000+终端完美适配。支持移动端、Web端、小程序等终端能力;
进阶功能:除标准直播能力外,还提供自适应码率、无缝切换、AV1编码等进阶功能。
AIGC应用的涌现为人们未来的生活和工作带来了无尽的想象空间。对千千万万企业及开发者来说,这是一片充满机遇的新天地。基于数十年的业务实践,腾讯云音视频将以全面、易用、优质的音视频通信解决方案,助力开发者实践云上创新。
如果您对我们的方案感兴趣或想要进一步地了解腾讯云音视频产品内容,欢迎扫描下方二维码添加音视频小姐姐微信,与我们的产研团队深入沟通交流。
腾讯云音视频在音视频领域已有超过21年的技术积累,持续支持国内90%的音视频客户实现云上创新,独家具备RT-ONE™全球网络,在此基础上,构建了业界最完整的 PaaS 产品家族,并通过腾讯云视立方 RT-Cube™ 提供All in One 的终端SDK,助力客户一键获取众多腾讯云音视频能力。腾讯云音视频为全真互联时代,提供坚实的数字化助力。