在人工智能技术日益普及的今天,GPT-4o所展现出的实时语音对话能力再次吸引了大量关注。但AI语音助手其实并不新鲜,“你好,Siri”这句话,大家都已经说了好多年。那为什么GPT-4o的发布,仍能够再次唤起人们对AI语音的畅想?答案的关键或许在于GPT-4o比Siri们,快得多。

速度对于语音AI界面非常重要。我们与AI交互的流畅度,一方面取决于大模型理解生成的效率,另一方面依赖于网络传输的速度。大模型就像大脑,网络传输则像神经系统,传递大脑的信号。而传统AI语音与GPT-4o之间的速度差异,很大一部分就来自于网络传输延迟。传统AI语音一般采用WebSocket方案。这一方案应用广泛,但方案基于TCP协议构建,一来一回延迟就要2-3秒,网络状况不良时甚至需要3-4秒。而GPT-4o等新一代AI语音则采用基于WebRTC的实时语音方案,延迟可低至毫秒级,且抗弱网能力更强。正是这一核心技术的突破,让GPT-4o能够在几百毫秒的时间内便响应音频输入,速度达到人类正常对话水准。腾讯云在RTC技术上有着深厚积累,在该领域长期处于亚太第一的领先地位,每日支撑上行时长超30亿分钟,能够帮助大模型有效构建实时音视频互动能力。

TRTC对话方案与传统AI对话方案对比

AI+RTC,大模型卓越的自然语言理解及处理能力结合超低延迟的音视频传输,让人机之间实时、生动的交流对话成为现实。在社交陪伴、智能客服、线上教育、呼叫中心等众多场景中,这样实时自然的对话交流体验都具备广阔的应用空间。对于开发者来说,在应用中落地AI实时语音能力也有多种方式,可以选择直接调用大模型厂商提供的具备端到端多模态互动能力的AI服务,也可以集成音视频云厂商的解决方案,例如腾讯云实时音视频TRTC的一站式对话式AI解决方案。但目前GPT-4o 的声音 API 尚未开放,即使开放后,直接调用AI服务的话,开发者很难对输入输出进行后续二次处理(对于开发者的研发能力有较高要求,想要达到最佳的使用效果,需要自行处理各个环节延迟、降噪、打断、AI上下文管理等细节能力)。而TRTC对话式AI解决方案将一整套的技术框架完整封装,能够很好地帮客户解决接入的效率和效果问题,帮助开发者快速实现适配自己业务场景的AI实时对话服务。因此,对于当下想要追逐AI实时语音互动风口的企业来说,选择TRTC对话式AI解决方案显然是更优的选择。

毫秒级实时响应,流畅自然的交互体验

TRTC对话式AI方案,一天落地AI实时语音

腾讯云实时音视频TRTC基于腾讯长期积累的低成本、低延时、高品质的全链路实时音视频技术,精准的语音转文字(STT)能力,并整合业内领先的LLM/TTS方案进行深度优化,在实现音视频数据高效采集、处理、传输的基础上,叠加智能降噪、智能打断、上下文管理等丰富能力,为开发者提供端到端的、毫秒级实时响应的、流畅自然的AI实时语音能力,帮助企业在最短的时间内落地对话式AI应用。

请在此添加图片描述

TRTC对话式AI解决方案一站式提供从音视频采集、处理、传输到云端AI处理服务的全链路能力。客户端应用通过TRTC SDK捕获音频并发送至云端,云端接收后将其发送至AI服务进行处理。STT(自动语音识别)将音频转换为文本,同时进行情感分析和拟人对话处理。处理后的文本交由LLM(大型语言模型)进一步理解和生成。最后,生成的文本通过TTS(文本转语音)模块转换成语音并发布回客户端应用。

基于RTC协议,全链路深度优化

对话总延迟低至1000ms以内

TRTC对话式AI解决方案对音视频输入→STT→LLM→TTS→音视频输出的整条AI对话链路都进行了深度优化,AI对话总延迟低至1000ms,媲美人类对话反应速度。其中,TRTC依托腾讯云遍布全球的3200+加速节点以及智能编码、动态接入等自研技术,全球端到端传输延时可控制在300ms内,且实测抗丢包率超过80%,抗网络抖动超过1000ms,弱网环境下仍能提供高质量的音视频通话。

TRTC对话式AI助手对话效果演示

智能降噪、智能打断

更流畅自然的对话体验

TRTC对话式AI解决方案支持 48kHz 采样的高音质,由业内领先的腾讯天籁实验室提供 3A 处理算法,杜绝回声和啸叫。同时,方案采用源自腾讯天籁实验室的自研AI降噪算法,通过深度学习,智能检测和去除混合在传播信号中的噪声干扰,提高语音的质量和可懂度。精准STT识别配合智能降噪,让方案在嘈杂环境中也能准确捕捉并转换用户语音。方案提供的语音转文字(STT)能力支持中文、粤语、英语、日语等100多种国际语言和方言,并支持智能打断以及上下文管理等能力。用户可以在与AI的交互过程中随时打断对话并开始新的话题,也能够在一段对话后重启之前的话题。这让人与AI之间的对话就像真实的聊天,而非单调的一问一答,为用户带来更顺畅自然的对话体验。

TRTC对话式AI助手 AI降噪效果演示

高度开放、灵活定制

适配多种场景需求

TRTC对话式AI解决方案高度开放,支持企业自定义大模型(LLM)和语音合成(TTS),配置LLM和TTS服务的账户凭证即可将第三方LLM和TTS无缝集成到服务后台。企业不仅可选择腾讯混元、OpenAI、MiniMax等主流大模型和腾讯云、MiniMax等主流TTS平台,还可接入自研大模型或针对特定场景专门优化的特殊大模型,满足不同场景的AI对话需求。并且,企业可针对自身需求,在AI对话流程中对输入和输出进行二次处理,满足自身定制化需求。例如,针对智能打断功能,TRTC对话式AI解决方案就提供了自动打断、自定义打断和不打断等3种模式,企业可通过自定义打断来灵活定制打断逻辑,适配自身场景需求。

极简开发流程

最快当天就可落地

TRTC对话式AI解决方案整合并优化了AI对话全链路所需的各项能力,开发者能够通过TRTC的一站式解决方案,快速将AI对话功能无缝集成到各类应用中,无需深入处理复杂的技术细节,显著缩短产品开发周期。TRTC为开发者提供了完整的SDK和API文档,还为开发者提供了丰富且开箱即用的场景化定制组件,方案集成时间最快仅需一天,当天就可落地,相比传统方案节省1个月以上的开发工作,助力企业快速实现产品智能化升级,抢占市场先机。

TRTC AI实时对话功能目前正在内测中,如果您需要开通试用、获取费用信息,请通过链接填写问卷联系我们(https://cloud.tencent.com/apply/p/dlr7v7lxbwf)。

请在此添加图片描述

AI实时对话内测申请

腾讯云音视频在音视频领域已有超过21年的技术积累,持续支持国内90%的音视频客户实现云上创新,独家具备腾讯云RT-ONE™全球网络,在此基础上,构建了业界最完整的 PaaS 产品家族,并通过腾讯云视立方 RT-Cube™ 提供All in One 的终端SDK,助力客户一键获取众多腾讯云音视频能力。腾讯云音视频为全真互联时代,提供坚实的数字化助力。

文章来源于腾讯云开发者社区,点击查看原文