语音
在数字化浪潮和全球化进程的双重驱动下,线上线下的沟通触点倍速增长,跨语言沟通场景在我们的生活、工作中愈发普遍。但常见的翻译工具仍以“说一句、停一下”的回合制翻译为主,机械化、响应慢、效率低,对于直播互动、电商客服、商务会议等高并发实时场景来说,显得捉襟见肘。这也让语言障碍成了横亘在无数沟通场景中的“
0
1
在人工智能大模型技术飞速发展的今天,曾经只存在于科幻作品中的场景正逐渐走进现实,技术的飞跃让深度情感连接成为可能。从早期只能执行简单指令的程序,到如今能理解复杂语义、感知情绪变化的智能体,AI 技术的每一次突破都在重塑人与机器的关系边界,带来更多关于AI陪伴的创新探索。 在这样的背景下,经历两年
0
16
今天要发布的是一项神奇的魔法。 仅需一张图和一段音频,就能让图中的主角自然的说话 、唱歌。 比如这样👇 这样👇 以及,这样👇 这一能力来自5月28日腾讯混元发布并开源的语音数字人模型HunyuanVideo-Avatar,由腾讯混元视频大模型(HunyuanVideo)及腾讯音乐天琴实验室Mu
0
9
“当前,AI应用领域呈现出交互体验更丰富、模型使用更高效、应用构建更快捷等趋势。”5月21日,在2025腾讯云AI产业应用峰会上,腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声发表主题演讲。 他表示,围绕新的客户需求,腾讯云在多模态语音交互、模型训推、智能体开发等层面不断迭代更新产品能力
0
6
随着AI的技术进步和工具普及,尤其是在这两年的跃进之后,AI在游戏行业内的应用已经逐步由理念设想推向落地实践。从蔡浩宇披露的AI新游《Whispers From The Star》到GDC上各大厂家呈现的游戏+AI新亮点,我们看到了更多AI与游戏的结合方式,不仅是制作端AIGC能力的融入,连游戏内互
0
7
3月17日至21日,2025全球游戏开发者大会(GDC)在美国旧金山召开,全球顶尖游戏开发者、技术专家与行业领袖云集,带来一系列前沿技术演讲和游戏展示。腾讯云音视频携游戏多媒体引擎(GME)、对话式AI游戏解决方案(Conversational AI Gaming Solution)等众多前沿产品和
0
18
在如今的流量时代,用户越来越追求多元化的互动体验。语聊房作为在线社交热门玩法,一直备受用户喜爱。 语聊赛道势头强劲 低成本快速落地是入局关键 语音聊天室App以语音社交为主要玩法,用户无需露脸即可通过语音与感兴趣的陌生人聊天、交友、互动,房主可以通过语音分享来赚取打赏收入。App还允许用户匹配附近的
0
15
近年来,AI热度持续攀升,无论是融资规模还是用户热度都大幅增长。2023 年,中国 AI 行业融资规模达2631亿人民币,较2022年上升51%;2024年第二季度,全球 AI 初创企业融资规模为 240 亿美金,较第一季度翻倍增长。伴随AI能力不断提升,其业务应用场景也越来越多。 今年五月,Ope
0
24
在人工智能技术日益普及的今天,GPT-4o所展现出的实时语音对话能力再次吸引了大量关注。但AI语音助手其实并不新鲜,“你好,Siri”这句话,大家都已经说了好多年。那为什么GPT-4o的发布,仍能够再次唤起人们对AI语音的畅想?答案的关键或许在于GPT-4o比Siri们,快得多。 速度对于语音AI界
0
126
“在上班和上学之间选择上香;在求人和求己之间选择求佛” 面对日益复杂的现代社会,事业、情感、前途……太多的不确定性难免会让人感到茫然和无助。在社会压力大、普遍焦虑的大环境下,当代人在精神方面面临着更多危机,心理咨询和泛心理健康服务逐步走入了大众的视野。 当前中国心理健康服务需求普遍存在,但供给严重不
0
29
今年一月底,心动旗下自研放置类新作《出发吧麦芬》在港澳台地区上线后连续“霸榜”,以放置和MMORPG两大玩法的巧妙融合,构建了一场好玩有爱的治愈系冒险,收获了众多玩家的高分和好评。5月15日,国服正式上线后,游戏同样延续了之前的不错势头,上线即登顶iOS免费榜,两个月全平台累计下载量突破300万。
0
24
上个月,西山居《剑网3无界》全平台公测上线。这款运营超15年的国产武侠游戏常青树,又迎来了一次大变革。3端数据继承互通,打破设备限制,《剑网3无界》将大唐江湖的武侠美学进一步拓展到了移动端。一砖一瓦、一草一木,小屏上的熟悉江湖,背后是项目组不断地调整尝试和各种新技术的升级迭代。 一直以来,声音都
0
19
在最近的Steam夏日游戏节上,《Dark and Darker》几经波折后,重新登陆Steam和Epic游戏商店。作为韩国独立游戏工作室Ironmace推出的第一款游戏,《Dark and Darker》在Steam首测时,热度便被引爆,短短7天,其Steam日均在线人数就超过了10万人次,并吸引
0
44
在OpenAI最近的发布会上,全新的GPT-4o模型展示了强大的低延迟实时对话能力,它可在最短232ms、平均320ms的时间内响应音频输入,速度已近似人类。与GPT-4等之前版本相比,GPT-4o可将音频、视觉和文本等输入在同一神经网络处理,并任意组合进行输出,从而在捕捉更多信息的同时,大幅降低延
0
36
TTS 是 “Text-to-Speech” 的缩写,中文意思是“文本到语音”。简单来说,TTS 是一种技术,它能够将文字信息转换成人类的语音,计算机或智能设备就能够"说话"了。TTS 技术通过模仿人类的语音特征,使得合成的语音听起来尽可能自然流畅。随着技术的发展,已经能够模拟不同的语调、情感,甚至
0
55