腾讯云语音合成(TTS)服务Skill下载:https://clawhub.ai/jizhouli/tencentcloud-tts
腾讯云语音识别(ASR)服务Skill下载:https://clawhub.ai/Stardusten/tencentcloud-asr

同样是用 AI,有人还在一个字一个字地敲,有人已经开口说话、秒出结果。

差距在哪?就在几个 Skill 的距离。

想象这样一个场景:你刚结束一场两小时的评审会,回到工位,不用打开录音、不用翻聊天记录,直接对着 AI 说一句话——它就能帮你整理出结构化的会议纪要,完整、准确、随时可用。

或者更日常一点:你在通勤路上,手边没有键盘,脑子里突然冒出一个想法,直接开口说,AI 听懂了,记下来了,还帮你整理成了可执行的任务清单。

本文将教你如何为 OpenClaw 接入腾讯云语音识别与语音合成能力,让它真正"能听会说"——配置简单,效果直接,看完就能上手。

请在此添加图片描述

1.1. 真实场景展示

1.1.1 开口即执行,零手动输入启动任务

场景痛点:

日常需求往往是碎片化、口语化的想法,传统方式必须手动打字逐条录入、整理。10 秒能说清的内容,手动打字往往要花费数倍时间;尤其是在双手被占用的场景(通勤、做饭、逛超市、做家务),无法及时记录,要么打断手头事务,要么事后彻底遗忘,需求表达和落地之间存在巨大的效率鸿沟。

亮点:

腾讯云ASR 毫秒级响应、超高精度转写,完美适配复杂口语场景。用户只需通过语音发出需求,即可经由 ASR Skill 完成无损、无误差的语音转写,快速触发对应任务全流程执行。

正如场景所示,几秒、十几秒的语音指令,精准捕捉用户全部需求,快速输出结构化的生活规划方案,覆盖生日备忘、购物清单、日常待办、周期事务等全场景,彻底解放双手,告别手动录入的繁琐,让日常事务处理效率实现质的飞跃。

请在此添加图片描述

1.1.2 一键解决长音频难题

场景痛点:

1、在企业长会议时,你是否也怕思想抛锚漏掉一些重点,或者需要花很多时间完善会议纪要;

2、在项目评审、复盘时,快节奏的讨论、复杂的术语,是否也让你应接不暇;

3、客户访谈和商务沟通时,你是否也怕遗漏客户需求,是否也需要更快的判断客户的购买意图。

方案亮点:

腾讯云ASR录音文件识别skill帮你一键解决上述问题,为OpenClaw 智能体生态新增长音频全链路处理能力,支持用户上传音频文件存储地址,一键完成高精度长语音转写、说话人分离,并按照你的要求,针对性的处理文本内容并生成你要求的结果,打通 “音频归档 — 文本沉淀 — 行动项落地” 的办公效率闭环,完美适配企业会议、项目评审、客户访谈、培训授课等长时音频场景。

1.2 安装

1.2.1 OpenClaw 安装 Clawhub

打开官网:https://clawhub.ai/

注册,登陆,然后右上角点 Settings

请在此添加图片描述

然后找到 API tokens,点击 Create token,然后复制右侧的那一串 token

请在此添加图片描述

给 Openclaw 发送:

“请用 npm install -g clawhub@latest 安装 openclaw,用 clawhub login --token 【这里换成你的 token】登陆,然后就可以用这个工具搜索和安装 skills 了”

1.2.2 安装 TencentCloud ASR Skill

给 Openclaw 发送:

“帮我通过 clawhub 安装 tencentcloud-asr 这个 skill,然后配置 CLI transcription”

安装好 Skill 后,还需要去腾讯云官网开通语音识别(ASR)服务,然后把代表你身份信息的 SecretId、SecretKey 和 AppId 提供给 OpenClaw,这样你的龙虾就可以用你的身份使用腾讯云语音识别了。注意:

  1. 新用户会赠送免费资源包!
  2. 不要把你的 SecretId、SecretKey 和 AppId 发送到群聊里,一旦泄漏,任何人都能冒用你的身份使用腾讯云服务

具体如何开通腾讯云语音识别服务参考下一节。

1.2.3 开通腾讯云语音识别服务

注:Skill 内置了开通指引,你也可以直接让 OpenClaw 教你怎么一步步开通!

先进入腾讯云官网 https://cloud.tencent.com/,注册一个账号

请在此添加图片描述

搜索框输入 asr,点击进入 ASR 语音识别

请在此添加图片描述

点立即使用进入控制台

请在此添加图片描述

左侧点击语音识别资源包,应该能看到赠送的资源包

请在此添加图片描述

然后左侧点语音识别概览,点创建密钥。

请在此添加图片描述

点新建密钥。

请在此添加图片描述

然后将 SecretId、SecretKey 和 Appid 都保存下来:

请在此添加图片描述

请在此添加图片描述

1.2.4. 安装 TencentCloud TTS Skill

给 Openclaw 发送:

“帮我通过 clawhub 安装 tencentcloud-tts 这个 skill”

1.2.5. 开通腾讯云语音合成服务

TTS 语音合成可复用上面的密钥,但是仍然需要:

  1. 手工进入控制台开通 TTS 服务;
  2. 领取免费资源包。

通过对话框合成音频信息,并将音频文件发送回聊天窗口。

请在此添加图片描述

1.3. 附:完整安装流程对话截图

注意:密钥已经隐去,请自行替换为自己的密钥。

请在此添加图片描述

请在此添加图片描述

请在此添加图片描述

请在此添加图片描述

请在此添加图片描述

腾讯云ASR与TTS 技能的加持,让 OpenClaw 从"文字助手"进化为真正意义上的"语音智能体",大幅拓展了其在个人与企业场景中的应用边界。

对于个人用户而言,可直接通过语音驱动 OpenClaw 完成任务指令下达、会议实时转写、语音备忘录生成等日常需求,彻底解放双手;对于企业用户,ASR+TTS 的组合则可落地于更多高价值场景:在客服与呼叫中心领域,实现语音工单自动识别与智能回复播报;在会议与协作场景中,支持多方会议全程转录、关键信息提取与会议纪要自动生成;在内容生产领域,帮助创作者将文稿快速转换为有声内容;在无障碍与国际化场景中,为视觉障碍用户或多语言用户提供流畅的语音交互体验。

ASR 将真实世界的声音转化为结构化语义,TTS 将 AI 的回应还原为自然语音,两者协同,使 OpenClaw 真正具备了"听"与"说"的能力,让 AI Agent 的交互方式从屏幕延伸至现实空间。

文章来源于腾讯云开发者社区,点击查看原文