【AIGC部署实践系列教程 #3】HAI 一键部署爆火开源语音项目ChatTTS

作者：腾讯云计算产品团队
2024-06-13
159
0
原文

 分享

שּ 开源语音实践教程部署

TTS 是 “Text-to-Speech” 的缩写，中文意思是“文本到语音”。简单来说，TTS 是一种技术，它能够将文字信息转换成人类的语音，计算机或智能设备就能够"说话"了。TTS 技术通过模仿人类的语音特征，使得合成的语音听起来尽可能自然流畅。随着技术的发展，已经能够模拟不同的语调、情感，甚至特定人的声音，让语音交互更加人性化和个性化。

近期，国内团队发布了 ChatTTS（项目地址：https://github.com/2noise/ChatTTS ），一个专门为对话场景设计的开源文本转语音模型。该模型具有以下优点：

1. 对话式 TTS

ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。

2. 细粒度控制

该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。

3. 更好的韵律

ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型，支持进一步的研究。

今天，给大家介绍如何使用

高性能应用服务HAI

快速部署 ChatTTS 应用

实现语音合成自由

使用该教程完成部署后的实现效果 👇

什么是高性能应用服务HAI

高性能应用服务HAI 是一款面向AI、科学计算的 GPU 算力服务产品，提供多种高性能 GPU 算力供您选择。

您可使用HAI中提供的预装环境，涵盖AI绘画、语言模型、声音合成等多个场景，如 StableDiffusion WebUI、ComfyUI、ChatGLM、Llama 3 等。助力您快速部署 AIGC 应用，推动业务探索与发展。

用 HAI 快速实现ChatTTS自由

1.基于社区应用，3分钟快速部署

社区的小伙伴实现了一个打包好的应用环境，提前预装好了 ChatTTS 所必备的环境依赖、模型，可以实现开箱即用。

进入控制台，选择“社区应用”，在社区应用中，选中“ ChatTTS ”，其他配置按默认，点击立即购买即可。

请在此添加图片描述

图1 社区应用

创建完成后，在“算力链接”中，选中进入 JupyterLab，打开 example.ipynb 文件，按顺序执行代码块，载入模型文件。

请在此添加图片描述

图2 载入模型

载入完成模型后，可以根据使用需求，执行其余代码块。第一次执行时需载入模型，时间较久，约需等待1-2min，请耐心等待。后续执行速度很快。

请在此添加图片描述

图3 按需运行

成功加载后即可运行任意文字转语音，效果如下所示：
视频地址

2.使用windows基础环境，部署整合包

高性能应用服务 HAI 也提供了 Windows 环境，若您对 JupyterLab 的交互形式感到陌生，也可以直接创建预装驱动的 Windows 环境，安装从网络上获取的各类整合包，享受与本地相同的交互体验

进入控制台，选择“基础环境”，在基础环境中，选中“Windows Server”，其他配置按默认，点击立即购买即可。

请在此添加图片描述

图4 选择环境

当前Windows 环境目前仅支持通过远程桌面进行连接，您可根据弹窗中的指引文档进行环境连接

请在此添加图片描述

图5 连接算力

进入环境后，您可按需下载整合包。环境中已经预装了对应版本的驱动程序，不需您再次进行安装。本次使用 GitHub 开源项目的整合包进行安装，项目地址：https://github.com/6drf21e/ChatTTS\_colab 。安装完成后的效果如下所示：

请在此添加图片描述

图6 可视化交互

延伸操作

1. 接入业务系统：您可使用 API 模式启动 ChatTTS 服务，将语音功能接入自己的小程序或业务系统。

2. 与语言模型结合：您可以尝试使用视频识别工具+开源语言模型，结合 ChatTTS，动手实现类似 GPT4o 的效果。

📣 HAI隆重推出学生特惠活动！

25岁以下免学生认证，每月限量5折，

16G单卡GPU低至0.6元/时，速来抢购！

文章来源于腾讯云开发者社区，点击查看原文

上一篇: 系统内存占用下降 20%，卓创网络应用 OpenCloudOS 实践

下一篇: TDSQL for PG 优化器Join Reordering原理分析