TTS 是 “Text-to-Speech” 的缩写,中文意思是“文本到语音”。简单来说,TTS 是一种技术,它能够将文字信息转换成人类的语音,计算机或智能设备就能够"说话"了。TTS 技术通过模仿人类的语音特征,使得合成的语音听起来尽可能自然流畅。随着技术的发展,已经能够模拟不同的语调、情感,甚至特定人的声音,让语音交互更加人性化和个性化。

近期,国内团队发布了 ChatTTS(项目地址:https://github.com/2noise/ChatTTS ),一个专门为对话场景设计的开源文本转语音模型。该模型具有以下优点:

1. 对话式 TTS

ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。

2. 细粒度控制

该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。

3. 更好的韵律

ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。

今天,给大家介绍如何使用

高性能应用服务HAI

快速部署 ChatTTS 应用

实现语音合成自由

使用该教程完成部署后的实现效果 👇

视频地址

什么是高性能应用服务HAI

高性能应用服务HAI 是一款面向AI、科学计算的 GPU 算力服务产品,提供多种高性能 GPU 算力供您选择

您可使用HAI中提供的预装环境,涵盖AI绘画、语言模型、声音合成等多个场景,如 StableDiffusion WebUI、ComfyUI、ChatGLM、Llama 3 等。助力您快速部署 AIGC 应用,推动业务探索与发展。

用 HAI 快速实现ChatTTS自由

1.基于社区应用,3分钟快速部署

社区的小伙伴实现了一个打包好的应用环境,提前预装好了 ChatTTS 所必备的环境依赖、模型,可以实现开箱即用

  1. 进入控制台,选择“社区应用”,在社区应用中,选中“ ChatTTS ”,其他配置按默认,点击立即购买即可。

请在此添加图片描述

图1 社区应用

  1. 创建完成后,在“算力链接”中,选中进入 JupyterLab,打开 example.ipynb 文件,按顺序执行代码块,载入模型文件。

请在此添加图片描述

图2 载入模型

  1. 载入完成模型后,可以根据使用需求,执行其余代码块。第一次执行时需载入模型,时间较久,约需等待1-2min,请耐心等待。后续执行速度很快。

请在此添加图片描述

图3 按需运行

  1. 成功加载后即可运行任意文字转语音,效果如下所示:
    视频地址

2.使用windows基础环境,部署整合包

高性能应用服务 HAI 也提供了 Windows 环境,若您对 JupyterLab 的交互形式感到陌生,也可以直接创建预装驱动的 Windows 环境,安装从网络上获取的各类整合包,享受与本地相同的交互体验

  1. 进入控制台,选择“基础环境”,在基础环境中,选中“Windows Server”,其他配置按默认,点击立即购买即可。

请在此添加图片描述

图4 选择环境

  1. 当前Windows 环境目前仅支持通过远程桌面进行连接,您可根据弹窗中的指引文档进行环境连接

请在此添加图片描述

图5 连接算力

  1. 进入环境后,您可按需下载整合包。环境中已经预装了对应版本的驱动程序,不需您再次进行安装。本次使用 GitHub 开源项目的整合包进行安装,项目地址:https://github.com/6drf21e/ChatTTS\_colab 。安装完成后的效果如下所示:

请在此添加图片描述

图6 可视化交互

延伸操作

1. 接入业务系统:您可使用 API 模式启动 ChatTTS 服务,将语音功能接入自己的小程序或业务系统。

2. 与语言模型结合:您可以尝试使用视频识别工具+开源语言模型,结合 ChatTTS,动手实现类似 GPT4o 的效果。

📣 HAI隆重推出学生特惠活动!

25岁以下免学生认证,每月限量5折

16G单卡GPU低至0.6元/时,速来抢购!

文章来源于腾讯云开发者社区,点击查看原文