IndexTTS是由B站推出的工业级零样本文本转语音系统,支持汉字与拼音任意比例混合输入,仅仅输入汉字会出现多音字的问题,此时我们可以输入拼音加以辅助,这样系统就会精准识别到对应的文字,正确朗读出来 了。
1、汉字拼音联合建模:支持文本拼音混合输入,纠正多音字发音。
2、虚拟主播:唇动与语音同步精准,支持情绪关键词识别与实时互动。
3、多音字三维定位系统:结合语境分析层与拼音校验层,精准识别多音字。
4、标点符号驱动停顿:逗号和句号都会触发停顿,系统精准控制哽咽停顿。
1、复合标点处理:输入特殊符号会生成复合语调,提升语音表现力。
2、音色克隆:仅需几秒钟的参考音频,即可达到百分百的音色相似度。
3、千卡级训练架构:实现动态梯度分片,单日可处理上万小时的语音数据。
4、快速部署:提供整合包与Web UI,五分钟内可完成安装与首次运行。
1、上传一段音频。

2、写下文案内容。

3、选择推理模式,生成语音。

4、生成好后点击下载。
