共计 2260 个字符,预计需要花费 6 分钟才能阅读完成。
引言
在 AI 语音合成领域,如何同时兼顾 自然度、情感表达与时长可控 一直是难题。B 站团队开源的 ,正是为了解决这一痛点而生。它不仅支持零样本语音克隆,还能实现 情感与音色解耦 ,并首次在自回归 TTS 模型中引入 精确时长控制,为视频配音、虚拟人、游戏语音等场景带来极大便利。
本文将从 核心特性、安装部署、快速上手 三个方面,带你全面了解这款工业级 TTS 系统。
核心亮点
-
🎙 零样本语音克隆:只需一段参考音频,即可快速复刻音色。
-
😃 情感可控:支持通过参考音频、情感向量或文本描述来调节语气。
-
⏱ 时长控制:可精确指定语音时长,解决视频配音中的口型对齐问题。
-
🌍 多语言支持:跨语言建模,适用于中文、英文等多语场景。
-
⚡ 高效推理:支持 FP16、DeepSpeed 加速,显著降低显存占用。

安装与环境准备
星哥今天两种方式安装一种是使用 魔当 软件、另一种是下载官方的仓库安装
魔当安装
魔当是专为 AI 学习者打造的 ” 工具箱 + 教练 ” 成长平台,为用户精选 AI 工具智能分类,即点即用,告别浏览器广告加塞,提高工作效率;本平台核心功能是为用户解决安装困难的问题,使用魔当,可快速完成环境部署,告别复杂命令行操作,点选即装。搭配精选教程,开启您的 AI 进阶之旅,从零门槛安装到精通应用,体验智能时代的高效学习闭环!
系统要求
最低 16GB 内存。预留足够硬盘空间,建议 24GB 以上。
macOS 11 及以上版本,仅支持 M 系列芯片。
Windows10/11,可用 Intel, AMD GPU,推荐用 NVIDIA GPU。
注意:NVIDIA 显卡用户,请安装 CUDA,才能使用 GPU 加速。
下载软件
使用浏览器访问 https://seemts.com/zh/,下载对应的软件,我这里使用的是 window

安装软件

安装 IndexTTS2

修改目录
这里我修改目录改成 D:\AI\indexTTS2


点击安装
经过一段时间的安装

运行
完成之后点击我的 AI

会提示弹出
浏览器访问
弹出 IP+ 端口(127.0.0.1:7860)如下图

使用 IndexTTS2
使用起来还是非常的简单的
可以上传参考的音频,也可以使用默认自带的声音

官网推荐安装方式
参考:https://github.com/index-tts/index-tts/blob/main/docs/README_zh.md
哔哩哔哩自研语音生成大模型 IndexTTS-2.0 正式开源:
👉技术报告地址:https://arxiv.org/abs/2506.21619
👉仓库地址:https://github.com/index-tts/index-tts
👉Demo 展示地址:https://index-tts.github.io/index-tts2.github.io
1. 克隆仓库并下载依赖
git clone https://github.com/index-tts/index-tts.git && cd index-tts
git lfs install
git lfs pull
2. 安装 uv 包管理器(推荐)
pip install -U uv
3. 同步依赖环境
uv sync --all-extras
⚠️ 注意:官方仅支持
uv,使用pip或conda可能导致依赖冲突。
4. 下载模型权重
可通过 HuggingFace 或 ModelScope 获取:
uv tool install "huggingface-hub[cli,hf_xet]"
hf download IndexTeam/IndexTTS-2 --local-dir=checkpoints
快速上手
启动 WebUI
uv run webui.py
浏览器访问 ,即可体验交互式语音合成。
Python 调用示例
from indextts.infer_v2 import IndexTTS2
tts = IndexTTS2(
cfg_path="checkpoints/config.yaml",
model_dir="checkpoints",
use_fp16=True
)
text = "大家好,这是 IndexTTS2 的语音合成演示。"
tts.infer(
spk_audio_prompt="examples/voice_01.wav",
text=text,
output_path="gen.wav"
)
情感控制示例
tts.infer(
spk_audio_prompt="examples/voice_07.wav",
text="这场比赛太精彩了!",
output_path="gen.wav",
emo_audio_prompt="examples/emo_excited.wav",
emo_alpha=0.8
)
-
视频配音:精确时长控制,保证口型同步。
-
虚拟主播 / 数字人:多情感表达,让角色更生动。
-
游戏语音:快速生成多角色、多语种对白。
-
辅助创作:为播客、教学视频、短剧提供高质量语音。
总结
写文不易,如果你都看到了这里,请点个赞和在看,分享给更多的朋友;也别忘了关注星哥玩云!这里有满满的干货分享,还有轻松有趣的技术交流~点个赞、分享给身边的小伙伴,一起成长,一起玩转技术世界吧!😊
IndexTTS2 不仅是一次技术迭代,更是 AI 语音合成走向工业级应用的重要里程碑。它解决了传统 TTS 在 情感、时长、音色 三方面的痛点,极大降低了创作者的门槛。
如果你正在寻找一款 开源、可控、可扩展 的 TTS 解决方案,IndexTTS2 无疑值得深入研究与实践。






