B站开源黑科技：IndexTTS2零样本情感语音合成全面解析与安装指南

637次阅读

共计 2260 个字符，预计需要花费 6 分钟才能阅读完成。

在 AI 语音合成领域，如何同时兼顾 自然度、情感表达与时长可控 一直是难题。B 站团队开源的 IndexTTS2，正是为了解决这一痛点而生。它不仅支持零样本语音克隆，还能实现 情感与音色解耦 ，并首次在自回归 TTS 模型中引入 精确时长控制，为视频配音、虚拟人、游戏语音等场景带来极大便利。

本文将从 核心特性、安装部署、快速上手 三个方面，带你全面了解这款工业级 TTS 系统。

🎙 零样本语音克隆：只需一段参考音频，即可快速复刻音色。
😃 情感可控：支持通过参考音频、情感向量或文本描述来调节语气。
⏱ 时长控制：可精确指定语音时长，解决视频配音中的口型对齐问题。
🌍 多语言支持：跨语言建模，适用于中文、英文等多语场景。
⚡ 高效推理：支持 FP16、DeepSpeed 加速，显著降低显存占用。

B 站开源黑科技：IndexTTS2 零样本情感语音合成全面解析与安装指南

星哥今天两种方式安装一种是使用魔当软件、另一种是下载官方的仓库安装

魔当是专为 AI 学习者打造的 ” 工具箱 + 教练 ” 成长平台，为用户精选 AI 工具智能分类，即点即用，告别浏览器广告加塞，提高工作效率；本平台核心功能是为用户解决安装困难的问题，使用魔当，可快速完成环境部署，告别复杂命令行操作，点选即装。搭配精选教程，开启您的 AI 进阶之旅，从零门槛安装到精通应用，体验智能时代的高效学习闭环！

最低 16GB 内存。预留足够硬盘空间，建议 24GB 以上。

macOS 11 及以上版本，仅支持 M 系列芯片。

Windows10/11，可用 Intel, AMD GPU，推荐用 NVIDIA GPU。

注意：NVIDIA 显卡用户，请安装 CUDA，才能使用 GPU 加速。

使用浏览器访问 https://seemts.com/zh/，下载对应的软件，我这里使用的是 window

B 站开源黑科技：IndexTTS2 零样本情感语音合成全面解析与安装指南

这里我修改目录改成 D:\AI\indexTTS2

B 站开源黑科技：IndexTTS2 零样本情感语音合成全面解析与安装指南

经过一段时间的安装

B 站开源黑科技：IndexTTS2 零样本情感语音合成全面解析与安装指南

完成之后点击我的 AI

B 站开源黑科技：IndexTTS2 零样本情感语音合成全面解析与安装指南

会提示弹出

弹出 IP+ 端口（127.0.0.1:7860）如下图

B 站开源黑科技：IndexTTS2 零样本情感语音合成全面解析与安装指南

使用起来还是非常的简单的

可以上传参考的音频，也可以使用默认自带的声音

B 站开源黑科技：IndexTTS2 零样本情感语音合成全面解析与安装指南

参考：https://github.com/index-tts/index-tts/blob/main/docs/README_zh.md

哔哩哔哩自研语音生成大模型 IndexTTS-2.0 正式开源：
👉技术报告地址：https://arxiv.org/abs/2506.21619
👉仓库地址：https://github.com/index-tts/index-tts
👉Demo 展示地址：https://index-tts.github.io/index-tts2.github.io

git clone https://github.com/index-tts/index-tts.git && cd index-tts
git lfs install
git lfs pull

pip install -U uv

uv sync --all-extras

⚠️ 注意：官方仅支持 uv，使用 pip 或 conda 可能导致依赖冲突。

可通过 HuggingFace 或 ModelScope 获取：

uv tool install "huggingface-hub[cli,hf_xet]"
hf download IndexTeam/IndexTTS-2 --local-dir=checkpoints

uv run webui.py

浏览器访问 http://127.0.0.1:7860，即可体验交互式语音合成。

from indextts.infer_v2 import IndexTTS2

tts = IndexTTS2(
    cfg_path="checkpoints/config.yaml",
    model_dir="checkpoints",
    use_fp16=True
)

text = "大家好，这是 IndexTTS2 的语音合成演示。"
tts.infer(
    spk_audio_prompt="examples/voice_01.wav",
    text=text,
    output_path="gen.wav"
)

tts.infer(
    spk_audio_prompt="examples/voice_07.wav",
    text="这场比赛太精彩了！",
    output_path="gen.wav",
    emo_audio_prompt="examples/emo_excited.wav",
    emo_alpha=0.8
)