Qwen3-TTS音频克隆生成工具解压即用整合包,本地离线,

meiyouruguo 发表于 2026-1-23 14:37:15

Qwen3-TTS 支持 10 种主要语言（中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文）以及多种方言音色，以满足全球化的应用需求。此外，该模型具备强大的上下文理解能力，可根据指令和文本语义自适应地控制语调、语速和情感表达，并在面对含噪声的输入文本时展现出显著增强的鲁棒性。主要特性包括：

[*]强大的语音表征能力：基于自研的 Qwen3-TTS-Tokenizer-12Hz，实现了高效的声学压缩与高维语义建模。完整保留了副语言信息和声学环境特征，通过轻量级非 DiT 架构即可实现高速、高保真的语音重建。
[*]通用端到端架构：采用离散多码本语言模型（LM）架构，实现全信息端到端语音建模。彻底规避了传统 LM+DiT 方案固有的信息瓶颈和级联误差问题，显著提升了模型的通用性、生成效率和性能上限。
[*]极致低延迟流式生成：基于创新的 Dual-Track 混合流式生成架构，单个模型同时支持流式与非流式生成。在输入单个字符后即可立即输出首个音频包，端到端合成延迟低至 97ms，满足实时交互场景的严苛要求。
[*]智能文本理解与语音控制：支持由自然语言指令驱动的语音生成，可灵活控制音色、情感、韵律等多维度声学属性。通过深度融合文本语义理解，模型能自适应调整语调、节奏和情感表达，实现“所想即所听”的拟真输出。

更多介绍: https://modelscope.cn/models/Qwen/Qwen3-TTS-12Hz-1.7B-Base
github仓库:https://github.com/QwenLM/Qwen3-TTS

已发布模型说明与下载
以下为已发布的 Qwen3-TTS 模型的介绍与下载信息。技术报告中提到的其他模型将在近期陆续发布。请根据您的需求选择并下载合适的模型。
Tokenizer 名称描述
Qwen3-TTS-Tokenizer-12HzQwen3-TTS-Tokenizer-12Hz 模型，可将输入语音编码为 codes 并解码还原为语音。

模型特性语言支持流式生成指令控制
Qwen3-TTS-12Hz-1.7B-VoiceDesign根据用户提供的描述进行音色设计。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文✅✅
Qwen3-TTS-12Hz-1.7B-CustomVoice通过用户指令对目标音色进行风格控制；支持 9 种优质音色，涵盖性别、年龄、语言和方言的多种组合。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文✅✅
Qwen3-TTS-12Hz-1.7B-Base基础模型，支持从用户提供的 3 秒音频快速克隆音色；可用于微调（FT）其他模型。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文✅
Qwen3-TTS-12Hz-0.6B-CustomVoice支持 9 种优质音色，涵盖性别、年龄、语言和方言的多种组合。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文✅
Qwen3-TTS-12Hz-0.6B-Base基础模型，支持从用户提供的 3 秒音频快速克隆音色；可用于微调（FT）其他模型。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文✅
对于 Qwen3-TTS-12Hz-1.7B/0.6B-CustomVoice 模型，支持的说话人列表及其语音描述如下所示。我们建议使用每位说话人的母语以获得最佳音质。当然，每位说话人都可以说出模型支持的任意语言。
说话人语音描述母语
Vivian明亮、略带锐利感的年轻女声。中文
Serena温暖柔和的年轻女声。中文
Uncle_Fu音色低沉醇厚的成熟男声。中文
Dylan清晰自然的北京青年男声。中文（北京方言）
Eric活泼、略带沙哑明亮感的成都男声。中文（四川方言）
Ryan富有节奏感的动感男声。英语
Aiden阳光、中频清晰的美式男声。英语
Ono_Anna轻快灵巧的俏皮日语女声。日语
Sohee情感丰富的温暖韩语女声。韩语
语音设计对于语音设计模型（Qwen3-TTS-12Hz-1.7B-VoiceDesign），你可以使用 generate_voice_design 提供目标文本和自然语言形式的 instruct 描述。
Qwen3-TTS音频克隆生成工具解压即用整合包下载链接:

链接：https://pan.quark.cn/s/9562a7fe9ee8

项目刚发布, 还不太稳定, 大家下载先用着,等过几天稳定了,我再更新最新版本

lbxb 发表于 2026-1-23 14:52:43

:handshake这效果还不错的

Howl_Wolf 发表于 2026-1-23 16:49:41

要是能用于涩涩的配音就好了

最笨学习生 发表于 2026-1-27 11:41:13

感谢分享

woaijianglin 发表于 2026-5-30 21:57:55

大佬，求问音色合成的时候报这个错，应该如何修改呀:

Status(状态)
Failed to read or use voice file.Check file format/content.
(读取或使用音色文件失败，请检查文件格式或内容)
UnpicklingError:Weights only load failed.In PyTorch 2.6,we changed the default value of theweights_only`argument in 'torch.load`from `False`to `True.Re-running `torch.load`withweights_only`set to `False`will likely succeed,but it can result in arbitrary code execution.Do itonly ifyou gotthe file from a trusted source.
Please file an issue with the following so that we can make weights_only=Truecompatible withyour use case:WeightsUnpickler error:
Unsupported operand 255
Check the documentation of torch.load to learn more about types accepted by default withweights_only https://pytorch.org/docs/stable/generated/torch.load.html.

页: [1]

AIBL论坛's Archiver

Qwen3-TTS音频克隆生成工具解压即用整合包,本地离线,