Qwen3-TTS音频克隆生成工具解压即用整合包,本地离线,
Qwen3-TTS 支持 10 种主要语言(中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文)以及多种方言音色,以满足全球化的应用需求。此外,该模型具备强大的上下文理解能力,可根据指令和文本语义自适应地控制语调、语速和情感表达,并在面对含噪声的输入文本时展现出显著增强的鲁棒性。主要特性包括:[*]强大的语音表征能力:基于自研的 Qwen3-TTS-Tokenizer-12Hz,实现了高效的声学压缩与高维语义建模。完整保留了副语言信息和声学环境特征,通过轻量级非 DiT 架构即可实现高速、高保真的语音重建。
[*]通用端到端架构:采用离散多码本语言模型(LM)架构,实现全信息端到端语音建模。彻底规避了传统 LM+DiT 方案固有的信息瓶颈和级联误差问题,显著提升了模型的通用性、生成效率和性能上限。
[*]极致低延迟流式生成:基于创新的 Dual-Track 混合流式生成架构,单个模型同时支持流式与非流式生成。在输入单个字符后即可立即输出首个音频包,端到端合成延迟低至 97ms,满足实时交互场景的严苛要求。
[*]智能文本理解与语音控制:支持由自然语言指令驱动的语音生成,可灵活控制音色、情感、韵律等多维度声学属性。通过深度融合文本语义理解,模型能自适应调整语调、节奏和情感表达,实现“所想即所听”的拟真输出。
更多介绍: https://modelscope.cn/models/Qwen/Qwen3-TTS-12Hz-1.7B-Base
github仓库:https://github.com/QwenLM/Qwen3-TTS
已发布模型说明与下载
以下为已发布的 Qwen3-TTS 模型的介绍与下载信息。技术报告中提到的其他模型将在近期陆续发布。请根据您的需求选择并下载合适的模型。
Tokenizer 名称描述
Qwen3-TTS-Tokenizer-12HzQwen3-TTS-Tokenizer-12Hz 模型,可将输入语音编码为 codes 并解码还原为语音。
模型特性语言支持流式生成指令控制
Qwen3-TTS-12Hz-1.7B-VoiceDesign根据用户提供的描述进行音色设计。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文✅✅
Qwen3-TTS-12Hz-1.7B-CustomVoice通过用户指令对目标音色进行风格控制;支持 9 种优质音色,涵盖性别、年龄、语言和方言的多种组合。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文✅✅
Qwen3-TTS-12Hz-1.7B-Base基础模型,支持从用户提供的 3 秒音频快速克隆音色;可用于微调(FT)其他模型。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文✅
Qwen3-TTS-12Hz-0.6B-CustomVoice支持 9 种优质音色,涵盖性别、年龄、语言和方言的多种组合。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文✅
Qwen3-TTS-12Hz-0.6B-Base基础模型,支持从用户提供的 3 秒音频快速克隆音色;可用于微调(FT)其他模型。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文✅
对于 Qwen3-TTS-12Hz-1.7B/0.6B-CustomVoice 模型,支持的说话人列表及其语音描述如下所示。我们建议使用每位说话人的母语以获得最佳音质。当然,每位说话人都可以说出模型支持的任意语言。
说话人语音描述母语
Vivian明亮、略带锐利感的年轻女声。中文
Serena温暖柔和的年轻女声。中文
Uncle_Fu音色低沉醇厚的成熟男声。中文
Dylan清晰自然的北京青年男声。中文(北京方言)
Eric活泼、略带沙哑明亮感的成都男声。中文(四川方言)
Ryan富有节奏感的动感男声。英语
Aiden阳光、中频清晰的美式男声。英语
Ono_Anna轻快灵巧的俏皮日语女声。日语
Sohee情感丰富的温暖韩语女声。韩语
语音设计对于语音设计模型(Qwen3-TTS-12Hz-1.7B-VoiceDesign),你可以使用 generate_voice_design 提供目标文本和自然语言形式的 instruct 描述。
Qwen3-TTS音频克隆生成工具解压即用整合包下载链接:
链接:https://pan.quark.cn/s/9562a7fe9ee8
项目刚发布, 还不太稳定, 大家下载先用着,等过几天稳定了,我再更新最新版本
:handshake这效果还不错的 要是能用于涩涩的配音就好了 感谢分享
页:
[1]