AIBL论坛

 找回密码
 立即注册
本论坛所有软件旨在帮助用户创建逼真且有趣的内容,帮助做自媒体的人制作原创有趣的视频或广告,如果使用别人的肖像,使用之前需获得同意和许可(建议使用AI生成的人脸),严禁使用本论坛发布的资源用于不符合当地法律法规的事情
查看: 35|回复: 2

Qwen3-TTS音频克隆生成工具解压即用整合包,本地离线,

[复制链接]
发表于 6 小时前 | 显示全部楼层 |阅读模式
Qwen3-TTS 支持 10 种主要语言(中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文)以及多种方言音色,以满足全球化的应用需求。此外,该模型具备强大的上下文理解能力,可根据指令和文本语义自适应地控制语调、语速和情感表达,并在面对含噪声的输入文本时展现出显著增强的鲁棒性。主要特性包括:

  • 强大的语音表征能力:基于自研的 Qwen3-TTS-Tokenizer-12Hz,实现了高效的声学压缩与高维语义建模。完整保留了副语言信息和声学环境特征,通过轻量级非 DiT 架构即可实现高速、高保真的语音重建。
  • 通用端到端架构:采用离散多码本语言模型(LM)架构,实现全信息端到端语音建模。彻底规避了传统 LM+DiT 方案固有的信息瓶颈和级联误差问题,显著提升了模型的通用性、生成效率和性能上限。
  • 极致低延迟流式生成:基于创新的 Dual-Track 混合流式生成架构,单个模型同时支持流式与非流式生成。在输入单个字符后即可立即输出首个音频包,端到端合成延迟低至 97ms,满足实时交互场景的严苛要求。
  • 智能文本理解与语音控制:支持由自然语言指令驱动的语音生成,可灵活控制音色、情感、韵律等多维度声学属性。通过深度融合文本语义理解,模型能自适应调整语调、节奏和情感表达,实现“所想即所听”的拟真输出。
1.jpg 2.jpg

更多介绍: https://modelscope.cn/models/Qwen/Qwen3-TTS-12Hz-1.7B-Base
github仓库:https://github.com/QwenLM/Qwen3-TTS

已发布模型说明与下载
以下为已发布的 Qwen3-TTS 模型的介绍与下载信息。技术报告中提到的其他模型将在近期陆续发布。请根据您的需求选择并下载合适的模型。
[td]
Tokenizer 名称描述
Qwen3-TTS-Tokenizer-12HzQwen3-TTS-Tokenizer-12Hz 模型,可将输入语音编码为 codes 并解码还原为语音。
[td]
模型特性语言支持流式生成指令控制
Qwen3-TTS-12Hz-1.7B-VoiceDesign根据用户提供的描述进行音色设计。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文
Qwen3-TTS-12Hz-1.7B-CustomVoice通过用户指令对目标音色进行风格控制;支持 9 种优质音色,涵盖性别、年龄、语言和方言的多种组合。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文
Qwen3-TTS-12Hz-1.7B-Base基础模型,支持从用户提供的 3 秒音频快速克隆音色;可用于微调(FT)其他模型。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文
Qwen3-TTS-12Hz-0.6B-CustomVoice支持 9 种优质音色,涵盖性别、年龄、语言和方言的多种组合。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文
Qwen3-TTS-12Hz-0.6B-Base基础模型,支持从用户提供的 3 秒音频快速克隆音色;可用于微调(FT)其他模型。中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文
对于 Qwen3-TTS-12Hz-1.7B/0.6B-CustomVoice 模型,支持的说话人列表及其语音描述如下所示。我们建议使用每位说话人的母语以获得最佳音质。当然,每位说话人都可以说出模型支持的任意语言。
[td]
说话人语音描述母语
Vivian明亮、略带锐利感的年轻女声。中文
Serena温暖柔和的年轻女声。中文
Uncle_Fu音色低沉醇厚的成熟男声。中文
Dylan清晰自然的北京青年男声。中文(北京方言)
Eric活泼、略带沙哑明亮感的成都男声。中文(四川方言)
Ryan富有节奏感的动感男声。英语
Aiden阳光、中频清晰的美式男声。英语
Ono_Anna轻快灵巧的俏皮日语女声。日语
Sohee情感丰富的温暖韩语女声。韩语
语音设计
对于语音设计模型(Qwen3-TTS-12Hz-1.7B-VoiceDesign),你可以使用 generate_voice_design 提供目标文本和自然语言形式的 instruct 描述。

Qwen3-TTS音频克隆生成工具解压即用整合包下载链接:


链接:https://pan.quark.cn/s/9562a7fe9ee8


项目刚发布, 还不太稳定, 大家下载先用着,等过几天稳定了,我再更新最新版本




AIBL论坛免责申明
本论坛刊载的所有内容,包括图片、软件、模型等均在网上搜集。
论坛提供的内容仅用于个人学习、研究或欣赏。我们不保证内容的正确性。通过使用本站内容随之而来的风险与本站无关
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

0

主题

11

回帖

190

积分

高级丹童

积分
190
发表于 5 小时前 | 显示全部楼层
这效果还不错的
回复

使用道具 举报

0

主题

2

回帖

362

积分

初级丹师

积分
362
发表于 3 小时前 | 显示全部楼层
要是能用于涩涩的配音就好了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|AIBL论坛

GMT+8, 2026-1-23 20:45 , Processed in 0.042563 second(s), 25 queries , Gzip On.

Powered by AI技术论坛 X3.5

© 2001-2026 dfl论坛

快速回复 返回顶部 返回列表