|
VoxCPM 是一个无分词器的文本转语音系统,通过端到端扩散自回归架构直接生成连续语音表示,绕过离散分词化,实现高度自然且富有表现力的综合效果。 VoxCPM2 是最新的重大版本——一个2B参数模型,基于超过200万小时的多语言语音数据训练,现支持30种语言、语音设计、可控语音克隆和48kHz录音室级音频输出。基于MiniCPM-4骨干构建。 ✨ 亮点
- 🌍 30 语言多语 — 输入支持的 30 种语言中的任意文本,直接合成,无需语言标签
- 🎨 声音设计——仅凭自然语言描述(性别、年龄、语调、情感、节奏等)创造全新的声音,无需参考音频
- 🎛️ 可控克隆——从短参考片段中克隆任何声音,并可选择风格指导以引导情感、节奏和表情,同时保持原始音色
- 🎙️ 终极克隆——再现每一个人声细微差别:同时提供参考音频及其文字记录,模型从参考无缝延续,忠实保存每一个声音细节——音色、节奏、情感和风格(与VoxCPM1.5相同)
- 🔊 48kHz 高质量音频 — 接受 16kHz 参考音频,并通过 AudioVAE V2 的非对称编码/解码设计直接输出 48kHz 录音室品质音频,内置超分辨率——无需外部上采样器
- 🧠 上下文感知综合——自动从文本内容推断适当的韵律和表现力
- ⚡ 实时流媒体 — 在NVIDIA RTX 4090上最低为~0.3的RTF,通过Nano-VLLM加速的~0.13
- 📜 完全开源且商业化准备——权重和代码以 Apache-2.0 许可证发布,商业使用免费
🌍 支持的语言(30种)
阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰语、土耳其语、越南语中文方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话
VoxCPM2.0.2语音克隆生成工具下载地址: 链接:https://pan.quark.cn/s/76dd372b8709 解压密码: www.aibl.vip
本工具免费分享,无任何使用限制,本地离线可用
|