VALL-E X中文一键整合包：文本转语音及语音克隆

meiyouruguo 发表于 2023-10-8 08:14:07

简介：VALL-E X中文整合包是一款本地版文本转语音工具，零样本语音克隆：经本人测试，克隆英文效果可以，克隆中文效果并不好，主要原因是底模是用大部分用英文训练出的模型，你们可以找一个底模中文的模型，替换这个，目前这个英文底模文本转语音还有点用

（注意事项：3~10 秒录音，不要超过10秒，要不然会报错）

整合包一键启动，无需配置任何环境，分cpu版本和英伟达(N卡)版本，根据电脑配置下载对应的链接，

[*]VALL-E X 是一个强大而创新的多语言文本转语音（TTS）模型，最初由微软发布。虽然微软最初在他们的研究论文中提出了该概念，但并未发布任何代码或预训练模型。我们认识到了这项技术的潜力和价值，复现并训练了一个开源可用的VALL-E X模型。我们很乐意与社区分享我们的预训练模型，让每个人都能体验到次世代TTS的威力。🎧📖 目录🚀 更新日志📢 功能特点💻 本地安装🎧 在线演示🐍 使用方法❓ 常见问题🧠 待办事项🚀 更新2023.09.10
支持AR decoder的batch decodeding以实现更稳定的生成结果2023.08.30
将EnCodec解码器替换成了Vocos解码器，提升了音质。（谢谢@v0xie)2023.08.23
加入了长文本生成功能2023.08.20
加入了中文版自述文件2023.08.14
📢 功能特点VALL-E X 配备有一系列尖端功能：
多语言 TTS：可使用三种语言 - 英语、中文和日语 - 进行自然、富有表现力的语音合成。
零样本语音克隆：仅需录制任意说话人的短短的 3~10 秒录音，VALL-E X 就能生成个性化、高质量的语音，完美还原他们的声音。
查看示例语音情感控制： VALL-E X 可以合成与给定说话人录音相同情感的语音，为音频增添更多表现力。查看示例零样本跨语言语音合成： VALL-E X 可以合成与给定说话人母语不同的另一种语言，在不影响口音和流利度的同时，保留该说话人的音色与情感。以下是一个使用日语母语者进行英文与中文合成的样例： 🇯🇵 🗣查看示例口音控制： VALL-E X 允许您控制所合成音频的口音，比如说中文带英语口音或反之。🇨🇳 💬查看示例声学环境保留：当给定说话人的录音在不同的声学环境下录制时，VALL-E X 可以保留该声学环境，使合成语音听起来更加自然。查看示例你可以访问我们的演示页面来浏览更多示例！
🌎 多语言
该VALL-E X实现支持三种语言：英语、中文和日语。您可以通过设置'language'参数来指定语言。默认情况下，该模型将自动检测语言。text_prompt = """ チュソクは私のお気に入りの祭りです。私は数日間休んで、友人や家族との時間を過ごすことができます。"""audio_array = generate_audio(text_prompt) vallex_japanese.webm 注意：即使在一句话中混合多种语言的情况下，VALL-E X也能完美地控制口音，但是您需要手动标记各个句子对应的语言以便于我们的G2P工具识别它们。
text_prompt = """ The Thirty Years' War was a devastating conflict that had a profound impact on Europe. 这是历史的开始。如果您想听更多，请继续。"""audio_array = generate_audio(text_prompt, language='mix') vallex_codeswitch.webm 📼 预设音色我们提供十几种说话人音色可直接VALL-E X使用！在这里浏览所有可用音色。VALL-E X 尝试匹配给定预设音色的音调、音高、情感和韵律。该模型还尝试保留音乐、环境噪声等。若使用GPU运行，你需要至少6GB的显存。
⚙️ 详VALL-E X 与 Bark， VALL-E and AudioLM类似，使用GPT风格的模型以自回归方式预测量化音频token，并由EnCodec解码.与 Bark 相比：
✔ 轻量： 3️⃣ ✖ 更小，✔ 快速： 4️⃣ ✖ 更快，✔ 中文&日文的更高质量✔ 跨语言合成时没有外国口音✔ 开放且易于操作的声音克隆❌ 支持的语言较少❌ 没有用于合成音乐及特殊音效的令牌支持的语言语言状态英语（en） ✅日语（ja） ✅中文（zh） ✅❓ 常见问题在哪里可以下载检查点？当您第一次运行程序时,我们使用将模型下载到目录里。wget./checkpoints/如果第一次运行时下载失败，请从这里手动下载模型，并将文件放在里。./checkpoints/需要多少显存?6GB 显存（GPU VRAM） - 几乎所有 NVIDIA GPU 都满足要求.为什么模型无法生成长文本?当序列长度增加时，Transformer的计算复杂度呈二次方增长。因此，所有训练音频都保持在22秒以下。请确保音频提示（audio prompt）和生成的音频的总长度小于22秒以确保可接受的性能。更多...🧠 待办事项用Vocos解码器替换Encodec解码器微调以实现更好的语音自适应

VALL-E X中文一键整合包（N卡版本）下载地址：
链接：https://pan.baidu.com/s/1ZiFNLs8oKVx0PgbV242sQg
提取码：vz6e
解压密码www.aibl.vip

VALL-E X中文一键整合包（CPU卡版本）下载地址：

链接：https://pan.baidu.com/s/1D9B64cBvQ6l0nDpPEe8cPw
提取码：735q
解压密码 www.aibl.vip

wanglu852 发表于 2023-10-8 23:53:08

不错，试试，

tengxxx 发表于 2023-10-10 19:16:57

感谢分享

liqianjie 发表于 2023-10-13 03:59:22

感谢楼主分享

asdasdada 发表于 2023-10-13 18:33:27

感谢楼主分享

liqianjie 发表于 2023-10-15 10:22:45

签到领灵石

tuo 发表于 2023-10-15 14:47:40

占位尝鲜，感谢坛主收集

angcoll 发表于 2023-10-19 22:05:18

感谢分享

xtcmshuma 发表于 2023-10-27 18:54:47

签到领灵石

wyl8849 发表于 2023-11-5 22:12:59

请问下载完了点击一键启动没反应是咋回事儿啊

页: [1] 2 3 4

AIBL论坛's Archiver

VALL-E X中文一键整合包：文本转语音及语音克隆