dots.tts声音克隆工具,支持SRT字幕多角色配音,本地离线整合包
dots.tts 文本转语音项目声音克隆 · 批量任务 · SRT 字幕配音 · 48kHz 高音质 · 全程离线
📌 这是什么
dots.tts 是小红书 开源的 2B 参数全连续自回归 TTS 模型,48kHz 采样率,零样本声音克隆效果在 Seed-TTS-Eval 等多个评测上达到开源第一梯队(中文 WER 0.94%)。
整合包本地离线,支持批量队列、音色库、SRT 字幕多角色配音。
https://www.aibbs.fun/data/attachment/forum/202606/11/162151r64n4mq4tmqmstxq.jpg
✨ 功能特色
[*]批量任务队列——任务逐条排队合成,状态实时显示(等待/处理中/完成/失败),支持单条重试、试听、删除;关闭软件队列不丢,重开自动恢复
[*]声音克隆——上传 3~10 秒参考音频+对应文字,即可用这个声音念任何文本;克隆好用的声音可一键存入音色库,下次直接下拉选择
[*]SRT 字幕配音——导入字幕文件按时间轴逐句配音,超长句自动 ffmpeg 变速压进字幕时间窗,全部完成后自动混成一条整轨音频,时间点和字幕完全对齐
[*]多角色自动配音——字幕里写「张三:台词」,音色库里存过「张三」这个音色就自动绑定,没有的弹窗手动指派,做剧配音、视频解说极其省事
[*]合并导出——批量任务可按顺序拼成一条完整音频(句间静音可调),导出前有清单面板预览会生成几个文件,还能再拼一个总文件
[*]全程离线——整合包自带 Python 环境、ffmpeg、模型文件,启动器已锁死所有联网开关
https://www.aibbs.fun/data/attachment/forum/202606/11/162218vw6vzbqzwzwwb86b.jpg
🚀 三步上手
[*]解压整合包,双击 启动.exe(首次合成时自动加载模型,约半分钟)
[*]「创建任务」页:粘贴文本(或导入 TXT/SRT)→ 选音色(上传参考音频或选音色库)→ 点 ➕ 添加到任务队列
[*]「任务列表」页:点 ▶ 开始等待,完成后试听满意的,不满意的选中重试(换个 Seed 再抽一次)
🎬 SRT 多角色配音教程
字幕文本支持三种说话人标记写法,任选其一:
1
00:00:01,000 --> 00:00:04,500
张三:今天我们聊一个有意思的话题。
2
00:00:05,000 --> 00:00:08,000
[李四] 哦?什么话题,快说来听听。
3
00:00:08,500 --> 00:00:11,000
<旁白> 两人的对话就这样开始了。
自动匹配规则:先在「设置 → 音色库管理」里把角色声音按名字保存(音色就叫“张三”“李四”),之后导入 SRT 时同名说话人自动绑定对应音色,全部匹配上连弹窗都不弹,直接添加任务开跑。
整组字幕合成完毕后自动按时间轴混音输出 文件名_整轨.wav,丢进剪辑软件和字幕严丝合缝。
https://www.aibbs.fun/data/attachment/forum/202606/11/162306r2pdaha2ljhgjzia.jpg
🎛 参数速查
参数默认说明
Num Steps10采样步数,越高越细腻越慢,10 已经很能打
Guidance1.2引导强度,超过 2 音量能量会越来越大,不建议乱拉
Speaker1.5音色贴近度,越大越像参考音频
Seed42随机种子,同参数同种子=同结果;不满意点🎲换一个重试
语言不指定支持 110+ 语言/口音标签(粤语、四川话、东北话都有)
文本规范化关数字、符号自动转读法,新闻类文本建议开
克隆小技巧:参考音频选 3~10 秒、干净无背景音的人声,并务必填写参考音频的文字转写(continuation 克隆模式),相似度明显高于只传音频。
💻 配置要求与实测
[*]系统:Windows 10/11 64位
[*]显卡:NVIDIA 显卡(CUDA),建议 8GB 显存起步;
[*]输出:48kHz / 16bit 单声道 WAV
❓ 常见问题
[*]问:不传参考音频能用吗?答:能,但底模是随机音色,每次声音都不一样,正经用法是配参考音频克隆
[*]问:SRT 某句配出来比字幕时长长怎么办?答:软件自动调用 ffmpeg 变速压缩进时间窗,任务详情里能看到压缩比;压缩比太狠(>1.3)建议精简那句文案
[*]问:任务失败了怎么看原因?答:任务列表里双击该任务,详情里有完整错误信息
[*]问:模型放哪?答:整合包已内置 pretrained_models\dots_tts_model,也可以在设置页指向自己微调过的模型目录
dots.tts声音克隆工具,支持SRT字幕多角色配音,本地离线整合包
下载地址 :https://pan.quark.cn/s/1ed27fbd9ae8
解压密码: aibbs.fun
本工具免费分享,无任何使用限制,本地离线可用
声明:dots.tts 模型与代码均为 Apache-2.0 开源协议。声音克隆请勿用于伪造他人声音、诈骗等违法用途,AI 生成音频请显著标注。
长文本太慢了 jandown 发表于 2026-6-11 18:33
长文本太慢了
应该不会,比较有可能的是配置,最低32GB内存,N卡3090以上,虚拟内存最低20GB,程序模型都采用SSD,那么速度是很快的不会卡。 这个整合包好用!目前测试短文本效果不错暂时没发现什么问题。 楼主太棒了!谢谢!请教一下,网盘中的V1和V2有什么区别?
页:
[1]