AI数字人工具MuseTalk,高质量视频对口型工具解压即用整合包(已更新到最新版本)
整合包视频效果演示:https://www.bilibili.com/video/BV1hm421j7MJ/
批量替换教程: https://www.bilibili.com/video/BV14Z421p7Cn/
电脑要求:英伟达8G显卡以上,建议12G
使用的时候先用3秒视频和音频测试 bbox_shift数值,找到合适的 bbox_shift值后再替换长点的时候
如果生成后感觉效果不好,如嘴巴闭不严实,可以修改bbox_shift数值为负数,如 bbox_shift范围 为 [-19, 19],我们可以修改bbox_shift数值设置为-19测试效果
面罩的上限对嘴巴张开有重要影响。为了控制掩模区域,建议使用bbox_shift参数。正值(向下半部分移动)会增加嘴巴张开度,而负值(向上半部分移动)会降低嘴巴张开度。
您可以先使用默认配置运行以获取可调整值范围,然后在此范围内重新运行脚本。
例如,在 的情况下,运行默认配置后,它显示可调整值 rage 为 [-9, 9]。然后,为了减少嘴巴张开,我们将bbox_shift 值设置为 -7 (负7)
为什么有“bbox_shift”参数?
在处理训练数据时,我们利用人脸检测结果(bbox)和人脸标志的组合来确定头部分割框的区域。具体来说,我们使用 bbox 的上限作为分割框的上边界,使用面部标志坐标的最大 y 值作为分割框的下边界,使用地标坐标的最小和最大 x 值作为分割框的左右边界。通过以这种方式处理数据集,我们可以确保人脸的完整性。
然而,我们观察到,由于不同的人脸型不同,脸部的遮罩比例在不同的图像中会有所不同。此外,我们发现掩模的上限主要位于地标28、地标29和地标30地标点附近(如图1所示),分别对应数据集中比例为15%、63%和22%。
在推理过程中,我们发现,随着面具的上限越来越靠近嘴巴(靠近 landmark30),音频特征对嘴唇运动的贡献更大。相反,当面具的上限远离嘴巴(靠近地标28)时,音频特征对生成面部外观细节的贡献更大。因此,我们将此特性定义为一个参数,可以调整音频特征对生成嘴唇运动的贡献,用户可以在实际场景中根据自己的特定需求进行修改。
最新版本支持批量替换
视频对口型工具MuseTalk下载地址(老版本需要英伟达12G显存 ):
下载链接:https://pan.baidu.com/s/1jeI5BuLRCi2PVkRsnb9DtA?pwd=xted
解压密码:www.aibl.vip
视频对口型工具MuseTalk整合包最新优化版下载地址( 已更新到 20241026 最新版本,购买后会一直更新,支持8G显存 , 支持批量替换 ):
付费内容 亲爱的游客您好!如果您要查看本帖隐藏内容请向楼主支付199 灵石