|
刚开源,英文效果挺好的,牙齿比较清晰
目前不支持中文,最慢的一款对口型工具, 等待后期更新
本人4070的12G显存,生成一个11秒的音频花费了3个小时, 推荐16G显存以上使用此整合包,低于16G的不建议下载(鸡肋一样的项目)
源图像:
必须被裁剪成正方形。
脸部应该是主要焦点,占图像的 50%-70%。
面应朝前,旋转角度小于 30°(无侧面轮廓)。
音频:
必须是 WAV 格式。
必须是英文的,因为我们的训练数据集只有这种语言。
确保人声清晰;背景音乐是可以接受的。
运行推理:
- python scripts/inference.py --source_image examples/reference_images/1.jpg --driving_audio examples/driving_audios/1.wav
复制代码
更多选项:
- usage: inference.py [-h] [-c CONFIG] [--source_image SOURCE_IMAGE] [--driving_audio DRIVING_AUDIO] [--output OUTPUT] [--pose_weight POSE_WEIGHT]
- [--face_weight FACE_WEIGHT] [--lip_weight LIP_WEIGHT] [--face_expand_ratio FACE_EXPAND_RATIO]
- options:
- -h, --help show this help message and exit
- -c CONFIG, --config CONFIG
- --source_image SOURCE_IMAGE
- source image
- --driving_audio DRIVING_AUDIO
- driving audio
- --output OUTPUT output video file name
- --pose_weight POSE_WEIGHT
- weight of pose
- --face_weight FACE_WEIGHT
- weight of face
- --lip_weight LIP_WEIGHT
- weight of lip
- --face_expand_ratio FACE_EXPAND_RATIO
- face region
复制代码
hallo数字人整合包下载地址:
https://pan.baidu.com/s/16yBVuWTOU4kCvjv1te2C6Q?pwd=bult
解压密码:www.aibl.vip
|
|