MuseTalk 音频驱动唇形同步

~你好仙女

1741人浏览 · 2024-04-16 14:32:41

~你好仙女 · 2024-04-16 14:32:41 发布

效果展示

新建虚拟环境

(建议使用 python 版本 >=3.10 和 cuda 版本 =11.7。)

conda create -n musetalk python=3.10

安装pytorch和cuda环境

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

下载项目文件

git clone https://github.com/TMElyralab/MuseTalk.git

下载项目依赖包

pip install -r requirements.txt

mmlab 封装

pip install --no-cache-dir -U openmim 
mim install mmengine 
mim install "mmcv>=2.0.1" 
mim install "mmdet>=3.1.0" 
mim install "mmpose>=1.1.0"

下载 ffmpeg-static

# 下载ffmpeg-static版本，这里以ffmpeg 4.4为例（确保使用你的具体版本号）
wget https://johnvansickle.com/ffmpeg/releases/ffmpeg-release-amd64-static.tar.xz

# 解压文件
tar -xvf ffmpeg-release-amd64-static.tar.xz

设置环境变量

打开一个终端窗口。编辑 .bashrc
使用文本编辑器打开你的 .bashrc 文件。大多数Linux用户使用的是 Bash shell，其配置文件通常是 .bashrc。你可以使用 nano 或其他编辑器打开这个文件
```
nano ~/.bashrc
```
添加 export 命令，在打开的文件中，添加以下行：请确保路径与你解压的的目录匹配。
```
export FFMPEG_PATH=~/musetalk/ffmpeg-4.4-amd64-static
```
保存和退出编辑器，按 Ctrl+O 保存文件更改，然后按 Ctrl+X 退出 nano 编辑器。
更新环境变量，为使更改生效，需要重新加载 .bashrc 或 .bash_profile。在你的终端中，执行以下命令：
```
source ~/.bashrc
```
验证安装：验证 ffmpeg 是否正确安装和配置：
```
$FFMPEG_PATH/ffmpeg -version
```

可能会遇到`ffmpeg` 模块缺少预期的 `input` 方法和 `Error` 类，这通常发生在你安装了一个与预期不符的 `ffmpeg` 包时。

在终端执行以下命令查看已安装的相关库：

pip list | grep ffmpeg

安装正确的库：

pip install ffmpeg-python

下载权重

Download weights

TMElyralab/MuseTalk：MuseTalk：具有潜在空间修复的实时高质量唇形同步 (github.com)https://github.com/TMElyralab/MuseTalk?tab=readme-ov-file

最后，这些权重应按如下方式组织：models

./models/
├── musetalk
│   └── musetalk.json
│   └── pytorch_model.bin
├── dwpose
│   └── dw-ll_ucoco_384.pth
├── face-parse-bisent
│   ├── 79999_iter.pth
│   └── resnet18-5c106cde.pth
├── sd-vae-ft-mse
│   ├── config.json
│   └── diffusion_pytorch_model.bin
└── whisper
    └── tiny.pt

模型推理

python -m scripts.inference --inference_config configs/inference/test.yaml

configs/inference/test.yaml 是推理配置文件的路径，包括 video_path 和 audio_path。 video_path应为视频文件或图像目录。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模