ffmpeg(用于视频切分为帧、将音频从视频中剥离)
tensorflow(因为要装spleeter)
spleeter(用于人声与背景音的分离,很垃圾,可以跳过)
pytorch
librosa(用于音频特征的抽取)
openface(用于视频图像特征的抽取)
链接:https://pan.baidu.com/s/17kQ0ygDBNfnbIq_yFJaq9w?pwd=1234 提取码:1234
- 0
- norm
- 先pad再bert
- 先bert再pad
-
单人
FeatureExtraction.exe
-
多人
FaceLandmarkVidMulti.exe
-
头部姿势
-pose
-
- 单视频
-f "C:\my videos\video1.avi"
- 单视频
-
多视频
-f "C:\my videos\video1.avi" -f "C:\my videos\video2.avi" -f "C:\my videos\video3.avi"
-
一系列图像
-fdir "C:\my videos\sequence1"
- 单图像 FaceLandmarkImg.exe -f "C:\my images\img.jpg"
- 多图像 FaceLandmarkImg.exe -f "C:\my images\img1.jpg" -f "C:\my images\img2.jpg" -f "C:\my images\img3.jpg"
- 目录 FaceLandmarkImg.exe -fdir "C:\my images"
https://github.com/TadasBaltrusaitis/OpenFace/wiki/Command-line-arguments
-f <filename>
正在输入的视频文件,可以指定多个 -f
-fdir <directory>
对目录中的每个图像(.jpg、.jpeg、.png 和 .bmp)运行特征提取(输出将存储在整个目录的单个文件中)
-out_dir <dir>
与创建输出文件相关的根目录
-2Dfp
以像素为单位输出 2D landmark
-3Dfp
以毫米为单位输出 3D landmark
-pdmparams
输出刚性和非刚性形状参数
-pose
输出头部姿势(位置和旋转)
-aus
输出面部动作单元
-gaze
输出凝视和相关特征(眼睛标志的 2D 和 3D 位置)
-hogalign
输出提取的 HOG 特征文件
-simalign
简单对其
-nobadaligned
如果输出相似度对齐的图像,不要从检测失败或不可靠的帧输出(从而节省一些磁盘空间)
-tracked
带有检测到的landmark的跟踪输出视频
https://blog.csdn.net/llvtingting/article/details/115839387
https://www.cnblogs.com/LXP-Never/p/11561355.html
https://www.cnblogs.com/LXP-Never/p/10918590.html
import librosa
librosa.feature.mfcc(
y=None,
sr=22050,
S=None,
n_mfcc=20,
dct_type=2,
norm='ortho')
y:音频时间序列 sr:音频的采样率
https://huggingface.co/docs/transformers/model_doc/wav2vec2
https://huggingface.co/facebook/wav2vec2-base-960h