Pose-VIT: Use transformer to regress poses between multiple frames in one shot.

Transfomer is efficient for processing video by joint space-time attention. (Is Space-Time Attention All You Need for Video Understanding? https://arxiv.org/pdf/2102.05095)

Network Architecture

RMSE to GT trajectory in KITTI. Performance increases when more frames are involved.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
__pycache__		__pycache__
datasets		datasets
experiments		experiments
fig		fig
networks		networks
splits		splits
README.md		README.md
evaluate_pose.py		evaluate_pose.py
kitti_utils.py		kitti_utils.py
layers.py		layers.py
options.py		options.py
test_simple.py		test_simple.py
train.py		train.py
trainer.py		trainer.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Pose-VIT: Use transformer to regress poses between multiple frames in one shot.

About

Releases

Packages

Languages

LeungTsang/VIT-for-Pose-Estimation

Folders and files

Latest commit

History

Repository files navigation

Pose-VIT: Use transformer to regress poses between multiple frames in one shot.

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages