Benchmark sequence parallelism in test_transformer_engine #3546

wujingyue · 2024-12-09T22:40:49Z

$ nvidia-smi -L
GPU 0: NVIDIA H100 80GB HBM3
GPU 1: NVIDIA H100 80GB HBM3
GPU 2: NVIDIA H100 80GB HBM3
GPU 3: NVIDIA H100 80GB HBM3
GPU 4: NVIDIA H100 80GB HBM3
GPU 5: NVIDIA H100 80GB HBM3
GPU 6: NVIDIA H100 80GB HBM3
GPU 7: NVIDIA H100 80GB HBM3

$ mpirun -np 8 --output-filename /tmp/test_transformer_engine pytest tests/python/test_transformer_engine.py --only-mpi

$ cat /tmp/test_transformer_engine/1/rank.0/stdout

------------------------------------------------------------------------------------------ benchmark: 4 tests ------------------------------------------------------------------------------------------
Name (time in ms)                          Min                Max               Mean             StdDev            Median                IQR            Outliers       OPS            Rounds  Iterations
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
test_transformer_layer[sp-forward]      2.2564 (1.0)      55.7794 (11.73)    13.2931 (3.01)     23.7547 (125.77)   2.6707 (1.05)     14.1577 (88.73)         1;1   75.2268 (0.33)          5           1
test_transformer_layer[tp-forward]      2.3941 (1.06)     18.6497 (3.92)      6.7947 (1.54)      7.0469 (37.31)    2.5476 (1.0)       8.2456 (51.68)         1;0  147.1742 (0.65)          5           1
test_transformer_layer[tp-backward]     4.2568 (1.89)      4.8231 (1.01)      4.4578 (1.01)      0.2570 (1.36)     4.2940 (1.69)      0.4091 (2.56)          1;0  224.3258 (0.99)          5           1
test_transformer_layer[sp-backward]     4.3135 (1.91)      4.7558 (1.0)       4.4221 (1.0)       0.1889 (1.0)      4.3292 (1.70)      0.1596 (1.0)           1;1  226.1393 (1.0)           5           1
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Latency is neutral as expected.

wujingyue · 2024-12-09T22:45:09Z

!test

cowanmeg

LGTM
Just curious how much modification is required to turn on TP/SP overlapping?

wujingyue · 2024-12-10T23:47:40Z

LGTM

Just curious how much modification is required to turn on TP/SP overlapping?

NVIDIA/TransformerEngine#1363

It didn't work out of the box

wujingyue added 4 commits December 9, 2024 14:16

Enable sequence parallelism

8d7fc97

Shard input activations

68bff16

Add parallelism as a parameter

6a84d85

comment

0d1dfb6

wujingyue marked this pull request as draft December 10, 2024 20:17

wujingyue requested a review from cowanmeg December 10, 2024 23:41

wujingyue marked this pull request as ready for review December 10, 2024 23:41

cowanmeg approved these changes Dec 10, 2024

View reviewed changes

wujingyue merged commit 8c82f30 into main Dec 10, 2024
48 checks passed

wujingyue deleted the wjy/sp branch December 10, 2024 23:59

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Benchmark sequence parallelism in test_transformer_engine #3546

Benchmark sequence parallelism in test_transformer_engine #3546

wujingyue commented Dec 9, 2024 •

edited

Loading

wujingyue commented Dec 9, 2024

cowanmeg left a comment

wujingyue commented Dec 10, 2024

Benchmark sequence parallelism in test_transformer_engine #3546

Benchmark sequence parallelism in test_transformer_engine #3546

Conversation

wujingyue commented Dec 9, 2024 • edited Loading

wujingyue commented Dec 9, 2024

cowanmeg left a comment

Choose a reason for hiding this comment

wujingyue commented Dec 10, 2024

wujingyue commented Dec 9, 2024 •

edited

Loading