For pretraining, does it inlcude Block Causal Attention and Block Diagonal Mask? #192

Leo-T-Zang · 2024-07-01T00:09:08Z

Hi,

Thanks for this amazing codebase!

I wonder during pretraining, if this codebase supports Block Causal Attention and Block Diagonal Mask to avoid crossing the bound of packed samples as LLaMA-3 does. If so, could you please kindly point it out to me.

Thanks a lot!

Leo-T-Zang changed the title ~~For pretraining, does it inlcude block causal attention?~~ For pretraining, does it inlcude Block Causal Attention and Block Diagonal Mask? Jul 1, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

For pretraining, does it inlcude Block Causal Attention and Block Diagonal Mask? #192

For pretraining, does it inlcude Block Causal Attention and Block Diagonal Mask? #192

Leo-T-Zang commented Jul 1, 2024 •

edited

Loading

For pretraining, does it inlcude Block Causal Attention and Block Diagonal Mask? #192

For pretraining, does it inlcude Block Causal Attention and Block Diagonal Mask? #192

Comments

Leo-T-Zang commented Jul 1, 2024 • edited Loading

Leo-T-Zang commented Jul 1, 2024 •

edited

Loading