TinyBERT training: knowledge distillation vs training from scratch on MS-MARCO #85

prasadkawthekar · 2020-07-17T21:58:43Z

Hi, thank you for the amazing work with NBoost.

My question is regarding TinyBERT. As per this accompanying blog post, TinyBERT is obtained using knowledge distillation on a larger BERT architecture that is pre-trained on MS-MARCO.

How does this approach compare with training a TinyBERT architecture from scratch on the MS-MARCO dataset?

prasadkawthekar changed the title ~~Question regarding training methodology for TinyBERT~~ TinyBERT training: knowledge distillation vs training from scratch on MS-MARCO Jul 17, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

TinyBERT training: knowledge distillation vs training from scratch on MS-MARCO #85

TinyBERT training: knowledge distillation vs training from scratch on MS-MARCO #85

prasadkawthekar commented Jul 17, 2020 •

edited

Loading

TinyBERT training: knowledge distillation vs training from scratch on MS-MARCO #85

TinyBERT training: knowledge distillation vs training from scratch on MS-MARCO #85

Comments

prasadkawthekar commented Jul 17, 2020 • edited Loading

prasadkawthekar commented Jul 17, 2020 •

edited

Loading