[WIP] Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts #3

nocotan · 2021-06-11T17:27:33Z

一言でいうと

vision-and-languageの事前学習のための1200万の画像とテキストのペアを備えたデータセット．

論文リンク

https://arxiv.org/pdf/2102.08981.pdf

著者/所属機関

Google Research

投稿日付(yyyy/MM/dd)

CVPR2021

Motivation

vision-and-languageの事前学習には，これまではimage captioningやVQAなどのデータが利用されていた．
このようなある特定のタスクについてのデータセットを流用した事前学習も非常に有用ではあったものの，元のタスクにマッチする制限の元でしかデータを収集できなかったために，データセットの規模と多様性にも制限がかかってしまっていた．

本研究ではそうした制限を取り払って，vision-and-languageの事前学習のための大規模なデータセットの構築をした．