We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
vision-and-languageの事前学習のための1200万の画像とテキストのペアを備えたデータセット.
https://arxiv.org/pdf/2102.08981.pdf
Google Research
CVPR2021
vision-and-languageの事前学習には,これまではimage captioningやVQAなどのデータが利用されていた. このようなある特定のタスクについてのデータセットを流用した事前学習も非常に有用ではあったものの,元のタスクにマッチする制限の元でしかデータを収集できなかったために,データセットの規模と多様性にも制限がかかってしまっていた.
本研究ではそうした制限を取り払って,vision-and-languageの事前学習のための大規模なデータセットの構築をした.
The text was updated successfully, but these errors were encountered:
No branches or pull requests
一言でいうと
vision-and-languageの事前学習のための1200万の画像とテキストのペアを備えたデータセット.
論文リンク
https://arxiv.org/pdf/2102.08981.pdf
著者/所属機関
Google Research
投稿日付(yyyy/MM/dd)
CVPR2021
Motivation
vision-and-languageの事前学習には,これまではimage captioningやVQAなどのデータが利用されていた.
このようなある特定のタスクについてのデータセットを流用した事前学習も非常に有用ではあったものの,元のタスクにマッチする制限の元でしかデータを収集できなかったために,データセットの規模と多様性にも制限がかかってしまっていた.
本研究ではそうした制限を取り払って,vision-and-languageの事前学習のための大規模なデータセットの構築をした.
Composition
Collection Process
Benchmarks
コメント
The text was updated successfully, but these errors were encountered: