Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[WIP] Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts #3

Open
nocotan opened this issue Jun 11, 2021 · 0 comments

Comments

@nocotan
Copy link
Member

nocotan commented Jun 11, 2021

一言でいうと

vision-and-languageの事前学習のための1200万の画像とテキストのペアを備えたデータセット.

論文リンク

https://arxiv.org/pdf/2102.08981.pdf

著者/所属機関

Google Research

投稿日付(yyyy/MM/dd)

CVPR2021

Motivation

vision-and-languageの事前学習には,これまではimage captioningやVQAなどのデータが利用されていた.
このようなある特定のタスクについてのデータセットを流用した事前学習も非常に有用ではあったものの,元のタスクにマッチする制限の元でしかデータを収集できなかったために,データセットの規模と多様性にも制限がかかってしまっていた.

本研究ではそうした制限を取り払って,vision-and-languageの事前学習のための大規模なデータセットの構築をした.

Composition

Screen Shot 2021-06-12 at 2 16 07

Screen Shot 2021-06-12 at 2 16 19

Screen Shot 2021-06-12 at 2 16 24

Collection Process

Benchmarks

Screen Shot 2021-06-12 at 2 16 32

Screen Shot 2021-06-12 at 2 16 45

Screen Shot 2021-06-12 at 2 16 54

Screen Shot 2021-06-12 at 2 17 10

コメント

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant