Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Synthesizing Images of Humans in Unseen Poses #41

Open
kogaki opened this issue Jun 28, 2018 · 0 comments
Open

Synthesizing Images of Humans in Unseen Poses #41

kogaki opened this issue Jun 28, 2018 · 0 comments

Comments

@kogaki
Copy link
Member

kogaki commented Jun 28, 2018

pose2img系の最新。ポーズ変化は各関節の座標変換であるという手がかりから、前景背景分離・セグメンテーション・inpainting・pose2imgを同時に解く

論文本体・著者

解きたい問題

  • より綺麗なpose2img
    • ホント流行ったなぁ

新規性

  • 背景が同じである画像対を用いて学習すれば、前景背景分離・セグメンテーション・inpainting・pose2imgを同時に解く事ができる

実装

この論文はこのFig.3を理解することが最重要

image

  • 以下の問題をend-to-endで学習

    • 学習データ
      • (入力画像, 入力ポーズ, 目的ポーズ) -> (目的画像)
    • 学習するネットワーク
      • A. 画像とポーズから、関節ごとのマスクと、全身(前景)マスクを作る
        • セグメンテーションと前景背景分離
      • C. ポーズの部分画像から、それを張り合わせた全身画像を作る
      • D. 人間が切り抜かれた背景画像をinpainting
    • 学習に利用される制約(決定的な計算が行われる部分)
      • A. 関節ごとのマスクでもとの画像を切り取れば、関節ごとのセグメンテーション画像になる
        • 正確には、その関節に追従する剛体部分(ゴルフクラブは腕に追従する)
        • Spatial Transformer Networksを利用
      • B. 関節ごとの剛体変形がポーズ変化だから、これを用いて関節セグメンテーション画像(A)を粗く変形することができる
      • C,D. ネットワークが出力したマスクを使って画像を切り取り・貼り付ける
  • ちなみにロスはVggの中間層距離 + GAN(バニラ)

実験・議論

image
Fig.9 より
  • UNetとしてるのは、先行研究でよくやられてる、(入力画像, 入力ポーズ, 目的ポーズ) -> (目的画像)というUNetを学習する手法
    • 直接先行研究と比較してるわけではない
  • The UNet often copies appearances from similar poses in the training data rather than moving pixels.
    • この考察、面白い

読んだ中での不明点などの感想

  • いろんな問題をまとめてend-to-endで学習。綺麗だ。。
  • 正直セグメンテーションまでend-to-endで学習しなくても、セグメンテーションは別の手法使ったほうが楽じゃないかな、とは思う。
  • STN部分は2Dでの変形しか見てないんですよね。z方向への変形に極端に弱くならないのかな

関連論文

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants