StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks (IEEE 2018) #5

shionhonda · 2019-04-25T02:41:27Z

0. 論文

タイトル: StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks
リンク: https://arxiv.org/abs/1710.10916
著者: Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas
所属: Rutgers University, Lehigh University, The Chinese University of Hong Kong, University of North Carolina at Charlotte
発表年: 2017
掲載: IEEE

1. どんなもの？

StackGAN-v1の改良版。複数の生成器と識別器を木構造のように並べ、様々なサイズの画像への対応・説明文無しでの画像生成を可能にした。生成画像の色に関する正則化を追加。end-to-endに安定して訓練できるようになり、画像の品質も向上。

論文ではStackGAN-v1についても述べられているが、それは#2 に譲り、ここではStackGAN-v2についてまとめる。

2. 先行研究と比べてどこがすごい？

StackGAN-v1(#2 )からの差分は「複数の分布を学習させていること」で、メリットは以下の5点。

生成画像の品質向上
様々なサイズの画像を生成できる
説明文なし(unconditional)での画像生成も可能
end-to-endな訓練
学習の安定化(モード崩壊の軽減)

3. 技術や手法のキモはどこ？

生成器と識別器を3つずつ用意して、分岐させながらstackしている。
図に描かれていないが、Conditioning AugmentationはStackGAN-v1から引き継いでいる。

Multi-scale image distributions approximation

木の幹の部分で特徴マップをアップサンプリングしながら、枝の部分の生成器で64*64、128*128、256*256pxの画像を生成する。各ステージで条件変数cを入力する。3サイズの画像はそれぞれ識別器に識別させる。損失関数は生成器、識別器とも3つの和をとる。

Joint conditional and unconditional distribution approximation

1つ1つの損失は、conditional lossとunoconditional lossの和である。

Color-consistency regularization

ステージを経て解像度を上げるときに、低解像度画像と高解像度画像でだいたいの色が一致してほしいということで、生成器の損失関数に色に関する正則化項を加える。正則化項は、ピクセル間の平均ベクトル(RGBの3次元)のL2ノルムと共分散行列(3*3)のフロベニウスノルムからなる。

4. どうやって有効だと検証した？

StackGAN-v1と同じく、IS、FID、人によるランク付けの3点で評価した。
データセットは説明文付きのCUB、Oxford-102、COCOに加えて説明文なしのLSUN-bedroom、LSUN-church、ImageNet-dog、ImageNet-catの計7種類を利用。

StackGAN-v1と比較して多くのデータセットで改善が見られた。

5. 議論はある？

生成画像をt-SNEで次元削減して並べたもの。StackGAN-v1(左)で激しいモード崩壊が起きているのがわかる。StackGAN-v2(右)では多様性が確保されているように見える。

Ablation Studiesの結果。JCUもISの向上に寄与している。

6. 次に読むべき論文は？

Guojun Yin, Bin Liu, Lu Sheng, Nenghai Yu, Xiaogang Wang, Jing Shao, Semantics Disentangling for Text-to-Image Generation. In CVPR, 2019.

S. Reed, Z. Akata, S. Mohan, S. Tenka, B. Schiele, and H. Lee. Learning what and where to draw. In NIPS, 2016.

S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee. Generative adversarial text-to-image synthesis. In ICML, 2016.
Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas, StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks. In ICCV 2017.

小さい解像度の画像を識別器に評価させて勾配を前のステージに直接渡すのは、ProgressiveGANと通じるアイディアで有効性がわかりやすいです。
一方、unconditionalでの画像生成がどのように学習の安定化に寄与するのかはよくわかりませんでした。また、unconditionalのときにcをどのように決めるか(おそらく乱数？)もわかりませんでした。

shionhonda added reading reading now, leave this issue as it is text2image GAN and removed reading reading now, leave this issue as it is labels Apr 25, 2019

shionhonda mentioned this issue Apr 27, 2019

Semantics Disentangling for Text-to-Image Generation (CVPR 2019) #11

Open

shionhonda mentioned this issue May 6, 2019

AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks (CVPR 2018) #12

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks (IEEE 2018) #5

StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks (IEEE 2018) #5

shionhonda commented Apr 25, 2019 •

edited

StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks (IEEE 2018) #5

StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks (IEEE 2018) #5

Comments

shionhonda commented Apr 25, 2019 • edited

0. 論文

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

Multi-scale image distributions approximation

Joint conditional and unconditional distribution approximation

Color-consistency regularization

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

コメント

shionhonda commented Apr 25, 2019 •

edited