StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks (ICCV 2017) #2

shionhonda · 2019-04-22T15:00:41Z

0. 論文

タイトル: StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
リンク: https://arxiv.org/abs/1612.03242
著者: Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas
所属: Rutgers University, Lehigh University, The Chinese University of Hong Kong, Baidu Research
発表年: 2016
掲載: ICCV

1. どんなもの？

説明文から256*256pxの対応画像を生成するStackGANを提案した。1段目では粗い画像を生成し、2段目では画像の精細化をするという2段階の構成(stack)。生成画像の多様性を確保するためにConditioning Augmentationも提案。

2. 先行研究と比べてどこがすごい？

従来のtext-to-imageでは64*64px程度の解像度での生成が限界だった[Reed+, 2016]が、提案手法では256*256pxでの生成に成功した。

3. 技術や手法のキモはどこ？

ConditionalGANをベースに、条件付けの変数cとしてLSTMでエンコードした説明文を使う。ポイントは2段階構成のGANとデータ拡張手法の2点。

Conditioning Augmentation

キャプション付き画像データは一般に多くないため、GANの学習に十分な量を確保できないケースがある。特にtext-to-imageでは条件付けの変数cがそのままでは100次元を超えるため、データ数に対して高次元になってしまう。
Conditioning Augmentationはその問題に対処するためのデータ拡張手法であり、説明文の埋め込みをそのままcとするのではなく、埋め込みから正規分布の平均と分散へ変換し、得られた分布からcをreparameterization trickでサンプリングする(cを確率的に発生させる)。
説明文と画像の関係は1対多であると考えられるが、Conditioning Augmentationはその関係をモデリングできるようにする効果がある。

Stage I

画像生成は2段階で行う。「説明文から高解像度画像を生成する」というタスクを、「説明文からラフな画像を生成する」と「ラフな画像と説明文から高解像度画像を生成する」に分割した(画家もそのようにするだろうという発想)。

Stage Iではcと乱数zの結合ベクトルからラフな画像を生成する。

Stage II

同じくConditioning Augmentationを使うが、ネットワークはStage Iのものとは別。
負例は、「実画像と違う説明文の組」と「生成画像と正しい説明文の組」の2種類がある。

4. どうやって有効だと検証した？

先行研究であるGAN-INT-CLS及びGAWWNと比較。
使用データセットは3種類。

CUB: 200種類の鳥からなる12k枚の画像
Oxford-102: 102カテゴリの花からなる8k枚の画像
MS COCO 様々な被写体の120k枚の画像

CUBとOxford-102は少なめ。
30k枚の生成画像についてInception Scoreを計算した。
説明文との整合性を評価するため、10人による人力の評価も行った。
全てにおいてStackGANが優位(GAWWNは物体の領域に制約を与えると改善する)。解像度も高い。

5. 議論はある？

Stage Iの生成画像はかなりぼやけていたり、説明文と合っていなかったり(左から5列目)、形ができていなかったり(左から7列目)する。Stage IIでは詳細を描き足すだけでなく、大きな修正を加えることもある。

最近傍探索で画像を再生成してみると、説明文と適合する画像が得られる(訓練データを記憶しているだけではない)。

1段階で直接生成、CAなし、説明文を1段階のみに入力などのablation studiesもある。
CAは学習の安定化と生成画像の多様化に貢献している。

説明文によるinterpolation。

6. 次に読むべき論文は？

S. Reed, Z. Akata, S. Mohan, S. Tenka, B. Schiele, and H. Lee. Learning what and where to draw. In NIPS, 2016.

S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee. Generative adversarial text-to-image synthesis. In ICML, 2016.

Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, and Dimitris Metaxas. StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks. In IEEE, 2018.

shionhonda added reading reading now, leave this issue as it is text2image GAN and removed reading reading now, leave this issue as it is labels Apr 22, 2019

shionhonda mentioned this issue Apr 25, 2019

StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks (IEEE 2018) #5

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks (ICCV 2017) #2

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks (ICCV 2017) #2

shionhonda commented Apr 22, 2019 •

edited

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks (ICCV 2017) #2

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks (ICCV 2017) #2

Comments

shionhonda commented Apr 22, 2019 • edited

0. 論文

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

Conditioning Augmentation

Stage I

Stage II

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

shionhonda commented Apr 22, 2019 •

edited