You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
タイトル: StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
リンク: https://arxiv.org/abs/1612.03242
著者: Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas
所属: Rutgers University, Lehigh University, The Chinese University of Hong Kong, Baidu Research
発表年: 2016
掲載: ICCV
0. 論文
タイトル: StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
リンク: https://arxiv.org/abs/1612.03242
著者: Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas
所属: Rutgers University, Lehigh University, The Chinese University of Hong Kong, Baidu Research
発表年: 2016
掲載: ICCV
1. どんなもの?
説明文から256*256pxの対応画像を生成するStackGANを提案した。1段目では粗い画像を生成し、2段目では画像の精細化をするという2段階の構成(stack)。生成画像の多様性を確保するためにConditioning Augmentationも提案。
![スクリーンショット 2019-04-22 23 54 00](https://user-images.githubusercontent.com/17271286/56556921-3b11b880-65d4-11e9-931e-86abcded4f1a.png)
2. 先行研究と比べてどこがすごい?
従来のtext-to-imageでは64*64px程度の解像度での生成が限界だった[Reed+, 2016]が、提案手法では256*256pxでの生成に成功した。
3. 技術や手法のキモはどこ?
ConditionalGANをベースに、条件付けの変数cとしてLSTMでエンコードした説明文を使う。ポイントは2段階構成のGANとデータ拡張手法の2点。
Conditioning Augmentation
キャプション付き画像データは一般に多くないため、GANの学習に十分な量を確保できないケースがある。特にtext-to-imageでは条件付けの変数cがそのままでは100次元を超えるため、データ数に対して高次元になってしまう。
Conditioning Augmentationはその問題に対処するためのデータ拡張手法であり、説明文の埋め込みをそのままcとするのではなく、埋め込みから正規分布の平均と分散へ変換し、得られた分布からcをreparameterization trickでサンプリングする(cを確率的に発生させる)。
説明文と画像の関係は1対多であると考えられるが、Conditioning Augmentationはその関係をモデリングできるようにする効果がある。
Stage I
画像生成は2段階で行う。「説明文から高解像度画像を生成する」というタスクを、「説明文からラフな画像を生成する」と「ラフな画像と説明文から高解像度画像を生成する」に分割した(画家もそのようにするだろうという発想)。
![スクリーンショット 2019-04-23 14 27 34](https://user-images.githubusercontent.com/17271286/56556882-1ddcea00-65d4-11e9-84a4-e8b33a1438ac.png)
Stage Iではcと乱数zの結合ベクトルからラフな画像を生成する。
Stage II
同じくConditioning Augmentationを使うが、ネットワークはStage Iのものとは別。
負例は、「実画像と違う説明文の組」と「生成画像と正しい説明文の組」の2種類がある。
4. どうやって有効だと検証した?
先行研究であるGAN-INT-CLS及びGAWWNと比較。
使用データセットは3種類。
CUBとOxford-102は少なめ。
![スクリーンショット 2019-04-23 20 51 28](https://user-images.githubusercontent.com/17271286/56578905-b346a100-6609-11e9-92db-4fc7b870be93.png)
30k枚の生成画像についてInception Scoreを計算した。
説明文との整合性を評価するため、10人による人力の評価も行った。
全てにおいてStackGANが優位(GAWWNは物体の領域に制約を与えると改善する)。解像度も高い。
5. 議論はある?
![スクリーンショット 2019-04-23 20 58 14](https://user-images.githubusercontent.com/17271286/56579221-9363ad00-660a-11e9-91cd-024dfc7032cb.png)
Stage Iの生成画像はかなりぼやけていたり、説明文と合っていなかったり(左から5列目)、形ができていなかったり(左から7列目)する。Stage IIでは詳細を描き足すだけでなく、大きな修正を加えることもある。![スクリーンショット 2019-04-23 21 03 06](https://user-images.githubusercontent.com/17271286/56579494-3f0cfd00-660b-11e9-82df-e7d15d7af171.png)
最近傍探索で画像を再生成してみると、説明文と適合する画像が得られる(訓練データを記憶しているだけではない)。1段階で直接生成、CAなし、説明文を1段階のみに入力などのablation studiesもある。
CAは学習の安定化と生成画像の多様化に貢献している。
![スクリーンショット 2019-04-23 21 10 15](https://user-images.githubusercontent.com/17271286/56579901-4a145d00-660c-11e9-8c85-82760f5eff77.png)
説明文によるinterpolation。6. 次に読むべき論文は?
S. Reed, Z. Akata, S. Mohan, S. Tenka, B. Schiele, and H. Lee. Learning what and where to draw. In NIPS, 2016.
S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee. Generative adversarial text-to-image synthesis. In ICML, 2016.
Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, and Dimitris Metaxas. StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks. In IEEE, 2018.
The text was updated successfully, but these errors were encountered: