Semantics Disentangling for Text-to-Image Generation (CVPR 2019) #11

shionhonda · 2019-04-27T04:01:50Z

0. 論文

タイトル: Semantics Disentangling for Text-to-Image Generation
リンク: https://arxiv.org/abs/1904.01480
著者: Guojun Yin, Bin Liu, Lu Sheng, Nenghai Yu, Xiaogang Wang, Jing Shao
所属: University of Science and Technology of China, Key Laboratory of Electromagnetic Space Information,The Chinese Academy of Sciences, CUHK-SenseTime Joint Lab, The Chinese University of Hong Kong, SenseTime Research, College of Software, Beihang University
発表年: 2019
掲載: CVPR

1. どんなもの？

text-to-imageのGANにSiamese networkを応用し、同じ画像に紐付けられた説明文からは似た画像が生成されるように学習させた。階層的な構造をとり、説明文に適応させた特殊なバッチ正規化により説明文の情報を各階層に直接伝える。

2. 先行研究と比べてどこがすごい？

1枚の画像に対して異なる人が付ける説明文は一般に異なる(実際、CUBやMS-COCOは複数の説明文が付いている)。従来のtext-to-imageの手法は、同じ画像に対する異なる説明文を入力すると、全く異なる画像が出力されることが多かった。
提案手法のSD-GANにより、似た文章からは似た画像が生成され、入力を「黄色い鳥」から「青い鳥」に変えると色だけが変わるというように、画像と言語の間でdisentaglementができるようになった。

3. 技術や手法のキモはどこ？

Siamese Structure with Contrastive Losses

パラメータ共有した2つのネットワークに2つの画像を入力する。

それぞれ再構成誤差を最小化するが、それとは別に次で定義されるContrastive Lossも考慮する。

yは2つの文章が同じ画像を指すなら1、そうでないなら0になるラベル。dは識別器内部での特徴ベクトル。aとeはハイパーパラメータ。dは同じ画像に対してはa以下、異なる画像に対してはe以上になってほしい。
その他の特徴:

生成器と識別器を3つずつ用意して木構造のように並べ(cf. StackGAN++ StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks (IEEE 2018) #5 )、各階層でContrastive Lossを計算
Text EncoderはBiLSTM

Semantic-Conditioned Batch Normalization (SCBN)

2種類の方法が提案されているが、どちらもバッチ正規化にconditionalなパラメータを加えている。

文レベルの方法では、文の特徴ベクトルをMLPで変換してパラメータを得る。
単語レベルの方法では、visual-semantic embeddingというもの(attentionっぽい？)で単語と特徴マップからパラメータを得る。

4. どうやって有効だと検証した？

CUBとMS-COCOに対する生成結果をISと人によるランク付けで評価した(FIDでも評価すべき)。
AttnGANなど従来の手法を超える性能を示した。

5. 議論はある？

SiameseとSCBNはAttnGANのような他のモデルに組み込むことでも効果を発揮する。また、ablation studiesでもこれらの有効性が示された。

単語を一部だけ置き換えることによるDisentanglementの評価。

単語レベルのSCBNが最も効果的。

6. 次に読むべき論文は？

Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, and Dimitris Metaxas. StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks. In IEEE, 2018.

Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang,
Zhe Gan, Xiaolei Huang, and Xiaodong He. Attngan: Finegrained text to image generation with attentional generative adversarial networks. CVPR, 2018.

Andrea Frome, Greg S. Corrado, Jon Shlens, Samy Bengio, Jeff Dean, Marc'Aurelio Ranzato, Tomas Mikolov. DeViSE: A Deep Visual-Semantic Embedding Model. NIPS, 2013.

CVPR 2019のオーラルに採択されている。
SCBNのようにバッチ正規化を適応的にする手法はSPADEとも共通している(SPADEは画像のsemantic labelに適応)。
ちなみに、SD-GANで調べるとSemantically Decomposing the Latent Spaces of Generative Adversarial Networksが出てくる。名前だけでなく、Siamese Netを使っているところも似ている(GANの名前空間が枯渇しつつあるようだ)。

shionhonda added reading reading now, leave this issue as it is text2image GAN and removed reading reading now, leave this issue as it is labels Apr 27, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Semantics Disentangling for Text-to-Image Generation (CVPR 2019) #11

Semantics Disentangling for Text-to-Image Generation (CVPR 2019) #11

shionhonda commented Apr 27, 2019 •

edited

Semantics Disentangling for Text-to-Image Generation (CVPR 2019) #11

Semantics Disentangling for Text-to-Image Generation (CVPR 2019) #11

Comments

shionhonda commented Apr 27, 2019 • edited

0. 論文

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

Siamese Structure with Contrastive Losses

Semantic-Conditioned Batch Normalization (SCBN)

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

コメント

shionhonda commented Apr 27, 2019 •

edited