Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Semantics Disentangling for Text-to-Image Generation (CVPR 2019) #11

Open
shionhonda opened this issue Apr 27, 2019 · 0 comments
Open

Comments

@shionhonda
Copy link

shionhonda commented Apr 27, 2019

0. 論文

タイトル: Semantics Disentangling for Text-to-Image Generation
リンク: https://arxiv.org/abs/1904.01480
著者: Guojun Yin, Bin Liu, Lu Sheng, Nenghai Yu, Xiaogang Wang, Jing Shao
所属: University of Science and Technology of China, Key Laboratory of Electromagnetic Space Information,The Chinese Academy of Sciences, CUHK-SenseTime Joint Lab, The Chinese University of Hong Kong, SenseTime Research, College of Software, Beihang University
発表年: 2019
掲載: CVPR

1. どんなもの?

text-to-imageのGANにSiamese networkを応用し、同じ画像に紐付けられた説明文からは似た画像が生成されるように学習させた。階層的な構造をとり、説明文に適応させた特殊なバッチ正規化により説明文の情報を各階層に直接伝える。
Screenshot from 2019-04-27 13-13-55

2. 先行研究と比べてどこがすごい?

1枚の画像に対して異なる人が付ける説明文は一般に異なる(実際、CUBやMS-COCOは複数の説明文が付いている)。従来のtext-to-imageの手法は、同じ画像に対する異なる説明文を入力すると、全く異なる画像が出力されることが多かった。
提案手法のSD-GANにより、似た文章からは似た画像が生成され、入力を「黄色い鳥」から「青い鳥」に変えると色だけが変わるというように、画像と言語の間でdisentaglementができるようになった。

3. 技術や手法のキモはどこ?

Siamese Structure with Contrastive Losses

パラメータ共有した2つのネットワークに2つの画像を入力する。
Screenshot from 2019-04-27 13-15-22

それぞれ再構成誤差を最小化するが、それとは別に次で定義されるContrastive Lossも考慮する。
Screenshot from 2019-04-27 15-08-23
yは2つの文章が同じ画像を指すなら1、そうでないなら0になるラベル。dは識別器内部での特徴ベクトル。aとeはハイパーパラメータ。dは同じ画像に対してはa以下、異なる画像に対してはe以上になってほしい。
その他の特徴:

Semantic-Conditioned Batch Normalization (SCBN)

Screenshot from 2019-04-27 13-17-47

2種類の方法が提案されているが、どちらもバッチ正規化にconditionalなパラメータを加えている。
Screenshot from 2019-04-27 15-35-07

文レベルの方法では、文の特徴ベクトルをMLPで変換してパラメータを得る。
単語レベルの方法では、visual-semantic embeddingというもの(attentionっぽい?)で単語と特徴マップからパラメータを得る。
Screenshot from 2019-04-27 15-40-20

4. どうやって有効だと検証した?

CUBとMS-COCOに対する生成結果をISと人によるランク付けで評価した(FIDでも評価すべき)。
AttnGANなど従来の手法を超える性能を示した。
Screenshot from 2019-04-27 13-19-36
Screenshot from 2019-04-27 15-44-22

5. 議論はある?

SiameseとSCBNはAttnGANのような他のモデルに組み込むことでも効果を発揮する。また、ablation studiesでもこれらの有効性が示された。
Screenshot from 2019-04-27 15-46-13

単語を一部だけ置き換えることによるDisentanglementの評価。
Screenshot from 2019-04-27 15-49-03

単語レベルのSCBNが最も効果的。
Screenshot from 2019-04-27 15-49-45

6. 次に読むべき論文は?

Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, and Dimitris Metaxas. StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks. In IEEE, 2018.

Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang,
Zhe Gan, Xiaolei Huang, and Xiaodong He. Attngan: Finegrained text to image generation with attentional generative adversarial networks. CVPR, 2018.

Andrea Frome, Greg S. Corrado, Jon Shlens, Samy Bengio, Jeff Dean, Marc'Aurelio Ranzato, Tomas Mikolov. DeViSE: A Deep Visual-Semantic Embedding Model. NIPS, 2013.

コメント

CVPR 2019のオーラルに採択されている。
SCBNのようにバッチ正規化を適応的にする手法はSPADEとも共通している(SPADEは画像のsemantic labelに適応)。
ちなみに、SD-GANで調べるとSemantically Decomposing the Latent Spaces of Generative Adversarial Networksが出てくる。名前だけでなく、Siamese Netを使っているところも似ている(GANの名前空間が枯渇しつつあるようだ)。

@shionhonda shionhonda added reading reading now, leave this issue as it is text2image GAN and removed reading reading now, leave this issue as it is labels Apr 27, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant