You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
タイトル: Semantics Disentangling for Text-to-Image Generation
リンク: https://arxiv.org/abs/1904.01480
著者: Guojun Yin, Bin Liu, Lu Sheng, Nenghai Yu, Xiaogang Wang, Jing Shao
所属: University of Science and Technology of China, Key Laboratory of Electromagnetic Space Information,The Chinese Academy of Sciences, CUHK-SenseTime Joint Lab, The Chinese University of Hong Kong, SenseTime Research, College of Software, Beihang University
発表年: 2019
掲載: CVPR
0. 論文
タイトル: Semantics Disentangling for Text-to-Image Generation
リンク: https://arxiv.org/abs/1904.01480
著者: Guojun Yin, Bin Liu, Lu Sheng, Nenghai Yu, Xiaogang Wang, Jing Shao
所属: University of Science and Technology of China, Key Laboratory of Electromagnetic Space Information,The Chinese Academy of Sciences, CUHK-SenseTime Joint Lab, The Chinese University of Hong Kong, SenseTime Research, College of Software, Beihang University
発表年: 2019
掲載: CVPR
1. どんなもの?
text-to-imageのGANにSiamese networkを応用し、同じ画像に紐付けられた説明文からは似た画像が生成されるように学習させた。階層的な構造をとり、説明文に適応させた特殊なバッチ正規化により説明文の情報を各階層に直接伝える。
![Screenshot from 2019-04-27 13-13-55](https://user-images.githubusercontent.com/17271286/56845235-2ba6ae00-68f9-11e9-91bd-7fb17d8ad17a.png)
2. 先行研究と比べてどこがすごい?
1枚の画像に対して異なる人が付ける説明文は一般に異なる(実際、CUBやMS-COCOは複数の説明文が付いている)。従来のtext-to-imageの手法は、同じ画像に対する異なる説明文を入力すると、全く異なる画像が出力されることが多かった。
提案手法のSD-GANにより、似た文章からは似た画像が生成され、入力を「黄色い鳥」から「青い鳥」に変えると色だけが変わるというように、画像と言語の間でdisentaglementができるようになった。
3. 技術や手法のキモはどこ?
Siamese Structure with Contrastive Losses
パラメータ共有した2つのネットワークに2つの画像を入力する。
![Screenshot from 2019-04-27 13-15-22](https://user-images.githubusercontent.com/17271286/56845360-34987f00-68fb-11e9-9e58-e6ca1c4e075e.png)
それぞれ再構成誤差を最小化するが、それとは別に次で定義されるContrastive Lossも考慮する。
![Screenshot from 2019-04-27 15-08-23](https://user-images.githubusercontent.com/17271286/56845568-59422600-68fe-11e9-8b4b-4aecf3e970e3.png)
yは2つの文章が同じ画像を指すなら1、そうでないなら0になるラベル。dは識別器内部での特徴ベクトル。aとeはハイパーパラメータ。dは同じ画像に対してはa以下、異なる画像に対してはe以上になってほしい。
その他の特徴:
Semantic-Conditioned Batch Normalization (SCBN)
2種類の方法が提案されているが、どちらもバッチ正規化にconditionalなパラメータを加えている。
![Screenshot from 2019-04-27 15-35-07](https://user-images.githubusercontent.com/17271286/56845822-1a15d400-6902-11e9-8785-feb62ad11236.png)
文レベルの方法では、文の特徴ベクトルをMLPで変換してパラメータを得る。
![Screenshot from 2019-04-27 15-40-20](https://user-images.githubusercontent.com/17271286/56845894-f2733b80-6902-11e9-81fb-69bf3fce0cb9.png)
単語レベルの方法では、visual-semantic embeddingというもの(attentionっぽい?)で単語と特徴マップからパラメータを得る。
4. どうやって有効だと検証した?
CUBとMS-COCOに対する生成結果をISと人によるランク付けで評価した(FIDでも評価すべき)。
![Screenshot from 2019-04-27 13-19-36](https://user-images.githubusercontent.com/17271286/56845920-69103900-6903-11e9-8dd9-f6419dbba8f5.png)
![Screenshot from 2019-04-27 15-44-22](https://user-images.githubusercontent.com/17271286/56845930-88a76180-6903-11e9-9ffe-6491259cf1df.png)
AttnGANなど従来の手法を超える性能を示した。
5. 議論はある?
SiameseとSCBNはAttnGANのような他のモデルに組み込むことでも効果を発揮する。また、ablation studiesでもこれらの有効性が示された。
![Screenshot from 2019-04-27 15-46-13](https://user-images.githubusercontent.com/17271286/56845944-b1c7f200-6903-11e9-942c-8c8be1da2401.png)
単語を一部だけ置き換えることによるDisentanglementの評価。
![Screenshot from 2019-04-27 15-49-03](https://user-images.githubusercontent.com/17271286/56845972-05d2d680-6904-11e9-9a21-b3aaa4725113.png)
単語レベルのSCBNが最も効果的。
![Screenshot from 2019-04-27 15-49-45](https://user-images.githubusercontent.com/17271286/56845995-3adf2900-6904-11e9-9d73-8f408444619a.png)
6. 次に読むべき論文は?
Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, and Dimitris Metaxas. StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks. In IEEE, 2018.
Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang,
Zhe Gan, Xiaolei Huang, and Xiaodong He. Attngan: Finegrained text to image generation with attentional generative adversarial networks. CVPR, 2018.
Andrea Frome, Greg S. Corrado, Jon Shlens, Samy Bengio, Jeff Dean, Marc'Aurelio Ranzato, Tomas Mikolov. DeViSE: A Deep Visual-Semantic Embedding Model. NIPS, 2013.
コメント
CVPR 2019のオーラルに採択されている。
SCBNのようにバッチ正規化を適応的にする手法はSPADEとも共通している(SPADEは画像のsemantic labelに適応)。
ちなみに、SD-GANで調べるとSemantically Decomposing the Latent Spaces of Generative Adversarial Networksが出てくる。名前だけでなく、Siamese Netを使っているところも似ている(GANの名前空間が枯渇しつつあるようだ)。
The text was updated successfully, but these errors were encountered: