Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks (CVPR 2018) #12

Open
shionhonda opened this issue May 5, 2019 · 0 comments

Comments

@shionhonda
Copy link

shionhonda commented May 5, 2019

0. 論文

タイトル: AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks
リンク: https://arxiv.org/abs/1711.10485
著者: Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He
所属: Lehigh University, Microsoft Research, Rutgers University, Duke University
発表年: 2017
掲載: CVPR

1. どんなもの?

StackGAN-v2と同じく複数段階からなり、生成中の部分領域から説明文の単語へのattentionを生成器の条件として利用することで、単語レベルでの精緻化を実現した。最終段階での画像と説明文のずれを生成器の損失に加えるDAMSMという工夫も提案。
スクリーンショット 2019-05-05 20 36 39

2. 先行研究と比べてどこがすごい?

従来の研究は説明文の全体の潜在ベクトルのみを利用しており、細かい単語レベルの情報を利用できていなかった。
AttnGANはattentionにより単語レベルの潜在ベクトルを画像に反映させることに成功した。
また、attentionをGANに初めて適用したモデルでもある。

3. 技術や手法のキモはどこ?

スクリーンショット 2019-05-05 21 19 31

Attentional Generative Network

(1)生成器と識別器が複数段階に並べられている、(2)Conditioning Augmentationの利用、(3)Conditional/Unconditionalの同時学習など、StackGAN-v2 (#5 )を踏襲している点が多い。
生成器1つでの計算の流れは次の通り。最初に生成した荒い画像を、attentionによって精緻化していく。
スクリーンショット 2019-05-06 1 41 17
attentionの部分は次のように計算する。画像の部分領域の潜在ベクトルhから単語の潜在ベクトルeへのattentionを計算し、重み付き和を単語-文脈ベクトルcとしている。
スクリーンショット 2019-05-06 1 41 17
生成器1つ分の損失はconditional lossとunoconditional lossの和とする。
スクリーンショット 2019-05-06 2 07 07
後述のDAMSM損失と合わせて生成器全体の損失とする。
スクリーンショット 2019-05-06 2 06 54
識別器1つ分の損失もconditional lossとunoconditional lossの和とする。
スクリーンショット 2019-05-06 2 07 21

Deep Attentional Multimodal Similarity Model

DAMSMは最終段階での生成画像のみに適用する。
まず、説明文と画像をそれぞれBiLSTMと学習済みInception-v3でencodeする。
今度は、単語の潜在ベクトルから画像部分領域の潜在ベクトルvへのattentionを計算し、重み付き和を領域-文脈ベクトルcとしている。
スクリーンショット 2019-05-06 2 20 23
スクリーンショット 2019-05-06 2 20 34
音声認識で使われる最小分類誤差を参考に画像Qと説明文Dのattention-driven image-text matching scoreを次で定義する。
スクリーンショット 2019-05-06 2 24 58
画像Qが与えられたときの事後分布。
スクリーンショット 2019-05-06 2 28 03
以上より、DAMSM損失は負の対数事後分布の和で定義される。
スクリーンショット 2019-05-06 2 30 32
スクリーンショット 2019-05-06 2 29 16
スクリーンショット 2019-05-06 2 29 24

4. どうやって有効だと検証した?

CUBとMS-COCOに対する生成結果をISとR-Precisionで評価した(FIDでも評価すべき)。
R-Precisionの計算方法: 生成画像とデータセットの説明文の間の関連度をDAMSMで計算し、関連度の高い順に説明文を並べる。正解がr番目で出たら1/rがR-Precisionとなる。
スクリーンショット 2019-05-05 23 21 59
λが大きい(DAMSM損失に重みをかける)方が性能が高い。また、モデルの大きなAttnGAN2の方が性能が高い。
スクリーンショット 2019-05-06 2 46 05
従来手法と比べても高いスコア。

5. 議論はある?

Attentionの様子を可視化(必ずしも単語と対応していない)。
スクリーンショット 2019-05-06 2 47 58
単語を一部だけ置き換えることによるDisentanglementの評価。
スクリーンショット 2019-05-06 2 51 32
汎化性能を調べるために、わざと不自然な文章を入れてみた。
スクリーンショット 2019-05-06 2 52 48
画像の質は下がるが、それなりに納得できる画像が得られている。

6. 次に読むべき論文は?

Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, and Dimitris Metaxas. StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks. In IEEE, 2018.

Guojun Yin, Bin Liu, Lu Sheng, Nenghai Yu, Xiaogang Wang, and Jing Shao. Semantics Disentangling for Text-to-Image Generation. In CVPR, 2019.

@shionhonda shionhonda added GAN reading reading now, leave this issue as it is text2image and removed reading reading now, leave this issue as it is labels May 5, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant