You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
タイトル: AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks
リンク: https://arxiv.org/abs/1711.10485
著者: Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He
所属: Lehigh University, Microsoft Research, Rutgers University, Duke University
発表年: 2017
掲載: CVPR
0. 論文
タイトル: AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks
リンク: https://arxiv.org/abs/1711.10485
著者: Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He
所属: Lehigh University, Microsoft Research, Rutgers University, Duke University
発表年: 2017
掲載: CVPR
1. どんなもの?
StackGAN-v2と同じく複数段階からなり、生成中の部分領域から説明文の単語へのattentionを生成器の条件として利用することで、単語レベルでの精緻化を実現した。最終段階での画像と説明文のずれを生成器の損失に加えるDAMSMという工夫も提案。
![スクリーンショット 2019-05-05 20 36 39](https://user-images.githubusercontent.com/17271286/57200949-23521100-6f92-11e9-8a4a-3e11e8b47b89.png)
2. 先行研究と比べてどこがすごい?
従来の研究は説明文の全体の潜在ベクトルのみを利用しており、細かい単語レベルの情報を利用できていなかった。
AttnGANはattentionにより単語レベルの潜在ベクトルを画像に反映させることに成功した。
また、attentionをGANに初めて適用したモデルでもある。
3. 技術や手法のキモはどこ?
Attentional Generative Network
(1)生成器と識別器が複数段階に並べられている、(2)Conditioning Augmentationの利用、(3)Conditional/Unconditionalの同時学習など、StackGAN-v2 (#5 )を踏襲している点が多い。
![スクリーンショット 2019-05-06 1 41 17](https://user-images.githubusercontent.com/17271286/57202098-a464d480-6fa1-11e9-8cc0-323003a7681f.png)
![スクリーンショット 2019-05-06 1 41 17](https://user-images.githubusercontent.com/17271286/57202143-408edb80-6fa2-11e9-9c2c-f6b9fae262f8.png)
![スクリーンショット 2019-05-06 2 07 07](https://user-images.githubusercontent.com/17271286/57202302-19d1a480-6fa4-11e9-9948-6d848ecec824.png)
![スクリーンショット 2019-05-06 2 06 54](https://user-images.githubusercontent.com/17271286/57202309-21914900-6fa4-11e9-82c0-3eae1933dc8e.png)
![スクリーンショット 2019-05-06 2 07 21](https://user-images.githubusercontent.com/17271286/57202316-2fdf6500-6fa4-11e9-9201-c4c9614edbfd.png)
生成器1つでの計算の流れは次の通り。最初に生成した荒い画像を、attentionによって精緻化していく。
attentionの部分は次のように計算する。画像の部分領域の潜在ベクトルhから単語の潜在ベクトルeへのattentionを計算し、重み付き和を単語-文脈ベクトルcとしている。
生成器1つ分の損失はconditional lossとunoconditional lossの和とする。
後述のDAMSM損失と合わせて生成器全体の損失とする。
識別器1つ分の損失もconditional lossとunoconditional lossの和とする。
Deep Attentional Multimodal Similarity Model
DAMSMは最終段階での生成画像のみに適用する。
![スクリーンショット 2019-05-06 2 20 23](https://user-images.githubusercontent.com/17271286/57202463-d841f900-6fa5-11e9-80d3-e357a8d34f58.png)
![スクリーンショット 2019-05-06 2 20 34](https://user-images.githubusercontent.com/17271286/57202465-da0bbc80-6fa5-11e9-92e2-6f9cada24050.png)
![スクリーンショット 2019-05-06 2 24 58](https://user-images.githubusercontent.com/17271286/57202507-7635c380-6fa6-11e9-9210-9eba373d6765.png)
![スクリーンショット 2019-05-06 2 28 03](https://user-images.githubusercontent.com/17271286/57202523-9d8c9080-6fa6-11e9-94f5-6c41191727a5.png)
![スクリーンショット 2019-05-06 2 30 32](https://user-images.githubusercontent.com/17271286/57202565-fc520a00-6fa6-11e9-8f80-d8f669927217.png)
![スクリーンショット 2019-05-06 2 29 16](https://user-images.githubusercontent.com/17271286/57202570-04aa4500-6fa7-11e9-97b8-c48742773672.png)
![スクリーンショット 2019-05-06 2 29 24](https://user-images.githubusercontent.com/17271286/57202571-04aa4500-6fa7-11e9-9149-2da96a771f05.png)
まず、説明文と画像をそれぞれBiLSTMと学習済みInception-v3でencodeする。
今度は、単語の潜在ベクトルから画像部分領域の潜在ベクトルvへのattentionを計算し、重み付き和を領域-文脈ベクトルcとしている。
音声認識で使われる最小分類誤差を参考に画像Qと説明文Dのattention-driven image-text matching scoreを次で定義する。
画像Qが与えられたときの事後分布。
以上より、DAMSM損失は負の対数事後分布の和で定義される。
4. どうやって有効だと検証した?
CUBとMS-COCOに対する生成結果をISとR-Precisionで評価した(FIDでも評価すべき)。
![スクリーンショット 2019-05-05 23 21 59](https://user-images.githubusercontent.com/17271286/57202683-91a1ce00-6fa8-11e9-9da9-28329bb9949f.png)
![スクリーンショット 2019-05-06 2 46 05](https://user-images.githubusercontent.com/17271286/57202756-62d82780-6fa9-11e9-8290-8c85cdc27a33.png)
R-Precisionの計算方法: 生成画像とデータセットの説明文の間の関連度をDAMSMで計算し、関連度の高い順に説明文を並べる。正解がr番目で出たら1/rがR-Precisionとなる。
λが大きい(DAMSM損失に重みをかける)方が性能が高い。また、モデルの大きなAttnGAN2の方が性能が高い。
従来手法と比べても高いスコア。
5. 議論はある?
Attentionの様子を可視化(必ずしも単語と対応していない)。
![スクリーンショット 2019-05-06 2 47 58](https://user-images.githubusercontent.com/17271286/57202762-77b4bb00-6fa9-11e9-9fbc-e694d4a39d5a.png)
![スクリーンショット 2019-05-06 2 51 32](https://user-images.githubusercontent.com/17271286/57202811-f6a9f380-6fa9-11e9-9d4e-2ee0b29df0b5.png)
![スクリーンショット 2019-05-06 2 52 48](https://user-images.githubusercontent.com/17271286/57202821-21944780-6faa-11e9-8444-4de72449e91a.png)
単語を一部だけ置き換えることによるDisentanglementの評価。
汎化性能を調べるために、わざと不自然な文章を入れてみた。
画像の質は下がるが、それなりに納得できる画像が得られている。
6. 次に読むべき論文は?
Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, and Dimitris Metaxas. StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks. In IEEE, 2018.
Guojun Yin, Bin Liu, Lu Sheng, Nenghai Yu, Xiaogang Wang, and Jing Shao. Semantics Disentangling for Text-to-Image Generation. In CVPR, 2019.
The text was updated successfully, but these errors were encountered: