You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
global attentionは前段は大域的な文脈に注意しているが、後段では特定の領域に注意している
local attentionは最も関連する単語に注意させることで細かい特徴を画像に反映させている
global attentionとlocal attentionは協調して高品質な画像の生成に貢献している
また、制約として以下の点が挙げられている。
STREAMを含めてend-to-endの学習ではない
BERTのような埋め込みを使うとさらに性能が上がるだろう
SOTAなCycleGANモデルを応用すればさらに性能が上がるだろう
6. 次に読むべき論文は?
Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A. Efros. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks". In ICCV, 2017.
Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, and Xiaodong He. "AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks". In CVPR, 2017.
0. 論文
タイトル: MirrorGAN: Learning Text-to-image Generation by Redescription
リンク: https://arxiv.org/abs/1903.05854
著者: Tingting Qiao, Jing Zhang, Duanqing Xu, Dacheng Tao
所属: Zhejiang University, Hangzhou Dianzi University, University of Sydney
発表年: 2019
掲載: CVPR
1. どんなもの?
画像を鏡のようにしてtext-to-image(T2I)とimage-to-text(I2T)を繋げた構造をとったGAN。
という2点により、局所・大域ともに説明文と意味的に一貫する画像を生成することに成功した。
![スクリーンショット 2019-05-13 15 03 17](https://user-images.githubusercontent.com/17271286/57696443-baeaea00-768b-11e9-8893-b894ac1c094b.png)
2. 先行研究と比べてどこがすごい?
以下の工夫により、説明文と画像の局所および大域の意味的一貫性を向上させた。
3. 技術や手法のキモはどこ?
STEMで説明文をencodeし、GLAMで画像を生成し、STREAMで生成画像から説明文を再生している。
STEM: Semantic Text Embedding Module
説明文を埋め込むモジュール。RNNで単語埋め込み(各単語について)と文埋め込み(RNNの最終状態)を出力する。文埋め込みにはconditioning augmentaionを適用する。
GLAM: Global-Local collaborative Attentive Module in Cascaded Image Generators
AttnGAN(#12)を踏襲して、Attention付き生成器を直列に並べたモジュール。
![スクリーンショット 2019-05-14 21 43 26](https://user-images.githubusercontent.com/17271286/57698774-59c61500-7691-11e9-9a36-303e8a7886e5.png)
![スクリーンショット 2019-05-18 21 56 52](https://user-images.githubusercontent.com/17271286/57970343-336ae700-79bb-11e9-9391-63c83553aaad.png)
![スクリーンショット 2019-05-18 21 57 04](https://user-images.githubusercontent.com/17271286/57970350-41b90300-79bb-11e9-8771-a42af3da87c5.png)
AttnGAN(#12)と異なるのは、単語特徴と文特徴のそれぞれとAttentionを計算して結合している点(global-local collaborative attention)。
生成器と識別器は3つずつ用意した。
STREAM: Semantic Text REgeneration and Alignment Module
画像から説明文を再生成するモジュール。CNNで画像をencodeしてRNNで説明文にdecodeする。CNNはImageNetで事前学習したモデルを使用。
Objective functions
生成器の損失関数は、各G_iの損失の和とSTREAMの交差エントロピーを足したもの。
![スクリーンショット 2019-05-18 22 32 44](https://user-images.githubusercontent.com/17271286/57970519-fb64a380-79bc-11e9-90b4-c9f215cfa5e5.png)
![スクリーンショット 2019-05-18 22 32 56](https://user-images.githubusercontent.com/17271286/57970520-fb64a380-79bc-11e9-9460-b6943594dfed.png)
![スクリーンショット 2019-05-18 22 33 06](https://user-images.githubusercontent.com/17271286/57970521-fbfd3a00-79bc-11e9-9990-d1ab438cbb70.png)
![スクリーンショット 2019-05-18 22 35 15](https://user-images.githubusercontent.com/17271286/57970545-61e9c180-79bd-11e9-9b6e-660a0b2a7831.png)
![スクリーンショット 2019-05-18 22 35 25](https://user-images.githubusercontent.com/17271286/57970547-61e9c180-79bd-11e9-83d4-4ec61e02787e.png)
識別器の損失関数は、各D_iの条件無し・有り損失の和。
4. どうやって有効だと検証した?
CUBとMS-COCOに対する生成結果をISとR-Precisionで評価した。AttnGANと比較。
![スクリーンショット 2019-05-18 22 44 36](https://user-images.githubusercontent.com/17271286/57970642-c0fc0600-79be-11e9-9182-0fd0dab7a201.png)
![スクリーンショット 2019-05-18 22 46 27](https://user-images.githubusercontent.com/17271286/57970655-e0932e80-79be-11e9-8544-5f7ebeeb14aa.png)
![スクリーンショット 2019-05-18 22 44 47](https://user-images.githubusercontent.com/17271286/57970663-f86ab280-79be-11e9-842d-2bc36a17116e.png)
人による2択投票も行った。以上よりAttnGANに対する優位性は示せた。
生成結果の例。MirrorGAN Baselineは、単語レベルのattentionのみを使ったもの。(b)と(c)を比較すればGLAMの効果がわかる。
5. 議論はある?
Global Attentionの有無とSTREAMの重みを変えて行った実験の結果。どちらも重要であることがわかった。
![スクリーンショット 2019-05-18 22 52 04](https://user-images.githubusercontent.com/17271286/57970724-b4c47880-79bf-11e9-90d9-d129bc5b514a.png)
各ステージの上段がglobal attention、下段がlocal attention。
![スクリーンショット 2019-05-18 22 58 12](https://user-images.githubusercontent.com/17271286/57970800-cf4b2180-79c0-11e9-857c-a5813611c26a.png)
次のことがわかる(本当に?)。
また、制約として以下の点が挙げられている。
6. 次に読むべき論文は?
Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A. Efros. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks". In ICCV, 2017.
Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, and Xiaodong He. "AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks". In CVPR, 2017.
コメント
Figure 2を見るとG_iも直列に並んでいるように見えるが、式では枝分かれしてF_iだけが直列に並んでいる。図の間違いだろうか?
Table 3で、GA有りSTREAM無しの場合が書かれていないのはなぜか?
The text was updated successfully, but these errors were encountered: