Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

MirrorGAN: Learning Text-to-image Generation by Redescription (CVPR 2019) #14

Open
shionhonda opened this issue May 12, 2019 · 0 comments

Comments

@shionhonda
Copy link

shionhonda commented May 12, 2019

0. 論文

タイトル: MirrorGAN: Learning Text-to-image Generation by Redescription
リンク: https://arxiv.org/abs/1903.05854
著者: Tingting Qiao, Jing Zhang, Duanqing Xu, Dacheng Tao
所属: Zhejiang University, Hangzhou Dianzi University, University of Sydney
発表年: 2019
掲載: CVPR

1. どんなもの?

画像を鏡のようにしてtext-to-image(T2I)とimage-to-text(I2T)を繋げた構造をとったGAN。

  • 説明文の入出力間の誤差を損失に追加
  • 単語と文の埋め込みとattentionを利用

という2点により、局所・大域ともに説明文と意味的に一貫する画像を生成することに成功した。
スクリーンショット 2019-05-13 15 03 17

2. 先行研究と比べてどこがすごい?

以下の工夫により、説明文と画像の局所および大域の意味的一貫性を向上させた。

  • T2IとI2Tを組み合わせた構造で、説明文の再構成誤差を損失に加えている
  • 生成器にglobal-local collaborative attentionを追加

3. 技術や手法のキモはどこ?

スクリーンショット 2019-05-13 15 03 30

STEMで説明文をencodeし、GLAMで画像を生成し、STREAMで生成画像から説明文を再生している。

STEM: Semantic Text Embedding Module

説明文を埋め込むモジュール。RNNで単語埋め込み(各単語について)と文埋め込み(RNNの最終状態)を出力する。文埋め込みにはconditioning augmentaionを適用する。

GLAM: Global-Local collaborative Attentive Module in Cascaded Image Generators

AttnGAN(#12)を踏襲して、Attention付き生成器を直列に並べたモジュール。
スクリーンショット 2019-05-14 21 43 26
AttnGAN(#12)と異なるのは、単語特徴と文特徴のそれぞれとAttentionを計算して結合している点(global-local collaborative attention)。
スクリーンショット 2019-05-18 21 56 52
スクリーンショット 2019-05-18 21 57 04
生成器と識別器は3つずつ用意した。

STREAM: Semantic Text REgeneration and Alignment Module

画像から説明文を再生成するモジュール。CNNで画像をencodeしてRNNで説明文にdecodeする。CNNはImageNetで事前学習したモデルを使用。

Objective functions

生成器の損失関数は、各G_iの損失の和とSTREAMの交差エントロピーを足したもの。
スクリーンショット 2019-05-18 22 32 44
スクリーンショット 2019-05-18 22 32 56
スクリーンショット 2019-05-18 22 33 06
識別器の損失関数は、各D_iの条件無し・有り損失の和。
スクリーンショット 2019-05-18 22 35 15
スクリーンショット 2019-05-18 22 35 25

4. どうやって有効だと検証した?

CUBとMS-COCOに対する生成結果をISとR-Precisionで評価した。AttnGANと比較。
スクリーンショット 2019-05-18 22 44 36
人による2択投票も行った。以上よりAttnGANに対する優位性は示せた。
スクリーンショット 2019-05-18 22 46 27
生成結果の例。MirrorGAN Baselineは、単語レベルのattentionのみを使ったもの。(b)と(c)を比較すればGLAMの効果がわかる。
スクリーンショット 2019-05-18 22 44 47

5. 議論はある?

Global Attentionの有無とSTREAMの重みを変えて行った実験の結果。どちらも重要であることがわかった。
スクリーンショット 2019-05-18 22 52 04

各ステージの上段がglobal attention、下段がlocal attention。
スクリーンショット 2019-05-18 22 58 12
次のことがわかる(本当に?)。

  • global attentionは前段は大域的な文脈に注意しているが、後段では特定の領域に注意している
  • local attentionは最も関連する単語に注意させることで細かい特徴を画像に反映させている
  • global attentionとlocal attentionは協調して高品質な画像の生成に貢献している

また、制約として以下の点が挙げられている。

  • STREAMを含めてend-to-endの学習ではない
  • BERTのような埋め込みを使うとさらに性能が上がるだろう
  • SOTAなCycleGANモデルを応用すればさらに性能が上がるだろう

6. 次に読むべき論文は?

Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A. Efros. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks". In ICCV, 2017.

Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, and Xiaodong He. "AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks". In CVPR, 2017.

コメント

Figure 2を見るとG_iも直列に並んでいるように見えるが、式では枝分かれしてF_iだけが直列に並んでいる。図の間違いだろうか?
Table 3で、GA有りSTREAM無しの場合が書かれていないのはなぜか?

@shionhonda shionhonda added GAN image2text reading reading now, leave this issue as it is text2image and removed reading reading now, leave this issue as it is labels May 12, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant