MirrorGAN: Learning Text-to-image Generation by Redescription (CVPR 2019) #14

shionhonda · 2019-05-12T02:00:13Z

0. 論文

タイトル: MirrorGAN: Learning Text-to-image Generation by Redescription
リンク: https://arxiv.org/abs/1903.05854
著者: Tingting Qiao, Jing Zhang, Duanqing Xu, Dacheng Tao
所属: Zhejiang University, Hangzhou Dianzi University, University of Sydney
発表年: 2019
掲載: CVPR

1. どんなもの？

画像を鏡のようにしてtext-to-image(T2I)とimage-to-text(I2T)を繋げた構造をとったGAN。

説明文の入出力間の誤差を損失に追加
単語と文の埋め込みとattentionを利用

という2点により、局所・大域ともに説明文と意味的に一貫する画像を生成することに成功した。

2. 先行研究と比べてどこがすごい？

以下の工夫により、説明文と画像の局所および大域の意味的一貫性を向上させた。

T2IとI2Tを組み合わせた構造で、説明文の再構成誤差を損失に加えている
生成器にglobal-local collaborative attentionを追加

3. 技術や手法のキモはどこ？

STEMで説明文をencodeし、GLAMで画像を生成し、STREAMで生成画像から説明文を再生している。

STEM: Semantic Text Embedding Module

説明文を埋め込むモジュール。RNNで単語埋め込み(各単語について)と文埋め込み(RNNの最終状態)を出力する。文埋め込みにはconditioning augmentaionを適用する。

GLAM: Global-Local collaborative Attentive Module in Cascaded Image Generators

AttnGAN(#12)を踏襲して、Attention付き生成器を直列に並べたモジュール。

AttnGAN(#12)と異なるのは、単語特徴と文特徴のそれぞれとAttentionを計算して結合している点(global-local collaborative attention)。

生成器と識別器は3つずつ用意した。

STREAM: Semantic Text REgeneration and Alignment Module

画像から説明文を再生成するモジュール。CNNで画像をencodeしてRNNで説明文にdecodeする。CNNはImageNetで事前学習したモデルを使用。

Objective functions

生成器の損失関数は、各G_iの損失の和とSTREAMの交差エントロピーを足したもの。

識別器の損失関数は、各D_iの条件無し・有り損失の和。

4. どうやって有効だと検証した？

CUBとMS-COCOに対する生成結果をISとR-Precisionで評価した。AttnGANと比較。

人による2択投票も行った。以上よりAttnGANに対する優位性は示せた。

生成結果の例。MirrorGAN Baselineは、単語レベルのattentionのみを使ったもの。(b)と(c)を比較すればGLAMの効果がわかる。

5. 議論はある？

Global Attentionの有無とSTREAMの重みを変えて行った実験の結果。どちらも重要であることがわかった。

各ステージの上段がglobal attention、下段がlocal attention。

次のことがわかる(本当に？)。

global attentionは前段は大域的な文脈に注意しているが、後段では特定の領域に注意している
local attentionは最も関連する単語に注意させることで細かい特徴を画像に反映させている
global attentionとlocal attentionは協調して高品質な画像の生成に貢献している

また、制約として以下の点が挙げられている。

STREAMを含めてend-to-endの学習ではない
BERTのような埋め込みを使うとさらに性能が上がるだろう
SOTAなCycleGANモデルを応用すればさらに性能が上がるだろう

6. 次に読むべき論文は？

Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A. Efros. "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks". In ICCV, 2017.

Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, and Xiaodong He. "AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks". In CVPR, 2017.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

MirrorGAN: Learning Text-to-image Generation by Redescription (CVPR 2019) #14

MirrorGAN: Learning Text-to-image Generation by Redescription (CVPR 2019) #14

shionhonda commented May 12, 2019 •

edited

MirrorGAN: Learning Text-to-image Generation by Redescription (CVPR 2019) #14

MirrorGAN: Learning Text-to-image Generation by Redescription (CVPR 2019) #14

Comments

shionhonda commented May 12, 2019 • edited

0. 論文

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

STEM: Semantic Text Embedding Module

GLAM: Global-Local collaborative Attentive Module in Cascaded Image Generators

STREAM: Semantic Text REgeneration and Alignment Module

Objective functions

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

コメント

shionhonda commented May 12, 2019 •

edited