You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
タイトル: StoryGAN: A Sequential Conditional GAN for Story Visualization
リンク: https://arxiv.org/abs/1812.02784
著者: Yitong Li, Zhe Gan, Yelong Shen, Jingjing Liu, Yu Cheng, Yuexin Wu, Lawrence Carin, David Carlson, Jianfeng Gao
所属: Duke University, Microsoft Dynamics 365 AI Research, Microsoft Research, Tencent AI Research, Carnegie Mellon University
発表年: 2019
掲載: CVPR
J. Johnson, B. Hariharan, L. van der Maaten, L. Fei-Fei, C. L. Zitnick, and R. Girshick. Clevr. "A diagnostic dataset for compositional language and elementary visual reasoning". In
CVPR, 2017
K.-M. Kim, M.-O. Heo, S.-H. Choi, and B.-T. Zhang. "Deepstory: Video story qa by deep embedded memory networks". In IJCAI, 2017.
コメント
Story EncoderがMLPで複数文を1つのベクトルに埋め込んでいるが、具体的にどうやっているのかわからなかった。RNNではないし、単語方向のpoolingなどには触れられていない。
The text was updated successfully, but these errors were encountered:
shionhonda
changed the title
StoryGAN: A Sequential Conditional GAN for Story Visualization
StoryGAN: A Sequential Conditional GAN for Story Visualization (CVPR 2019)
May 30, 2019
0. 論文
タイトル: StoryGAN: A Sequential Conditional GAN for Story Visualization
リンク: https://arxiv.org/abs/1812.02784
著者: Yitong Li, Zhe Gan, Yelong Shen, Jingjing Liu, Yu Cheng, Yuexin Wu, Lawrence Carin, David Carlson, Jianfeng Gao
所属: Duke University, Microsoft Dynamics 365 AI Research, Microsoft Research, Tencent AI Research, Carnegie Mellon University
発表年: 2019
掲載: CVPR
1. どんなもの?
複数文からなるstoryから動画を生成する、text-to-imageの発展形。
![スクリーンショット 2019-05-30 10 32 49](https://user-images.githubusercontent.com/17271286/58891378-56212d80-8727-11e9-8a90-b709a2bf27aa.png)
RNN-CNNで文ごとに画像を生成するが、RNNの初期状態としてstoryの埋め込みを入力して最初の生成画像の品質を高めている。識別器は画像自体の品質とstoryとの一致度を評価する。
2. 先行研究と比べてどこがすごい?
貢献は主に3点。
3. 技術や手法のキモはどこ?
Story Encoder
Story EncoderはMLPでstoryを1つのベクトルh_0に埋め込み、Context Encoderの初期状態とする。
実際にはMLPで平均ベクトルと標準偏差ベクトルにencodeし、正規分布からh_0をサンプリングする。これによりSの分布の連続性を高めている。
Context Encoder
一般の動画生成(ダンスや車載カメラ)と違い、story生成はシーンの切り替えにより登場人物、動き、背景が大きく変わる。
![スクリーンショット 2019-06-08 13 09 08](https://user-images.githubusercontent.com/17271286/59141824-a7af0e00-89ee-11e9-922e-479866672bd0.png)
![スクリーンショット 2019-06-08 13 11 33](https://user-images.githubusercontent.com/17271286/59141842-05435a80-89ef-11e9-975d-b46297cbdba3.png)
この問題に対処するために、GRUとText2Gist(GRUの亜種)からなる2層のContext Encoderを利用する。
全体として、各タイムステップtにおける文sとガウシアンノイズeから、gist(要旨; 画像を変化させるための情報)ベクトルoを作る。
Text2Gistでは次のような処理をしている。Filterは1x1畳込みのような演算。
Discriminators
画像識別器とstory識別器の2つを用意する。
![スクリーンショット 2019-05-30 10 35 11](https://user-images.githubusercontent.com/17271286/58892192-c1b7ca80-8728-11e9-8352-95f8a7567819.png)
![スクリーンショット 2019-06-08 13 18 17](https://user-images.githubusercontent.com/17271286/59141919-3ff9c280-89f0-11e9-986d-db3b5b38dec3.png)
画像識別器は、{文s, 文脈h_0, 画像x}を入力として画像1枚のの真贋を判定する。
story識別器は、文章すべてと画像すべての埋め込みの要素積からstory全体の真贋を判定する。
Algorithm Outlines
学習の手順としては、画像識別器と生成器、story識別器と生成器の組を交互に更新する。
![スクリーンショット 2019-06-08 14 01 41](https://user-images.githubusercontent.com/17271286/59142255-12177c80-89f6-11e9-98d1-83e6cc377614.png)
4. どうやって有効だと検証した?
ベースライン
ベースラインとして次の3モデルを用意した。
story識別器、Story Encoder、Context Encoderを使わなず、独立に画像を生成していくモデル。
Story Visualization by Concatenation
Context EncoderのText2Gistをconcatenationに置き換えたモデル。
Story Visualization by Filter Network
Context EncoderのText2Gistをfilter networkに置き換えたモデル。
CLEVR-SV Dataset
VQAで用いられるCLEVRをStory Visualization用に作り直したデータセットを利用してSSIMで評価した。
![スクリーンショット 2019-06-08 14 13 25](https://user-images.githubusercontent.com/17271286/59142347-e4333780-89f7-11e9-96a0-a650d1265edd.png)
Cartoon Dataset
同様にPororo-SVを作成。生成画像の比較はFigure 6。
![スクリーンショット 2019-05-30 10 35 38](https://user-images.githubusercontent.com/17271286/58892215-c7151500-8728-11e9-9210-50a2570cae9f.png)
![スクリーンショット 2019-06-08 14 21 35](https://user-images.githubusercontent.com/17271286/59142407-ce724200-89f8-11e9-97db-212aa0065550.png)
人による評価実験も行った。以上から提案手法の有効性がわかる。
5. 議論はある?
「コメント」を参照。新しいタスクだからか、あまり有用な議論は見られなかった。
6. 次に読むべき論文は?
J. Johnson, B. Hariharan, L. van der Maaten, L. Fei-Fei, C. L. Zitnick, and R. Girshick. Clevr. "A diagnostic dataset for compositional language and elementary visual reasoning". In
CVPR, 2017
K.-M. Kim, M.-O. Heo, S.-H. Choi, and B.-T. Zhang. "Deepstory: Video story qa by deep embedded memory networks". In IJCAI, 2017.
コメント
Story EncoderがMLPで複数文を1つのベクトルに埋め込んでいるが、具体的にどうやっているのかわからなかった。RNNではないし、単語方向のpoolingなどには触れられていない。
登場人物を入れ替えて生成した結果について(Figure 7)。他のモデルより品質は高そうだが、文章との一貫性があるようには見えない。
![スクリーンショット 2019-06-08 14 18 45](https://user-images.githubusercontent.com/17271286/59142390-8f43f100-89f8-11e9-86f5-710b5d52edc5.png)
「文章との一貫性」と「前後画像との一貫性」の両方が大事なはずだが、評価手法の弱さ、曖昧さが気になる(そもそもill-definedな感が強い)。新しいタスクなので、タスク・データセットそのものの改善も含め今後の発展に期待したい。
(Conditioning Augmentation的な正則化が効きそう)
The text was updated successfully, but these errors were encountered: