Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images #6

Open
soneo1127 opened this issue Apr 25, 2019 · 0 comments

Comments

@soneo1127
Copy link
Contributor

soneo1127 commented Apr 25, 2019

0. 論文

https://arxiv.org/abs/1601.07140

1. どんなもの?

MS COCOという画像データセットを元に、COCO-Textという画像内のテキスト認識のためのデータセットを公開
スクリーンショット 2019-04-18 16 56 04

2. 先行研究と比べてどこがすごい?

・MS COCOは元々テキスト指向で作られたデータセットではないため、COCO-Textはより広い分布の空間的出現を有する

legible と illegible (読めるか)
English (German, French and Spanish も含む )and not English
機械印刷、手書き、それ以外
などのきめ細かいカテゴリの注釈を付けた。
・それまでのデータセットよりもはるかに大規模(14倍以上)

3. 技術や手法のキモはどこ?

予算が限られている場合の、人員へのタスク割り当てを最適化するための戦略を提案。
OCRとクラウドワーカー(Mechanical Terk)の同時使用

4. どうやって有効だと検証した?

アノテーションの質はエキスパートアノテーター(この論文の共著者)が評価
クラウドワーカーのアノテーターは全テキスト領域の57%を検出していた。特に、判読可能なテキストの84%と判読不能なテキストの39%を検出しています。

5. 議論はある?

人間でも画像中の文字認識は難しい。

6. 次に読むべき論文は?

Microsoft COCO: Common Objects in Context
https://arxiv.org/abs/1405.0312

@soneo1127 soneo1127 added image2text multi-modal using multi-modal, except for image2text and text2image and removed multi-modal using multi-modal, except for image2text and text2image labels Apr 25, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant