実験用イメージデータセットの収集

研究室では、これまでGeneric Object Recognition用のデータセット(多量のアノテーション済の画像ファイル)としてCorel Image Dataを使用していたわけなんですが、商用画像というのと、Corel社が販売を止めてしまったということもあってか、他のデータセットも試してみようと検討中。候補になっているのは、以下。

  • Caltech101(Caltech256)。その名の通り、California Institute of TechnologyでFei-Fei Li等によって集められたカテゴリ分けされた画像セット。カテゴリを決め、Google Image Search+人力で探した画像。このデータの問題点は、フォアグランド・オブジェクトにだけ、しかも1つのオブジェクトにしかキーワードが付いてない。ライセンスも不明。
  • The PASCAL Object Recognition Database Collection ベンチマーク用に用意したもので、なかなか良く整理されている。画像もCaltech101に比べると、普通にデジカメで撮影された写真っぽい。Caltechの方は、何しろGoogle Image Searchなので、これってクリップアートなのでは?というのがけっこう入っている(意図的?)。残念ですが、こちらもフォアグラウンドオブジェクトにしかラベル付けがされていないような感じ。
  • LabelMe Dataset こちらは、annotation toolの方がメインなようですが、一応それでもってラベル付けされたData setもダウンロード可能。中身は、調査中。
  • TREC. 未調査
  • ImageCLEF 未調査

いろいろダウンロードしてチェックしていると、時間とディスクスペースがかなり消費されるけど、研究テーマが流行っていると、世界中でせっせとデータ作成をしてくれる研究グループがいて感謝感激。