LabelMe

画像とそのアノテーションのデータセットを物色しているうちに、MIT AI Labが提供しているLabel Meが興味深いと思いました。LableMe自体は、データセットではなく、ツールセットで、マニュアルでポリゴンで囲まれた領域を作成し、そこにワードを付加することができます。LabelMeは、MATLAB scriptで実装されているが、画像をアップロードしてウェブインタフェースを介して使うこともできる。今現在は、大学のMATLABが使えるけど、アカデミックライセンスで買えるうちに、買っておいた方がいいなと再び思いました。
LabelMeが有用なのは、一般物体の画像認識において、ワードが画像全体ではなく、画像中の特定領域を指定して付加されているからで、これを訓練データとして使えば、性能の良い識別器ができるのではないかと思います。テストデータに関しては、当然何かしらのSegmentationアルゴリズムを使用する必要があるけど、問題が比較的易しくなるはずです。

MIT AI Labの人達やボランディアがこのツールでセグメンテーション・アノテーション付けしたデータセットもダウンロードできるようになっていて、さっそく16セット(各々約1GB)をダウンロードして、何ができそうか試行錯誤中。アノテーションは、画像毎に、XMLフォーマットになっていて便利。ところが、Pythonで適当なスクリプトを書いて、どんなキーワードが付いているのか調査しているうちに、たまに無責任な誰かが適当なキーワードを付けていることがあるのに気づきました。どこの誰だか知らないが、"おば半"とか日本語でキーワードを付けた奴がいる。まったく迷惑です。日本語でキーワード付いているのは、たった1つの画像だけだったのですが、MIT AI Labに連絡したものかどうか..