A Stochastic Grammar of Images

今週のゼミは、以下の論文(?)についてディスカッション。

出典のFoundations and Trends in Computer Graphicsというのは初耳ですが、64 pagesという長さからして、Conference paperでもなさそうですし、Journalにしても長すぎる。
前回、前々回の論文読みゼミと同じく、画像認識にStochastic Grammar (Probabilistic Grammar)を用いる手法についての論文です。

シーン全体を、シーンを構成する部分画像に分割したオブジェクト、さらにその部分オブジェクトへと分割するAnd-Or Treeを構築する。拝借した図中の木は、既に、Orノードが排除(Orノードのうちどれか1つが選択)されてしまっている状態ですが、最上位の枝に注目すると、personsports fieldsspectatorがAndで接続されており、各々のオブジェクトは、更に各々部分イメージで構成されている。実際には、任意のNon-Terminal Nodeで、Or Nodeが使われることが可能で、例えばpersonが、認識間違えで、ほかのObjectにすりかわることだってある。ただ、図中では、部分画像が、personである確率が高く、personが選択されただけのこと。
And-Or Treeの構築は、Bottom-Upからはじまり、BottomUp->TopDown->BottonUp ...とTraining Dataを用いて、各々のノード間のリンク属性である確率を安定するまで繰り返していく。Terminal Nodeは、Visual vocabularyと呼ばれるPrimitiveのセットであり、Non-Terminal/Terminal Nodeは、共にNon-Terminal Nodeから共有されることがある。例えば、車やトラックなどのObjectから、その部分イメージであるWheelを共有することができる。
Vertical Linkは、And/Orの関係を示す線ですが、それに加え、Horizontal Linkは、同レベルのオブジェクト間の位置関係の制約を確率で表現するもので、例えば、顔の部分画像になりえる、目・鼻・口の相対的な位置関係の制約を与えることができる。
ノードが異なるノードから共有できることも良いですが、And/Orノードの関係を一般的に扱う点が面白い。画像認識において、オブジェクトの階層構造を用いた研究は最近増えていますが、予め与えられた"has-a"の関係を用いていないため、ある種のコンテキストをHorizontal Linkに含めることができる。例えば、"Tiger"と"Grass"は、"Eye","Nose"のように強いリンクではないものの、And Nodeの直下に出現する同レベルのノードしては関係が深いでしょう。少なくとも、"Tiger"と"Builiding"なんかよりは、ありそうな組み合わせといえる。