論文読みゼミ

NIPS 2006から以下の論文についてディスカッション。

  • Unsupervised learning of a probabilistic grammar for object detection and parsing., L Zhu, Y. Chen, and A. Yuille, NIPS2006

Computer Visionの分野では、流行のProbabilistic Grammerというのは、Context Free Grammarのようなコンテキストに依存しない文法規則なのですが、生成ルールに確率が導入されているもので、何かしらの構造をもった物体を認識するのに最近よく用いられています。いささか簡単すぎる例ですが、

Face -> Eyes Nose Mouth
Eyes -> Left_Eye Right_Eye
Left_Eye -> Closed_Left_Eye (20%) | Open_Left_Eye(80%)
...

な感じ。リーフが、何もパーツとして意味をなすものである必要は全く無いわけで、実際この論文では、SIFTを用いて特徴点を抽出しているので、目とか鼻とか、人間がパーツとして認識しているものと一致するとは限らないというか、普通一致しないと思う。
SIFTで抽出した特徴点の中から、任意のTripletを選びだし、その3点から得られる特徴量を特徴ベクトルとする。木構造の最も深い所に位置するのは、あるTripletで、そのうち2点と他の1点で構成されるTripletを、構文木上1階層上のノードとする。これを繰り返し行ったものが、そのオブジェクトの表現となる。あるオブジェクトの表現には、その3点の選び方や、どれを先に選ぶかによって非常に多くのバリエーションができるが、これをMRF(Markov Random Field)を用いたアルゴリズムによって、最適化していく。