CVPR 3日目

本日のオーラルセッションは、以下の3つ。お昼前に、Awardの発表があり、3D/GraphicsセッションのDynamic 3D Scene Analysis from a Moving Vehicleを発表したBastian Leibeが受賞。

  • Recognition, Learning, and Optimization
  • 3D/Graphics
  • Detection/Matching/Tracking

本日は、Walker Art MuseumでBanquetがありました。ほろ酔い状態で、Picaso and American Art展を鑑賞。ケータリングのブースと参加者数のバランスが非常に悪くて、食事や飲み物を得るのに、数十分まち!おかげで、絵画鑑賞にゆっくり時間をかけられませんでした。鑑賞したのは、PicasoのCubismの作品と、Cubismに影響されたアメリカの作品。
美術館からの帰り、Kobusの誘いで連れてこられたバーで他の参加者20人程度とともに飲み会。Li FeiFei (Princeton), Rob Fergus(MIT), Antonio Torralba(MIT), Vittorio Ferrar(Oxford)他、Computer Vison分野、特にオブジェクト認識の有名人が一杯でした。本日発表されたBest Awardに、CVPR Awardを受賞したBastian Leibeもいて、お会計は受賞者もち。ごちそうさまでした。

Oral session 1: Recognition, Learning, and Optimization

Beyond Local Appearance: Category Recognition from Pairwise Interactions of Simple Features

[Marius Leordeanu, Martial Hebert, and Rahul Sukthankar]

What makes a good model of natural images ?

[Yair Weiss and Bill Freeman]
Natural Image(自然画)を検出する方法として、与えられた画像全体に対してあるフィルターをかけそれを入力して自然画かどうかを確率で返す関数を学習する方法が既にあるが、その計算コストは膨大。また、そのようにして得られたlikelihoodは、画像のどんな特徴を掴んでいるのか直感的に理解することができないのが問題。

Joint Optimization of Cascaded Classifiers for Computer Aided Detection

[Murat Dundar and Jinbo Bi]

Efficient Belief Propagation for Vision Using Linear Constraint Nodes

[Brian Potetz]

Fast, Approximately Optimal Solutions for Single and Dynamic MRFs [Nikos Komodakis, Georgios Tziritas, and Nikos Paragios]

Oral session 2: 3D/Graphics

3D Occlusion Inference from Silhouette Cues

[Li Guan, Jean-Sebastien Franco, and Marc Pollefeys]

Dynamic 3D Scene Analysis from a Moving Vehicle (Best paper)

[Bastian Leibe, Nico Cornelis, Kurt Cornelis, and Luc Van Gool]
移動する車両の上に取りつけられた2台のカメラ(キャリブレーション済)から入ってくるビデオ入力から、オブジェクト(歩行者と車両)を認識し、ローカライゼーション、トラッキングを行う。さらに各々のオブジェクトの移動方向や移動量から3Dオブジェクトとして検出し、Real-timeにローカライゼーション結果を直方体のフレームとして出力する。デモビデオの映像では、街中を走って実験した時の様子を見せているが、人も自動車もあちこちに、様々な方向に移動しているが、その大半を検出できている。まるでSFに登場するロボットの視点です。

Spectral Matting

[Anat Levin, Alex Rav Acha, and Dani Lischinski]
Computer Vision分野でMattingというのは、画像からForeground/Backgroundを分離することで、典型的なのは人物の写真から、人物部分と背景を分離するような処理のことを言います。Spectral Segmentationを拡張したアプローチ。

Oral session 3: Detection/Matching/Tracking

Human Detection via Classification on Riemannian Manifolds

[Oncel Tuzel, Fatih Porikli, and Peter Meer]

Matching Local Self-Similarities across Images and Videos

[Eli Shechtman and Michal Irani]
タイトルはつまらなそうですが、意外に面白かったです。通常何か画像パターンを認識する際には、ColorとかTextureでマッチングするのがありがちですが、タイトルどおり"Local Self-Similarities"のマッチングが非常に
ユニーク。例として、ボタンのようなものを並べて作ったハートのマーク、Tシャツの上にプリントされたハートマークのようなものがあったとして、ウィンドウ内で近傍で類似したパターンをもつ箇所を探し、その類似パターンの形状をテンプレートして保持する。すると、ウィンドウ内に同じようなボタンで作られているハートマークがテンプレートとして登録される。同様の処理を、ターゲットであるTシャツの写真でも行いテンプレートマッチングをすると、やはりハートマークが発見でき、これが検出できるという仕組み。更にこれを時間方向に拡張すると、フィギュアスケートやダンスのある特定の動きをテンプレートとして登録して、動画中から同じ動きをしている箇所が発見できる。アイディアも面白いのですが、プレゼンに使用されたマッチングの例が素晴しい。

Tracking in Low Frame Rate Video: A Cascade Particle Filter with Discriminative Observers of Different Lifespans

[Yuan Li, Haizhou Ai, Takayoshi Yamashita, Shihong Lao, and Masato Kawade]
Best Student Paper Awardを受賞した論文です。タイトル通りフレームレートが低いビデオ入力(5fpsぐらい)でのトラッキング。スライドでは、トラックの対象は顔でしたが、別に顔じゃなくてもOKそうです。フレームレートが低くて、なおかつ写っている人が、ぴょんぴょん跳ねていようものなら、簡単にトラッキングに失敗してしまうのですが、このシステムでは3つのObverserがLearning/Searvice時間をかえ、補い合いながらトラッキングしつづけることができ、精度の高いトラッキングに成功しています。
日本人っぽい人の名前も共著にあがっていますが、顔認識/識別で評判の良いOMRONの人だったようです。

Progressive Finite Newton Approach

[Jianke Zhu and Michael R. Lyu]