peroon's diary

モデル選択による動画像理解

というpdfを読んだ。著者は金谷健一教授（著「これなら分かる応用数学教室」）

- -

著者は「赤池のAIC」「RissanenのMDL」をコンピュータビジョンに応用
（上のどちらも「モデル選択の指標」）
（モデル選択とは、「複数のデータ点を通る曲線の次数」を決めることなど）
未知パラメータを持つ数式をモデルと呼ぶ
（モデルが決まればパラメータはデータから求まる）
残差＝観測データとモデルの距離
モデル選択基準＝残差＋自由度に対するペナルティ
（残差を減らせば、自由度（次数）が上がってペナルティを受ける）
（トレードオフ）
モデル選択基準「赤池のAIC」「SchwarzのBIC」
「RissanenのMDL」「MallowsのCp」
これらの基準を画像処理に応用したい

例えば「複数の画像からパノラマ画像を作る「画像モザイク生成」」
カメラの向きが変わると画像に「射影変換」がかかる
なので「対応する点を重ねて貼り付ける」だけではうまくいかない
「幾何学的AIC」によってモデル選択するとうまく貼り合わせられる

＜幾何学的AICとは何か＞
統計学で言う「モデル」とは観測したデータを説明する数式のこと
幾何学的AICとAICは違うが、原理はKL情報量で同じ
KL情報量の評価が２種類あって、それぞれが幾何学的AICとAICに対応
幾何学的MDL
MDL:「データとモデルを指定するのに必要最低限の符号列の長さ
（記述長）が最小となるモデルを選択する」
実数を表現するには符号長が無限になってしまうので量子化する
量子化が荒いと「モデル記述長が短く、データ記述長が長くなる」
量子化が細かいと「逆になる」
Rissanenは「全体の記述長が最小になるように量子化幅を定めた」
一般に幾何学的MDLのほうが幾何学的AICより、
複雑なモデルに対するペナルティが大きい
（AICとMDLの場合も同様か？）
AICの出発原理はKL情報量
MDLの出発原理は最小記述長
どちらがいいという根拠はない

＜幾何学的モデル選択の応用＞
パノラマ画像
画像中の対象の対称性の判定
２画像に３次元形状を復元する十分な視差が含まれているかの判定
動画像中の動きが「シーン全体の動きか、独立に移動する物体がいるのか」
カメラを動かしながら撮影して「背景と独立に動く物体を抽出」
など

モデル選択を生かすには、システム設計者が問題を十分に理解し、
適切な基準を選び、適切な方法で適用することが必要

と、いうことでした。