木曜不足

PRML読書会 #5 資料「線形識別モデル(1)」

機械学習読書会 PRML

これはパターン認識と機械学習(PRML)読書会 #5 (4章線形識別モデル) での発表用の資料「4.1 識別関数」〜「4.1.2 多クラス」です。
まとめメインで、細かい説明/計算やサンプルは板書する予定。
【更新】読書会での指摘を反映。

PRML 4章線形識別モデル

２クラス分類 [4.1.1]
多クラス分類 [4.1.2]
最小二乗による学習 [4.1.3]
フィッシャーの線形判別による学習 [4.1.4-6]
パーセプトロン・アルゴリズムによる学習 [4.1.7]
おまけ

分類問題

入力ベクトルを K 個の離散クラスの１つに割り当てる
- 入力空間は決定領域 ( decision region ) に分離される
- 決定面 ( decision surface ):決定領域の境界

線形識別モデル

決定面が superplane

線形モデル
- 入力ベクトル $\bf{x}$ の線形関数(★*1線形方程式?)
- $\bf{w}^T \bf{x} + w_0 = const.$
一般化線形モデル
- 非線形な活性化関数(activation function) f によって変換
- $y(\bf{x}) = f(\bf{w}^T \bf{x} + w_0)$
- 決定面は superplane
非線形モデル
- 難しい

1-of-K 表記法

分類問題において、目的変数を

K=2 のとき
- $C_1$ の場合 t=1
- $C_2$ の場合 t=0
K>2 のとき
- $C_k$ の場合 $t_k=1, t_j=0 (j \neq k)$

問題に応じて取り方も工夫 [4.1.5, 4.1.7]

アプローチ [cf. 1.5.4]

識別関数 (discriminant function) [4.1]
- 入力から直接決定関数を学習する
確率的識別モデル (discriminative model) [4.3]
- 事後確率 $p(C_k|\bf{x})$ を求める推論問題を解く
確率的生成モデル (generative model) [4.2]
- クラスの条件付き密度 $p(\bf{x}|C_k)$ を決める推論問題を解き、ベイズの定理により事後確率 $p(C_k|\bf{x})$ を求める

4.1 識別関数 (discriminant function)

4.1.1 ２クラス

$y(\bf{x}) = \bf{w}^T\bf{x}+w_0$

- $\bf{w}$ : weight vector, supersurface y=0 の法線ベクトル
- $w_0$ : bias parameter
- $-w_0$ : threshold parameter

$y(\bf{x}) \geq 0$ なら $C_1$ に、 $y(\bf{x}) < 0$ なら $C_2$ に分類
decision surface は $y(\bf{x}) = \bf{w}^T\bf{x}+w_0 = 0$

w をどうやって決めるかは 4.1.3 以降

decision surface までの距離

原点から

$\frac{\bf{w}^T \bf{x}}{\|\bf{w}\|} = - \frac{w_0}{\|\bf{w}\|}$

r : $\bf{x}$ からdecision surface までの距離

- $\bf{x}_{\bot}$ : decision surface への直交射影とすると
- $\bf{x} = \bf{x}_{\bot} + r \frac{\bf{w}}{\|\bf{w}\|}$ を y に代入

4.1.2 多クラス

K>2 個のクラスへの分類

１対多分類器
１対１分類器

１対多分類器

に入る点と入らない点を分類する２クラス分類器を (K-1)個用意
- k=1,...K-1, $C_k$ に入らない点を $C_K$ に分類

１対１分類器

$y_k(\bf{x}) = {\bf{w}_k}^T\bf{x}+w_{k0}$ , (k=1,...,K)

全ての $j\neq k$ について $y_k(\bf{x}) > y_j(\bf{x})$ なら $C_j$ に分類
decision surface は $y_k(\bf{x}) - y_j(\bf{x}) = ({\bf{w}_k}-{\bf{w}_j})^T\bf{x}+(w_{k0}-w_{j0}) = 0$ ( ${}_{K}C_2 = \frac{K(K-1)}{2}$ 個)
decision region は凸領域
- 領域内の任意の２点を結ぶ線分が領域に含まれる

多クラス分類器の問題点

曖昧な分類領域が存在する
- １対多も１対１も「２クラス問題の拡張」方式ゆえ
K個の分類器によるKクラス分類によってそれを解決する
- 入力 $\bf{x}$ は $y_k$ が最大となる $C_k$ に割り当てる
- 4.1.3 ではその考え方で分類する
- Passive Aggressive Algorism での multiclass classification も同様( $y_k(x)$ の値を confidence として用いることができることを示す)

パラメータの学習方法

最小二乗 [4.1.3]
フィッシャーの線形判別 [4.1.4〜6]
パーセプトロンアルゴリズム [4.1.7]

【→ 4.1.3 へ続く】

*1:★は独自の注釈や意見や疑問や感想