PRML読書会 #5 資料「線形識別モデル(1)」

これは パターン認識と機械学習(PRML)読書会 #5 (4章 線形識別モデル) での発表用の資料「4.1 識別関数」〜「4.1.2 多クラス」です。
まとめメインで、細かい説明/計算やサンプルは板書する予定。
【更新】読書会での指摘を反映。

PRML 4章 線形識別モデル

  • 2クラス分類 [4.1.1]
  • 多クラス分類 [4.1.2]
  • 最小二乗による学習 [4.1.3]
  • フィッシャーの線形判別による学習 [4.1.4-6]
  • パーセプトロンアルゴリズムによる学習 [4.1.7]
  • おまけ
分類問題
  • 入力ベクトル \bf{x} を K 個の離散クラス C_k の1つに割り当てる
    • 入力空間は決定領域 ( decision region ) に分離される
    • 決定面 ( decision surface ):決定領域の境界
線形識別モデル

決定面が superplane

  • 線形モデル
    • 入力ベクトル \bf{x} の線形関数(★*1線形方程式?)
    • \bf{w}^T \bf{x} + w_0 = const.
  • 一般化線形モデル
    • 非線形な活性化関数(activation function) f によって変換
    • y(\bf{x}) = f(\bf{w}^T \bf{x} + w_0)
    • 決定面は superplane
  • 非線形モデル
    • 難しい
1-of-K 表記法

分類問題において、目的変数を

  • K=2 のとき
    • C_1 の場合 t=1
    • C_2 の場合 t=0
  • K>2 のとき
    • C_k の場合 t_k=1, t_j=0 (j \neq k)

問題に応じて取り方も工夫 [4.1.5, 4.1.7]

アプローチ [cf. 1.5.4]

  • 識別関数 (discriminant function) [4.1]
    • 入力から直接決定関数を学習する
  • 確率的識別モデル (discriminative model) [4.3]
    • 事後確率 p(C_k|\bf{x}) を求める推論問題を解く
  • 確率的生成モデル (generative model) [4.2]
    • クラスの条件付き密度 p(\bf{x}|C_k) を決める推論問題を解き、ベイズの定理により事後確率 p(C_k|\bf{x}) を求める

4.1 識別関数 (discriminant function)

4.1.1 2クラス

y(\bf{x}) = \bf{w}^T\bf{x}+w_0

    • \bf{w} : weight vector, supersurface y=0 の法線ベクトル
    • w_0 : bias parameter
    •  -w_0 : threshold parameter
  • y(\bf{x}) \geq 0 なら C_1 に、y(\bf{x}) < 0 なら C_2 に分類
  • decision surfacey(\bf{x}) = \bf{w}^T\bf{x}+w_0 = 0
w をどうやって決めるかは 4.1.3 以降
decision surface までの距離

原点から

  •  \frac{\bf{w}^T \bf{x}}{\|\bf{w}\|} = - \frac{w_0}{\|\bf{w}\|}

r :  \bf{x} からdecision surface までの距離

  •  r = \frac{y(\bf{x})}{\|\bf{w}\|}
    •  \bf{x}_{\bot} : decision surface への直交射影とすると
    •  \bf{x} = \bf{x}_{\bot} + r \frac{\bf{w}}{\|\bf{w}\|} を y に代入

4.1.2 多クラス

K>2 個のクラスへの分類

  • 1対多分類器
  • 1対1分類器
1対多分類器
  • C_k に入る点と入らない点を分類する2クラス分類器を (K-1)個用意
    • k=1,...K-1, C_k に入らない点を C_K に分類
1対1分類器

y_k(\bf{x}) = {\bf{w}_k}^T\bf{x}+w_{k0}, (k=1,...,K)

  • 全ての  j\neq k について y_k(\bf{x}) > y_j(\bf{x}) なら C_j に分類
  • decision surfacey_k(\bf{x}) - y_j(\bf{x}) = ({\bf{w}_k}-{\bf{w}_j})^T\bf{x}+(w_{k0}-w_{j0}) = 0 ({}_{K}C_2 = \frac{K(K-1)}{2} 個)
  • decision region は凸領域
    • 領域内の任意の2点を結ぶ線分が 領域に含まれる
多クラス分類器の問題点
  • 曖昧な分類領域が存在する
    • 1対多も1対1も「2クラス問題の拡張」方式ゆえ
  • K個の分類器によるKクラス分類によってそれを解決する
    • 入力 \bf{x} y_k が最大となる  C_k に割り当てる
    • 4.1.3 ではその考え方で分類する
    • Passive Aggressive Algorism での multiclass classification も同様( y_k(x) の値を confidence として用いることができることを示す)
パラメータの学習方法

【→ 4.1.3 へ続く】

*1:★は独自の注釈や意見や疑問や感想