ベイズの定理とそれによる識別について

ベイズの定理について
P(C1|x)=\frac{P(C1|x)P(x)}{P(x)}

上記の式で与えられる定理です。
解説:
P(C1|x)(条件付確率)の意味は、xが観測された元で、C1となる確率です。
例えば、P(肺がんにかかる|タバコを吸っている)というのは、タバコを吸っているという条件の下で、肺がんにかかる確率です。
P(肺がんになる|タバコを吸っている)>P(肺がんになる|タバコを吸っていない)ということが成り立つのであれば、タバコを吸っているという下での死亡する確率が、
吸っていない場合よりも高いということになります。
ベイズの定理による識別について
ある観測対象が、xを観測したとします。そのもとで、どのクラスに分類されるのかを知りたい場合を考えます。
クラスは、C1, C2, C3.......CNとします。
ベイズの識別則では、P(Ci|x)が最大のもの。つまり、xが観測されたもとで、分類される確率が一番大きいものに分類します。
識別則は、次のように提起されます。

Class=argmax P(x|Ci)P(Ci)

ベイズの定理で紹介したように、P(x|Ci)は、クラスCiに識別された上で、xが観測される事後分布というものです。
ベイズの定理より、 P(Ci|x) = \frac{P(x|Ci)P(Ci)}{P(x)}であります。
また、P(x)はどの事後分布にも共通のため、識別には関係がありません。したがってP(x|Ci)P(Ci)を最大化すればいいのです。
しかし、「なぜいちいちベイズの定理で変換するのか?普通に、P(Ci|x)を計算して分類してしまえばいいのでは」と思うような方もいるかもしれません。
では、次のような例を考えてみます。
例:スパムメールの分類
メールボックス内のメールを観測して、「お金、あげる」という単語が当時に登場するメールはスパムなのかということを調べられるか?
このメールボックス内では、すでにスパムであるとわかっているメールとスパムでないとわかっているメールを用意します。
「お金、あげる」という単語が登場したうえで、スパムメールである確率と、「お金、あげる」という単語が登場したうえで、スパムメールでない確率
を比べることが必要です。
そのうえで、どちらのほうが確率が高いかによって分類することとします。
つまり、 Class = Max[P(スパム|お金、あげる), P(スパムでない|お金、あげる)]という識別をすればいいわけです。
しかし、「お金、あげる」という単語が登場する確率を観測するのはかなり面倒くさいです。
しかし、スパムかどうかの観測は容易です。そこで、スパムである(でない)ということが分かったうえで「お金、あげる」という単語が登場する確率(すなわち、P(お金、あげる(ない)|スパム))を観測すればいいわけです。
そうすると、上記のようにベイズの定理に変形することができますから、メールを分類することができます。

・識別境界
ここで、2つのクラスC1, C2を考えます。
P(C1|x) = P(C2|x)となるxを識別境界と呼びます。
これをベイズの定理により、書き直すならば、P(x|C1)P(C1) = P(x|C2)P(C2)
となります。
上式を書き直すと、 \frac{P(x|C1)}{P(x|C2)} = \frac{P(C2)}{P(C1)}
となります。
ここで、 \frac{P(x|C1)}{P(x|C2)}のことを、尤度比を言います。
・誤り率
続いて、誤り率についての話です。
ベイズ条件付き誤り率についてです。
次のように定義されます。 1 - max[P(Ci|x)]
つまり、最大のもの以外に分類されているのに、最大の確率のものに分類してしまうということです。
次に、ベイズ誤り率です。これは、誤り率の期待値です。つまり、ベイズ条件付き誤り率をε(x)とすると、
 \int_Dε(x)p(x)dx
のようにあらわされます。
ベイズ誤り率はベイズの定理による識別をするとき最少になります。

今回は、以上です。次回は、損失関数とROC曲線について解説したいと思います。