読者です 読者をやめる 読者になる 読者になる

小さなエンドウ豆

まだまだいろいろ勉強中

ナイーブベイズを勉強中

めっちゃホリデー

2日間暇なので前から気になっていたベイズの定理についてまとめてみることにした。
今までしっかり学んだことがなかったので基本だけでもと思い勉強してみた。

結果的に言うととても面白かった。今まで難しいものだと思っていたけど意外に簡単な数式で表されているのに驚いた。
すべてを理解したとは思っていないけど少しまとめてみたい。

ベイズの定理

ベイズ定理とは事前確率から事後確率を求めるものと理解した。未確定の事象に対して確率を求めることは困難なことであると思われうが、
実は条件付き確率を使うと次の式で表すことができる。

{P(B|A)= \frac{P(A|B)P(B)}{P(A)}}

上記の式は事象Aのもとで事象Bが起こる確率を求める式となっている。このときP(B)が事前確率だとするとP(B|A)は事後確率を呼ばれる。またP(A|B)は尤度と呼ばれる。この式の意味はP(A)が与えられると尤度の除算により、事象Bの確率は事前確率から事後確率へ変わるという意味である。
これを使った事例がモンティホール問題というものがある。簡単に説明すると、
3つのドアがあり、1つはアタリで2つはハズレである。

  1. 挑戦者は1つのドアを選ぶ
  2. 出題者は挑戦者が選んでいないかつハズレのドアを開ける
  3. 挑戦者は残り2つのドアのどちらかを選ぶ(もちろん最初に選んだドアをそのまま選んでも良い)

この問題に当てはめると、

  • P(A) ...出題者が1つのドアを選ぶ確率 (1/2)
  • P(B) ...1つのドアがアタリの確率 (1/3)
  • P(A|B)...選んだドアによって出題者がドアを選ぶ確率 (1/2 or 1)
  • P(B|A)...出題者が選んだドアによってドアがアタリの確率

つまり、ドアが3つある時点でのアタリの事前確率と出題者が1つのドアを開け2つになった場合のアタリの事後確率の変化を式で表すことができるのである。ちなみに出題者がドアを開けたあと選んだドアを変えたほうがアタリの確率は高いとベイズでは言えるらしい。

ナイーブベイズ

ナイーブベイズとは簡単に言うとベイズの定理を用いた分類器である。ベイズの式で置き換えると、ある事象Aが生じたとき、それがクラスBに属する確率をP(B|A)で表すというものである。
応用例として迷惑メールの分類などに応用される。事象Aをメールに含まれる単語だと考えると {A={a_1, a_2 ... a_n}} となる。( {a_i}は単語である)つまり{P(A={a_1, a_2 ... a_n}|B)=P(a_1|B)P(a_2|B)...P(a_n|B)}と表すことができる。P(B)はそのクラスに属する事前確率(迷惑メールかそうでないか)であり、分類をする時は{P(B)P(a_1|B)P(a_2|B)...P(a_n|B)}が最大になるクラスがそのクラスに属する事後確率となりそのクラスに属すると判定することができる。

まとめ

ベイズの定理やナイーブベイズによる分類をまとめて見た。自分では理解しているつもりであるが、抜けてたりとか説明不足な点があったらご了承ください。 説明があまり得意ではないのは自覚しているので式をなるべく丁寧に書いたつもりだったが、あとで見直すとやっぱりわからない。次回辺り実用例を示してもっと有用性をわかってもらうように伝えたいと思った。 ただベイズの定理って面白い!