Prev / Next / Hill Climber's ChangeLog

ベイズ理論とは[Science]

2006-08-08

ベイズ理論とは
でググると、手ごろな解説サイトが幾つも見つかる。(←[2006-07-22-1])
大体のサイトには以下のような説明が付いている。

「過去の事象から将来の事象の発生確率を予測する」
「未来を予測するには過去を振り返らなければならない」
これだけだと、「で、結局どういうことするの?」と言いたくなるのでは?
メールのフィルタリング機能を例に説明すると少し理解が進むかも。


人がメールの本文の内容を元に、迷惑メール
かどうかとの関連性を判断するには、過去蓄積され経験としてあらかじめ
蓄えられた情報から算出し、その算出した情報を総計して出した結果が、
迷惑メールであると判断に足りる数値となった場合、迷惑メールだろう、
と判断します。
 もちろん、中には非常に紛らわしい内容のメールもありこの方法は完璧
な正確さを得ることはできないのですが、メールを受け取れば受け取るほど
情報は蓄積されていくわけで、自動化していくことができます。

 この作業をコンピュータで行おうとするのならば、メール内の文章を
単語ごとに切り分け、それぞれの単語が含まれる率を計算し、「これだけ
含まれていれば迷惑メールと判定する」と設定しておけば、合致したもの
を振り分けの対象とすることができます。

o SPAM フィルターのフィルタリングだけじゃなくいろんな応用例がある。
  - Google の検索サービスや AdSense など
  - Windows の ヘルプ機能
  - Amazon の「おすすめ」技術

o 肝心の、SPAM 検出精度は?
 これが、結構よいのである。
 会社のバックボーンでもある程度フィルタリングしているけど、結果を
 フィードバックする機能がない。(担当部門では行っているかもしれな
 いが)その点深海魚フィルターは自分で学習させられるので、上記で
 漏れたものもかなりの確率で spam 判定してくれる。

 が、あくまで「予測」なので完璧ではないのがミソ。
 先日、某友人から Subject 「例の件」、本文「今晩どう?」という1行
 のメールが届いて、見事 spam と判定されていた。(爆)

 ※念のため補足
その友人と、ある日の通勤途上で会った時に
「近いうちに飲みに行こうぜ」という話をしていて、そのお誘いの
メールだったのです。

 「神の存在を方程式で説明できる」
原理を提唱した 18世紀の Thomas Bayes さん(牧師であり、数学者だった
そうだ) の言葉らしいが、いかにもカッコいいね!
この確率論が21世紀にバリバリ活用されているのが面白い。

Referrer (Inside): [2009-01-29-1]

permlink