ベイズ理論とは
でググると、手ごろな解説サイトが幾つも見つかる。(←[2006-07-22-1])
大体のサイトには以下のような説明が付いている。
「過去の事象から将来の事象の発生確率を予測する」
「未来を予測するには過去を振り返らなければならない」
これだけだと、「で、結局どういうことするの?」と言いたくなるのでは?
メールのフィルタリング機能を例に説明すると少し理解が進むかも。
人がメールの本文の内容を元に、迷惑メール
かどうかとの関連性を判断するには、過去蓄積され経験としてあらかじめ
蓄えられた情報から算出し、その算出した情報を総計して出した結果が、
迷惑メールであると判断に足りる数値となった場合、迷惑メールだろう、
と判断します。
もちろん、中には非常に紛らわしい内容のメールもありこの方法は完璧
な正確さを得ることはできないのですが、メールを受け取れば受け取るほど
情報は蓄積されていくわけで、自動化していくことができます。
この作業をコンピュータで行おうとするのならば、メール内の文章を
単語ごとに切り分け、それぞれの単語が含まれる率を計算し、「これだけ
含まれていれば迷惑メールと判定する」と設定しておけば、合致したもの
を振り分けの対象とすることができます。
o SPAM フィルターのフィルタリングだけじゃなくいろんな応用例がある。
- Google の検索サービスや AdSense など
- Windows の ヘルプ機能
- Amazon の「おすすめ」技術
o 肝心の、SPAM 検出精度は?
これが、結構よいのである。
会社のバックボーンでもある程度フィルタリングしているけど、結果を
フィードバックする機能がない。(担当部門では行っているかもしれな
いが)その点深海魚フィルターは自分で学習させられるので、上記で
漏れたものもかなりの確率で spam 判定してくれる。
が、あくまで「予測」なので完璧ではないのがミソ。
先日、某友人から Subject 「例の件」、本文「今晩どう?」という1行
のメールが届いて、見事 spam と判定されていた。(爆)
※念のため補足
その友人と、ある日の通勤途上で会った時に
「近いうちに飲みに行こうぜ」という話をしていて、そのお誘いの
メールだったのです。
「神の存在を方程式で説明できる」
原理を提唱した 18世紀の Thomas Bayes さん(牧師であり、数学者だった
そうだ) の言葉らしいが、いかにもカッコいいね!
この確率論が21世紀にバリバリ活用されているのが面白い。
permlink