関心のあるRSSフィードをベイズ推定でフィルタ
»
関心のあるフィードだけを抜いてくる方法はないものでしょうか。
▼ 例えば「プレゼンテーション」に関係する情報だけを追いたいとします。
「プレゼンテーション」というキーワードを含む情報をフィード化する方法はいくつかありますが、関心のない情報もたくさん拾われてしまいます。プレゼンテーションにはいろいろな意味があるなかで、僕はいわゆるビジネスプレゼンテーションの情報だけに目を通したい。
また、「プレゼンテーション」という文字は入っていなくても、プロジェクターの新製品とかスピーチのコツとか、プレゼンテーションに関係する情報にも目を通しておきたい。
結局大量にフィードを購読しておいて関心のある記事を目でスキャンしていくくらいしか思いつきません。その結果を学習してくれるRSSリーダーがあればいいのですが、見つかりません。
▼ そこでハッと来ました。ThunderbirdのSPAMメールフィルタは性能が良いですよね。SPAMである/ないと指示してあげるとどんどん学習してくれます。ただThunderbirdでもフィードは購読できますが、SPAMフィルタはメールにしか使えません。そこで
- 専用メールボックスを用意し、
- RSSフィードを1通ずつメール転送し、
- 興味がない記事はすべてSPAMとして扱う
ことにしたらどうなるでしょう。2は、RssFwdというサービスを見つけました。この場合、メールの送信元情報は同じになるので、タイトルと本文だけでSPAMかどうかを判断することになります。
▼ トラフィックの無駄づかいのような気もするし、ほかに賢いやり方があるような気もするしで、まだ試しておりません。それに本当は、そのようにしてフィルタしたフィードをサイトに載せたいのです。もうすこし考えてみよう。
SpecialPR