スパムトラックバック研究
個人的に、ブログを書いていて一番困るのは「スパム」。特にトラックバックの場合、コメントと違って CAPTCHA でブロックするということができないので、一日に大量のスパムが押し寄せます。オルタナティブ・ブログでは事務局の方で随時スパムTBを削除していただけるのですが、個人ブログ(Polar Bear Blog)の方はそうはいきません。そこでやむを得ず承認制にして、いったん確認してからTBを公開するようにしているものの、数多くのTBの中からスパムでないものだけを選ぶというのは大変です。一度など、誤って削除してはいけないTBを削除してしまったことも……。
それではいったい、どんなスパムTBが、どのくらいの頻度でやってきているのでしょうか。普段は見つけ次第抹殺してしまうのですが、先週1週間(9月23日~29日)はそのまま残しておき、データを取ってみました。ただし以前からあまりにも酷いスパムは、「NGワード」「NGアドレス」を指定してブロックしているので、ノーガードで襲われたデータではないという点だけご了承下さい。
簡易なグラフで失礼します。上は日々のスパムを棒グラフ(目盛は左軸)で、ブログ全体のページビューを棒グラフ(目盛は右軸)で表したもの。また棒グラフは日本語スパム(紫)と英語スパム(青)で分けて示しています。
これを見ると、スパムの活動は一定ではないようです。1週間の平均をとると、1日に約14個という数が出るのですが、最大(9月26日の22個)と最小(9月28日の8個)の差は14。英語スパムに関しては、28日と29日の2日間、まったく寄せられませんでした(その後再開)。また「注目された記事を書くとスパムが来るのだろう」という仮説を持っていたのですが、ページビューとの相関も今のところ現れていません。
それでは中身を見てみよう、ということで作成したグラフが上の図。予想通り(?)、アダルト系の内容や、話題となった芸能ニュース(最近だと沢尻エリカ騒動とか)を扱うブログからTBが来ています(全体の約25%)。その次は美容・ダイエットに関するTBが多いのですが、これは調査対象期間中に、ダイエットに関するエントリを書いたことが影響しています。「芸能・アダルト」系が元エントリの内容に関係なくやってくるのに対して、「美容・ダイエット」や「情報商材・アフィリエイト」は比較的記事の内容に対応してTBしている様子。「とにかくスパムTBを減らしたい!」という方は、これらのスパムに狙われないような話題を書かない方がいいかもしれません(下手にダイエットネタなんか書くんじゃなかった……)。
ちなみに上のカテゴリで「薬」や「不明」のほとんどは英語スパム。意味不明の文字が羅列されているものがあったりするので、怖くてアクセスできないものを「不明」にしてあります(ごめんなさい)。しかし「英語スパムはアダルト系が少ない」というわけではなく、一時期英語系のアダルト・スパムが酷かったので、それ系のキーワードを片っ端から登録したため(ここで書くのがはばかられるような単語ばかり……)。日本語のキーワードも登録しているのですが、日本語は「ほのめかす」言葉や造語がたくさんあるので、なかなか追いつけませんね。また「クスリ売るよ」系スパムのほとんどが英語、という傾向だけははっきり出ているので、スパムにもお国柄(?)が存在しているのではと思います。
このように、1週間のデータで簡単な分析をしてみただけでも、面白い傾向がありそうなことが分かりました。いちどノーガードにして(=NGワードやNGアドレスをすべて取っ払って)、全てのスパムデータを採集したのち、分析するということをやってみたいと思います。ということで、いつかは分かりませんが続く……かも。