総務省がクローラーを使って国内のブログ数を調査するらしい
総務省から「ブログの実態調査研究」という興味を惹く調査の入札公告がでている(ちなみに本日12/17締め切り)。
手元に仕様書があるのでパラパラ眺めているが、クローラーを使って国内のブログのコンテンツ量調査を実施することになっている。総務省と言えば平成18年にも国内のブログの登録者数の調査結果を発表しているが、このときはブログのサービス提供側ベンダーに登録者数を聞いて積み上げていたように記憶している。
どうやら今回はより科学的にクローラーを使って、国内のブログの「総ブログ数」「総ファイル数」「総データ量」そして「HTML、画像、音声、動画、テキスト、PDF、アーカイブ等毎のコンテンツ量」も調べることにしたようだ。
他にもブログのテーマ別のコンテンツ量だとか更新頻度やコメント数、トラックバックの代表値も図示すると仕様書にはあるので、これはかなり面白い調査結果になるのではないかと期待する。
ただオルタナティブ・ブログでも以前に松尾さんの『知らない間に人工無脳ブロガー(?)に取り込まれている不気味』や今泉さんの『今ごろ「ワードサラダ」で驚いても遅いけれど』で取り上げていたように、ここ最近ワードサラダという手法で機械的にスパム的なブログを生む出す行為が増えてきているようだ。今回のようにクローラーを使う調査ではスパムブログの分をどれくらい排除できるかが重要だろう。得た統計数字が使えるかどうかという面でも、優秀なクローラーを持つ人が落札してスパム分を除去した数字が出ると良いのだが。
報告書の納入期限は来年3月下旬になっているので、来年度早々には結果速報がプレスリリースされそうだし多分調査報告書も請求すれば入手できると思うので、その時にはこの調査を使ってまたいろいろと分析してみるつもりだ。
あと参考までに今泉さんが紹介してくれた「smashmedia」では『【アンケート】日本のブログ数はどのくらい?』という集合知を使って日本のアクティブブログの数を予測する試みが行なわれており、この予測の中間集計結果は289万人ということになっている。この数字と今回の調査結果を比べるのも面白い。