ログファイルの一部を切り取って頻出語を頻出順に30個表示する

» 2007/01/26

現場百遍。サイトであれ経営であれ、生データを眺めることも現場仕事のうちである。
先日は、某企業のWebサイトで直帰率が高い状態を改善しようということになり、メンバーの方とログを眺めた。

人がどんな思いを言葉に載せて検索をし、サイトに来てくださっているか。これを目の当たりにすると、奮い立つ。よい結果が得られずサイトを離れていった方に、申し訳ないような気持ちになる。

問題はログの分析だ。Excelでかなり賄えるが、データ量が大きくなると難しい。定型的な分析ツールでは、カジュアルにあれこれ試せない。テキストファイルの扱いは、ときとして生産性や創造性を大きく左右（上下？）するなあと、ハッとした次第。

テキストファイルの扱いは、その出自からしてPerlが最も充実している（らしい）のだが、残念ながらPerlを学んでいない。

先日もそんなことがあった。*ListFreakで「先週検索されたタグを、多い順に30個並べ」て表示させようとしてみた。例えば、
-----
フレームワーク aaa
経営 bbb
フレームワーク ccc
目標 ddd
目標 eee
フレームワーク fff
-----

というログファイルから、下記のリストを得るということだ。

-----
フレームワーク
目標
経営
-----

まったくもって趣味の世界ではあるが、こういうスキルは経営分析にだって活かし得る。だから真面目に考えた。13，4年前に習い覚えたUNIXコマンドで30分くらい頑張って（もっと掛かったかも）、下記のようにした。

sort -k 1,1 <logfile> | uniq -c | sort -k 1,1 -r | head -n 30 | awk '{print $2}'
第一フィールドで並べ替え、
同じ語句の数をカウントした上で重複行を削除し、
そのカウント（出現頻度）の大きい順に並べ替え、
先頭の30行を取り出し、
カウントを除いて語句だけを表示。

僕が現在唯一まともに使える言語であるPHPで同じ事をするよりは、はるかにシンプルにできた（はず）。しかし、もっとエレガントなやり方があるんだろうな。

堀内浩二 2007/01/26 00:59:59 Comment(2)

SpecialPR

日	月	火	水	木	金	土
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

ログファイルの一部を切り取って頻出語を頻出順に30個表示する

最新の投稿

堀内浩二

2024年6月