メタデータが重要だ
ここ最近、会社のバックアップ体制の見直しに取り組んでいる。で、安価なストレージを購入しているのだが、そのサイズが2TBのものを2台、追加でもう1台購入しようかという勢いだ。
弊社は15名程度の中小というよりは零細にちかい会社規模、ソフトウェア開発なんてことを生業にしているのでマシンだけはたくさんある。その一部のバックアップ用にと用意したストレージが、すでに4TB。まあ、RAID組んでいるので、実質はその半分ほどの容量ではある。とはい、現状の予測ではそれらはほぼいっぱいになる計画。この先、追加でもう1台購入することになりそうだ。
1999年ころだろうか、某大手コンビニエンスストアのデータウェアハウスで利用しているストレージがたしか4.5TBとかだったような。当時はこれが国内でもかなり巨大なデータウェアハウスのシステムだったように思う。それとサイズだけは同じくらいのストレージが、いま手許にあるのかと思うと技術の進化というか情報の爆発的な増加を実感するところでもある。
そういえば、自宅用に購入したApple TimeCapsuleも1TB。家中のHDDを足し合わせれば2TBはゆうに超えそうだ。EMCによるとデジタル情報は年平均60%増加しているとか。2006年くらいで世界で1700億ギガバイトのものが、このままいけば2010年には10倍を超える1兆8000億ギガバイトに増加するらしい。デジタル情報は増加の一途なのだけれど、本当に残しておきたいものがきちんとデジタル化されて残されているかというと、ちょっと疑問でもある。
ということもあり、EMCでは「世界情報遺産保護プロジェクト」という活動をしているとか。教育や研究のために歴史的資料や文化工芸などに、インターネットを通じていつでもアクセスできるようにアーカイブする。これで、人類の情報遺産を保護するというもの。そのために、EMCが総額10万ドルのお金を、教育組織や研究機関などの団体に寄付するというのだ。
2008年度、その対象に一橋大学の「平和と和解の研究センター」が選ばれたとのことで、記者向けの説明会と授賞式が行われた。平和と和解の研究センターが残すのが、被爆者調査の結果だ。手書きの貴重な資料が中心であり、簡単にスキャン取りができないものらしい。スキャンしても自動文字認識ができないので、だれかが中身を読んできちんとデジタル情報化しなければならない。なんだか気の遠くなるような話だ。こちらではどうやってデジタル化していくのかといったところに、EMC からもらったお金を使うようだ。
もう1つ残すのが第二次世界大戦のフィリピンでの状況資料。こちらは主に口伝の音声であり、デジタル化は容易だ。問題なのがメタデータ。これも結局は音声を誰かが聞いて、どの地域の話なのか、どういった内容が語られているのかを逐一拾い出し、音声データにメタデータとして付加する必要がある。これがなければ、使いたい人はとにかく蓄積された音声データをまずは聞いてみて何が語れているかを確認しなくてはならず、手間がかかり研究などにすぐに活用できる物ではない。じゃあアルバイトでも雇ってメタデータ化をやればいいかというとそうでもない。ある程度専門知識や現地の情報を知らなければ、地名がきちんと聞き取れなかったりといったことで、正確なメタデータは作れないのだ。
データが爆発し、それを効率よく蓄積する技術は進化しているが、そのデータがどんなものであり、たとえば有効期限や有効な適用範囲といった「情報の情報」を取得する技術はまだまだ進化の途上のように思う。莫大な情報が蓄積されればされるほど、メタデータの存在は重要だ。むしろ、メタデータがないと、膨大な情報も役に立たないものになりかねない。情報を生み出すときにこそ、あらかじめメタデータを意識するのは今後は重要だなぁというのを、改めて感じたのだった。
ちなみに、2008年7月から2009年度の世界情報遺産プロジェクトの募集が始まるとのこと。残したい貴重な資料がある団体の方々は応募してみてはいかがだろうか。