なんちゃって個人情報を見て、これは、もしかして、皆が、かねてから、「あったらいいな!」と思っていた理想的なテストデータ出力ツールなのではないか!と思ったのだが、いざ実際にデータが出力されてみると、結構どっきりする。あまりに本物っぽいのだ。

(姓、名の)名の候補がまだ少ないらしく、「さんま」とか「サンタマリア」とかが割と頻繁に出現するところが唯一、なんちゃってっぽい。すばらしい再現力を持ったツールだ。
ソフトウェアテストで有効利用できるんじゃないの?というネタで、周りの人と軽く話してみたら、下記のように話が展開して面白かった。
- ヒューリスティックな方法で、「あるバイト列が個人情報かどうか」を判断するようなソフトウェアが実現したとしたら、間違いなく「なんちゃって個人情報」を本物の個人情報だと判定するだろう。このデータを使っているところが、そういうソフトウェアで監視されていたりすると、アラートがたくさん上がって大変かも・・・
- いや、そもそもソフトウェアに限らず、人間も「なんちゃって個人情報」と本物の個人情報と区別がつかないのではないか?→確かにそうだ。
- たとえばこれで作ったなんちゃって個人情報テストデータが企業から流出したとして、外部の第三者が、そのなんちゃって個人情報を何かの名簿だと思い込んで、そこにある携帯番号を使って振り込め詐欺をしたりして被害が出たら、誰がどう責任を問われるんだろう?少なくとも流出元が個人情報保護法には違反していないことは明らかだが・・・
- たとえば100万件のお客様がいる会社が、1兆件のダミーデータを作ったりすると、本当に偶然、本物のお客様と同姓同名で電話番号も同じデータが生成されてしまう可能性もあるかもしれない。そのダミーデータ全体が流出したら(例えばテストデータの入ったDVD-Rを紛失するとか)、個人情報が流出したことになるんだろうか。
そんな訳で、「なんちゃって個人情報」的なツールが吐き出したデータが、あんまり本物っぽくなりすぎると、たとえダミーデータであったとしても、個人情報と同様、入手/利用/保管/破棄に十分注意を払わないといけなくなるということか。うーん、ややこしい。
そう考えると、「なんちゃって個人情報」が出力するデータの中には、ヒューリスティック手法を取り入れたソフトウェアにとっては本物にしか見えないが、人間様が見たら誰が見ても明らかになんちゃってだ、と判断できる何かを入れておくべきで、「さんま」とか「サンタマリア」とかが高頻度で出てきたりするのはむしろ正しいのかもしれない(個人的には、ここで「驚愕した!」評価を受けている名前を抜粋すれば、いい感じで不自然さを持ったデータになるのではないかと、半分冗談半分本気で思った)。
Special
- PR -| せのお | 2007/01/20 01:53 |
|
こんばんは。せのおです。 | |
| 小椋 | 2007/01/20 22:32 |
|
せのおさん、コメントありがとうございます! | |

富士通元社長の山本卓眞氏が残した次代へのメッセージ
Facebook就活はもう古い?
東北をコットンの生産地としてブランディングしたい──リー・ジャパン・細川取締役
東北から始まるイノベーション
貧困国の雇用を創出する印刷屋、丸吉日新堂印刷の挑戦