ウェブスクレイピングで売上を得ている海外企業の例
オープンデータの状況を色々と見ていくと、まだまだ情報の出し手(中央官庁と地方自治体)が少なく、「オープンデータ専業」の看板を掲げて収益を上げている企業はあんまり多くないように思います。Open Data 500にリストアップしている企業を調べる機会がありましたが、専業として商売が成り立っているのはSocrataぐらいではないでしょうか。OpenStreetMapの周辺ではいくつかの中規模企業が出現していますが、それとてOpenStreetMapに何らかの要素を加えて、付加価値を上げた製品にしているのが普通です。
政府系公共系のオープンデータは、スタートアップ企業が最初の商品・サービスの土台づくりのために使うには非常によいです。なにせ無料ですから。自分たちが商売を立ち上げようと思う領域で、ゼロからデータを揃えるのは大変です。そこでオープンデータのうまいデータセットがあれば、それを借用してきて、自社用の最初のデータセットとする。そこに試行錯誤と工夫を重ねて、色々なデータを付加していき、顧客がお金を出しても惜しくないと思うような商品・サービスに仕立てていく。オープンデータをビジネスにする場合は、そうした、データそのものの付加価値を上げる分別をしないとダメなのではないかと思います。
政府系公共系のオープンデータを使いつつも、自社のユニークな商品・サービスを仕立てる際に付け加えたいデータには、インターネットで公開されているウェブページ、PDFの類いがあります。これをデータとして取り込むのに不可欠なのがウェブスクレイピングの技術。
「スクレイプ」(scrape)とは、「こそげ取る」という意味合いです。ウェブスクレイピングでは、自分たちにとって意味のある文字列をウェブから抽出してきます。
先日の投稿で、Quid社のセマンティック−クラスタリング分析がすごいということを書きましたが、同社も分析の元データとしては、公開されているウェブページ、PDF、特許情報を使っています。顧客のオーダーが「○○分野の技術動向を押さえた上で、提携する価値のある企業を知りたい」というようなものだった場合に、○○分野に関する企業を粗々数千社選び出し、それらの企業のウェブサイトと、それらの企業に関する記事と、それらの企業に言及しているPDFと、関連の特許情報などを、スクレイピングで集めてきます。
集まったテキストデータベースに対して、セマンティックークラスタリング分析をかけ、結果をグラフとして表現するという流れになっています。
■スクレイピングの事業化例
このスクレイピングが、一部では商売になっているようで、以下のようなブログを見つけました。
Web Scraping: Startups, Services & Market
これによると、以下のような企業がスクレイピングを売り物にしているとのことです。
Grepsr
有料でクローリング(ボットを走らせてテキスト等を収集してくる)をしてくれるサービス。
import.io
ソフトウェアとして提供(現在は無料)。単一ウェブページの単一の表から構造化された表データを作成するExtracter、同一ウェブサイトの複数の指定したページから指定したデータのみを自動抽出するCrawler、指定したサイトの検索機能を使って得た検索結果を構造化データとして得るConnectorの3種類がある。
PromptCloud
顧客のオーダーによって、その都度、クローリングを設計し、構造化データとして提供。集まったデータが巨大になる場合には、同社サーバーでいったん預かってインデクシングを行い、検索可能な状態にしてくれる。
80legs
これもオーダーによってクローリングを行うサービス。多数の提携PCを使う。100万ページのクローリングを行う場合、月99ドル。
Scrapinghub
やはりオーダーに応じてクローリングを行うサービス。1万ページ1ドル、あるいはサーバー1台貸し切って月150ドル。
Mozenda
ユーザーが一度、自分でスクレイピングの仕方を指定すると、後は自動的に、指定したタイミングでスクレイピングを繰り返すサービス。商品販売サイトの指定ジャンルの価格変更などを定点観測するのによい。
スクレイピングには言うまでもなく著作権法に触れる可能性と、サイトごとに定めている利用規約に触れる可能性があるという問題点があるため、こうした企業が継続的にやっていけるのかどうかはわからないと言うしかないです。しかし、ビッグデータ分析が一般化してくると、「せっかくウェブは公開されているんだから、ウェブから有意なデータを取ってきて分析に使おう」と考える企業は増えてくるはず。例えばインドでは、ビッグデータ関連で、特定のジャンルのスクレイピングしたデータをAPI経由で売っている例があります。
上記のスクレイピングを防ぐ技術も商売になり始めているようです(distil、sentor、Firebladeの例)
有意な情報をたくさん持っているサイトは、ある種の条件を決めて、API経由でデータを売るなんてこともあってもいいのかも知れません。