オルタナティブ・ブログ > ヨロズIT善問答 >

30年に渡って関わってきた米国のITの出来事、人物、技術について語る。

データ・サイエンティストになるにはどうすべきか?

»

Big Data、analyticsとデータサイエンスという言葉は大流行だ。その定義も例も良く分からない。昨年analyticsの会社のinfochimps社のCEOのJim Kaskade氏に良く分からない状況をぶつけてみた。あまりにも初歩的、しかし皆が知りたいところを聞いてみた。ところで、infochimps社はこのインタビューの後CSC社によって買収された。元のインタビューは英文でもう少し詳細であるが、日本語版ではデータサイエンスの部分に特化して書き直している。

infochimps-1.jpg

Jim Kaskade氏

Analyticsを活用する前にすること
Infochimps 社はBig Dataを収集してそれにanalyticsを適用して有益な情報を引き出すための製品とサービスを提供している。バッチであるHadoopによる解析の 上にストリーム解析もStormを使用して行っている。ここで、質問。クライアントは様々な産業でデータの解析を行っている。同じシステムや解析アルゴリ ズムが普遍的に適用できるのだろうか。それぞれ、全てについて個々に設定しなければならないのではないのだろうか。

しかも、それぞれの産 業やそれぞれの会社で必要されるデータや情報を理解するには、専門知識が必要ではないのか。そんなに多くの分野の専門家を抱えているのだろうか。更に、必 要なデータを全て収集しているのだろうか。大体どのデータをどの程度集めればよいのか分かっているのだろうか。もし、新たなデータが必要なら、新たなコン ピューターのハードやソフトが必要とされるかもしれない。こういったことも、infochimps社はまとめてサービスの中で提供するのであろうか。

これに対して、Kaskade氏 は以下の様に説明してくれた。 実際のサービスの流れは以下の図のようになる。

infochimps-2.gif

Analyticsを活用する際のプロセスの流れ

実 際にどのような情報が必要かを話す前に、business discoveryと呼ばれるプロセスを経ることになる。このプロセスではビジネスに関する問題を話合う。これは、実際にカスタマーがビジネス上何をどの 様に行うのかを議論して、どのような問題を解決しようとしているのかを話合う。

ビジネスを理解してから、解決しようとしている問題に必要 な情報を話し合う。そして最後にこの2つのプロセスを基にアーキテクチャーを決定する。その辺りはBig Dataのインテグレーターが引き受ける。たとえば、新規でこれに特化した以下のインテグレータなどだ。ThinkBig Analytics、 Zaloniや Cloudwickまたは、大手の以下の様なSIだ。 CSC、Wipro、CapegeminiやAccentureだ。こう言ったインテグレーターはそれぞれバーティカルの市場への専門知識があり、広範な 産業に適用することができる。更に、新たなコンピューターシステムが必要であればそれを指摘して、調達することも容易となる。

データサイエンティストになるには?
このインタビューの少し前のセッションで、Kaskade氏はD.J. Patil氏をインタビューして、どうしたらデータサイエンティストになれるかを聞いていた。 Patil氏はベンチャーキャピタルのGreylock Partnersのdata scientist in residenceで、Linkedinの以前のHead of Data Products、Chief ScientistとChief Security Officerを兼務していた。2人はデータサイエンティストに必要な資質に関して議論した。 でも、具体的にどうすれば良いのか。

infochimps-3.jpg

D.J. Patil氏 (左) とJim Kaskade氏 (右)

ま ずは、データサイエンティストになるにはどうすれば良いかと聞いてみた。そうしたら、このセッションで話合われたような具体性のないものであった。つま り、プログラミングの技を磨けとか、どんなことにでも興味を抱けだの、質問を多くしろとか。これでは具体性に欠ける。それで、もっと具体的に答えて貰える ようにお願いした。
そうすると以下の回答を得た。HadoopとStorm をダウンロードしてインストール、Ironfanをオーケストレーションに使用

  • MapReduce、 PIG,、Hive,、WukongやTridentを使用して理解を深める
  • スクリプト言語のPython、 Rubyや PHPをマスターする
  • 以下の簡単なanalyticsのアルゴリズムをマスターする。Naïve Bayes、logistic regression、linear regressionやhierarchical clustering。

大部分のものはオープンソースで無料で入手できる。さあ、もう言い訳はできない。貴方もデータサイエンティストにならないか?

Comment(0)