インメモリという「ケタ違い技術」とそのさまざまな事例から、ゲームチェンジャーたちに共通するキーワードを探っていきます。

世界のがん研究機関と連携しゲノム/プロテオミクスの研究を加速するHANAヘルスケア・プラットフォーム

»

 

ホワイトハウス(アメリカ大統領府)の科学技術政策室(OSTP:Office of Science and Technology Policy)は2013年11月12日声明を発表し、「ビッグデータ関連の、アメリカ国民に資するイノベーティブなコラボレーション」を称賛した。

この中のひとつに、SAP、スタンフォード大学医学部、そしてドイツ国立腫瘍医療センター(NCT)による「Real-time personalized medicine(リアルタイム個別化医療)」プロジェクトが選出された。

OSTP Press Release
ホワイトハウス科学技術政策室のプレスリリース

■SAP HANAヘルスケア・プラットフォーム

各プロジェクトについては別紙 Fact Sheet で紹介されているが、下記にSAP関連部分を抜粋した(日本語訳は筆者による)。

 SAPと米スタンフォード大学医学部およびドイツ国立腫瘍医療センターは、リアルタイム個別化医療を”研究から臨床へ”※と加速しました。

 SAP HANAヘルスケア・プラットフォームは、研究者、病院、製薬会社および保険会社に対してがん患者の生態、生活および診療のデータを提供しています。それは予防、治療および健康維持をパーソナライズし、また薬の開発を疾患の状態に対してより精細にマッピングすることによって、患者の健康状態を最適化するためです。

 スタンフォード大学医学部のカルロス・D・ブスタマンテ教授の研究室との共同研究では、人種ごとのゲノムのばらつきが健康状態に与える影響を発見するため、研究者たちがSAPのHANAヘルスケア・プラットフォームを使ってリアルタイム分析を行っています。人種ごとのゲノムのばらつきのパターンが見つかれば、病気へのかかりやすさに遺伝子が与えている影響を特定するのに役立ちます。スタンフォード大学によれば、HANAヘルスケア・プラットフォームによるゲノムデータの分析速度は従来の17~600倍に達しており、この研究の成果は自閉症や循環器(心臓・血管)疾患など一般に関心の高い疾病に対する新しい治療法の開発につながると期待されています。

 また診療分野においては、SAPとNCT(ドイツ国立腫瘍医療センター)はSAP HANAベースの「メディカル・エクスプローラー」のパイロットを行っています。医師および研究者は、ゲノムおよび診療データをセキュアかつリアルタイムに分析し、がん患者ひとりひとりにマッチした診断と治療法の選択に役立てようとしています。第II相試験は2013年9月から開始され、発病リスクの予測および治験内容と患者のマッチングの向上に重点を置いています。

※”研究から臨床へ (bench to the bedside)”はがん研究で使われる用語。【参考リンク】 

この Data to Knowledge to Action というイベントの様子はYoutubeでも見られる。SAP関連プロジェクトについて言及されているのは下記(ほんの30秒ほど)。

Data To Knowledge to Action: Webcast Session 1, Nov. 12, 2013 (Youtubeで観る)

上記プロジェクトを含む SAP HANAヘルスケア・プラットフォーム は、SAPとハッソ・プラットナー(*1)が数年前から注力している、研究機関・大学・企業を巻き込んだ研究プロジェクトの総称である。

この内容について、世界保健サミットWorld Health Summit 2013)のビッグデータ・シンポジウムにキーノート・スピーカーとして招かれたハッソ・プラットナーの講演からご紹介しよう。

WHS 2013: "Big Data" Symposium feat. Hasso Plattner (Youtubeで観る)

(*1) ハッソ・プラットナー
Hasso_2SAPの共同創業者の一人。1997~2003年、SAPのCEOを務める。2004年、私財をもとにハッソ・プラットナー財団(HPI)を設立し、がん治療などさまざまな社会問題に精力的に取り組んでいる。ポツダム大学教授(コンピュータサイエンス)。スタンフォード大学d.school(デザインスクール)創設者でもある。 

----------------------------------

■ビッグデータの本当の課題は「大きさ」ではなく「速さ」

私はポツダム大学でエンタープライズシステムについて教えていますが、学生はせいぜい40~50人くらいです。しかもその何割かは、二度と現れません(笑)。しかしMOOCでやると、聴講者は15,000人。90ヵ国から。ポリネシア諸島からも1人います。このように、ITと通信のテクノロジーは世界と人々の生活を大きく変えてしまいました。

同様に、データをどのように蓄積し、活用し、そこから価値を生み出すか、についても、世界は大きく変わっています。今日はそのお話をしたいと思います。

下図にあるように、ヘルスケア分野はまさにビッグデータの代表格です。 

02たとえばヒトゲノムは1人あたり約800メガバイトあり、世界の研究機関が持つデータベースの合計はすでに15ペタバイトを超えています。

ヒトのプロテオーム(タンパク質)分析では1人あたりのデータポイントは1.6億個、2.4ギガバイトになり、(SAPとミュンヘン工科大学が行っている)「プロテオミクス・データベース」はすでに3.7テラバイトの大きさになっています。

診療情報システムでも、患者1人あたりのデータ量はしばしば50ギガバイトを超えます。

などなど、ビッグデータの「大きさ」については皆さんもよくお聞き及びのことと思います。しかし、ビッグデータ活用の課題は、大きさだけではありません。その処理の仕方や、ソースの多様性、だけでもありません。時間つまり「速さ」こそが決定的に重要なのです。

ヘルスケアの研究では、1日あたり何サイクル回せるか?によって、成果が大きく左右されます。同じ分析でも、1日1回の場合と1分に1回の場合では、そもそもやれることが変わります。

診療では、速さはさらに重要です。遅いシステムは苦痛です。われわれは相手から1秒以内にレスポンスがないと「もしもし、聞いてます?」と反応します。3秒間レスポンスがないと、この相手は反応する気がないようだ、と判断し興味を失い始めます。もし相手が「ちょっと待って、今考え中」と返してくれば少しは待ちますが、8秒過ぎるともう諦めて、そのタスク自体を誰かに丸投げするか、あるいはタスク自体を放棄して別の方法を考え始めます(笑)。

■学際コラボレーション、カギは「デザインシンキング」 

03スタンフォード大学デザインスクールは、ユニークな「デザインシンキング」(デザイン思考)という方法論を開発しました。

医学の世界でも、研究者、医療従事者、事務方はみな違う言葉をしゃべり、意志疎通すら思うように行きませんが、このシンプルな手法--Desirability(ヒトが欲しがるか)、Feasibility(技術的に可能か)、Viability(ビジネスとして成り立つか)の3つを兼ね備えたものを開発する--によって、それが可能になってきたのです。

医療の世界に比べれば、私がSAPでやってきた会計システムは、はるかにシンプルと言ってよいでしょう。1972年、私が一晩でコンセプトを理解し、1週間でデザインし、6か月でプロトタイプを作ったSAPの会計システムは、その後さまざまな拡張を行ってきているにせよ、世界的な大企業4万社以上で、今日も使われているのです。医療の世界ではそうはいきませんので、専門分野の高い知見と能力を持ったパートナーと組むことが必須になります。

われわれはこのように多くの有力な大学、研究機関、企業と連携してきました。

04_2

シャリテとの共同研究では、ハッソ・プラットナー財団とSAPが共同して「オンコライザー」というがん患者をモニタリングするシステムを開発し、のちにSAPがそれを商業化しました。患者6万人を対象としていましたが、この研究はその後NCTに引き継がれ、19万人を対象にフェーズ2を実施しています。

SAP HANA オンコライザー プロジェクトについてはこちらを参照。

■がん患者のデータを莫大な過去データとリアルタイムに対照、「パーソナライズ医療」への道を拓くベルリン医科大学
http://blogs.itmedia.co.jp/hana/2012/09/post-3d66.html

その他、スタンフォード大学のブスタマンテ教授や、ベルリン自由大学、ミュンヘン工科大学など多くの大学とともにCo-Innovationを行っています。

■インメモリDB、SAP HANA

データベース(DB)について少し触れます。SAP HANAは何が違うのか。

データベース技術は過去20年間、ほとんど変わっていません。オラクル、IBM、マイクロソフト、Teradata、そしてSAP自身もASEというリレーショナル・データベースを持っていますが、その中核コンセプトはほとんど一緒です。一方で最近はHadoopなどのデータストア技術も出てきました。

その中で2010年に発売されたHANAはインメモリ専用DB、つまりすべてのデータをメモリ上に載せて処理することを前提とした画期的な製品です。遅いハードディスクを使わないので、他のDBに比べ桁違いの速さでデータを処理することができます。

05ハードウェア面では、処理性能の向上と集積化が進んできました。今では1ノードあたり、10コアのCPUを16枚積んで160コアとし、メモリを4テラバイト積むことができます。これをHPIでは25ノード持っていますし、SAPはアメリカに100ノード持っています。

一般的なDBではデータを行で持っていますが、HANAはデータを列で持っています。この列ストアという技術自体は昔からあり、分析系システムでは以前から使われていますが、SAP HANAではこれをトランザクション系システムにも使えるようにしました。

たとえばF1レースでは、マシン1台あたり100個のセンサーが搭載されていて、エンジン温度などタイヤの消耗などを記録していますが、これをリアルタイムに分析するとどうなるでしょう?20台のマシンから伝送されてくるデータをリアルタイムに分析すると、コースを3周したところで、どのドライバーが勝つかがほぼ予測できてしまうことが分かりました。それで(F1主催者の)エクレストン氏はデータ公開を見送りました(笑)。

100個のセンサーからの情報はもちろん、少ない量ではありません。これをリアルタイムで分析できるのはHANAだけです。それ以前には不可能でした。しかし、人間ひとりの遺伝子情報と比べれば大したことはありません。

列ストアはデータ圧縮効率が高いという特徴があり、またHANAではインデックスも不要なので、データ量の圧縮にも役立ちます。メモリ上に列ストアされたデータは、数学的な演算には非常に向いており、一定時間内に大量のデータを処理することができ、あるいはより複雑なアルゴリズムを回すこともできるので、研究の効率が上がります。

列ストアだけでなく、画像やテキストなどの非構造化データも扱うことができますので、たとえばシークエンサーからのデータや医師からのコメントなどもまとめて高速に分析を行うことができます。

-----

ただし、SAP HANA は単なるデータベースではありません。コンピューティング・プラットフォームです。つまり、大量のデータをアプリケーション・サーバーに移送してそちらで演算させるのでなく、データベース側で高速に演算してその結果だけをアプリケーション・サーバーに返す、という使い方ができますので、さらに高速化が図れます。

06

ヘルスケア分野でよく使われるデータの持ち方や演算パターンをライブラリ化し、これをHANAヘルスケア・プラットフォームと呼んでいます。SAPはアプリケーションそのものを開発しているわけではありません。それは各パートナーの知見・知識に任せます。

すべてのデータをメモリ上にロードできない場合は、ディスク等のより安価だが低速なストレージからデータを取得(フェッチ)してこなくてはなりませんが、この取得速度についても従来の20倍ほどに改善されており、今後さらに倍々の改善が見込まれます。

さきほど、1秒・3秒・8秒の法則、をご紹介しましたが、最近はモバイル・デバイスについてもこれが言えます。もし1秒たっても反応が来なかったらみなさんはそのアプリをもう一度タップするでしょう。3秒たったら、iPhoneを振ってみるのでは。そして8秒たっても反応がなければ、iPhone自体を投げ捨てて、別の手段に移るでしょう。

■ゲノム研究-遺伝子変異分析

ゲノム研究では、さまざまなデータを異なるソースから持ってきて比較対照しますが、それに伴って大量の「データ移動」が発生します。データがアルゴリズムによって処理されて次のデータになり、それがまた次のステップで処理され、また次、次、と別のシステムに渡されていきますが、大量データの移動には長い時間がかかります。

われわれはこれをすべてHANAヘルスケア・プラットフォーム上で行うことで、分析スピードを圧倒的に高速化するとともに、データ移動を不要にしたいと考えています。

HANAヘルスケア・プラットフォームでは、まずゲノムのアラインメントに取り組んでみました。シーケンサーが速くなり、ヒトゲノムのデータがどんどん提供されるようになったので、そのアラインメントにHANAを使ってみたところ、従来の手法の22倍ほど速くなりました。世界最速をうたっている他社のさらに10倍ほど高速です。

次はゲノムの変異遺伝子の研究です。変異を知ることで、その人に向いたパーソナライズ医療や予防的医療に役立ちます。

ヒト一人の遺伝子は約22,000ありますが、遺伝子情報は32億文字に相当する膨大な量です。研究者たちは、大人数のヒト遺伝子を比較し、ある特定の遺伝子の変異状況から、人種ごとの発症リスクの特定に取り組んでいました。

08スタンフォード大学はHANAを使って、Varimed(*2)のデータを、1000人ゲノムプロジェクト(*3)の629人分のデータセットと照合しました。

2型糖尿病の発症と関連があると見られる遺伝子変異125個を特定し、この629人が2型糖尿病にかかる可能性を計算し、これを人種別に集計しました。

左のグラフはそれを示したものですが、2型糖尿病を発症する可能性はアメリカ大陸の人々が最も高く、東アジアの人々がもっとも低いことが分かりました。

1000人ゲノムのデータとVarimedのデータをジョインするような処理は、従来のデータベースでは非常に長い時間がかかるため、研究者は一度に分析する遺伝子変異を20以下に抑えます。100を超えるような遺伝子変異を同時に見るのはほとんど不可能でした。しかしHANAでは、125の遺伝子変異を629人分のゲノムと照合するのに、1分かかりませんでした。

(*2) Varimed  スタンフォード大学が所有する、遺伝子変異と発症に関するデータベース。9700の遺伝子における11万以上の変異を含んでいる。

(*3) 1000人ゲノムプロジェクト  多数の大学・研究機関で構成される国際コンソーシアムによる、ヒトゲノムを汎用データベースとして公開し、ゲノム研究の促進に役立てるプロジェクト。【参考リンク】 1000人ゲノムプロジェクト(Wikipedia)遺伝子研究にクラウドを利用:「1000Genomes」プロジェクト

■プロテオミクス研究

次はプロテオミクス(プロテオーム分析)分野です。タンパク質解析をベースとしたがん診断の研究をベルリン自由大学およびミュンヘン工科大学との共同で行っています。

09わずか血液1滴を解析するだけで、その人のタンパク質に関する”指紋”を取ることができ、これを多くのサンプルと比較することで、特定の疾病の発症しやすさ、たとえば肺がんを発症するリスクを早期に発見することができると考えられています。

しかしプロテオミクスは、非常の多くのデータを扱います。ヒト一人のデータポイントは約1.6億、2ギガバイトにもなります。こうした大量のデータをHANAヘルスケア・プラットフォーム上に持つことで、研究者は分析サイクルを従来より圧倒的に短い時間で回すことができます。

【参考リンク】プロテオミクス(プロテオーム分析)(Wikipedia)

いくつか画面イメージをご覧いただきましょう。 

1011

1213

1415 

1617 

【参考情報】 Proteomics DBサイト

Proteomicsdb

■診療分野-メディカル・エクスプローラー

研究分野に続き、診療分野をご紹介しましょう。まずはメディカル・エクスプローラーです。これは最初はシャリテ(ベルリン医科大学)で始まり、現在はNCT(ドイツ国立がんセンター)に引き継がれて、がん患者約19万人のデータを保有しています。

18ひとりのがん患者に関するデータは、たとえば医師によるカルテへの書き込み、バイオマーカー、治療履歴、細胞レベルでのデータ、などなど、多様なソース、多様なフォーマットに渡っています。これらを一元的に、かつサマリせず最大限の詳細度を保ったままで見られるようにする、のがメディカル・エクスプローラーの目的です。

以前はあらかじめデータセットをマニュアル作業で組み合わせてみてから分析するしかありませんでした。しかしHANAでは、データタイプの異なるビッグデータもすべてひとつのプラットフォームに載せ、ユーザーはそれらを自在に組み合わせて観察することができます。たとえば、「過去2年の間に抗がん剤治療を2回、3~6か月の間をあけて受けたことのある患者は誰?」といった探し方は、従来はできませんでしたが、このシステムを使えば、ある治験に参加可能な患者が誰なのか、何人いるのかをほぼ瞬時に知ることができます。

【参考情報】 SAP HANA at NCT(2分42秒、英語)(2014年5月30日追加)

ドイツ国立がんセンターにおけるがん治療への取り組みについての動画。

http://www.youtube.com/watch?v=Ggr2EhoYMkI

■メディカル情報コックピット

メディカル情報コックピット Medical Knowledge Cockpitは、あらゆる文献を瞬時に検索する検索エンジンです。とくに治験の検索でパイロットしています。

19治験はがん治療の研究において非常に重要なステップであるとともに、がん患者にとっても最新の治療法にいち早くアクセスできる貴重な機会です。

しかし治験の条件にマッチする患者を見つけるのは非常に手間のかかる作業です。被験者の募集はすでにデータベース化されているのですが、単純なキーワード検索しかできないため、「必須/除外条件」たとえば年齢、以前に受けた治療、特定の変異遺伝子、などコメントとして書かれているものをいちいち読んでで確認していかなければなりません。

HANAテキスト分析では、キーワード検索に加えて、こうした条件を加味した自動的な抽出が可能になりますので、すべての条件にマッチする治験だけがヒットし提示されます。たとえば主要な治験データベースのひとつ ClinicalTrials.gov には、現在被験者を募集している約15万の治験のうち約3万がリストされています。治験の場所、年齢、キーワードなどによる検索が可能ですが、「必須/除外条件」が使えないため、ヒット多数の治験のコメント欄を一つずつ読んで、その患者とマッチするかどうかを選り分けていかなければならず、場合によっては何日もかかる面倒な作業となります。

しかしわれわれのパイロットでは、ClinicalTrials.gov のデータをHANAにインポートし、対象となる遺伝子名、医療行為、開始・終了日、年齢、場所、性別、既往症、治療履歴などを加味して、適合度の高いものからランキングで表示することができました。これを使えば、医師は通常の診察の際に、その患者にもっとも適切な治験を提示することができるようになるでしょう。

■医療管理分野-処方データ分析

「処方データ分析」では、たとえば「偏頭痛」にどの薬が処方されたか?を分析します。

21たとえば専門知識を持つ脳神経科医は、一般の医師とは違う薬を出すかもしれません。HANAに患者約1000万人、医師約1万人、計15億件の処方データを持ち、SAP LumiraのUIを使うことで、データを1秒以内に検索しビジュアルに表示させることができます。これは以前であれば1時間以上かかっていたので、処方の際の参考にはできませんでしたが、1秒ならチェック替わりにも使えますよね。

-----

■HANAが実用化したプロジェクト

HANAによる効果の概要です。スピードアップとしては、処方データ分析では1時間が1秒になり、3600倍の改善。DNAシークエンスでは85時間が5時間に、17倍。プロテオミクス分析では15分が40秒に、22倍となっています

時間が短縮するだけではありません。メディカル・エクスプローラー、ゲノム分析、治験マッチング、プロテオミクスDB、大規模な比較分析などは、いずれも処理が速いことによって初めて実用的になったのです。

22 -----

最後に。こうした成果は、業界を超えた強力なパートナー同士のチームによって初めて実現しました。

SAPは世界的なソフトウェア会社であり、とくに企業向け大規模システムのリーダーです。
ハッソ・プラットナー財団はITシステムに関するアカデミックな研究機関。
スタンフォードのカルロス・ブスタメンテ研究室はヒトゲノムの、特に人種単位での研究に関する第一人者。
シャリテ(ベルリン医科大学)はヨーロッパ最大級の大学病院。
ドイツ国立がん研究センター(NCT)はがん研究・治療における世界的なリーダーのひとつです。

24

研究者はみな、時間に追われています。結果が1秒、3秒で返ってくれば、ではこのパターンではどうか、こうだったら、と第二第三の質問が次々に出てきます。とくにこのような多様なチームが参加していると、さまざまな仮説が浮かんできて、次々に議論が発展し、思ってもいなかったような結果が得られたりします。これこそがCo-Innovation、共同開発の意義なのです。しかしレスポンスが遅いと、皆それを待っていられず、他のテーマに向かってしまいます。スピードこそが、成否のカギを握るのです。

ぜひみなさんも、このネットワークに参加してください。本日はありがとうございました。

-----

ハッソ・プラットナー財団を核とする「HANAヘルスケア・プラットフォーム」の活動は今後も続いていき、門戸は誰にでも開かれている。ぜひ日本の医療研究機関からもご参加いただきたい。

 

※本稿は公開情報をもとに筆者が構成したものであり、OSTP、ハッソ・プラットナー財団、その他関係各所のレビューを受けたものではありません。

【参考リンク】

■SAP HANA for Proteomics for Personalized Medicine(動画、2分11秒、英語)
Kusterhttps://www.youtube.com/watch?v=ao4oStycKnw
ミュンヘン工科大学のカスター教授との共同で行っているプロテオミクス研究についての動画。

■Genome Analysis with SAP HANA(動画、1分30秒、英語)
Bustamontehttps://www.youtube.com/watch?v=U6dA41_ulxo
スタンフォード大学のカルロス・ブスタマンテ教授と、日本の三井情報株式会社 加藤CTOへの2つのインタビューを統合した動画。

■40万倍速のパワーで医療イノベーションに挑む - 患者様に高度な医療を(動画、3分04秒、日本語)
https://www.youtube.com/watch?v=GMjk39YcCmU
三井情報株式会社のバイオサイエンスに関する取り組みを紹介する動画。

□ビッグデータ解析でバイオサイエンスに新風を吹き込むMKIの挑戦(2012年4月20日)
http://cloud.watch.impress.co.jp/docs/case/20120420_526983.html

□バイオサイエンスの進化を支える新たなビッグデータ解析技術とは(2012年02月20日)
http://www.itmedia.co.jp/enterprise/articles/1202/16/news003.html

■Kicking Cancer With Technology
http://www.news-sap.com/sap-nct-cancer-research/
NCTにおけるがん治療への取り組みについての記事。

■SAP HANA for Healthcare
http://www.saphana.com/community/learn/solutions/healthcare
SAP HANAのヘルスケア関連の情報サイト。

■The White House Honors SAP, Stanford and NCT for Genomics Advances
http://www.forbes.com/sites/sap/2013/11/14/the-white-house-honors-sap-stanford-and-nct/
ForbesにSAPから寄稿している記事。2013年11月14日。

■eBook - Transform Your Big Data into Big Value
http://global.sap.com/community/ebook/2013_08_27547/enUS/index.html#/page/1
ヘルスケア業界向けの、SAPのビッグデータ関連の情報、取り組み、事例、ソリューションを集めたeブック。

-----2014年6月3日追記-----

■Mass-spectrometry-based draft of the human proteome
http://www.nature.com/nature/journal/v509/n7502/full/nature13319.html
イギリスの科学雑誌Natureに掲載された、ヒトたんぱく質解析、いわゆるプロテオーム分析に関する研究論文。(SAP HANA Healthcare Platformが貢献)

■'First drafts' of human protein catalogue published
http://www.bbc.com/news/science-environment-27592655
上記研究に関する、イギリスBBCの記事。 


 

Comment(0)

コメント

コメントを投稿する