「脱GPU」先として急浮上したGoogle TPU ~その実力と導入のハードル
生成AIがコンピューティングリソースを桁違いに要求するということは、このブログでも再三ご紹介しています。そのためにNvidiaのGPUの需要が急増して業績を押し上げ、ついにはNvidiaの時価総額は世界一にまで上り詰めました。しかし、そのような1極集中の状態は業界全体にとっては良いことではなく、Nvidia製GPUに代わるAIインフラの構築が急務とされています。このような状況下で、Googleが開発したAI専用半導体であるTPUが注目されています。先週、生成AI大手のAnthropicがGoogle TPUの利用を拡大するという報道がありました。
これに先立って、今年6月にはOpenAIもTPUの採用に関する発表を行っています。
NvidiaのGPUに代わる選択肢としては、同じくGPUのメーカーであるAMDが注目されてきました。つい先日もOpenAIとAMDの大型提携が話題になり、
このほかにも、Oracleとの契約もありましたね。
しかし、GPUはあくまでもグラフィックス用のアクセラレータであり、基本的にはAI「にも」使えるというスタンスです(事実上AIにしか使っていないわけですが)。このため、いろいろと「要らない」機能も含まれており、AIに最適化されているわけではありません。
そこで今注目されているのが、GoogleがAI「専用」に開発した半導体「TPU(Tensor Processing Unit)」というわけです。実はこのTPUについては、私も発表当時記事にしています。
TPU (Tensor Processing Unit) の論文を読んでみた ~何故 TPU は 8 ビットなのか~
TPUその後 ~ シストリックアレイがすごい ~
GoogleはTPUの改善を続けており、毎年バージョンアップが行われ、今では第7世代にまでなっています。最大の特徴は「シストリックアレイ」というアーキテクチャで、これはAI処理の大半を占めるテンソル(行列)演算を高速化するためのもので、とにかく行列演算の中核である積和演算「だけ」を行う仕組みになっています。
動作のイメージについてはGoogleの公式アニメーションもあるのですが、専門的でちょっとわかりにくいかも知れません。細部を端折って簡素化してみると、とにかく大量のデータを流し込んで、それがどんどん掛け算され足し合わされて結果が出てくる、という仕組みといえるでしょう。ピタゴラスイッチで、ボールがどんどん流れていって旗を立てたりいろいろなことを行う、というのにイメージは近いかもしれません。やることが決まっているので、プログラムという概念すら存在しない(最低限の制御機構はあるらしいですが)ということです。
とにかく、無駄を一切省いた設計となっているため、GPUよりもエネルギー効率やコスパが高いとされています。しかしGoogleはTPUをチップとしては外販しておらず、Google Cloudのサービスとして提供しています。冒頭の記事でAnthropicが「調達」とか「購入」と書いていないのは、クラウドサービスとしての利用が前提だからだと考えられます。
ただ、Nvidiaの強みは半導体だけではなく、CUDAという開発環境にもあります。現在のAIアプリケーションのほとんどがCUDAを使って実装されていますが、これを他社のプラットフォームに移行させるためにはそれなりの技術力と手間がかかります。このようにTPUを採用するためのハードルはありますが、それを乗り越える力を備えた企業は、選択肢を増やし競争力を高められる、ということですね。
