オルタナティブ・ブログ > 少しでもパラノイアになってみる >

知的好奇心を満たすために、いろいろなことにチャレンジする

ARMのMali-T604の可能性

»

ARMからMali-T604に関して説明会(ARM、GPU戦略と今後のロードマップを紹介)があったようです。そこでMali-T604の可能性に関して考えてみます。

ARM系チップに付属するGPUは、ARMから提供しているMaliシリーズ、PowerVR系、NVIDIAやQualcomm(AMDから買収したGPU)の独自GPU等が有名です。2012年にはWindows 8のARM版出荷時にはリッチなGPUも必要になります。Mali-T604はそのときに重要なパーツとなります。

Mali-T604のカタログスペックは68GFLOPSです。デスクトップPCのローエンドGPUであるRadeon HD 6450が200GFLOPSで、BobcatのGPU(Mobility Radeon HD 5430並)で88GFLOPSと言われています。

このため、2012年に登場予定のMali-T604の性能は手のひらに納まるデバイスに搭載されるとはいえ、PCから比べるとそれほど高性能ではありません。とは言え、モバイルデバイスには消費電力あたりの性能が必要なため、性能だけ比較しても意味がありませんが(Mali-T604の消費電力がでていないため比較できない)。

ですが、Mali-T604がモバイルデバイスだけに限定すべきでしょうか。Mali-T604はARM版Windows 8が普及する上では非常に重要な役割を果たすでしょうが、他の用途もあるのではないかと思います。

NVIDIAがエクサスケールのスパコンを作るうえで一番の問題は消費電力と言っています。現在の技術でエクサフロップ級を作ろうと消費電力が600MWを超えるそうです。スパコン業界は消費電力の壁に苦しんでいます。

モバイルも消費電力の壁に苦しみながら開発が進んでいます。実はお互いスケールは違っても同じ問題に取り組んでいます(現在の半導体の限界が関係していますが...)。モバイルデバイスのほうが消費電力あたりの性能に関しては、取り組み期間が長かったように見えるため一日の長があるように見えます。

Mali-T604のロードマップを見るかぎり、縦軸のスケールがいまいちわかりませんが性能アップを目指すように見えます。GPUはスケールアップしやすい製品の一つです(命令が並列化しやすいため)。NVIDIAやAMDはデュアルGPUの製品を作っていたり、PowerVRやMali-T604が1~4コアとなっているのもその証拠です。

このため、バス問題等をクリアになれば、Mali-T604をベースに非常に高性能なGPUを作ることができるのではないかと予想できます。それこそNVIDIAやAMDが作っている高性能なGPU並のものが。当然、ダイサイズが大きくなったりするため消費電力は決して少ないものではないでしょうが、ライバル(NVIDIAやAMD)よりも消費電力あたりの性能が効率的ならば売れる可能性は十分にあると思われますし、消費電力に悩まされているスパコン市場でも受け入れられる可能性もあると思っています。

ARMのターゲットがモバイルデバイスであり続けるとは到底思えません(そっちのほうが数が売れるためIPを販売しているメーカとしては効率的ですが)し、Cortex-A15でモバイルデバイスのチョイ上あたりにもターゲットになっているように見えます。

このため、Maliのシリーズが外付けGPUやスパコン向けの製品を出してきても驚くことはないでしょう。

Comment(1)

コメント

どうもはじめまして、かなり興味深い話題なので、自分の見方を述べさせて頂きます。


ARMの外付けGPU、およびそれを元にしたスパコンについては、殆どの着眼点はその演算性能でした。本文でのMali-T604は2Gpixel/s、78GFLOPSを発揮できるが、コメントの現時点ではMali-T658も発表されており、最大構成の演算性能では5Gpixel/s、350GFLOPSまで迫ってます。こういう高性能でも1wに抑えられるなんで、いろんな意味でナンセンスだな、と思われてしまうが、それは限定的な範囲で発揮できるもの、と認識してます。


スパコンは極めて大きいデータセットをアクセス必要がありますので、メモリー帯域と性能は非常に重要です。NVIDIAとAMDが代表する外付けGPUは、極めて大量のマルチスレッドで数百サイクルのメモリー遅延を隠蔽する仕組みを備えてますが、ARM MaliとPowerVR SGX系については小規模に止まってます。


理由は、SoCをメインにしたモバイルGPUは、SoC内蔵用のため、比較的大規模なLLC(ラストレベルキャッシュ)を備えてます。例えばA4は512KB,Exynos4210とA5は1MBを備えてます。キャッシュまでの遅延は数サイクル程度、キャッシュミスが発生してメモリーからロードすることになります。そしてつかったLP-DDR2とDDR3のクロックも省電力のために抑えており、遅延はそんなに大きくない。


ARMのMali最適化ガイドでは、メモリーアクセスの代償のに性能以外、電力消費までも考えに入る必要があるため、Maliは小さいデータセットに最適化していたことを意味してます。言い変われば、あのGPUはキャッシュ内だけ、強力の演算性能を発揮させると思います。それでもここまで強力の演算性能を備えさせる理由は、OpenCLでイメージプロセッサー、DSPなどの代用と統合に関係してると思います。


350GFLOPSのものの演算性能を比較的大きいデータセットで発揮させるには、まずオフチップのメモリー帯域を十分に備えさせる必要がありますが、SoCは今のところ2ch DDR2/DDR3しか備えてません。帯域は圧倒的不足してます。無論モバイルSoCのこれからの進化によって、WideIOなどの技術を備えるようになることで対応できるはずですが、それでもNVIDIAとAMDのような演算性能対メモリー帯域の比率は10:1くらいまでの現状は厳しいでしょう。


メモリー帯域、データセットのサイズ。PowerVRとMali系GPUの低消費電力の代償はまさにそこです。オフチップのアクセス能力は、すなわち消費電力の増大につながります。一般的なモバイルゲームのデータセットはPCと比べるとかなり小さいし、急激に大きくなる理由もまた見当たりません。


一つの理由は、モバイル端末は殆どフラッシュメモリーを使ってるので、読み出しの遅延はHDDより小さいため、メモリーフットプリントも制限される上に、MegaTextureRのようなバーチャルテクスチャー技術の利点が見えます(Rage for iOSがオススメです)。今のところモバイルゲームにPCに迫る表現力は備えていませんが、進化させる方向性ではこれらのアーキテクチャの特性に含まれると推測されると自分が思う。


ゲームは無論大きいな市場ですが、PCから主流ゲーム市場を転移させるため、またまた努力する必要がたくさんあります。それに、これからx86はサーバーCPUの成分がいまより増えるため、ある時点でクライアント用のCPUの価格はいまより高くなり、市場の主流クライアント用ハードは殆どARMに移転させる様になると思う。まさしく以前RISC CPU時代で発生した下克上の再現です。


ただ、クライアントハードにモバイル成分が必須になると、消費電力は今より厳しく、ディスクトップ用がではないと現存GPUのような大規模マルチスレッド構造は難しいと思う。NVIDIAのDenver計画はそこを狙ってるではないかと。

コメントを投稿する