オルタナティブ・ブログ > 経営者が読むNVIDIAのフィジカルAI / ADAS業界日報 by 今泉大輔 >

20年以上断続的にこのブログを書き継いできたインフラコモンズ代表の今泉大輔です。NVIDIAのフィジカルAIの世界が日本の上場企業多数に時価総額増大の事業機会を1つだけではなく複数与えることを確信してこの名前にしました。ネタは無限にあります。何卒よろしくお願い申し上げます。

ソフトバンク国産AIサーバー開発の基礎知識 : NVIDIA系GPUサーバー主要各社の戦略

»

Sattsu-character.img16_9.jpg

↑独特の筆致に味があるアナログイラストはさっつーの作者ソラガスキが制作。

ソフトバンクが国産AIサーバーを開発することが発表されました。NVIDIAやFoxconn(鴻海精密工業)と協業することが報じられています。

Seizo Trend: ソフトバンクが国産AIサーバー製造へ、米NVIDIAや台湾のFoxconnと協議 - 国内完結型の「ソブリンAI」戦略を加速 - (2026/5/12)

さて、どのようにすればソフトバンクが国産AIサーバーを製造販売できるのでしょうか?それを理解するカギになるのが、既存の主要AIサーバー = GPUサーバー各社の事業展開がどうなっているか?を理解することです。

以下のレポートは2025年3月中旬に作成したものですが、GPUサーバーの中身のAI半導体は今でもNVIDIA Blackwell系。全く古くなっていませんので、このレポートをお読みになって、ソフトバンクが計画していることを推察してみてはいかがでしょうか?50本近い英文資料を取りまとめています。

関連投稿:

NVIDIAのAIデータセンター事業の研究。脅威の営業利益率60〜70%を叩き出す構造

ソフトバンク国産AIサーバー開発の基礎知識 : NVIDIA系GPUサーバー主要各社の戦略

ハイライトの引用

2. Blackwellプラットフォームの構造:GB200/GB300 NVL72

2.1. ラックを一つのGPUとして定義するNVL72アーキテクチャ

Blackwell世代の主力製品であるGB200およびGB300 NVL72は、36基のGrace CPUと72基のBlackwell GPUを単一のラックに統合した、完全液冷式のプラットフォームである 5。第5世代のNVLink Switch Systemにより、ラック内の全72基のGPUが広帯域・低遅延で相互接続され、全体で「1.4エクサフロップスの演算性能を持つ巨大な単一GPU」として機能する 4

このアーキテクチャの核心は、130TB/sに達するNVLink帯域幅にある。これにより、混合精度(Mixed-precision)トレーニングや、Mixture-of-Experts(MoE)モデルにおける頻繁なオールツーオール通信を、ネットワークアダプタを介さずにラック内で完結させることができる 9

2.2. コンピュート・トレイとスイッチ・トレイの詳細構成

DGX GB200/GB300ラックの内部構造は、高度にモジュール化されている。

  • コンピュート・トレイ: 1Uサイズのトレイに2基のGrace CPUと4基のBlackwell GPUを搭載する 10。Grace CPUは72個のArm Neoverse V2コアを持ち、GPUとはNVLink-C2Cで接続されている。この構成により、CPUメモリ(LPDDR5X)とGPUメモリ(HBM3e)がコヒーレントに統合され、大規模データの処理を効率化している 6
  • NVLinkスイッチ・トレイ: 各ラックに9基のスイッチ・トレイが搭載され、合計18基のNVSwitchを構成する 11。各スイッチは72個のNVLinkポートを持ち、200Gbps(SerDes)のシグナリングレートで動作する 10
  • 物理インターコネクト: ラック背面には1,728本の銅製Twinaxケーブル(長さ最大2m)が張り巡らされており、光トランシーバの消費電力を排除しつつ、極低遅延なインターコネクトを実現している 10

目次(レポート本体は「さっつーのAIエージェント:監修 今泉大輔」にあります)

  1. 1. 市場動向とアーキテクチャの進化:HopperからBlackwellへ
    1. 1.1. GPUサーバー市場の急成長とNVIDIAの独占的地位
    2. 1.2. Hopper世代の成果とBlackwellへの技術的飛躍
  2. 2. Blackwellプラットフォームの構造:GB200/GB300 NVL72
    1. 2.1. ラックを一つのGPUとして定義するNVL72アーキテクチャ
    2. 2.2. コンピュート・トレイとスイッチ・トレイの詳細構成
    3. 2.3. Blackwell Ultra (GB300) の戦略的意義
  3. 3. インフラ要件:電力デリバリーと液体冷却(DLC)
    1. 3.1. 120kW超のラック電力密度と受電トポロジー
    2. 3.2. 液体冷却(Direct-to-Chip)の強制化
    3. 3.3. 日本国内での実装における建築的制約
  4. 4. AIクラスタのネットワーク構造とインターコネクト
    1. 4.1. 三層ネットワーク・スケーリング
    2. 4.2. InfiniBand vs Spectrum-X Ethernet
    3. 4.3. BlueField-3 DPUとConnectX-8 SuperNIC
  5. 5. 主要ベンダー4社の戦略分析
    1. 5.1. NVIDIA:垂直統合によるAI Factoryの提唱
    2. 5.2. Supermicro:柔軟なBuilding Blockと驚異的な納品スピード
    3. 5.3. Dell Technologies:エンタープライズ統合とAI Data Platform
    4. 5.4. HPE:スーパーコンピューティングのDNAと完全液冷
  6. 6. 実装における技術的詳細と運用のベストプラクティス
    1. 6.1. 電気設備設計の再定義
    2. 6.2. 液体冷却システムの保守・運用
    3. 6.3. ソフトウェア・オーケストレーション
  7. 7. 結論
  8. 引用文献
Comment(0)