オルタナティブ・ブログ > 経営者が読むNVIDIAのフィジカルAI / ADAS業界日報 by 今泉大輔 >

20年以上断続的にこのブログを書き継いできたインフラコモンズ代表の今泉大輔です。NVIDIAのフィジカルAIの世界が日本の上場企業多数に時価総額増大の事業機会を1つだけではなく複数与えることを確信してこの名前にしました。ネタは無限にあります。何卒よろしくお願い申し上げます。

NVIDIA Jetson Thor:自律ロボットの"学習"の大部分が不要になる「オンボード・リーゾニング」。ロボット産業は自動車業界超え

»

NVIDIAのロボット用エッジコンピュータであるJetson Thorが公開されました。

予想通り、ヒューマノイドに搭載される高性能のエッジコンピュータ=脳でした。

しかし細部を吟味すると、脳に止まらない数々の新しい技術的枠組みが提案されています。センサーからの入力をリアルタイムで脳に回してとっさに判断する...といった枠組みです。(末尾の技術詳細参照)

スクリーンショット 2025-08-27 5.12.03.png

NVIDIA Jetson Thor が登場しました!

この強力な新しいロボティクス用コンピュータは、製造、物流、建設、医療など、次世代の汎用ロボットや ヒューマノイドロボット を動かすために設計されています。

これは フィジカルAIにおける大きな飛躍 です。

早期導入企業には、
@agilityrobotics
@amazon robotics
@BostonDynamics
@CaterpillarInc
@Figure_robot
@HexagonAB
@Medtronic
@Meta
が含まれています。

Jetson Thorの直接的なインパクト:ヒューマノイドの学習の大部分を簡素化できる

昨日の早朝から先ほどまで、色々考えたり調べたりしていました。

昨日時点でnoteに上げた投稿が以下。ジェンセン・フアンが「50兆ドル規模」だと言及したフィジカルAIの経済インパクトがいよいよ現実のものになる決定的なきっかけが、NVIDIA Jetson Thorというハードウェアの出現です。

note投稿:【フィジカルAI投資研究室】発表されたばかりのNVIDIA Jetson Thorの経済インパクトは時価総額4倍増

4倍増と言っているのは、NVIDIAそのものではなく、すでにNVIDIA技術スタックを使ってヒューマノイドなどロボット製品を開発販売している企業群の時価総額、未公開の場合は評価額が4倍増になるインパクトを秘めているという意味です。具体的には、Figure AI1X TechnologiesBoston Dynamics。最近見つけた新顔では台湾のTechman Robotics。

こうしたNVIDIA技術スタックを使って自律ロボットを既に開発している企業は、Jetson Thorを頭脳として載せ替えることで、「事前学習」のかなりな部分が不要になる、つまり自社にとってのブルーオーシャンを加速度的に進んでいくことができるようになります。

追記。この辺、舌足らずだったので技術的に不正確にならないように補足します。

1. 不要化・負担減が期待される学習領域

(1) 個別タスクごとの模倣学習

  • 従来:人間が一つ一つのタスクをデモして記録し、ロボットに「こういう状況ではこの動作」と覚え込ませる必要があった。

  • Jetson Thor:

    • **大規模推論(Vision-Language-Actionモデル)**をオンボードで常時実行可能。

    • 未知の状況でも、言語・視覚の理解から「その場で動作を合成」できる。
      → 逐一タスクごとに模倣学習を繰り返す負担が軽減される。

(2) シミュレーションでの"細かすぎる動作学習"

  • 従来:Sim2Realのために、仮想空間で膨大なシナリオを再現し学習させる必要があった。

  • Jetson Thor:

    • 高密度センサーデータ処理+リアルタイム推論で現場の変化に即応可能。

    • 「すべてのシナリオを事前にシミュレーションで網羅」する必要性が下がる。
      → シミュレーション準備コストの削減につながる。

(3) 現場適応のための追加学習

  • 従来:新しい現場(工場ライン変更、建設現場のレイアウト変更など)に合わせて再学習が必要。

  • Jetson Thor:

    • Holoscan+マルチセンサー処理で、その場の環境を理解・統合。

    • 推論で新環境に即時適応。
      → 現場ごとに再学習する必要性が減少。

2. 不要にはならない学習領域

  • 基盤モデルの事前学習:
    視覚理解・言語理解・基本運動プリミティブなどは、依然として大規模データでの事前学習が不可欠。

  • 安全クリティカル動作の検証学習:
    衝突回避・人間とのインタラクションなど、安全認証に直結する部分は学習・テストが必須。

3. ロボット開発がどう効率化するか

  • データ収集の負担減:タスクごとの模倣データやシミュレーションデータを膨大に集める必要が少なくなる。

  • PoCから実装までの期間短縮:現場で「試して即動かす」が可能になり、実装までの反復スピードが加速。

  • スケーラビリティ向上:異なる環境や用途に展開するときも、再学習コストが大幅に減り、同じモデルを横展開しやすい。

従って、上記のFigure AI、1X Technolgoies、Boston Dynamics、台湾のTechman Roboticsなどは、これまでにも増して加速がついた性能向上ができるようになります。非NVIDIAスタックのロボット、代表例はTeslaのOptimusおよび大半の中国の軍事転用可能なヒューマノイドとの性能の差は誰が見てもはっきりとわかるほどになります。(中国のバク転でアピールするヒューマノイドは、それだけ"脳"が弱い、つまり人間が行っている細やかな作業はできないということを意味しています。)

オンボード/オフライン/リアルタイムでリーゾニングができるということは、簡単に言えば、ChatGPTが個々のロボット機体の中で動いている状況です。低レイテンシ、実質的にはリアルタイムで思考内容がアクチュエータ等に伝達できます。ロボットの基本動作は当然ながら事前学習が必要ですが、その場その場で判断が求められる状況ではある意味人間以上に優れた頭脳ハードウェアであるJetson Thorが人間のように瞬時に頭を働かせ瞬時に的確な動きをします。現実的には今開発されたばかりのJetson Thor搭載ロボットは不出来な部分がある程度あるでしょうが、1年か2年経てばその性能向上ぶりは目を見張るものになります。

以下でChatGPTに書かせた性能分析を展開しますので、技術的なディテールはそちらをご覧ください。

ドローン、農業機械、建設機械などにもJetson Thorが搭載され自律的に動くようになる

事は、ヒューマノイド/ヒト型ロボットやその他のロボット形状のロボットに止まりません。

Xで先ほど見た投稿(ロボティクスのアナリストによる)では、ドローンにJetson Thorが搭載されて自律的に動くようになることで拡大する経済的そして軍事的ポテンシャルを指摘していました。また、農業機械や建設機械でも同様にその場その場で判断できる高度な自律性が、たとえ数年かかるにしても、新しい経済圏を形作ることは確実です。これがジェンセン・フアンが言っていた「フィジカルAI」。つまり、ハードウェアとして触ることができて、人間に意味のある仕事をする機械が、高度なリーゾニングができるAIコンピュータを搭載することで開かれる新しい経済の地平です。それが50兆ドルの規模を持つと言っているのです。

関連投稿:NVIDIA CEOジェンセン・フアンの"7500兆円規模"「フィジカルAI市場」が日本の製造業に与えるインパクト

私はある所で書きましたが、フィジカルAI関連銘柄だけ集めた証券取引市場があればNASDAQの総額をすぐに追い越すだろう...そういう経済的なインパクトがあります。販売されることになる機体の数が根本的に違うのです。

日本企業はどうすればいいのか?

まず、ロボット開発の世界は、NVIDIA技術スタックの上で展開する行き方と、そうでない行き方に二分されます。前者の方が「圧倒的に早いプレイヤー」になります。そのことは重々認識しなければなりません。現在行っている投資、これから予定している投資も、前者と後者をよく吟味して、再配分すべきだと思います。場合によってはサンクコスト扱いにして新しいNVIDIA技術スタック開発を即、始めるべきです。そうでないと既に彼我の差がものすごいことになっている欧米勢との間で、さらに開発速度の差がつきます。開発速度が遅いということは市場で誰も買わないロボットになるということです。Figureなどのロボットを輸入して使った方が早いということになります。

現状日本でNVIDIAスタックを使ってヒューマノイド等のロボットを開発している企業は皆無に等しい...実は発表されていないだけでトヨタ、安川電機、川崎重工などでは相当に進んでいる可能性はあります。(2025/8/28追記。スタートアップのHighlandersがNVIDIA認定のスタートアップになったそうです。建設現場で活用できるヒューマノイドを爆速で開発しています)しかしそうでない所は...。海外企業の買収しか選択肢はないと思います。どこが適しているか等は調査しなければなりません。台湾、韓国で良い企業があります。米国にも未だ知られていないものすごいポテンシャルがあるロボティクス企業があります。調査が必要です。

UnitreeのG1を買ってきて二次開発するやり方もあります。しかしロボティクスとAIの双方をカバーできるエンジニアは圧倒的に不足しています。NVIDIAの最新技術スタックを組み込んで...という所に行くまでに2年はかかるでしょう。エンジニア不足を根本から解決する方法論が開拓されなければなりません。小職が少し前に提案した中国のトップ大学から優秀なIT人材を連れてくる方法は、依然として有効だと思います。年収は日本人の最低で2倍、場合によっては4倍支払わないと彼らは来ないです。

インド人材も魅力でしょう。誰かが道を作らないといけません。

【記事続きへ↓】



【セミナー告知】
【オンライン】外注コストを年間1,000万円節減できる!ChatGPT5を駆使した海外市場調査

【主催】一般社団法人 企業研究会
【講師】
インフラコモンズ代表 リサーチャー AI×経営ストラテジスト 今泉大輔
【開催にあたって】
最新版のChatGPT 5(有料版)の調査能力と報告書執筆能力は、長年海外調査業務に携わってきた小職の目から見て群を抜きます。わかりやすい比喩で言えば特定の技術分野に精通した博士号取得のシンクタンク主任研究員をかなり上回る程度にまでなっています。彼らの人件費は1,200万円超。それ以上の能力を持つAIがあなたのそばにいる...ということになります。
ChatGPT 5(有料版)の活用ノウハウを知れば、1本300万円~500万円程度の海外市場調査をラクにこなすことができるようになります。しかもかかる時間は最大で1時間。無料版と有料版の違い、社内で利用するにはどうすればいいか?など実践的なノウハウを含めてお伝えします。
【対象】
経営企画部門、新規事業開発部門、マーケティング部門、グローバル事業部門の方など
【日時】
2025年 12月 1日(月) 13:30~16:00  
【受講形態】
オンラインZoomで受講していただけます。会場開催はありません。
【詳細/料金/お申し込み】
一般社団法人 企業研究会サイトをご覧下さい。
【内容】
調査の切り口に着目した分類
A.言語
 その国の媒体。新聞等ネットでアクセスできる中国語資料(政府資料含む)、
 ドイツ語資料、フランス語資料、ロシア語資料、ウクライナ語資料、など 
 ◆例題:「台湾華語」の新聞・資料により世界最大の半導体製造会社TSMCの過去1年の動きを知る

B.期間
 直近1週間、過去3ヶ月、過去1年、過去5年 
 ◆例題:国内半導体製造装置メーカーの競合として、米国アプライドマテリアルズの過去5年の動きを知る 
 ◆例題:米国株式市場の昨日の動きを知る

C.細分化された市場
 マレーシアの飲料市場、英国のラーメン店出店状況、東アフリカ諸国の自動車流通、アジアのイスラム諸国におけるハラル化粧品市場など
 ◆例題:マレーシアにおける非アルコール飲料の市場 
 ◆例題:英国におけるコールドチェーンの現況

D.制度 EU規制の個別制度調査
 ◆例題:EU AI法は現在どうなっているか? 
 ◆例題:ガソリンエンジン車を2035年までに全廃するEU規制の大枠を知る

E.個別の企業に関する調査、自社にとっての競合 
 ◆例題:欧州の民生用健康機器市場、主なプレイヤー
 ◆例題:米国の木造住宅建設の主なプレイヤー

F.潜在提携先及びM&A候補
 ◆例題:ドイツのロボティクス企業のうちM&A対象になる企業をスクリーニング 
 ◆例題:欧州の半導体製造装置会社のうちM&A対象になりうる技術を特定した上で、その企業の買収金額を試算

G.海外進出準備、海外の工業団地
 ◆例題:インドの工業団地進出、インド政府の生産連動型優遇策(PLI)政策の概要を知る

【本セミナーはZoomを利用して開催いたします】


【記事続き】

Jetson Thorの詳細な技術分析

ChatGPT 5にNVIDIA公式の技術紹介ページを読ませた上で以下を生成しています。5は、自律的に関連技術ページを広域で探索して以下のディテールを理解し、要約して記しています。人間が行うと2日はかかる作業です。

何が"新しい"のか

  • ヒューマノイド級の推論をエッジで回せる:最大 2070 FP4 TFLOPS128GB LPDDR5X、可変 40-130W。AGX Orin比 7.5倍のAI演算3.5倍の効率で、クラウド往復なしの大規模モデル推論を前提化。NVIDIANVIDIA Newsroom

  • 「学習→推論」の境界を曖昧に:GR00T(基盤モデル)× Blackwell の低精度FP4トランスフォーマ推論=その場で知覚→理解→行動合成(VLA系)を目指す設計。事前学習は残るが、現場での"追加学習要件"が大幅に減る方向。NVIDIA NewsroomarXiv

  • I/Oとソフトの"実運用力"を一気に底上げ4×25GbEカメラ・オフロード・エンジン、MIG、Holoscan Sensor Bridge(Sensor-over-Ethernet)まで含む"配線から制御まで"の実装パスを用意。NVIDIA+1

技術の柱(公式ページの内容から)

  1. Blackwell GPU × MIG
    96 Tensor Core世代、MIGで推論ワークロードを分割(例:ロコモーション、マニピュレーション、言語計画を独立運用)。FP4対応で大規模VLM/VLAのエッジ常時稼働を前提に。NVIDIA

  2. Arm Neoverse-V3AE(14C/12C)
    リアルタイム系の制御・スケジューリングをCPU側に逃がし、GPUで推論を張る構図。制御ループの決定性確保に寄与。NVIDIA

  3. マルチセンサー取り込み
    4×25GbEやQSFP経由の多カメラ、MIPI CSI、カメラ・オフロード・エンジン高密度・低遅延のストリーミング。センサー・フュージョンをHoloscanで統一管理。NVIDIA+1

  4. ソフト統合:GR00T / Isaac / VSS / Holoscan

    • GR00T:ヒューマノイド向け基盤モデル+データパイプライン。シム/実機の往復を前提に"総合力"を付ける。NVIDIA Newsroom

    • VSS(Video Summarization & Search):空間的知能=長時間動画の理解・要約・検索をエッジ側で。現場ログ→即時フィードバックが可能に。NVIDIA

    • Holoscan Sensor Bridge:マルチセンサーをSensor-over-Ethernetで標準化、実装と保守の負担減。NVIDIA

"学習不要"に近づくメカニズム

  • VLA(Vision-Language-Action)系モデルをThor上で常時稼働 → 視覚と言語の理解から行動トークンを直接デコード。未知状況でも**"ゼロからの行動合成"が推論で可能**な範囲が広がる。ウィキペディアarXiv

  • ただし完全な"無学習"ではなく、基盤モデルの事前学習+軽量適応(PEFT/LoRA/行動プリミティブ)は残るのが現実路線。ThorのMIGで局所適応用の小モデル全体計画用の大モデルを同居させる設計が実務的。NVIDIA

産業インパクト

  • 導入までの時間短縮:従来の大規模模倣学習やシミュレータ整備の負荷を**"推論で穴埋め"できる領域が拡大。PoC→現場実装までの反復が速い**。NVIDIA Newsroom

  • 現場適応力:建設・物流・製造の**"現場の揺らぎ"に強い。長時間動画(VSS)からの即時ナレッジ化**で、毎日のライン変更にも追従。NVIDIA

  • TCO:エッジ推論でクラウド依存を縮小、通信費・遅延・停止リスクを圧縮。保守はHoloscanで標準化し、センサー多様化にも耐性。NVIDIA

Comment(0)