NVIDIA Jetson Thor:自律ロボットの"学習"の大部分が不要になる「オンボード・リーゾニング」。ロボット産業は自動車業界超え
NVIDIAのロボット用エッジコンピュータであるJetson Thorが公開されました。
予想通り、ヒューマノイドに搭載される高性能のエッジコンピュータ=脳でした。
しかし細部を吟味すると、脳に止まらない数々の新しい技術的枠組みが提案されています。センサーからの入力をリアルタイムで脳に回してとっさに判断する...といった枠組みです。(末尾の技術詳細参照)
NVIDIA Jetson Thor が登場しました!
この強力な新しいロボティクス用コンピュータは、製造、物流、建設、医療など、次世代の汎用ロボットや ヒューマノイドロボット を動かすために設計されています。
これは フィジカルAIにおける大きな飛躍 です。
早期導入企業には、
@agilityrobotics
@amazon robotics
@BostonDynamics
@CaterpillarInc
@Figure_robot
@HexagonAB
@Medtronic
@Meta
が含まれています。
Jetson Thorの直接的なインパクト:ヒューマノイドの学習の大部分を簡素化できる
昨日の早朝から先ほどまで、色々考えたり調べたりしていました。
昨日時点でnoteに上げた投稿が以下。ジェンセン・フアンが「50兆ドル規模」だと言及したフィジカルAIの経済インパクトがいよいよ現実のものになる決定的なきっかけが、NVIDIA Jetson Thorというハードウェアの出現です。
note投稿:【フィジカルAI投資研究室】発表されたばかりのNVIDIA Jetson Thorの経済インパクトは時価総額4倍増
4倍増と言っているのは、NVIDIAそのものではなく、すでにNVIDIA技術スタックを使ってヒューマノイドなどロボット製品を開発販売している企業群の時価総額、未公開の場合は評価額が4倍増になるインパクトを秘めているという意味です。具体的には、Figure AI、1X Technologies、Boston Dynamics。最近見つけた新顔では台湾のTechman Robotics。
こうしたNVIDIA技術スタックを使って自律ロボットを既に開発している企業は、Jetson Thorを頭脳として載せ替えることで、「事前学習」のかなりな部分が不要になる、つまり自社にとってのブルーオーシャンを加速度的に進んでいくことができるようになります。従って、上記のFigure AI、1X Technolgoies、Boston Dynamics、台湾のTechman Roboticsなどは、これまでにも増して加速がついた性能向上ができるようになります。非NVIDIAスタックのロボット、代表例はTeslaのOptimusおよび大半の中国の軍事転用可能なヒューマノイドとの性能の差は誰が見てもはっきりとわかるほどになります。(中国のバク転でアピールするヒューマノイドは、それだけ"脳"が弱い、つまり人間が行っている細やかな作業はできないということを意味しています。)
オンボード/オフライン/リアルタイムでリーゾニングができるということは、簡単に言えば、ChatGPTが個々のロボット機体の中で動いている状況です。低レイテンシ、実質的にはリアルタイムで思考内容がアクチュエータ等に伝達できます。ロボットの基本動作は当然ながら事前学習が必要ですが、その場その場で判断が求められる状況ではある意味人間以上に優れた頭脳ハードウェアであるJetson Thorが人間のように瞬時に頭を働かせ瞬時に的確な動きをします。現実的には今開発されたばかりのJetson Thor搭載ロボットは不出来な部分がある程度あるでしょうが、1年か2年経てばその性能向上ぶりは目を見張るものになります。
以下でChatGPTに書かせた性能分析を展開しますので、技術的なディテールはそちらをご覧ください。
ドローン、農業機械、建設機械などにもJetson Thorが搭載され自律的に動くようになる
事は、ヒューマノイド/ヒト型ロボットやその他のロボット形状のロボットに止まりません。
Xで先ほど見た投稿(ロボティクスのアナリストによる)では、ドローンにJetson Thorが搭載されて自律的に動くようになることで拡大する経済的そして軍事的ポテンシャルを指摘していました。また、農業機械や建設機械でも同様にその場その場で判断できる高度な自律性が、たとえ数年かかるにしても、新しい経済圏を形作ることは確実です。これがジェンセン・フアンが言っていた「フィジカルAI」。つまり、ハードウェアとして触ることができて、人間に意味のある仕事をする機械が、高度なリーゾニングができるAIコンピュータを搭載することで開かれる新しい経済の地平です。それが50兆ドルの規模を持つと言っているのです。
関連投稿:NVIDIA CEOジェンセン・フアンの"7500兆円規模"「フィジカルAI市場」が日本の製造業に与えるインパクト
私はある所で書きましたが、フィジカルAI関連銘柄だけ集めた証券取引市場があればNASDAQの総額をすぐに追い越すだろう...そういう経済的なインパクトがあります。販売されることになる機体の数が根本的に違うのです。
日本企業はどうすればいいのか?
まず、ロボット開発の世界は、NVIDIA技術スタックの上で展開する行き方と、そうでない行き方に二分されます。前者の方が「圧倒的に早いプレイヤー」になります。そのことは重々認識しなければなりません。現在行っている投資、これから予定している投資も、前者と後者をよく吟味して、再配分すべきだと思います。場合によってはサンクコスト扱いにして新しいNVIDIA技術スタック開発を即、始めるべきです。そうでないと既に彼我の差がものすごいことになっている欧米勢との間で、さらに開発速度の差がつきます。開発速度が遅いということは市場で誰も買わないロボットになるということです。Figureなどのロボットを輸入して使った方が早いということになります。
現状日本でNVIDIAスタックを使ってヒューマノイド等のロボットを開発している企業は皆無に等しい...実は発表されていないだけでトヨタ、安川電機、川崎重工などでは相当に進んでいる可能性はあります。しかしそうでない所は...。海外企業の買収しか選択肢はないと思います。どこが適しているか等は調査しなければなりません。台湾、韓国で良い企業があります。米国にも未だ知られていないものすごいポテンシャルがあるロボティクス企業があります。調査が必要です。
UnitreeのG1を買ってきて二次開発するやり方もあります。しかしロボティクスとAIの双方をカバーできるエンジニアは圧倒的に不足しています。NVIDIAの最新技術スタックを組み込んで...という所に行くまでに2年はかかるでしょう。エンジニア不足を根本から解決する方法論が開拓されなければなりません。小職が少し前に提案した中国のトップ大学から優秀なIT人材を連れてくる方法は、依然として有効だと思います。年収は日本人の最低で2倍、場合によっては4倍支払わないと彼らは来ないです。
インド人材も魅力でしょう。誰かが道を作らないといけません。
Jetson Thorの詳細な技術分析
ChatGPT 5にNVIDIA公式の技術紹介ページを読ませた上で以下を生成しています。5は、自律的に関連技術ページを広域で探索して以下のディテールを理解し、要約して記しています。人間が行うと2日はかかる作業です。
何が"新しい"のか
-
ヒューマノイド級の推論をエッジで回せる:最大 2070 FP4 TFLOPS、128GB LPDDR5X、可変 40-130W。AGX Orin比 7.5倍のAI演算・3.5倍の効率で、クラウド往復なしの大規模モデル推論を前提化。NVIDIANVIDIA Newsroom
-
「学習→推論」の境界を曖昧に:GR00T(基盤モデル)× Blackwell の低精度FP4トランスフォーマ推論=その場で知覚→理解→行動合成(VLA系)を目指す設計。事前学習は残るが、現場での"追加学習要件"が大幅に減る方向。NVIDIA NewsroomarXiv
-
I/Oとソフトの"実運用力"を一気に底上げ:4×25GbE、カメラ・オフロード・エンジン、MIG、Holoscan Sensor Bridge(Sensor-over-Ethernet)まで含む"配線から制御まで"の実装パスを用意。NVIDIA+1
技術の柱(公式ページの内容から)
-
Blackwell GPU × MIG
96 Tensor Core世代、MIGで推論ワークロードを分割(例:ロコモーション、マニピュレーション、言語計画を独立運用)。FP4対応で大規模VLM/VLAのエッジ常時稼働を前提に。NVIDIA -
Arm Neoverse-V3AE(14C/12C)
リアルタイム系の制御・スケジューリングをCPU側に逃がし、GPUで推論を張る構図。制御ループの決定性確保に寄与。NVIDIA -
マルチセンサー取り込み
4×25GbEやQSFP経由の多カメラ、MIPI CSI、カメラ・オフロード・エンジンで高密度・低遅延のストリーミング。センサー・フュージョンをHoloscanで統一管理。NVIDIA+1 -
ソフト統合:GR00T / Isaac / VSS / Holoscan
-
GR00T:ヒューマノイド向け基盤モデル+データパイプライン。シム/実機の往復を前提に"総合力"を付ける。NVIDIA Newsroom
-
VSS(Video Summarization & Search):空間的知能=長時間動画の理解・要約・検索をエッジ側で。現場ログ→即時フィードバックが可能に。NVIDIA
-
Holoscan Sensor Bridge:マルチセンサーをSensor-over-Ethernetで標準化、実装と保守の負担減。NVIDIA
-
"学習不要"に近づくメカニズム
-
VLA(Vision-Language-Action)系モデルをThor上で常時稼働 → 視覚と言語の理解から行動トークンを直接デコード。未知状況でも**"ゼロからの行動合成"が推論で可能**な範囲が広がる。ウィキペディアarXiv
-
ただし完全な"無学習"ではなく、基盤モデルの事前学習+軽量適応(PEFT/LoRA/行動プリミティブ)は残るのが現実路線。ThorのMIGで局所適応用の小モデルと全体計画用の大モデルを同居させる設計が実務的。NVIDIA
産業インパクト
-
導入までの時間短縮:従来の大規模模倣学習やシミュレータ整備の負荷を**"推論で穴埋め"できる領域が拡大。PoC→現場実装までの反復が速い**。NVIDIA Newsroom
-
現場適応力:建設・物流・製造の**"現場の揺らぎ"に強い。長時間動画(VSS)からの即時ナレッジ化**で、毎日のライン変更にも追従。NVIDIA
-
TCO:エッジ推論でクラウド依存を縮小、通信費・遅延・停止リスクを圧縮。保守はHoloscanで標準化し、センサー多様化にも耐性。NVIDIA
今やるべき実装設計チェックリスト
-
電力・熱設計:130W級の冷却・バッテリー/給電、ピーク負荷時の熱マージン確保。NVIDIA
-
ワークロード分割:MIGで計画/知覚/制御を分離。ロコモーションはレイテンシ最優先、言語計画はスループット最優先。NVIDIA
-
センサー網の標準化:4×25GbE+SoE基盤に寄せる(将来のセンサー追加を安価に)。NVIDIA+1
-
データ運用:VSSで現場動画→要約→検索→ラベル付けの自動化。学習・評価のデータフライホイールを理想に近づける。NVIDIA
-
GR00T採用:既存の模倣/シム資産をGR00Tの統合パイプラインへ。**"学習依存→推論中心"**への移行路を具体化。NVIDIA Newsroom
【告知】
シリコンバレー最先端ヒューマノイド視察ツアーのご紹介 アップデート版
視察申込受付中!申込受付締切は9月10日!
個別の企業様では訪問しにくい企業ばかりです。この機会をぜひご活用下さい!
視察定員は12名となりました。現地でのハンドリング等を検討した結果です。
【視察の狙いと目的】
日本にいると信じられないほどのスピードで開発が進むアメリカのヒューマノイド/ヒト型ロボットの企業群。TeslaのOptimusを初め、Figure AI、Apptronics、Boston Dynamicsなど、YouTube動画で存在感を放つ企業は枚挙にいとまがありません。
今回、弊社で企画した「シリコンバレー最先端ヒューマノイド視察ツアー」は、シリコンバレーに拠点を置く
- ヒューマノイド完成体企業
- 物流倉庫関連ロボティクス企業
を訪問し、相互交流のきっかけとなる内容になっています。
この視察をきっかけとして、御社と訪問先の個々の会社とで、今後の商談、提携、投資などの展開に入ることができるように視察メニューを設計しています。
この視察ツアーではAI + ロボットの日本の権威である早稲田大学 尾形哲也教授が視察内容を監修し、同行して下さいます。尾形哲也教授が各視察先との関係づくりのフックとなる講演をして下さいます。外国企業視察では、テイク&テイクの姿勢は好ましいものではなく、必ず、こちらから何らかのものをギブして、ギブ&テイクのやり取りにすることが鉄則です。そのため尾形哲也教授の日本のヒューマノイド研究を紹介する講演が深い意味を持ちます。
【訪問予定企業と期待される視察内容】
Figure AIで期待される視察内容
将来ビジョン
Brett Adcock氏は「将来的には人間と同数のヒューマノイドが存在する社会を築く」と語っており、物流や家庭、製造現場へと展開していくロードマップを描いています。
製品ラインナップと技術概要
- Figure 01
初期プロトタイプとして2022-2023年頃に開発。物流や倉庫向けに設計され、物体移動や操作などを目的としたヒューマノイド。 - Figure 02
2024年8月発表。内部配線、バッテリー統合、6つのRGBカメラ、NVIDIA RTXベースのGPU、音声入出力、5本指/16自由度のハンドを備え、最大25kgの物体を扱えます。BMWの工場において実証テストも実施。 - Helix(ビジョン‑ランゲージ‑アクションモデル)
2025年2月発表のFigureの独自AIモデル。以下のような特徴があります: - VLA(Vision‑Language‑Action)モデルで、上半身全体(腕・手・胴体・指など)を高頻度かつ高精度に制御可能 。
- Dual‑systemアーキテクチャ:System 2が場面理解と言語処理、System 1が視覚-動作制御を担い、リアルタイム性と高い汎用性を両立。
- 複数ロボット同時制御が可能(2体同時にHelixで制御)、音声で指示された動作を実行 。
- 家庭向けユースケースのデモ(例:買った食材を片付ける)にも活用され、家庭での実用化に向けたAI制御戦略の紹介が可能。
直近の実証・実装成果
- 物流現場での進展(Helix)
2025年6月時点で、Helixはさまざまな形状の包装(柔らかい袋、封筒など)にも対応し、ヒトに近い速度と精度での搬送処理を実現。1パッケージあたりの処理時間は概ね4.05秒(以前の約5秒から改善)、バーコード読み取り成功率も約95%と飛躍的向上 。 - 適応的行動:ロボットがパッケージのしわを"軽く押す"ような動作を自発的に学習し、コード読み取りを助ける動作も観察できる。
1X Technologies シリコンバレー拠点で期待される視察内容
製品ラインナップの技術説明
- EVE:物流・医療・セキュリティなど産業用途向けの車輪式ヒューマノイド。アクチュエータや制御技術の応用事例。
- NEO Beta → NEO Gamma:家庭用二足型ロボット。歩行、物体操作、柔らかい被覆、安全設計、内蔵AIモデルなど技術の進歩。
デモンストレーション
- GTC(Nvidia)での実演のように、ロボットが家の中で歩行しながら掃除、植物への水やり、家具を避けて移動、といった日常シーンを再現する実演。
- 現段階では完全自律ではなく、遠隔オペレーターによるテレオペレーションによる動作制御が多く、これもリアルに示される可能性。
AI・データインテグレーションの解説
- 家庭内でのロボット利用によって得られる映像・音声データを用いたAIの学習プロセスや、遠隔操作とのハイブリッド駆動など技術戦略の紹介。
- OpenAIやNvidiaとの協業事例や、インハウスでのモデル訓練体制。
Boston Dynamics Mountain View Officeで期待される視察内容
ソフトウェア&プラットフォーム解説
- Spot SDK (商用化されており日本でも発売されている四足歩行ロボット)や Orbit (ロボット複数をマネジメントするフリートマネジメント技術)プラットフォームなど、Spot に対する開発環境や運用支援ツールの技術解説が期待されます。
- また、ロジスティック系ロボティクス(Stretch など)とのインテグレーションについても期待できます。
実証デモンストレーション
- 実ビジネス(物流/点検等)現場に近い環境での動作確認:Spot による施設巡回や点検、Stretch による倉庫内作業など、商業展開中のロボットのリアルな挙動を見学できる可能性。
Weave Robotics(ヒューマノイドのニューフェース)で期待される視察内容
Weave Robotics の概要
- Weave Robotics は、Y Combinator の 2024 サマー・バッチ出身のスタートアップで、エヴァン・ワインランド氏(元 Apple Siri 担当)とカーン・ドゥイルスオズ氏らが共同創業。2024~2025年にかけて創業された、比較的新しい企業。
- 同社が手がける初の家庭用ロボット "Isaac" は、「家の中の雑然とした場面を自律的に片付け」、「洗濯物をたたむ」、さらには「家を離れている間の見守り」などを行うヒューマノイド型ではない家庭用アシスタント型ロボットです。
- 最大の特徴は 2025年秋に最初の 30 台を出荷予定という点。月額型サブスクリプション(約 US$1,385/月)か、一括購入(約 US$59,000)で提供予定。
技術解説
- ハードウェア構成:可動関節の構造やモーター・センサー選定、カメラ収納機構などの詳細。
- 自律ロジックと人間とのインタラクション:音声認識やアプリ連携によるタスク指示、遠隔操作 Remote Op の仕組み。
- システムのモジュール設計と拡張性:ソフトウェアスタック・アプリとの連動・将来的な機能拡張の方向性。
デモンストレーション
- 実演:家事タスクの実行:掃除状態認識 → 片付け → 洗濯物の畳み作業など、一連の流れのリアルタイム展示。
Ambi Robotics(UC Berkeley発の倉庫ロボティクス企業)で期待される視察内容
企業紹介と開発背景
- 創業経緯:UC BerkeleyでのDex‑Net研究からスタートし、実用向けSim2Real AI技術に進化させた過程。
- 企業ミッション:AIとロボットの力でサプライチェーンの複雑な課題を解き、人の働きを支えることを目的にしている背景。
技術・製品紹介
- AmbiSort A‑Series / B‑Series:小包の自動仕分けを可能にするAI駆動ロボットシステム。多様な包装形態に対応し、効率化と安全性の向上に寄与。
- AmbiStack:AIを活用し、多種多様なSKU(商品)を高密度にパレットまたはコンテナに積む最適化ロボット。倉庫のスペース利用と物流コスト改善を支援 。
- AmbiOS(Sim2Real AI):ロボットの学習速度を劇的に高めるシミュレーション→現実環境への移行に優れたAIオペレーティングシステム。
- PRIME‑1(Foundation Model):倉庫オペレーション向けに特化されたAIの基盤モデル。3D認識、ピッキング、品質検査など多様なタスクに適応可能な生成モデル 。
デモンストレーション
- AmbiSortによる自動仕分けの実演:アイテムの認識、適切な搬送先への選定、仕分け精度や速度の確認。
- AmbiStackの積み付け最適化デモ:「3Dテトリス」とも言われる高密度積載をリアルタイムに実演。
【視察日程】
- 10月27日(月曜):日本出発
- 17:00頃 東京羽田空港からサンフランシスコへ出発(直行便利用)
- 10月27日(月曜):
- サンフランシスコ到着、シリコンバレーへ移動。
- 10月28日(火曜)
- 上記の企業1社〜2社を視察予定。先方とスケジュール調整中
- 10月29日(水曜)
- 上記の企業1社〜2社を視察予定。先方とスケジュール調整中
- 10月30日(木曜)
- 上記の企業1社〜2社を視察予定。先方とスケジュール調整中
- 10月31日(金曜)
- 予備日
- 11月1日(土曜):サンフランシスコ出発 (直行便利用)
- 11月2日(日曜):東京羽田空港到着
- 各訪問先ともロボティクスに詳しいシリコンバレー在住ITジャーナリストが通訳として同行します。
- 空き時間にはシリコンバレーならではのGoogleキャンパス見学、コンピュータ歴史博物館見学などシリコンバレーにちなんだアクティビティを予定
- [現地における移動は全てUBERタクシー3-4台への分乗となります](理由は米国におけるマイクロバスチャーターにしますと、1人当たりの視察代金が35万円アップとなってしまいます。視察代金総額を落とすため、現地ではUBERでの移動となりました。UBER手配等の一切は後方支援を担当しますインフラコモンズにてカバーいたします)
✔︎ 最小催行人数と定員:最少催行人数は10名。現地でのハンドリング等を細かく検討した結果、定員は12名といたします。12名になった時点で締切とさせていただきます。
✔︎ 申込期間:8月1日申込受付開始(JTBのOASYS申込ページより)、締切:9月10日(見積・請求はJTB)
✔︎ 申込:【アメリカ視察ツアー OASYS】にて受付。ツアーパスコード:tMCVCFZx5F 操作方法は下端参照
✔︎ 旅行代金:127万円(燃油サーチャージ・空港使用料別)
【視察監修・同行】
早稲田大学 理工学術院 基幹理工学部 表現工学科 尾形哲也 教授
2025年よりAIロボット協会理事長。2025年よりJST CREST領域研究総括。深層学習、生成AIに代表される神経回路モデルとロボットシステムを用いた,認知ロボティクス研究,特に予測学習,模倣学習,マルチモーダル統合,言語学習,コミュニケーションなどの研究に従事。
【視察企画・後方支援】
株式会社インフラコモンズ 今泉大輔(当ブログ経営者が読むNVIDIAのフィジカルAI / ADAS業界日報 by 今泉大輔 運営執筆者)。今泉も同行します。
ヒューマノイドに関して積極的に情報発信を行なっているYouTuberの柏原迅氏も同行します。
【資料請求および旅行について】
株式会社JTB
https://www.jtbcorp.jp/jp/
ビジネスソリューション事業本部 第六事業部 営業第二課内 JTB事務局
TEL: 03-6737-9362
MAIL: jtbdesk_bs6@jtb.com
営業時間:月~金/09:30~17:30 (土日祝/年末年始 休業)
担当: 稲葉・野田
総合旅行業務取扱管理者: 島田 翔