NVIDIA Jetson活用フィジカルAI大全集(第1回)人と環境を"その場で理解する"ヒト型ロボット
NVIDIAが2025年に発表したJetson AGX Thor(略称Jetson Thor、ジェットソン・ソー)は、これまでロボット開発の制約となっていた「処理能力」と「推論速度」の壁を一気に超えました。
とくに注目されているのが、Boston Dynamicsなど世界のトップロボティクス企業が進めているヒューマノイド・ロボットへの搭載計画です。
サーバー級AIをロボット内部で動かす
従来、ヒューマノイドの高度な動作制御や自然言語応答を行うためには、外部のクラウドサーバーで推論を実行し、結果をロボットに返す必要がありました。
しかし、通信遅延や環境変化への即応性が課題で、現場での「瞬時の判断」には限界がありました。
Jetson Thorはこの課題を根本的に変えます。
サーバー級のAI演算をロボット本体で完結できるため、センサー入力から動作決定までを"ローカルで"実行できるのです。
たとえば、視覚カメラが捉えた人の動きや表情を即座に解析し、言葉や身振りに応じて安全かつ自然に動作を変えることが可能になります。
マルチモーダルAI統合がもたらす変化
Boston Dynamicsが取り組む「Atlas」などのヒューマノイドでは、視覚・音声・動作といった複数のAIモデルを統合的に稼働させる方向へ進んでいます。
これを支えるのが、Jetson Thorが備えるVision-Language-Action(VLA)型の大規模推論能力です。
これにより、これまで別々の処理系だった以下の要素が一体化します。
-
カメラやLiDARによる視覚情報の理解
-
言語入力や音声指示の理解
-
ボディモーションの合成と制御
結果として、ヒューマノイドが「人間の言葉を理解して、その意図に応じた動きを生成する」ことが現実的なスピードで実現します。
"クラウド依存"から"現場ローカル推論"へ
Jetson Thorの登場によって、ロボット産業は「クラウドAI」中心の構造から、「オンボードAI」中心の構造へと移行します。
これは単なる性能向上ではなく、フィジカルAI(Physical AI)が真に機能するための前提条件です。
物理世界で活動するロボットが、人や環境とリアルタイムに相互作用するためには、推論を外に出さないことが決定的に重要だからです。
クラウドとの往復が不要になれば、
-
通信遅延のない安全制御
-
ネットワーク断絶時の自律動作
-
秘匿性の高い現場データのローカル処理
といった要件が同時に満たされます。
この流れは、製造・建設・介護といった「人と機械が共存する現場」での導入を後押しするでしょう。
まとめ:ヒューマノイドは"考える機械"から"理解する存在"へ
Jetson Thorが象徴するのは、ロボットが単に「動く機械」から、「その場の状況を理解し、最適に行動する存在」へと変わる転換点です。
Boston Dynamicsをはじめとする世界のリーディングカンパニーは、このプラットフォームを軸に"人との協働"を前提としたヒューマノイドの再設計を進めています。
関連ニュース:
Boston Dynamics and Toyota Research Institute Unveil Advancement in AI-Powered General-Purpose Humanoids
ボストン・ダイナミクスとトヨタ・リサーチ・インスティテュート、汎用ヒューマノイド向けAIを活用した高度化を発表
記事概要に補足した情報
-
ボストン・ダイナミクス(BD社)とトヨタ・リサーチ・インスティテュート(TRI)は、共同研究の成果として、ヒューマノイドロボット『Atlas』に"Large Behavior Model(LBM)"という新しい行動モデルを適用し、「歩行/移動(locomotion)+物体操作(manipulation)」を統合して長時間・連続的に実行できるタスクを披露しました。Toyota USA Newsroom
-
動画では、Atlasが箱を詰める・仕分けする・整理するなどの一連の動作を、歩いたりしゃがんだり持ち上げたりしながら行います。途中で、「箱の蓋が閉じられた」「箱が床上に滑った」など予期せぬ物理的変化が挿入されても、自律的に姿勢を変え、動作を継続しました。tri.global
-
これまでのヒューマノイドロボット研究では、歩行・バランス制御と腕・手の操作制御を別々のモデルで行うことが一般的でした。しかし今回のモデルでは、"手・足・胴体"をほぼ同じ制御モデルで扱い、単一の神経ネットワークが「脚も手も」体全身を統括するかたちになっています。PR Newswire
-
この成果は、2024年10月に両社が発表したパートナーシップに基づく研究プロジェクトの成果であると明記されています。Toyota USA Newsroom
-
BD社では「長期の操作タスク(long-horizon manipulation tasks)をひとつのモデルで訓練すれば、一般化性能(多様な状況への対応力)が高まる」と述べ、TRIでは「従来の手作業プログラミングではスケールしなかった"多様なタスクを既存環境でこなす"というヒューマノイドの価値を、LBMが根本から捉え直している」と語っています。tri.global+1
-
技術的な流れとしては、①テレオペレーション(遠隔操作)やシミュレーションによるデータ収集、②それに基づく注釈・データ準備、③ニューラルネットワーク(行動ポリシー)の学習、④実機・シミュレータ評価という手順を踏んでおり、ロボットが「足位置の精密制御」「しゃがむ/体重移動」「自らバランスを取りながら操作」など、体全体を使った複雑動作をこなせるようになった点が強調されています。Boston Dynamics