オルタナティブ・ブログ > 経営者が読むNVIDIAのフィジカルAI / ADAS業界日報 by 今泉大輔 >

20年以上断続的にこのブログを書き継いできたインフラコモンズ代表の今泉大輔です。NVIDIAのフィジカルAIの世界が日本の上場企業多数に時価総額増大の事業機会を1つだけではなく複数与えることを確信してこの名前にしました。ネタは無限にあります。何卒よろしくお願い申し上げます。

フィジカルAI 10の定義:NVIDIA CEOジェンセン・フアンが言ったのはどれ?

»

Alternative2025Sep16a.png

「フィジカルAI」という言葉が色々と使われるようになってきました。資料などを見ると、以前から一部で使われていたようですが、大々的に世の中に登場したのはやはり、今年正月のCES 2025のNVIDIA CEOジェンセン・フアンの基調講演以来です。

さて、世の中に流布しているフィジカルAIの定義には、さまざまなものがあって、首をかしげることもあります。現在、どのような定義があって、そのうちジェンセン・フアンが言ったものはどれなのか?確認しておきたいと思います。

  1. 生成フィジカルAI:現実世界を理解し行動するAI
     NVIDIAでは「自律マシンが現実世界を認識し、複雑な行動を生成できる能力」を備えたAIを「物理世界を理解し行動する生成AI」と定義しています。NVIDIA+1

  2. 物理法則に基づく行動を可能にするAI
     単なる生成AIと異なり、「重力・衝突・振動・照度などの物理法則を理解し、行動できる」点がフィジカルAIの大きな特徴だという指摘があります。note(ノート)AI総合研究所

  3. 現実環境で学習するAIロボット
     変化する環境下でリアルタイムに判断し、学習し続けるロボットが"Physical AI"とされることもあります。TechTarget

  4. ロボットやスマートデバイスと融合したAI
     ロボットやスマートデバイスとAIを組み合わせ、「現実世界で知覚し、判断し、学ぶ」よう設計されたシステムとする見解です。xenonstack.com

  5. "五感+脳+身体"という構造を持つAI
     センサー(五感)、AI(脳)、アクチュエーター(身体)の3要素で構成され、認識 → 判断 → 行動のループを持つシステムという見立てもあります。Arpable

  6. Embodied AIとPhysical AIの違い
     Embodied AI(中国で言う具身智能)は身体に実体を持ち物理世界と相互作用するAI。一方でPhysical AIは、必ずしも物理的な身体を持たずとも、物理世界について推論できる広義の概念とされています。Medium

  7. 認知的推論と行動を統合した「Physical AI Agents」
     認識・認知・アクチュエーション(行動)のモジュラー構成で、業界ごとに対応可能なAIフレームワークとして提案されています(Ph-RAGなど)。arXiv

  8. 物理シミュレータと内部世界モデルによる学び
     高精度なシミュレーション環境と内部的な"世界モデル"を活用することで、より汎用性と適応性を持つエンボディAI(身体性を伴うAI)を追求するという研究も盛んです。arXiv

  9. リアルなセンサーデータから"物理世界"を学ぶ基盤モデル
     温度、圧力、化学成分など、多様なセンサーデータを統合して"物理世界そのもの"をモデル化する「Large Behavior Model(LBM)」の構想もあります。archetypeai.io

  10. 現場応用を重視する実用的な物理AI
     例えばBreaker社では、「今すぐ実用可能な、文脈認識型かつ音声制御のAIエージェント」でロボットを操作し、100台を単一オペレータが管理するような物理AIを展開しています。The Australian

ジェンセン・フアンがCES2025基調講演で言ったこと

上を読むとますます訳がわからなくなりますね。ジェンセン・フアンがCES2025の基調講演で言ったことは、次の通りです。あの時、ものすごい衝撃を受けたのをよく覚えています。

"Physical AI" as the next phase of AI after perception AI and generative AI, which can perceive, reason, plan, and act".

知覚AI(機械学習による工場内の不良品検知など)、生成AIと続いて、次に来るAIの波はフィジカルAIだ。それは知覚し、推論し、計画し、行動するAIだ。

AIがPCやスマホの画面から飛び出て(←生成AIのこと)、現実世界を動き回るようになるというある種の予言ですね。

これを言った時、彼の頭の中には、先日発表されたJetson Thorが発売されることで可能になる、人間の言葉を理解できる、頭が良くて自分で考えることができる、移動して、人間が指示した作業を行うことができる自律的なマシン類一切の姿があったと思います。

フィジカルAIの定義にあった4つの動詞を噛み砕きます。

"Perceive"(知覚する)はセンサー複数が集まったセンサーフュージョンのこと

ロボットにセンサーが複数搭載されていることは、知識がない方でもおおよそわかると思います。目を構成する視覚系だけでなく、何かに触れた時にそれを感知する力覚センサーなども搭載されています。自動運転のクルマにはセンサー、LiDAR、カメラなどセンサー的な部品が多数搭載されています。

これらを束ねたものはセンサーフュージョンと呼ばれています。

先日発売されたJetson Thorにはセンサーフュージョンを丸ごと引き受けて次の処理に渡す機能があります。そのため、ロボットで言えば外界を知覚して、その内容を「脳」に送り、次の処理をすることができるようになります。

"Reason"(推論する)はAI半導体で人間のように言葉で考えること

AIが行うリーゾニング(推論)は少し前までは何のことなのか、よくわからなかったと思います。ChatGPTでDeep Researchが使えるようになって、「ChatGPTが考えていること」がテキストの流れとして表示されるようになり、「おお!ChatGPTがわれわれと同じように言葉で考えている!」ということがわかるようになりました。あの時、言葉により考え考えして次に進んでいく論理的な処理がリーゾニングです。リーゾニングはLLM(Large Language Model)があることによって可能になります。以前のLLMは予め学習してメモリに蓄えている内容から回答を持ってきていましたが、ChatGPT + Deep Research以降から「リアルタイムで一生懸命考えて、考えて、次のステップでも考えて、最終的に結論を出す」ようになりました。

これは従来型の半導体CPU(Central Processing Unit)ではなく、NVIDIAがゲーム系の画像処理ボードとして開発したGPU(Graphics Processing Unit)あることで処理が可能になります。今、アメリカや日本で数多く建設されているAIデータセンターの中身も、このGPTを搭載したサーバー群です。GPUはNVIDIA以外にもAMD、Qualcomm、サムスンなどが開発製造販売していますが、なんといってもダントツなのはNVIDIAです。NVIDIAのGPU=AIデータセンター用の半導体が同社の時価総額を世界一に押し上げたと言っても過言ではありません。

関連投稿:

米国の投資家がNVIDIAを時価総額世界一にした"ナラティブ"とは?「AIスーパーサイクル」とは?

NVIDIAはなんで時価総額世界一に返り咲いたのか?:その理由「フィジカルAI」を社内で勉強するためのパワポ用テキスト素材を共有します

このリーゾニングがコンピュータ処理としてできるのと、出来ないのとでは雲泥の差があります。

ロボットの場合でわかりやすく説明します。

従来型のCPUだけを搭載したロボットでは、プログラムで組んだ内容しか動作ができませんでした。

リーゾニングができる、ロボットにも搭載可能な小型で軽量のJetson Thorを搭載したロボットでは、ChatGPT的なLLM(具体的にはオープンソースのLLM。メタのLlama、アリババのQwenなど)が動いており、人間の言葉による指示を理解することができ、かつ、自分の頭の中で一生懸命考えて、動くことができます。これがジェンセン・フアンが言った"Reason"です。

"Plan"(計画する)は、推論を具体的な行動手順に変えること

人間でいえば「考えたことを実際の行動計画に落とし込む」プロセスです。
たとえば、「机の上のペットボトルを取って」と指示されたロボットなら、

  1. センサーで机とペットボトルの位置を把握する(Perceive)

  2. 「ペットボトルを掴むには、腕をどの角度に動かすか」を推論する(Reason)

  3. そこから、「腕を持ち上げる → 前に出す → 指を開く → 掴む → 引き上げる」 といった動作の手順を計画するのがPlan

Jetson Thorはこの「Plan」の部分でも力を発揮します。

  • 複数のモデルを同時に走らせ、動作の順序や並列性を最適化できる
    (例:掴む動作とカメラで確認する動作を並行処理)

  • リアルタイムで環境変化に応じて計画を修正できる
    (例:人が横切ったら一時停止してから再開する)

  • 従来はクラウドでしかできなかった動作計画をオンボードで処理できる
    → 遅延がなく、安全性や即応性が高まる

つまり、Jetson Thorを積んだロボットは「ただ考えるだけでなく、自分で行動の段取りを組み立て直せる」ようになるのです。

"Act"(行動する)は、計画を実際の動作に変えること

ここまでのステップで「知覚する(Perceive)」「推論する(Reason)」「計画する(Plan)」ことができました。
しかし、ロボットにとって本当の勝負は、計画した内容を実際の動作として確実に実行することです。これがなければ商業価値があるフィジカルAIではありません。

従来のロボットは「プログラムで決められた動作」をひたすら繰り返すだけでした。
しかしJetson Thorを積んだロボットは違います。

  • センサーフィードバックを受けながら行動を修正できる
    (例:物を掴むときに少し位置がずれていても、その場で補正してつかめる)

  • 複雑なアクチュエータ制御をリアルタイムに処理できる
    (二足歩行のバランス制御、ドローンの飛行姿勢制御、重機の油圧制御など)

  • 人間の指示に従って"その場で行動を変える"ことが可能
    (「やっぱり違う箱に入れて」と言えば、途中で計画を修正し行動を切り替える)

つまり、Jetson Thorが担う"Act"とは、「考えた計画を現実の物理世界に安全に、正確にアウトプットする力」です。

この「Act」の部分こそ、フィジカルAIの核心です。AIがPCやスマホの画面を飛び出して、現実世界で人間と協働するための最後の一歩だからです。

ということで、ジェンセン・フアンが言ったフィジカルAIの定義に沿って、現実的なフィジカルAIとはどういうものかを見てきました。この投稿は半分から2/3程度私が手で書いていますが、途中技術的な解説部分はChatGPT 5にバトンタッチして書いてもらい、ハイブリッドのテキストになっています。

結論から言うと、正確なフィジカルAIの姿は、AIによって技術的に噛み砕き、噛み砕きながら、比較的シンプルにロジカルに記述することで理解できます。

まとめ

フィジカルAIとは、知覚し、推論し、計画し、行動する力を備えたAIであり、現実世界で人間と協働できる知能です。

Comment(0)