コマツ&米自動運転スタートアップの協業に見るフィジカルAIの裾野拡大 + CVCの展開余地
フィジカルAIの裾野はわれわれが思っているよりかなりデカい
NVIDIA Jetson Thorの出現により、「ロボット」ないし「フィジカルAI」の裾野はぐーんと広がりました。以下の4本の投稿で触れた通りです。
NVIDIA Jetson Thor:自律ロボットの"学習"の大部分が不要になる「オンボード・リーゾニング」。ロボット産業は自動車業界超え
(Jetson Thorの技術面について詳細に記述)
すでに始まっているNVIDIA Jetson Thor実装。Jetson ThorとLLMを実装した自律的に飛行するドローンの衝撃
(簡易なドローンにJetson Thorを搭載することによってLLM(ChatGPT的な自然言語を解するAI)を組み込むことができるようになり、自然言語で指示でき自律的に飛行するドローンになることについて)
【製造業のフィジカルAI化】Jetson Thorによって日本の製造業は中国を打ち負かすことができる!
(特にAMR自律搬送ロボットの高度化に関して末尾で述べています。その他は技術詳細と早期に実装した事例の報告です)
日本が世界で勝負できる【フィジカルAI】はハローキティなどのエンタメロボット。高度に自律的なタイプ
(判明したフィジカルAIの11分野の整理)
建設機械世界最大手のコマツが米国の自動運転スタートアップと協業
先ほど、以下の記事を見ました。
ブルームバーグ:コマツと自動運転ソフト開発の米スタートアップ、鉱山機械分野で協業
建設機械最大手のコマツが、いよいよ自動運転技術を取り込むのか?という驚きもある反面、米国の建設機械最大手のキャタピラーがNVIDIA Jetson Thorの搭載によって自律的に動くロボット的な建設機械の開発に動いているという情報を知っていた小職としては、「よし、それは順当だ」と思った次第です。大変に僭越ですが。
乗用車の自動運転は歩行者もいる街路を走るため、安全性確保のために並々ならない学習が必要ですが、導入現場が限られる鉱山機械では比較的に早くに自動運転技術を確立することができるのかなと、鉱山機械の素人としては考えます。
視覚情報の処理と自然言語の処理の両方ができるVision-Language-Action Modelを使えば、人間が指示する自然言語を理解しつつ、カメラ等から入ってきた視覚情報を元に、「自分で考えて、自分で判断して、自分で動く」自律的なメカが実現します。
これについて技術的に整理します。
Vision-Language-Action Modelに関する、文系でもわかる技術的な理解
以下のX投稿のチューリッヒ大学のドローンを研究している大学教授が、NVIDIAから発表されたばかりのJetson Thorをプレゼントされて、すぐにドローンに実装して飛ばして見せたデモです。これがVision-Language-Action Modelが現実に動作している状況です。
Davide Scaramuzzaチューリッヒ大学教授の2025年8月27日付投稿
このデモ(Jetson Thor + Qwen 2.5 VL)の構成を踏まえると:
VLA(Vision-Language-Action Model)の"全体"は、Qwen 2.5 VL(VLM)単体でも、Jetson Thor単体でもなく、両者が組み合わさったシステムとして成立しています。
順を追って整理します。
1. それぞれの役割
Qwen 2.5 VL
-
これは VLM(Vision-Language Model)
-
できること:
-
カメラ画像を解析し、物体や状況をテキストで説明する(semantic understanding)
-
テキスト指示を受け取り、タスクに対する推論を行う
-
-
できないこと:
-
モーター指令を直接生成してドローンを動かす
-
リアルタイム制御ループ(低レベルの姿勢制御)
-
Jetson Thor
-
これは ハードウェア+推論基盤+リアルタイム制御スタック
-
できること:
-
Qwen 2.5 VLやDepthAnything v2をオンボードで推論可能にする計算能力
-
Jetson Orinより高性能な推論とリアルタイム制御を両立
-
ロー・レイテンシの行動計画(navigation, obstacle avoidance)
-
-
できないこと:
-
それ自体が知覚・言語理解のモデルではない(モデルは別に載せる必要がある)
-
2. ではVLAはどこにあるか?
VLA = Vision + Language + Action
-
Vision → Qwen 2.5 VL(+DepthAnything v2)
-
Language → Qwen 2.5 VL
-
Action → Jetson Thor上の制御スタック(たとえばROS 2 ノードやNVIDIA Isaac ROSパッケージ)が生成
つまり、VLAはシステム全体として初めて成立します。
QwenがVisionとLanguageを担い、Jetson Thorの計算資源と制御スタックがActionを担う、という役割分担です。
さて、これでスッキリしました。端的には、現時点で世界最高峰であるAI搭載エッジコンピュータであるNVIDIA Jetson Thorに、Visionを処理する機能が付加されたLLM(オープンソースのもの。例がアリババが開発したQwen 2.5 VL)を組み合わせて、カメラを装着した筐体にJetson Thorを取り付けると、
・人間の言葉を理解する
・目で見たものを識別する
・人間の指示に従って移動する
自律的なマシンになります。マシンは鉱山機械であっても農業機械であってもドローンでも何でも良いわけです。
自律型フィジカルAIの時代には社内にCVCチームが不可欠
とすれば、コマツのように世界市場で戦っている企業が、世界の競合相手に「自律的に動く自社製品」で勝負するためには、どうすればいいか?
他社が先に出した自律型建設機械/鉱山機械を真似していたのでは、世界市場でシェアを取り続けることは難しいです。
他社に先んじてJetson Thorなどを実装した、自分で考えて自分で判断して動く機械を具体化しなければなりません。
早い話が、Vision-Language-Action Modelで世界最先端を行っているスタートアップを探して、部分出資するなり買収するなりすることが求められます。つまり、ドコモや日立製作所の事例が知られているCVC (Corporate Venture Capital)の機能が自社に求められます。簡単に言えば、目利きの人がいて、海外のターゲット企業に即飛んで、出資やM&Aの交渉をして、話をまとめるチームが必要です。
私が先日、シリコンバレー先端ヒューマノイド視察ツアーを企画したのは、こうしたCVC機能の原初形を集まった皆さんで経験したい/経験させたいという目論見がありました。
【申込締切9月10日/定員12名限り】シリコンバレー最先端ヒューマノイド視察ツアーのご紹介 アップデート版
外資の仕事を長くやった経験から、また米国等で視察を10数本やった経験から、この種のことはとにかく経験値を積むことが必要で、それは簡単に言えば何度も海外に行って色んな企業を訪問して話をする中で培われます。到底1回視察に行っただけでは経験値としてはまだ不足です...。ではどうすればいいか?
経験者を雇うことが先決だと思います。以下にプロフィールがあるマッキンゼーOBの廣川謙一さんがすぐ私の隣に居ます。GEでジャック・ウェルチの下で大型M&A案件を複数手がけた経験もある方であり、東大でロボティクスを学び、MITでロボティクス研究をさらに発展させた経験もおありになる方です。
とにかく雇って、候補企業を特定して、何度も訪問して...。そこから始まるように思います。