1Xの商用フィジカルAI「NEO」。勝ち組の理由はNVIDIA全面協力「動画ベースのワールドモデル」で学習がどんどん加速化するデータ・フライホイール
今泉大輔です。X(Twitter)はこちら @researchpro_jp 【X速報】経営者が読むNVIDIAのフィジカルAI / ADAS業界日報 by 今泉大輔
1X Technologiesについては、付かず離れずウォッチしてきています。
1X Technologiesがついにヒト型ロボ"NEO"を商用化。月500ドルのサブスクも【AI活用海外市場調査】(2025/10/31)
同社のヒト型ロボットNEOの量産が始まったそうです。
ロボスタ:ヒューマノイドは米国も量産フェーズへ 1Xが垂直統合工場「NEO Factory」を動画で紹介
そこで深掘りレポートとして、NEOのアーキテクチャ、および、同社が決定的に「商用化が速いプレイヤー」として展開するのに不可欠だったNVIDIAとの戦略的協業関係を分析するレポートを作成しました。NEOはNVIDIAの最先端フィジカルAI用エッジコンピュータであるJetson Thorが搭載された初の商用フィジカルAIという位置付けも持っています。
わかったのは、ヒューマノイドNEOの学習に用いるデータに「データ・フライホイール構造」があるということです。出荷された後、各家庭で動作するNEOのデータは、学習データ総体を恒常的に更新し続け、データの付加価値が常に増大します。これによって追随する他社をどんどん引き離す競争戦略上の"Moat(堀)"が築かれます。"Moat"はウォーレンバフェットが投資先選定において必須の条件としていた構造的な競争優位。これを1XのNEOも持ち始めているのです。
ウォーレン・バフェットがAppleを評価する最大のポイント"Economic moats"(経済的な堀)を理解するための英文プロンプト(2025/2/18)
AIデータ・フライホイールについては以下の拙稿を参照。AIデータ・フライホイールがあるかないかで、その企業がAI勝ち組になるか、負け組になるかが決まるという、決定的な要因です。
「AI負け組」はどこにいる?米国のSaaSの死の本当の原因 -> AIデータ・フライホイールのあるなし(2026/2/16)
1Xの商用フィジカルAI「NEO」。勝ち組の理由はNVIDIA全面協力「動画ベースのワールドモデル」で学習がどんどん加速化するデータ・フライホイール
序論:フィジカルAIにおけるパラダイムシフトとビデオ生成モデルの役割
2026年、フィジカルAIの世界は、大規模言語モデルがテキストの世界で果たしたのと同様の、劇的な転換点を迎えている。かつてのロボット開発は、人間が手作業でプログラムを記述するか、あるいは高コストなテレオペレーションを通じて一つ一つの動作を模倣させるという、極めてスケーラビリティに欠ける手法に依存していた。しかし、1X Technologies(以下、1X)とNVIDIAの戦略的提携は、このボトルネックを「ビデオ生成ベースのワールドモデル(World Model)」という革新的なアプローチで打破しようとしている 。
この新時代の核となるのは、ロボットが「未来を視覚的に想像し、その想像を物理的な行動に変換する」という能力である。1Xが開発した「1X World Model (1XWM)」は、インターネット規模の膨大なビデオデータから世界の物理法則を学習し、それをヒューマノイド・ロボット「NEO」の身体性と結びつけることで、未知の環境やタスクに対する驚異的な汎用性を実現した 。このプロセスは、従来のロボット学習を根底から覆すものであり、データ収集のコストを劇的に下げると同時に、自律的な自己改善のループ、すなわち「データ・フライホイール」を始動させるものである 。
本報告書では、1XWMのアーキテクチャ、逆動力学モデル(IDM)の統合、NVIDIAのProject GR00TやCosmosプラットフォームとの連携、そしてこれらの要素が統合されることで構築される、他社の追随を許さない競争優位性と戦略的な「堀(Moat)」について、技術的および市場的な視点から詳細に解明する。
第1章:1X World Model (1XWM) のアーキテクチャと技術的基盤
1XWMは、140億パラメータ(14B)を擁する生成型ビデオモデルをバックボーンとし、ロボットの現在の観測(画像フレーム)とテキストによる指示を受け取り、数秒先の視覚的な未来を予測する 。このモデルは、単なる映像の連続を生成するのではなく、物体間の接触、摩擦、重力、そしてロボット自身の行動が環境に与える影響を内包した「物理的に接地された予測」を行う。
1.1 ビデオ生成をプランナーとして活用する新パラダイム
従来のVision-Language-Action (VLA) モデルは、画像とテキストから直接アクション(行動)を予測するが、これは複雑な物理的相互作用を捉えきれないことが多い。対照的に、1XWMはビデオ生成を「視覚的プランナー」として利用する。まず、モデルが「成功したタスク」の映像を頭の中で生成し、その後、その映像を実現するための具体的な関節制御を決定する 。
これは、インターネット上に存在する何十億時間ものビデオデータを学習ソースとして利用したことによって可能になっている。人間が物体を操作する映像には、現実世界のダイナミクスに関する暗黙の知識が含まれており、1XWMはこれを吸収することで、直接的なロボット訓練データがないタスクでも「何が起こるべきか」を理解する 。
レポート全体は開業準備中の「さっつーのAIエージェント:監修 今泉大輔」に置いています。
- 序論:フィジカルAIにおけるパラダイムシフトとビデオ生成モデルの役割
- 第1章:1X World Model (1XWM) のアーキテクチャと技術的基盤
- 第2章:NVIDIAとの提携によるエコシステム的優位性
- 第3章:自律的なデータ・フライホイールと戦略的Moat
- 第4章:ハードウェア・インフラストラクチャ:BlackwellからRubinへ
- 第5章:競合分析と市場における独占的ポジション
- 第6章:結論と将来展望
- 引用文献
イーロン・マスク「宇宙(軌道上)データセンター」と
「次世代半導体工場テラファブ」の全体像
【AIインフラの概念を根底から覆す「垂直統合」の正体】
もはや一企業の枠を超え、国家級のAIインフラ構築を加速させるマスク氏。地球規模の「テラファブ」から、電力と冷却の問題を解決する「軌道上データセンター」まで、その誇大妄想ではない現実的なロードマップを徹底解説します。
NVIDIAが支配するAI半導体市場に、マスク氏がいかに「計算資源の供給網」で挑もうとしているのか。製造・エネルギー・通信の枠組みを超える次世代産業構造の全貌に迫ります。
講師:今泉 大輔(株式会社インフラコモンズ 代表)
主催:日本ビジネス情報機構