NVIDIA Jetson Thor時代にも大きな価値がある日本のTelexistenceの「モーションデータ工場」【技術解説】
私は日本のヒューマノイド/ヒト型ロボット開発は、アメリカのFigure AIやBoston Dynamics、欧州の1X Technologies、中国のUnitreeやUBTECHと比較するとかなり遅れているのではないか?という目線でこれまで見てきました。
しかし実際にはそんなに遅れてはいない、場合によっては欧米と肩を組んで進んでいくことができる日本ならではの「武器」がありそうだということが、この数日で、はっきりと見えてきました。
武器の一つは日本の村田製作所などしか製造することができない高精度なセンサー群。これについては色々調査した上で改めて述べます。
そうしてもう一つは、AIロボット協会が取り組んでいる「データ収集」や先ごろ日本スタートアップ大賞2025を受賞したTelexistenceが2026年1月から開始するとアナウンスした「モーションデータ工場」です。
Jetson Thorを使うとロボット開発期間が短縮される理由
ここ2、3日の投稿でNVIDIAのJetson Thorがロボット開発を大きく変えることを述べました。ものすごく簡単に言うと、AIデータセンターのサーバー用コンピュータ並みの「リーゾニング」(推論/人間のように考えること)能力を持ったコンピュータであるJetson Thorに、ChatGPTに代表されるLLM(Large Language Model)を組み合わせてロボットに搭載すると(現実的には取り回しがしやすいオープンソースのLLMを組み合わせる)、飛躍的に頭の良いロボットができあがり、従来のヒューマノイド/四足歩行ロボット/その他のロボットとは一線を隠す高性能なロボットが市場で販売できるようになる...ということです。詳しくは以下の2本の投稿をお読み下さい。
NVIDIA Jetson Thor:自律ロボットの"学習"の大部分が不要になる「オンボード・リーゾニング」。ロボット産業は自動車業界超え
すでに始まっているNVIDIA Jetson Thor実装。Jetson ThorとLLMを実装した自律的に飛行するドローンの衝撃
Jetson Thorを採用すると、ロボット開発が飛躍的に短期間で終わるようになります。それはそもそもNVIDIAの技術スタックを使って開発すると、そういう風になるように個々の技術製品が構造的に設計されているからです。NVIDIAを使うとなぜロボット開発が早くできるのか?以下の投稿で述べました。技術的に正確になるようにAIを使って記述しています。
NVIDIAを使うとなぜロボティクスの設計・検証のリードタイムが短縮されるのか?
Jetson Thorは、ロボットの完成度向上に不可欠な「学習」の"ある部分"を簡素化します。学習が不要になると言っている訳ではなく、高度な脳とLLMとがあるため、それが処理する部分は学習しなくても済むようになるということです。技術的に舌足らずにならないように上の投稿で述べた部分を再掲します。
1. 不要化・負担減が期待される学習領域
(1) 個別タスクごとの模倣学習
従来:人間が一つ一つのタスクをデモして記録し、ロボットに「こういう状況ではこの動作」と覚え込ませる必要があった。
Jetson Thor:
**大規模推論(Vision-Language-Actionモデル)**をオンボードで常時実行可能。
未知の状況でも、言語・視覚の理解から「その場で動作を合成」できる。
→ 逐一タスクごとに模倣学習を繰り返す負担が軽減される。(2) シミュレーションでの"細かすぎる動作学習"
従来:Sim2Realのために、仮想空間で膨大なシナリオを再現し学習させる必要があった。
Jetson Thor:
高密度センサーデータ処理+リアルタイム推論で現場の変化に即応可能。
「すべてのシナリオを事前にシミュレーションで網羅」する必要性が下がる。
→ シミュレーション準備コストの削減につながる。(3) 現場適応のための追加学習
従来:新しい現場(工場ライン変更、建設現場のレイアウト変更など)に合わせて再学習が必要。
Jetson Thor:
Holoscan+マルチセンサー処理で、その場の環境を理解・統合。
推論で新環境に即時適応。
→ 現場ごとに再学習する必要性が減少。2. 不要にはならない学習領域
基盤モデルの事前学習:
視覚理解・言語理解・基本運動プリミティブなどは、依然として大規模データでの事前学習が不可欠。安全クリティカル動作の検証学習:
衝突回避・人間とのインタラクションなど、安全認証に直結する部分は学習・テストが必須。3. ロボット開発がどう効率化するか
データ収集の負担減:タスクごとの模倣データやシミュレーションデータを膨大に集める必要が少なくなる。
PoCから実装までの期間短縮:現場で「試して即動かす」が可能になり、実装までの反復スピードが加速。
スケーラビリティ向上:異なる環境や用途に展開するときも、再学習コストが大幅に減り、同じモデルを横展開しやすい。
ここで大事なのは、依然として残る「不要にはならない学習領域」をどうやって粛々とこなしていくか?です。
以下の動画はスタンフォード大学のロボット研究室のもので、基盤モデルの事前学習を行っています。
基盤モデルの事前学習(運動プリミティブ+視覚理解)
タスクに必要な動作要素(primitive motion)を、最初から学習させる。
たとえば「つかむ」「回す」「置く」など、複数の動作を視覚認識と紐づけて記憶。
Jetson Thorのような推論機関があっても、その推論を支える動作知識が事前に必要なため、学習そのものは必須。
Jetson Thorがあっても不可欠な学習領域をTelexistenceの「モーションデータ工場」がカバーする
日本のロボット業界の底上げを図る意味で、
2. 不要にはならない学習領域
基盤モデルの事前学習:
視覚理解・言語理解・基本運動プリミティブなどは、依然として大規模データでの事前学習が不可欠。
を個別の企業がそれぞれ同じ内容を粛々と学習させるのではなく、業界全体として「共通の学習データ資産を持とう」という発想があって良い訳です。それを行っているのが早稲田大学の尾形哲也教授が理事長を務めているAIロボット協会であると理解しています。どの会社がロボットを開発しても必ず同じことをやらなければならない訳だから、その部分を共有しましょうということです。これは理にかなった発想です。
また、このような「不要にはならない学習領域」のデータを、自社で開発するロボットのために(Jetson ThorなどNVIDIA開発スタックを使う前提)、急いで用意して下さい...と外注できるのが、Telexistenceが2026年1月から開始する「モーションデータ工場」です。
プレスリリース:Telexistence, VLA開発に不可欠なロボット動作データの生成サービスを2026年1月に開始
Telexistence Inc.(本社:東京都、代表取締役CEO:富岡仁)は、ロボットの進化に不可欠な様々なロボット動作のデータセットを顧客の要望に沿って、大量に、安定的に、そして安価に生成するサービスを2026年1月より正式に開始いたします。これに先立ち、2025年9月よりプレオーダーを受け付けます。
本サービスの提供にあたり、当社は「モーションデータ工場」を建設致します。我々が稼働させるモーションデータ工場は、ロボット業界における"新しいインフラ"であり、電力や通信のように、ロボットの知能開発に必要なデータを安定的に供給することで、世界中のロボット企業や研究機関の成長を支えます。
サービスイメージについてはこちらからご覧ください:
■サービス概要
- 対象顧客:日米欧のロボットスタートアップ、グローバルロボットメーカー、大学、研究機関など
- サービス内容:多関節ロボットを用いたモーションデータセットの生成/データクレンジング・クリーニング(オプション対応)
- 価格体系:データ生成時間数 × 動作難易度に応じて算定
私はこのTelexistenceの「モーションデータ工場」のサービスを受けることで、日本のヒューマノイドないしそれに準じたロボットの開発期間は間違いなく短縮できると確信しています。日本から「フィジカルAI」製品が生まれる日も、そんなに遠くないのではないかと思えてきました。ありがたいことです。