オルタナティブ・ブログ > 経営者が読むNVIDIAのフィジカルAI / ADAS業界日報 by 今泉大輔 >

20年以上断続的にこのブログを書き継いできたインフラコモンズ代表の今泉大輔です。NVIDIAのフィジカルAIの世界が日本の上場企業多数に時価総額増大の事業機会を1つだけではなく複数与えることを確信してこの名前にしました。ネタは無限にあります。何卒よろしくお願い申し上げます。

シリコンバレーで話題のSunday Robotics「Memo」。「手の学習法」のどこがすごいのか?

»

スクリーンショット 2025-12-02 7.01.33.png

シリコンバレーで起業した中国系創業者Tony Zhaoによるヒト型ロボット/ヒューマノイド会社Sunday Roboticsの「Memo」が話題になっています。プロフィールを見ると、スタンフォード博士号、元DeepMind(Google)、元Tesla、元GoogleX。天才肌の方なのでしょう。Xアカウントはこちら。知的なお顔をされています。

この「Memo」の動画をXで見た時、おお!と思いました。日本のコーヒーショップでもよく見かけるようになった欧州性のエスプレッソマシンをMemoの二つの手が器用に使いこなして、

豆をひき、

エスプレッソのバーの窪みに詰め、

ぎゅっとフタをし、

エスプレッソマシンに装着し、

抽出されたコーヒーをコーヒーカップに注ぎ、

それをオフィスにいる同僚に届けるのです。

その動画は見つけられませんでしたが、総集編みたいな動画はこちら。(ちなみにロボティクスの最新情報を得るためにはXで主要アカウントをフォローするのが最短。他メディアでは数日〜数週間遅れます。フォローすべきアカウントはGrokに聞けば一発)

天才の独創と言う他ない「手の学習法」

この「Memo」は二足歩行のヒューマノイドではなく、一本足で立ってローラーで床を移動する方式。二足歩行にすると実現方策が複雑化するので、現在の米国の家屋の床がスムーズであることを考えるとローラー式で割り切る方が賢いと言えば賢いです。日本家屋には当てはまりませんが...。

家事万般を行うことを想定して作られています。

シリコンバレー界隈、及び日本のロボティクス界隈で話題になっているのが、同社が採用した独創的な「手の学習法」。これがシビれます。こういう手があったか!という手の学習法。ひょうたんから駒。天才の独創。

以下、技術的に最大漏らさずロボティクス関係者の需要を満たす情報として、ロボティクスでもスタンフォード博士号級の知識知見学習量を持っているChatGPT 5.1氏に解説してもらいました。


Sunday Robotics(以下、Sunday)が最近発表した Memo の「手袋 (glove) を使った学習方法」が、これまで他社や研究機関で一般的だった「ロボットの腕/手の学習手法」とどう異なるのか――ロボティクスの専門観点から整理すると、以下のような点が際立ちます。あなたが今まで扱ってきた「教示 → 制御 → 実行」のようなロボット学習パイプラインとも、多くの示唆が交錯すると思います。

Sunday/Memo の学習方法の概要

  • Memo の手(ピンサー型ハンド)は、人間の手袋に形状・センサー配置を合わせた「Skill Capture Glove™(以下「グローブ」)」によって、人間が通常の家事動作をするところを"手の動き + 把持力などの触覚データ + モーション軌道"を含めて丸ごと記録。WIRED+2Humanoids Daily+2

  • 収集されたデータは、Memo のAI制御モデル(Sunday が言及するような「基盤モデル + 動作変換 (Skill Transform)」)に投入され、ニューラルネットワークによって、Vision センサーやロボットの関節状態からモーター制御を生成するポリシーを学習。LinkedIn+2Business Insider+2

  • 同社はこの手法によって、実際の家庭での多様な家事動作、壊れ物の取り扱い、多段階タスク (例:テーブル片づけ→食洗機投入まで) を可能にしたと主張。実に「500世帯」「約1,000万エピソード」もの多様な家庭データを集めたという。ロボスタ - ロボット・AI情報WEBマガジン+2SiliconANGLE+2

  • 加えて、学習のコスト構造も従来の遠隔操作 (teleoperation) によるものから大きく改善されており、同社は「2桁の資本効率改善」と表現している (グローブ:約200-400ドルに対し、従来の teleop 装置は ≈2万ドル)。Business Insider+2WIRED+2

つまり、Sunday のアプローチは「現実世界の日常動作を、大規模かつ多様に、人間の手をベースにして収集 → 学習に落とし込む」という方法論です。

従来型のヒューマノイド/ロボット学習手法と典型的なアプローチ

これまでロボット(特にマニピュレーション/ハンド動作)で多く使われてきた学習・制御アプローチとしては、以下が典型的です:

  • 産業用または研究室環境での反復訓練
    決められた構造化タスク (例:同じ形状の部品を決まった場所に置く、決まった順序で把持・移動する、リピート性の高い作業) を人による操作 (teach/demonstration) や手動プログラミングで教え込み、ロボットがそれを繰り返す方式。

  • 遠隔操作 (teleoperation) を用いたデモ収集
    人間オペレーターがロボットのアームや手をジョイスティック、VR、マスター・スレーブ操作などで遠隔操作し、その軌道や動作を記録。これをポリシー学習 (模倣学習/強化学習) に使うケースも多い。たとえば、学術研究では「手の動きをカメラ + 人手からロボットハンドへリターゲティング (retargeting)」する手法もある。arXiv+1

  • シミュレーション + 合成データ / 合成から実ロボットへの転移 (Sim2Real)
    実ロボットではなく仮想空間 (シミュレータ) で動作を学ばせ、その後実機に移す方式。あるいは、シミュレーションで合成した大量データを使って学習し、そのまま実機に適用する試みもある。

これら従来手法の特徴として、「環境がある程度制御されている」「タスクが限定的/繰り返し型」「実環境・多様性・可変性への一般化には弱い」「データ収集がコスト高/拡張性が低い」などの限界があることが多かった。

Memo の手袋方式が「なぜ/どこが」違うか:主要な差異と意義

項目 従来の一般的手法 (産業型/研究型/teleop/simulation) Sunday/Memo の手袋方式
データのソース ロボット自体 (実機) またはシミュレータ 人間の家庭内での日常動作 (実世界)、多様な環境/状況
スケール & 多様性 限られたタスク、環境。拡張はコスト高 500世帯・約1,000万エピソードの規模、多様な家・キッチン・洗濯室など現実環境
コスト効率/スケーラビリティ ロボットの台数/遠隔操作装置が必要、コスト高/人的負荷高 グローブ配布 → ユーザーやリモートワーカーがデータ収集。低コスト、スケールしやすい。
リアルワールド適応 (汎化性) 構造化タスク/制御環境前提。家庭の雑然さには弱い 家庭ごとの差 (食器の形状、配置、雑然さなど) を包含したデータにより、汎化力が高い可能性
学習信号 (フィードバック) の豊富さ 関節角度やモーターコマンド中心。触覚や把持力データは限定的、また安全性や繊細な操作は難しい 把持力、指の配置、接触・摩擦など物理的な情報を含む高度なデータ。壊れ物、複雑な操作に対応可能。
実装の効率性 (デプロイまで)/開発速度 新タスクごとに手動教示 or simulation + fine-tuning 新たな家庭動作 (皿片付け、洗濯、エスプレッソ作りなど) を既存データで横展開できる可能性/そして「家庭に配布 → Beta テスト → 更なるデータ取得」のスパイラルが回せる

このように、Memo の方式は「データ収集のスケール」「多様性」「コスト効率」「リアル世界への汎化力」という、ロボットにとって根本的な弱点を同時に打ち破ろうとするものです。

特に、家庭という「非構造/非定型」な環境で、人間が"普通にやる家事"をそのまま記録できるという点は、これまでの産業ロボットや研究用ロボットでは難しかった領域です。これは、あなたが先に見据えていた「NVIDIA スタックを使って多種多様なロボットを開発できる」というビジョンにも近く、「ハードウェア × 大量で多様な実世界データ × 学習モデル」で汎用性を実現するという方向性の実証例になり得ます。

さらに、グローブを配布して"人間の手のデモをクラウドソース (分散) で収集"することで、ロボット自体を動かさずに学習が進められる──これはスケールと運用コストの面で非常に効率的で、「ロボットを量産・広く実用化する」フェーズへの橋渡しになりそうです。

メリットだけではなく、留意すべき限界や課題

もちろん、このアプローチにも限界やリスクがあります。

  • ハンド構造・能力の制限:Memo はピンサー型ハンド (おそらく 3 指構成などシンプル) であり、人間の手の関節や自由度とは大きく異なる。グローブが同じ形状/センサー "に似せて"いても、柔軟な手のひらの変形、多指制御、微細な把持/操作を完全に再現できるかには限界があるでしょう。

  • データの「翻訳 (retarget) 誤差」:人間が手袋をはめた状態でやった動作を、必ずしもロボットが同じように再現できるとは限らない。特に物理関係 (重量、摩擦、慣性、衝突回避など) の違いは無視できない。

  • ガラスのような壊れ物/安全性:記録されたデータを真似するだけでは、ロボットが常に安全かつ確実に物を扱える保証にはならない。実際の家庭では子どもやペット、突発的な乱雑さもある。

  • "学習 → 実行" のギャップ:大規模データで学習が進んでも、感覚のズレ (視覚・触覚・環境認識) や動作の遅さ、信頼性の問題などで、人間並みの "流暢さ/柔軟性" を得られるかは未知数。

  • 汎用性の限界:あくまで「人間 (グローブ装着) ができる範囲のタスク」に限定される可能性。人間でも不得手なタスク (超複雑な工具操作、繊細な手術、予測不能な状況対応など) への拡張は容易ではない。

あなたの背景(産業ロボット・ヒューマノイド構想)から見える示唆

あなたは以前から、「NVIDIAスタックを使った多種多様なロボット開発」「ヒューマノイドだけでなく産業用ロボットの進化・周辺市場開拓」を見据えてきました。Sunday のアプローチは、まさにその方向性と多く重なると思います。特に:

  • 量産性とコスト効率: グローブ+データ収集というスキームは、ヒューマノイドを高額・小規模な実験機から、広く量産可能な家電/産業機器レベルに落とす際の「現実的な道筋」を示す。

  • 実環境適応の重視: あなたが考えてきた「建設現場や製造現場におけるロボット導入」でも、現場環境は「家庭よりさらに複雑」である可能性が高いため、「多様な現実環境で訓練されたモデル=応用力が高いロボット」の重要性は大きい。Sunday の方法論は、その概念実証として参考になるだろう。

  • "人間データ × AI制御 × ロボットハードウェア" のフルスタック戦略: これはあなたが以前から描いていた構造に近く、特に "人間の動作やノウハウを AI + ロボットに移植する" という意味で、有力なテンプレートになる可能性がある。

結論 -- なぜこの違いは重要か

Sunday のグローブベースの学習方式は、これまでロボットが苦手としてきた「家庭 (あるいは現場) のような雑多で変動する環境」「多様で不確実なタスク」「人間と同等の柔軟なマニピュレーション能力」を扱ううえで、非常に現実的でスケーラブルなアプローチです。従来の「研究室/産業現場での限定的タスク」ではなく、「人間の日常や現場の多様な状況全般」を対象にできる点で、ロボティクス/ヒューマノイドの実用化において大きなブレークスルーになり得ます。

あなたの関心領域――建設業や製造業へのヒューマノイド/産業ロボット導入――においても、このような "大規模実環境データ × 学習モデル × ロボット制御" の構造は、量産性・応用性・コスト効率の観点で極めて魅力的です。

Comment(0)