Sony AIがプロ卓球選手級のリアルタイム運動性能を持つフィジカルAIを具現化。背後にあるのは次世代ビジュアルセンサー群の技術力[オルタナ用抜粋]
フィジカルAIの開発と技術戦略に関わる方々を想定して、Gemini + Deep ResearchのAI OSINTによる極めて高解像度な技術レポートを作成しました。
Sony AIがプロ卓球選手級のリアルタイム運動性能を持つフィジカルAIを具現化。背後にあるのは次世代ビジュアルセンサー群の技術力
このAI OSINTの前身は、YouTubeで公開されている動画ロボット動画を、同じくGemini + Deep Researchにより、ロボット工学の専門家目線で解析させた以下の2本の投稿です。これができた当時、Geminiのあまりに高度なロボット工学の知見に驚きました。彼の、欧米最先端ロボット工学専門家十数人分の学習の賜物です。Geminiには(Deep Researchと掛け合わせて使うと)、そのような、最先端のロボット/フィジカルAIを、技術的に正確に分析し、レポートする能力があります。これも一種のAIエージェントと言ってよいでしょう。
あまりに高度なヒト型ロボ"Optimus"のテスラギガファクトリー内行動とGeminiによるロボット工学的解析(2025/6/4)(ITmediaオルタナティブブログ)
Geminiを使うとBoston Dynamics AtlasのYouTube動画をロボット工学の研究者的に精緻に分析できる(2025/6/1)(ITmediaオルタナティブブログ)
レポート本体は、例によって、開業準備中の「さっつーのAIエージェント:監修 今泉大輔」サイトに置いてあります。以下の目次をクリックすることでレポート本体に飛びます。
本レポート冒頭の科学雑誌Natureの表紙にSony AIのAceが掲載されたことに関するテキスト
2026年4月、Sony AIが開発したプロ卓球選手級のリアルタイム運動性能を持つフィジカルAI「Ace」が科学誌『Nature』の表紙を飾った。「Ace」は、人工知能が物理的な身体性を伴い、極限の動的環境下で人間と対等に渡り合えることを証明した。

Nature2026年4月号表紙のキャプション和訳
卓球は、高度な巧緻性を要するスポーツであり、素早い反射と予測不可能なプレーに対応する能力を必要とする。これらすべてがロボットにとって大きな課題となる。いくつかのロボットシステムはラケットを手にしてきたが、単純化されたルールのもと、またはアマチュア選手を相手にすることしかできなかった。今週号において、Peter Dürr とその同僚たちは、公式競技ルールのもとでエリート卓球選手を打ち負かすことができる自律型ロボット Ace を発表する。Ace は、カメラのネットワーク、AIベースの制御システム、そして8つの関節を持つ高速ロボットアームから構成されている。研究者たちは、5人のエリート選手と2人のプロ選手との一連の試合において Ace をテストした。このシステムは、エリート選手との5試合のうち3試合に勝利し、プロ選手との2試合はいずれも敗れたものの、そのうちの1人に対して1ゲームを獲得することには成功した。表紙写真は、エリート選手の1人と対戦する Ace の動作中の様子を捉えている。全体として、チームは、Ace がそのプレーにさまざまな種類のスピンを加えることができたこと、また通常とは異なるショットにも素早く反応できたことを指摘している。
卓球というスポーツは、時速150キロメートルを超える球速と、毎秒150回転(9,000 RPM)に達する複雑なスピン、そしてコンマ数秒という極めて短い反応時間を要求される物理AIの究極のベンチマークである。このような環境下で、エリートレベルやプロレベルの人間プレーヤーを撃破した事実は、従来の産業用ロボットが追求してきた「静的な環境での正確な反復」から、物理AIが「動的かつ予測不可能な環境での適応的制御」へとパラダイムシフトを果たしたことを意味している。
本報告書では、Project Aceの技術的アーキテクチャを「センシング」「知能」「ハードウェア」の3つの側面から深掘りし、日本の製造業およびロボット産業の技術担当役員(CTO/VPoE)に向けた技術実装のベストプラクティスを提示する。
Aceの成功は、ソニーが長年培ってきたCMOSイメージセンサー技術、最新の深層強化学習(Deep Reinforcement Learning)、そしてトポロジー最適化を駆使したハードウェア設計が高度に統合された結果であり、その本質はミリ秒単位の「認知・判断・実行」のループにある。
なお、Aceの具現化には、精密機械要素部品メーカーであるTHKが協力している。(YouTube参照)
レポート ハイライトの引用
2.3 Sim-to-Real と Asymmetric Actor-Critic
シミュレーションで学習したAIを現実のロボットに適用する際、最大の課題となるのが「Sim-to-Real ギャップ」である。Aceはこの問題を解決するために「Asymmetric Actor-Critic (非対称アクター・クリティック)」という手法を用いている。
- 訓練時 (Simulator): クリティック(評価役)はシミュレータ内の完璧な情報(特権的情報:ボールの正確な座標、速度、スピンの真値)にアクセスできる。一方、アクター(実行役)は、ノイズが乗ったセンサーデータ(現実のカメラを模した不完全な情報)のみを元に行動を学習する。
- 実行時 (Real-world): アクターは不完全な情報からでも、クリティックの厳しい評価に耐えうる「堅牢な行動」を選択できるようになっている。
さらに、物理パラメータ(摩擦係数、空気抵抗、カメラのキャリブレーション誤差など)を意図的に変動させる「ドメイン・ランダマイゼーション」を徹底することで、現実世界のわずかな環境変化に対しても、追加学習なしで適応することを可能にした。
(今泉注:これ(Asymmetric Actor-Criticという方法論)はロボット開発におけるSim2Realギャップの問題を乗り越えるための画期的な方法論だと思われる。この方法論を適用した強化学習は、大前提として、「シミュレータ内の完璧な情報(特権的情報:ボールの正確な座標、速度、スピンの真値)」が不可欠であり、物理世界で「ボールの正確な座標、速度、スピンの真値」に相当する情報をセンシングすることができる超高度なセンサーが存在していることがその前段にある。つまり従来存在しなかった超高度なセンサーを開発できる技術力があることによって、Asymmetric Actor-Criticの強化学習というブレークスルーが生まれる。縮めて言えば、超高度なセンサー開発力がAceのようなプロ卓球選手級のフィジカルAIを具現化する原動力である。センサー開発力がフィジカルAIの完成度において決定的な意味を持つ時代が到来したと言うこともできる。これを自動運転に応用した世界を考えてみるべき。)
2.4 リアルタイム適応:Surpriseへの対応
卓球では、ネットイン(ボールがネットの縁に当たって軌道が変わる)やエッジボール(台の端に当たって跳ね方が変わる)など、予測を根底から覆す事象(Surprise)が頻発する。
Aceの再計画(Re-planning)能力は極めて高く、ネットインが発生してからわずか「49ミリ秒」でラケットの軌道を修正し、返球に成功した例が報告されている。これは、1 kHzの制御ループが常にボールの「観測値」と「予測値」の乖離を監視しており、大きな乖離が検出された瞬間に即座に下位の制御命令(軌道生成)を書き換える仕組みが機能していることを示している。
第3章 ハードウェア:Physical AIのための最適設計
Aceの物理的な構造は、単に速いだけでなく、卓球という競技特有の「広範囲な横移動」と「手首による繊細な回転」を両立させるためにゼロから設計されている。
3.1 スカラ×多軸のハイブリッド構造
従来の6軸垂直多関節ロボットでは、卓球台の端から端までの高速な横移動において、複数の関節が複雑に連動する必要があり、これが速度のボトルネックとなっていた。Aceはこの問題を解決するために、合計8つの自由度(DOF)を持つ特殊なハイブリッド構造を採用している。
この設計の肝は、3つの回転軸を同一直線上に配置し、それらを同時に回転させることで角速度を「合成(Compound)」し、人間を超えるスイングスピードを実現している点にある。
3.2 トポロジー最適化と新素材の活用
ロボットアームが高速で加減速を行う際、アーム自体の「慣性」と「剛性」のトレードオフが課題となる。Aceでは、航空宇宙産業などで使用される「Scalmalloy(スカマロイ:スカンジウムを含むアルミニウム合金)」を主要素材として採用している。
- トポロジー最適化: アームが受ける応力をシミュレーションし、構造的に不要な部分を極限まで削ぎ落とした有機的な形状を採用。
- アディティブ・マニュファクチャリング: 金属3Dプリンティング技術を用いることで、従来の切削加工では不可能だった「軽量かつ高剛性」な内部空洞構造を実現した。
これにより、アーム先端の速度は最大 20 m/s(時速72km)に達し、かつ打球時の衝撃による振動を最小限に抑える剛性を確保している。