Geminiを使うとBoston Dynamics AtlasのYouTube動画をロボット工学の研究者的に精緻に分析できる
ヒューマノイドに限らずロボット研究者にとって朗報です。
ヒューマノイド等の振る舞いを描写しているYouTube動画は無数にあります。
その中で特に対象ロボットの動作制御技術が特に優れている(言い換えれば研究対象になる)YouTube動画について、Gemini新版で分析させると、ロボット工学の研究者なみに分析し、記述してくれることがわかりました。Geminiのユースケースとしてこれはまだ世界的に共有されておらず、かなり価値のある知見だと思っています。
現物を見た方が早いので掲げます。以下のBoston DynamicsのヒューマノイドAtlasが自動車工場を模した室内で自律的に部品を運び棚に入れている動画をGemniに分析させました。
Geminiが分析した結果が以下です。
Geminiはロボット工学の研究者としてAtlasのYouTubeビデオをかなり高精度で分析する
Boston Dynamics社製ヒューマノイドロボットAtlas「Atlas Goes Hands On」動画における技術分析
本分析では、提示されたYouTube動画「Atlas Goes Hands On」においてBoston Dynamics社のヒューマノイドロボットAtlasが示す行動に基づき、その技術的構成、制御アルゴリズム、および実装に関する推定を、ロボット工学の研究者およびヒューマノイド開発者向けに詳細に解説する。
1. 運動制御(歩行、ジャンプ、着地、宙返りなど)
動画内でAtlasは、工場のような整地された環境において、複数のラック間を効率的に移動し、エンジンカバーと見られる物体を運搬・配置する作業を行っている [
- 歩行・移動: 物体を保持した状態での歩行や方向転換 [
,00:19 ] は、重心移動と足平の接地位置・タイミングの精密な制御を示唆している。特に、旋回時には上半身の慣性モーメントを考慮したダイナミクス補償が行われていると考えられる。また、Atlasが不整地や予期せぬ外乱に対して高いロバスト性を持つことは既知であり、本動画の整地環境においても、その基盤技術である**受動的歩行(Passive Walking)**の原理を応用したエネルギー効率の高い歩容や、着地衝撃吸収制御が実装されている可能性が高い。00:32 - 姿勢遷移: しゃがみ込んで低い位置の物体を扱う動作 [
] では、広範な関節可動域と、その全域にわたる安定したトルク制御能力がうかがえる。これは、油圧アクチュエータの高い出力密度と応答性に加え、関節空間・タスク空間双方でのフィードバック制御が精密に行われていることを示している。01:07 - 推定される制御ループ: 高速な状態フィードバック(IMU、関節エンコーダ、足裏センサー等からの情報)に基づき、リアルタイムで歩行パターンや全身の姿勢を補正する**内部モデル制御(Internal Model Control)**の枠組みが採用されていると考えられる。MPCは、数ステップ先の未来の状態を予測し、現在のアクションを最適化することで、滑らかで予見的な動作を実現していると推察される。
2. マニピュレーション(物体把持、リーチング、姿勢制御)
Atlasは、グリッパーを用いて対象物(エンジンカバー様オブジェクト)を確実に把持し、指定された場所へ正確にリーチング、そして配置する一連のマニピュレーションタスクを遂行している [
- 物体把持: グリッパーの設計は、対象物の形状や材質にある程度汎用性を持たせたものと推測されるが、動画からは詳細な構造は不明である。把持力制御や、滑り検出・補償機能が組み込まれている可能性がある。
- リーチングと姿勢制御: 物体を把持して運搬する際、Atlasは上半身だけでなく、下半身も含めた全身の協調動作によってマニピュレーションを行っている。これは、**リーチング時の可操作性(Manipulability)**を最大化しつつ、**全身の重心(Center of Gravity, CoG)**を支持多角形内に安定して維持するための高度なWBCの現れである。特に、重量物を扱う際には、腕部の動作が身体全体のバランスに与える影響(反作用力)を予測し、それを補償する制御が不可欠である。
- 手先軌道計画: 目標位置に対して障害物を回避しつつ滑らかな手先軌道を生成するモーションプランニングアルゴリズム(RRT*, PRMなど)がバックグラウンドで動作し、関節角度指令に変換されていると考えられる。視覚情報に基づくリアルタイムな軌道修正も行われている可能性がある。
3. 環境認識とセンサーフュージョン(視覚、距離認識など)
Atlasの頭部には、複数のセンサーが搭載されていることが視認できる。動画中にはAtlasの視点と思われる映像も挿入されており [
- 視覚センサー: 頭部に搭載された複数のカメラ(おそらくステレオカメラペア、もしくはRGB-Dカメラ)により、三次元的な環境構造(ラックの位置、形状)、対象物体の位置・姿勢、自己位置などを認識していると推定される。画像認識(Object Detection/Recognition)やセマンティックセグメンテーションの技術が用いられ、作業対象や障害物を識別していると考えられる。
- 距離認識: RGB-Dカメラ(Time-of-Flight方式または構造化光方式)やLiDARの搭載も考えられ、これにより高精度な3次元点群データを取得し、詳細な環境マップ生成(例:OctoMap)や自己位置推定(SLAM: Simultaneous Localization and Mapping)に利用している可能性がある。動画の「Fully Autonomous」という表示は、高精度なSLAM技術に支えられていることを示唆する。
- センサーフュージョン: 視覚情報、深度情報、IMU(慣性計測装置)からの自己運動情報、関節エンコーダからの内部状態情報などを統合的に処理するセンサーフュージョン技術(例:拡張カルマンフィルタ、パーティクルフィルタ)が実装され、ロバストな状態推定を実現している。これにより、個々のセンサーの弱点を補い合い、環境変化やノイズに対する頑健性を高めている。
4. タスクプランニングと自律判断
「Fully Autonomous」と明記されている通り、Atlasは一連の作業を人間の直接的な操作なしに自律的に計画し、実行している。
- タスクプランニング: 「複数の物体をラック間で整理する」という高レベルなタスク指示に基づき、Atlasは個々の物体のピック&プレース順序、移動経路、中間動作などを自律的に計画していると考えられる。シンボリックプランニング(例:PDDLベース)や**階層型タスクネットワーク(Hierarchical Task Network, HTN)**のような手法が用いられ、複雑なタスクをより単純なサブタスクに分解し、逐次実行している可能性がある。
- 意思決定と状況判断: 作業中に予期せぬ状況(例:物体の位置ずれ、軽微な障害物)が発生した場合でも、ある程度の自律的な判断とリカバリー動作を行う能力を有していると推測される。これには、状態遷移機械(State Machine)や、より高度な行動ツリー(Behavior Tree)、あるいは**強化学習(Reinforcement Learning, RL)**によって獲得されたポリシーが利用されている可能性がある。RLは、特に複雑なマニピュレーションスキルや状況判断ロジックの獲得に有効である。
- 知識ベースと推論: 作業環境に関する事前知識(ラックの構造、物体の特性など)を知識ベースとして保持し、それに基づいて推論を行いながら行動計画を最適化していると考えられる。
5. 使用されていると思われるセンサー・アクチュエータ構成
- アクチュエータ: Boston Dynamicsの多くのロボットと同様に、Atlasも油圧アクチュエータを主要な動力源としている可能性が極めて高い。油圧システムは、高い出力密度、高速応答性、バックドライバビリティ(外力に対する柔軟性)を提供し、ダイナミックな運動や衝撃吸収に適している。各関節には高精度なエンコーダが内蔵され、精密な位置・速度制御を実現している。
- センサー:
- 視覚: 頭部にステレオカメラ、RGB-Dセンサー(Intel RealSenseシリーズや類似品)。
- 慣性計測: IMU(加速度センサー、ジャイロセンサー、磁気センサーを統合)を体幹部に搭載し、姿勢角や角速度を計測。
- 関節センサー: 各関節にエンコーダ(角度、角速度)、トルクセンサー(直接的または間接的に関節トルクを推定)。
- 足裏センサー: 足平に多軸力覚センサーや感圧センサーを分散配置し、ZMPや接地面反力を計測。
- その他: 物体把持のための触覚センサー(グリッパー部)、近接覚センサーなどが補助的に使用されている可能性もある。
6. ソフトウェアスタックの推定
Atlasのような高度な自律ヒューマノイドロボットのソフトウェアスタックは、極めて複雑な階層構造を持つと推定される。
- リアルタイムOS(RTOS): アクチュエータ制御やセンサー情報処理といったハードリアルタイム性が要求される最下層の制御ループには、QNX、VxWorks、あるいはLinuxベースのPREEMPT_RTパッチを適用したシステムなどのRTOSが採用されている可能性が高い。
- 制御層の分離:
- 低レベル制御層: 個々のアクチュエータのサーボ制御、センサーデータのフィルタリング、緊急停止処理などを担当。
- 運動制御層(ミドルウェア): 全身協調制御、歩行パターン生成、バランス制御、マニピュレーション制御などを実行。ROS(Robot Operating System)あるいはそれに類する独自のミドルウェアフレームワーク上で、複数の制御モジュールが連携して動作していると考えられる。
- 高レベルプランニング・認識層: 環境認識、自己位置推定、タスクプランニング、意思決定、ヒューマン・ロボット・インタラクション(本動画では限定的)などを担当。こちらはLinuxベースの汎用OS上で動作し、機械学習ライブラリ(TensorFlow, PyTorchなど)やプランニングライブラリとの連携が図られていると推測される。
- 通信アーキテクチャ: DDS(Data Distribution Service)やROSの通信メカニズム(トピック、サービス)のようなパブリッシュ/サブスクライブ型の分散通信アーキテクチャにより、各モジュール間のデータ交換が効率的に行われている。
7. 技術的仮説や設計上の工夫
- シミュレーション駆動開発: Boston Dynamicsは、物理エンジン(MuJoCoなど)を用いた高度なシミュレーション環境を開発プロセスの中心に据え、制御アルゴリズムの検証、強化学習によるポリシー獲得、パラメータ最適化などを効率的に行っていると強く推測される。現実世界へのSim-to-Realギャップを埋めるためのドメインランダム化などの技術も活用されている可能性がある。
- データ駆動型アプローチの深化: 従来からのモデルベース制御に加え、近年注目される深層学習や強化学習といったデータ駆動型アプローチを、認識・判断・制御の各レベルで積極的に導入し、性能向上を図っていると考えられる。特に、複雑な接触状態を伴うマニピュレーションや、人間が直感的に行うような動作スキルの獲得に有効である。
- 冗長自由度の活用: ヒューマノイドは多数の関節自由度を持つ冗長システムであり、この冗長性を積極的に活用して、障害物回避、エネルギー効率最適化、可操作性向上などを同時に達成するタスク優先度制御やNull-Spaceプロジェクションといった技術が洗練されている。
- ロバスト性と安全性: 予期せぬ外乱や内部故障時にも安全に動作を継続または停止するためのフェイルセーフ機構や、人間との協調作業を将来的に視野に入れた場合の**本質的安全性(Intrinsic Safety)**に関する設計思想も、ハードウェア・ソフトウェア両面で考慮されているはずである。
本分析は、公開情報と動画から得られる観察に基づいた専門的な推論であり、Boston Dynamics社の内部情報に基づくものではない点に留意されたい。しかしながら、Atlasが示す高度な運動能力と自律性は、上記のような最先端のロボット工学技術が結集した結果であることは疑いようがない。
Atlasに関する詳細な報告書をインプットしたらさらに精緻な分析が得られた
これだけでも大した分析ですが、Atlasに関する専門的な知識を持っている研究者の方には、「油圧アクチュエーターだと間違えている」、「ソフトウェアスタックの推定が、実際にはNVIDIAのIsaac Lab, GR00T N1などを用いたものになっていることを認識していない」といった分析の瑕疵を気にされることと思います。
そこで思い切って、先日、Atlasに関する詳細な調査報告書をChatGPT Deep Researchに書かせたものを(以下にリンクあり)
現代自動車米国工場で稼働し始めたBoston Dynamics "Atlas"に関する詳細な報告書
全部Geminiにインプットして、それでどう分析するかを見てみることにしました。これはもう誰もやったことがない実験ですw。
その結果、Geminiから以下が得られました。これはもうロボット工学的にAtlasの現在状況をかなり正確に分析した技術文書だと言って良いと思います。
提供いただいた詳細なビジネスレポートに基づき、先のYouTube動画「Atlas Goes Hands On」におけるBoston Dynamics社製ヒューマノイドロボット「Atlas」の行動分析を更新・深化させます。この情報は、Atlasの技術的背景をより正確に理解する上で非常に有益です。
Boston Dynamics社製ヒューマノイドロボットAtlas「Atlas Goes Hands On」動画における技術分析(更新版)
提示されたYouTube動画「Atlas Goes Hands On」においてBoston Dynamics社のヒューマノイドロボットAtlasが見せる行動と、提供されたビジネスレポートの情報に基づき、その技術的構成、制御アルゴリズム、および実装に関する推定を、ロボット工学の研究者およびヒューマノイド開発者向けに詳細に分析します。
1. 運動制御(歩行、ジャンプ、着地、宙返りなど)
動画内でAtlasは、工場のような整地された環境で、エンジンカバーと見られる物体をサプライヤー用コンテナから取り出し、台車(ドリー)へと移し替える一連の作業を行っています。これはレポートで言及されている自動車工場でのデモンストレーションに合致するものです。新型Atlasは全電動式へと移行しており、これにより従来の油圧式に見られたパワフルさに加え、より精密で静粛な動作、そしてメンテナンス性の向上が期待されます。
- 歩行・移動: 物体を保持した状態での安定した歩行 や、方向転換 は、電動化された高出力アクチュエータと、レポートにある通り各関節に搭載された高精度な角度・トルクセンサーからのフィードバックに基づく高度な制御を示唆しています。特に新型Atlasでは、「従来より小柄になり、可動域が広がった」とされており、腰や肩の回転軸追加によって身体をひねる・傾ける動きが滑らかになっている点も、動画の流麗な動作に寄与していると考えられます。
- 姿勢遷移とバランス制御: しゃがみ込んで低い位置の物体を扱う動作 や、台車の位置が意図的にずらされた際に即座に対応しバランスを保つ様子(レポート内で言及)は、Boston Dynamics社が長年蓄積してきた**全身協調制御(Whole-Body Control, WBC)**アルゴリズムの成熟度を示しています。電動化による応答性の高いアクチュエータは、このような動的なバランス維持に有利に働くでしょう。
- 制御アルゴリズム: 従来のZMPベースの制御に加え、モデル予測制御(MPC)の活用は引き続き重要であると推測されます。さらに、レポートで強調されているNVIDIA Isaac Labを用いた強化学習(RL)や人間の動作データに基づく模倣学習が、Atlasの多様で人間らしい動き(例:ブレイクダンスのような動き、レポート参照)や、未知の状況への適応能力獲得に大きく貢献していると考えられます。RLは特に、複雑な接触状態やダイナミクスを伴う全身運動のポリシー獲得に有効です。
2. マニピュレーション(物体把持、リーチング、姿勢制御)
Atlasは、動画内でエンジンカバー様のオブジェクトを確実に把持し、精密なリーチングを経て配置する作業を繰り返しています。
- 物体把持とエンドエフェクタ: レポートによれば、新型Atlasでは「さらなる多様な把持(グリッパー)アタッチメントを試作する計画」があるとされており、動画で使用されているグリッパーもその一つと考えられます。各関節モーターの繊細な力加減の調整能力は、対象物を破損させずに安定して把持するために不可欠です。
- リーチングと協調制御: 物体を把持して運搬する際の全身の協調動作は、電動化されたことでよりスムーズかつエネルギー効率の高いものになっている可能性があります。レポートにある通り「人間さながらの全身運動能力」と「拡大された関節可動域」が、リーチング範囲の拡大と複雑な姿勢での作業を可能にしています。
- スキル獲得: 物体操作の巧みな手先の動きは、NVIDIAのGR00Tプラットフォームにおける「Dexterity(器用さ)」モジュールで言及されているように、強化学習とデータ生成によって習得されている可能性があります。
3. 環境認識とセンサーフュージョン(視覚、距離認識など)
Atlasが「Fully Autonomous(完全自律)」で作業を行うためには、高度な環境認識能力が不可欠です。Atlasの視点と思われる映像 もその一端を示しています。
- 搭載センサー: レポートによると、新型Atlasの頭部にはステレオカメラやLiDAR、胴体各所に深度センサーなどが搭載されています。これらは動画内でAtlasがラックや台車の位置、対象物体を正確に認識し、作業を行うために使用されています。
- 3D環境認識とSLAM: LiDARと深度センサーの組み合わせにより、高精度な3次元点群データを取得し、リアルタイムでの**SLAM(Simultaneous Localization and Mapping)**や高精細な環境マップ(例:OctoMap、デジタルツインの基礎データ)を生成していると強く推測されます。これにより、自己位置推定の精度を高め、自律移動とナビゲーションを実現しています。
- センサーフュージョンとAI処理: これらのセンサー群からのデータは、Atlas本体に搭載されたNVIDIAのJetson Thorプラットフォーム上でリアルタイムに統合・処理されます。Jetson Thorの高い演算能力により、物体検出のためのディープラーニングモデルや、後述するGR00T N1のような大規模AIモデルをオンボードで実行し、環境理解と意思決定を行っていると考えられます。NVIDIA GR00Tの「Perception(認識)」モジュールで言及されている、画像と言語を組み合わせた視覚認識と言語モデルの活用も将来的には期待されます。
4. タスクプランニングと自律判断
「Fully Autonomous」と表示されている通り、Atlasは高レベルな指示(例:部品をA地点からB地点へ移動)に基づき、一連の動作を自律的に計画・実行しています。
- タスクプランニング: 動画の作業(部品のピック&プレース、運搬、配置)は、シンボリックプランニング(例:PDDL)や階層型タスクネットワーク(HTN)によってサブタスクに分解され、逐次実行されていると考えられます。
- 自律判断と適応性: レポートで触れられている「台車の位置が意図的にずらされるハプニングへの対応」は、Atlasが環境変化をリアルタイムに検知し、行動計画を動的に修正できる高度な適応能力を持つことを示しています。これは、NVIDIAのGR00T N1のような汎用AI基盤モデルの導入によって強化される部分です。GR00T N1は、多様な環境で多目的なタスクを遂行できる汎用的なスキルと推論能力を提供し、Atlasが新しいタスクや未知の状況に柔軟に適応する上で中核的な役割を果たすと期待されます。
- 学習ベースの判断: 強化学習や模倣学習によって獲得された行動ポリシーが、特定の状況下での最適な行動選択に寄与していると考えられます。
5. 使用されていると思われるセンサー・アクチュエータ構成
レポートの情報に基づき、構成要素を具体的に記述します。
- アクチュエータ: 全身計30箇所近い関節に、Boston Dynamics社が専用設計した**高出力電動アクチュエータ(モーター)**が搭載されています。これにより、油圧システム特有のオイルポンプや配管が不要となり、軽量化、静音化、メンテナンス性向上、発熱・油漏れリスクの低減を実現しています。
- センサー:
- 視覚: 頭部にステレオカメラ、深度センサー。
- 距離: 頭部にLiDAR。
- 慣性計測: IMU(体幹部に搭載)。
- 関節センサー: 各関節モーターに高精度な角度センサー、トルクセンサーが内蔵。
- その他: 今後のアタッチメントによっては接触センサーや力覚センサーの搭載も考えられます。
- 素材・構造: 強度を維持しつつ機体の軽量化を図るため、チタンやアルミニウム製部品が一部3Dプリントで成形され、関節部や骨格フレームに採用されています。
6. ソフトウェアスタックの推定
レポートでNVIDIAとの連携が詳細に述べられているため、ソフトウェアスタックの推定はより具体的になります。
- オンボードAI処理: NVIDIA Jetson Thorを計算ユニットとして搭載。これにより、マルチモーダルな大規模AIモデル(物体認識、強化学習ポリシー、GR00T N1など)をAtlas本体でリアルタイムに実行可能です。
- リアルタイムOS(RTOS): 低レベルのモーター制御やセンサー処理には、依然としてRTOS(QNX、VxWorks、LinuxベースのPREEMPT_RTなど)が使用されていると推測されます。
- ミドルウェアと学習フレームワーク:
- NVIDIA Isaac Lab: 仮想環境(シミュレーション)上で強化学習や模倣学習を実行するためのフレームワーク。
- NVIDIA Isaac Sim on Omniverse: 物理ベースの高精度シミュレータIsaac Simと、3DコラボレーションプラットフォームOmniverseを組み合わせ、工場のデジタルツインなどリアルな仮想訓練環境を構築。
- ROS (Robot Operating System): 上位のタスク管理やモジュール間の通信にROSまたは類似のミドルウェアが引き続き利用されている可能性があります。
- 汎用AIモデル: NVIDIA GR00T N1を導入。これは言語や映像などマルチモーダルな入力を理解し、多様なタスクを遂行できる汎用スキルと推論能力をAtlasに提供する基盤モデルとなります。
- 制御層の分離: 低レベル制御(サーボ制御、センサーデータ処理)、運動制御層(全身協調制御、歩行・マニピュレーション)、高レベルプランニング・認識層(タスクプランニング、GR00T N1による推論、環境理解)という階層構造は維持しつつ、各層がNVIDIAのプラットフォームと密接に連携していると考えられます。
7. 技術的仮説や設計上の工夫
レポートの情報により、多くの仮説が裏付けられ、さらに具体的な設計思想が見えてきます。
- シミュレーション駆動開発とデジタルツインの徹底活用: Boston Dynamics社は「ヒューマノイドは設備の詳細モデルと大量の運用データと組み合わせて展開するのが最も効果的だ」と述べており、Spotで収集した3Dデータから工場のデジタルツインを作成し、Isaac Sim/Omniverse上でAtlasの訓練・検証を大規模に行っています。これにより、実機テストのリスクと時間を大幅に削減し、開発サイクルを高速化しています。
- データ駆動型アプローチと汎用AIの融合: 強化学習や模倣学習に加え、GR00T N1のような基盤モデルの採用は、Atlasが特定のプログラムされた動作だけでなく、未知のタスクや環境にも適応できる真の汎用ロボットへと進化する上で鍵となります。これは「ロボットが人手による細かなプログラミングなしでも自ら学習してタスクを習得できる」という市場トレンドとも合致しています。
- 電動化によるシステム最適化: 全電動式への移行は、単なる動力源の変更に留まらず、機体の軽量化、スリム化、可動域の拡大、静粛性の向上、メンテナンス性の改善、そしてエネルギー効率の向上に繋がり、システム全体のパフォーマンスを底上げしています。
- 人間との協調作業と安全性: レポートでは、人間との協働作業における安全性確保(フェイルセーフ機構、衝突回避アルゴリズムなど)や、NVIDIAのAI技術による危険エリア判断・リスク回避への言及があり、実用化に向けた重要な取り組みです。
- オープンプラットフォームの活用とエコシステム: Boston Dynamics社がNVIDIAのオープンプラットフォーム(Isaac Lab, GR00T N1など)を積極的に採用している点は、自社のコア技術に外部の最先端技術を組み合わせることで開発を加速させるという、現代的な開発戦略を示しています。
この更新された分析は、Atlasが単なる機械的な驚異から、高度なAIとソフトウェアプラットフォームに支えられたインテリジェントなロボットへと進化していることを明確に示しています。現代自動車工場での実証実験は、その商用化に向けた重要なステップであり、ヒューマノイドロボットが産業界に与えるインパクトの大きさを予感させます。
Geminiの高精度の分析はChatGPTが開発したストラクチャードプロンプトによって得られている
このように最新のAI(GeminiとChatGPT)を用いて、そこにあるYouTube動画を分析させることで、対象ヒューマノイドのロボット工学的に有意である高精度な分析を得るという方法論には、おそらく、従来のロボット工学研究者の方々はかなり反発されるのではないかと思います。従来の手間暇のかかる研究アプローチとは"別物"だからです。
しかし一方で、今年1月のCES2025におけるNVIDIA CEOジェンセン・フアンの基調講演でNVIDIAのロボット開発用技術スタックの全貌が明らかになった今、
つまり、ヒューマノイド開発が従来の積み重ね主義から、AIの力をフルに活かすNVIDIAロボット開発用技術スタックを組み入れたヒューマノイド開発へとパラダイムシフトしている現在、Boston DynamicsのAtlasひとつ取ってみても、このようなAIを活用した分析はあって良いものだと考えます。
ちなみに以上の精緻な分析を得るために用いたプロンプトは、以下のような、ChatGPTに開発させた、いわゆるストラクチャードプロンプトです。これをGeminiに入れています。
[プロンプト]
このYouTube動画(Atlas Goes Hands On)に登場するBoston DynamicsのヒューマノイドAtlasについて、ロボット工学の研究者およびヒューマノイド開発者向けに、行動の内容とそこから推定される技術的構成・制御アルゴリズム・実装推定などを詳細に分析してください。
以下の技術観点ごとに整理して記述してください:
-
運動制御(歩行、ジャンプ、着地、宙返りなど)
-
マニピュレーション(物体把持、リーチング、姿勢制御)
-
環境認識とセンサーフュージョン(視覚、距離認識など)
-
タスクプランニングと自律判断
-
使用されていると思われるセンサー・アクチュエータ構成
-
ソフトウェアスタックの推定(RTOS、制御層分離など)
技術的仮説や設計上の工夫について、なるべく専門用語を使いながら論じてください。
===
上はストラクチャードプロンプトとして見れば簡易なものですが、ChatGTPと知的なやりとりを重ねて、その延長で得られるストラクチャードプロンプト(つまりAIであるChatGPTの高度な分析が含まれている構造化されたプロンプト。これをAIに与えることにより、人間が書いたプロンプトでは得られない高度な構造化された文書が得られるようになる)の威力は計り知れないものがあります。
ストラクチャードプロンプト一般が持つ優れた文書生成性能は、ここのブログで多数公開している調査報告書やM&A提言書を見ればわかる通りです。
そうしたChatGPTによって得た高度なプロンプトによって今回のGeminiの高精度な分析が得られています。
これからはAIをフルに活用したヒューマノイド開発によって、日本企業が米国や中国に早期にキャッチアップできるようになるかも知れません。
付記:
この投稿は、少し前にイーロン・マスクが言った次の発言によりインスパイアされてできたものです。
「Optimusは、YouTube動画の人間の動きを見て強化学習できるフェーズに入った。(言外に、無数にあるYouTube動画をOptimusの学習に活かすことによって、Optimusは加速度的に高度なものになっていく...ということを示唆している)」