ホワイトカラーの首の皮が繋がった? 最新のベンチマークが示唆するAIの限界とは
生成AIの能力向上や新しいサービスが発表される度に、首のあたりが寒々しい感覚に襲われるホワイトカラーの方も増えているのではないでしょうか。それほどまでに、「AIによるホワイトカラー職の業務代替」についての懸念(経営者から見れば期待?)が高まっています。そのような中、少し安心できる話題が出てきました。新しいベンチマークで、AIはまだ人間の能力には達していない、という結果が出たのです。
ここで紹介されているRemote Labor Index(RLI)は、「経済的に価値のある仕事をAIエージェントがどの程度自動化できるかを測る新しいベンチマーク」だそうです。これまでAIの能力を測るベンチマークは生成AIベンダー自身が行っているものが多く、AIの能力の一面しか評価できていないという側面もあったようです。Anthropicも「確固たる評価を行うのは難しい」とコメントしています。
RLIの研究チームは複数の主要なAIエージェントに対し、フリーランス人材に依頼される仕事を模したさまざまなタスクを与えたということですが、
その結果、最も優秀なエージェントでさえ全体の3%にも満たない作業しかこなせず、総額14万3,991ドル(約2,200万円)の報酬のうち、1,810ドル(約27万円)しか稼げなかったのである。
という結果になったということです。
私が思うに、このベンチマークのポイントは「フリーランスに依頼される仕事」だったという点です。記事にはこうあります。
研究チームは、Upworkで認証済みのフリーランサーを通じて、実際の依頼内容をもとにしたさまざまなタスクを作成した。その内容は、グラフィックデザインや動画編集、ゲーム開発、データスクレイピングといった事務作業など、多岐にわたる。各タスクには、業務内容の説明、作業に必要なファイル一式、そして人間が実際に完成させた成果物の例が含まれていた。
詳細なテスト方法はわかりませんが、ここから読み取れるのは「人間のフリーランスに依頼するのと同じやり方で仕事を依頼した」ということです。これは、現時点のAIにとってはかなりハードルが高いと言わざるを得ません。これまでのベンチマークは、与える課題をあらかじめタスクに分解し、それを完了させるためのさまざまな周辺情報をセットで与えるといった、むしろAIが取組みやすい環境を整えた上で行う、というものが多かったように思います。まあ、ベンダーが行うベンチマークであれば仕方のないことかもしれません。
もちろん、RLIも開発者自身が「完璧な指標では無い」ことを認めています。要するに、一つのベンチマークだけでは総合的な評価はできない、ということでしか無いのですが、これまで論理的思考やハルシネーション率、プログラミング精度などに偏っていたベンチマークに、新しく「ビジネス価値」という概念を持ち込んだことには意味があるでしょう。「明日にでも仕事を奪われるのかも」と、戦々恐々としていたホワイトカラーの皆さまにはとりあえずは朗報ということができるのではないでしょうか。
しかし、AIは進化を続けています。いつかはAIが完璧な仕事をこなせるようになる可能性は高いと考えられます。ここで得られた時間を有効に使って、次に備えるべきなのではないでしょうか。
