オルタナティブ・ブログ > Mostly Harmless >

IT技術についてのトレンドや、ベンダーの戦略についての考察などを書いていきます。

LLMの得手不得手が顕在化し始めた ~そして、エージェントの時代へ

»

LLMはさまざまな分野で活躍の場を広げていますが、プログラミングに向いていることはかなり早い時点で指摘されていました。ChatGPTが公開された直後くらいから、その筋では話題になっており、この頃から「近い将来プログラマの仕事は無くなる」と言われていました。先週書いたように、そろそろそれが現実化しつつあるようにも見えます。

生成AIとしての知名度は依然としてChatGPTがダントツのようですが、ChatGPT公開の直後からさまざまな生成AIが発表されており、Claudeなどはかなり早い時期にChatGPTの対抗馬として注目されていました。最近、そのClaudeが特定の分野ではChatGPTよりも性能が良い、という話を聞くようになりました。

「ChatGPT」と「Claude」プログラマーとして優秀なのはどっち?

各LLMは、公開当初は「何でもできる」ことを謳い文句にし、それを目指していたと思いますが、最近では得手不得手というか、得意分野が生まれてきているように思います。これには設計思想や学習データ、資金力、周囲(顧客、株主)からの期待など、さまざまな要因があるのでしょうが、詳しいところまではわかりません。ただClaude開発元のAnthropicもClaudeのコード生成能力をアピールしていますので、そういう開発方針なのでしょうし、今後もこの強みは活かしていく方向と思います。

ai_vs_ai_fight.png他のLLMも、長文生成が得意だと宣伝したり、画像や音声などに対応するマルチモーダルに力を入れたりと、特徴を出すのに苦心しているようです。各LLMの基本性能は遜色ないレベルにまで達しつつあり、「何でもできるのはあたりまえ」、さらにその先の差別化が求められる段階になったということでしょう。そうなると、ひとつのLLMを全ての業務に適用するというのは難しいのかもしれない、という考えに至ります。生成AIはいつの間にか「どれを使えば良いか」ではなく、「どれを何に使えば良いか」という段階に突入した、ということではないでしょうか。

しかも、各LLMがその特徴を競い合うのに加え、基本性能や速度も時々刻々と変化していますから、同じプロンプトでも毎回答えが変わります。ユーザーにとっては、なかなか厳しい時代に入ってきました。各LLMを(できれば有料で)契約して、常にその能力を検証しなければなりません。全てのエンドユーザーがこんなことをできるとは思えません。これからのITベンダーの仕事は、LLMの特徴を理解して顧客に最適なLLMの選択肢を提示する、ということになるのかも知れません。

AIエージェント時代の基本スキル

そしてその知見は、今後来るべきAIエージェントの時代にさらに重要度を増すでしょう。エージェントの時代になると、単独のLLMが全ての仕事をこなす必要もメリットもありません。各々のタスクに最適なLLMを使って、それらが相互に絡み合って目標を達成することになります。ある目標を達成するためにどのようなタスクに分解すべきか、そのタスクをこなすための最適なLLMは何か、などをうまく組み合わせるのは、かなり大変な作業になりそうです。そのような時代へ向けて、今から準備しておくべきでしょう。

 

AI.png

Comment(0)