生成AIは「使える」のか「使えない」のか? 適切な評価のために気をつけるべきこと
先日も、生成AIについて慎重派と積極派に分かれているというお話を書きました。私としては、AIは大きな進化を遂げ、これまでとは違うフェーズに入ったと考えていますが、だからといって何にでも使えるわけではない、という段階だと思っています。では、どのような使い方が向いているのか、それを見極めるヒントを考えてみたいと思います。
最新の技術を使う
まず気をつけるべきことは、多くの記事や体験記で使われているのが、ChatGPTの無料版ということです。ChatGPTはGPT3.5ベースで、2020年に発表されたGPT3の拡張版ですから、3年前の技術を元にしていると言っても良いでしょう。しかしGPTの最新版は3月に発表されたGPT4です。あたりまえのことですが、実力を評価するためには最新版を使う必要があります。ChatGPTの有償版(月額20ドル)ではGPT4を選ぶことができ、実際に両者を比較した記事も多く出ています。
これらの記事を見てみると(実際に自分でも使ってみましたが)、やはり両者には大きな違いがあります。つまりは、無料版(3.5ベース)のChatGPTをいくら評価しても、それは生成AIの評価としては不十分ということです。(もちろん、「無料で無ければ駄目」という前提であればそれで良いのですが)無料版が良いのであれば、先日日本語対応したGoogleのBardのほうが良いと思います。3.5よりは進化しており、4と比べても良かったり悪かったり、という印象です。
学習データの鮮度を理解する
もうひとつのポイントは、学習データです。AIは大量のデータを使ってモデルをトレーニングする、ということを聞いたことがある方も多いのではないでしょうか。学習データに含まれていないことについて聞いても、それに答えるのは不可能です。
その点で、GPTは不利な状況にあります。GPT3.5も4も、学習データは2021年9月のものなのです。(ChatGPTに聞いた答えです)質問の回答に最新の情報は含まれていませんし、最近のことを聞いても「私の学習データは2021年9月までのものなのでお答えできません」という回答になります。
*ChatGPTの公開直後は、データについての言及はなく、どのような質問にも頑張って答えようとしていたように思います。そのため、結果として嘘が多くなってしまったということなのかも知れません。最近では知らないことは知らない、と言うことにしたようで、これもまた「学習」なのかも知れませんね。
MicrosoftのBingはGPT4による回答に加えて検索エンジンからの最新の検索結果が表示されますので、この欠点をうまく補えるよう工夫されている印象です。またBardは、ChatGPTの成功を受けて特急で開発されたという経緯もあり、学習データは新しいですし、「常に更新されている」(Bardの回答)ということです。
AIの学習には膨大な時間とコストがかかるため、この辺は精度とのトレードオフとなりますが、ChatGPTが今後どの程度最新の情報に対応してくるのかが注目されます。
学習データが適切かどうかを考える
そしてこの学習データなのですが、AIに学習させる(読み込ませる)ためにはデータがデジタル化されていなければなりません。しかし、世の中にある情報でデジタル化されているものはごく一部です。学習データが限定的であれば、それに基づく推論も限定的というか限界のあるものにならざるを得ません。デジタル以外の情報にアクセスできる人間から見れば、AIが接している世界は非常に特殊なものと言えます。
さらに気をつけるべきなのは、その限定的な学習データに、そもそも嘘や差別的なコンテンツ、教育上よろしくないデータが大量に含まれているということです。ある程度はフィルタリングされていますが、現実世界の常識に照らせば、かなり偏っていると言って良いでしょう。つまり、生成AIはどれも、「非常に偏った情報で訓練されている」ということになります。
人間も同じですが、間違った情報を与え続けられ、それを学習してしまうと、正しい考えや判断を行うのは難しくなります。学習データが全世界のあらゆる事象を網羅し、偏見や偏りが無く、嘘が含まれていないことが大事なのですが、それは現時点では不可能です。(そもそもそんなデータを作れるのか? という問題もあります)つまり、現在の生成AIは現実世界のごく一部に関する玉石混淆のデータをもとに、あらゆる質問に答えるよう要求されているというわけです。これで「嘘ばかりつく」などと言われては、AIもかわいそうです。
どういった用途なら使えるのか?
こういった特徴を踏まえた上で、AIがどういった用途に向いて、何に向いていないのかを考えなければなりません。この点についても様々なアイデアが出されていますが、一部をご紹介しましょう。
例えば、Microsoftが積極的に取り組んでいるプログラムコードの自動生成や、ノーコードでアプリを自動化する機能などは、向いていると言えるでしょう。コードが間違っていれば、プログラムは動かないか、正しい答えが返ってきません。その一方でエラーや打ち間違いなどの凡ミスは完全に排除できます。
あるいは、レポートの下書きや詫び状のテンプレートの作成などです。無から有を生み出すのは大変ですが、なにかたたき台があれば仕事を進めやすくなります。最初のハードルを乗り越えてもらえるのはありがたいでしょう。ただし、それをそのまま使うのではなく、あくまでも「下書き」として使う必要があります。
自身の得意分野での新規事業のアイデア出しなどにも有効でしょう。得意分野であれば、間違った答えが返ってくればすぐにわかりますし、自分が見落としていたことやまったく違う視点からのアイデアを得ることができる可能性があるからです。どのみち、人間の同僚に頼んだところで、彼はWebを検索して答えを出してくるわけですから、同じ間違いをすることもありますし、時間もかかります。AIなら低コストでそこそこ満足のいく答えを出してくれますし、何より早いし、何度ダメ出しをしても辛抱強く対応してくれます。
上記のような意味で、現在Microsoftが展開している「Copilot(副操縦士)」というブランディングは絶妙と言えます。生成AIは決して万能でも完璧でも無く、操縦士(人間)を置き換えることは出来ないが、高い能力と豊富な知識をバックにできる限りのサポートを提供していく、というのが生成AIの現状ということなのでしょう。