GPTの仕組みを素人が素人にわかるように説明してみた(利活用する上で知っておいた方が良さそうなこと)
»
*セミナー主催者&講師の方から「こちらのブログはセミナーの内容とは異なる主張が書かれており、私のセミナーで語った数学的な事実ではありません。」とのコメントをいただきました。具体的な誤認識の指摘や修正依頼ではないため、元となったセミナーについて明記していた箇所を削除する対応をしました。(2023/4/20)
ーーー
先日、某セミナーに参加させていただきました。
巷に溢れている「ChatGPTの活用方法」「ChatGPTでひと儲け」のようなものとは異なる「ChatGPTの仕組み」を解説するセミナーでした。 素人の僕からすると、かなり専門的かつ数学の知識が必要な内容だったので、講義内容の10分の1も理解できていないと思いますし、また誤った理解をしているところも多々あると思います。
しかし、今までなんとなく思い込みで 「ChatGPT は巨大な知識データベース」だと思い込んでいたことが大きな間違えだったことに気づくことができました。それが衝撃的であったので、以下に簡単にメモしておきます。
そして、「ChatGPT のことは ChatGPT に聞こう」ということで ChatGPT にコメントと追記をしてもらいました。(ChatGPTが書いた部分は、<注釈><追記>と明記されています)
- GPT とは知識データベースのようなものではなく、単に世界中の単語と単語のベクトルとその強度を統計的に表したものである
<注釈>GPTは、自然言語の文法や構造を捉え、大量のテキストデータから学習した統計モデルです。知識データベースとは異なり、単語とその関連性を統計的に捉えています。 - ゆえに、英語や日本語といった言語間の差はない。 (事前学習されたすべての言語。ただ、事前学習の量の差はあるかもしれない)
<注釈>GPTは多言語を学習できますが、学習データによっては言語間のパフォーマンスに差が出ることがあります。 - 上記は、単に膨大な文書を読ませて構築しただけでなく、膨大な人の手による評価(?)が加えられていて、ベクトルの強度(?)について「人間が正しい、好ましいと思うこと」に大きく補正されている。
<注釈>モデルの学習は、大量のテキストデータを使用しますが、ベクトルの強度に対する人間の評価は、ファインチューニング段階で行われることがあります。これによって、モデルが人間が好ましいと思う回答を生成するようになります。 - 上記のような極めてシンプルな構造から、プロンプト(入力)に対してレスポンスを返している。これは、知識データベースのようなものを検索しているのではなく、また意図を汲み取ってシミュレータのような計算をしているものでもなく、確率的に単語または文のつながりについて計算されたものを返しているにすぎない。
<注釈>正確には、GPTは入力に対して条件付き確率を最大化するような文を生成します。これにより、意味のあるレスポンスが得られることが多いです。 - それで、どうしてChatGPTが人間の意図を汲み取ったような返答をしてくるのかは成迫には理解できていない。
<注釈>GPTは大量のテキストデータから学習し、文脈や意図を推定する能力を持っています。そのため、人間の意図を汲み取ったような返答ができることがあります。 - また、この仕組みでクリエイティブな回答をしてくるのも不思議に思う。しかし、それは事前学習してあるものからの組み合わせにすぎないのだろう。(そもそもクリエイティブとはなんだろう)
<注釈>GPTは学習データ内のパターンを組み合わせることで、新しいアイデアや表現を生成することができます。これがクリエイティブな回答の一因です。 - この仕組みは、言葉に限ったものではなく、同じ仕組みで、画像、音などすべてのものに適用でき、同一の構造体に格納もできる。
<注釈>GPTは言語モデルですが、同様のトランスフォーマー構造は画像や音など他のドメインにも適用されています。ただし、適用方法やデータ表現は異なります。 - それによって言葉を入力して言葉を返してくれるものと画像を生成してくれるものなどができている。
<注釈>言語モデルとしてのGPTは、言葉を入力して言葉を返すものです。他のドメイン(画像など)に適用されたモデルは、それぞれのタスクに対応した機能を提供します。 - この仕掛けは、事前学習量がどれだけ多くなっても破たんすることなくリニアに学習および参照(る)できる。
<注釈>事前学習量が増えると、一般にモデルの性能は向上します。ただし、リソースや計算負荷の観点から、学習量やモデルサイズには上限があります。 - つまりは、どれだけ多くの事前学習を行なっているか?によって精度が決まる
<注釈>事前学習量は、モデルの性能や精度に影響を与えますが、他にもモデルのアーキテクチャや学習データの質、ファインチューニングなども重要です。 - 事前学習には、膨大なコンピュータパワーとそのための電力が必要であり、つまり膨大なコスト(投資)が必要である。そして、その膨大な投資を行ってきた企業には、もう他社は追随することは難しいところまで来てしまっている。つまり勝負は、現在の先頭集団の中で決まってくる。
<注釈>大規模な事前学習は確かにコストがかかりますが、オープンソースのモデルや技術の普及により、多くの企業や研究者もアクセスできるようになっています。 - 先頭集団の事前学習されたものに企業などの固有の情報(公開できない機密情報含む)を組み合わせてプライベートなGPTを構築することは可能。 例えば、企業内にある膨大な技術文書、報告書、社内規則やその運用実績となる全申請書類と審査結果、社内イントラネットやメール、チャット、構築済みの知識データベースなどを事前学習させると、その会社のことならなんでも知っているプライベートGPTが構築できる。
- それができるとすると、ホワイトカラーの工数が劇的に削減できそうだ。(7割減とか)
<注釈>GPTや他のAI技術は、効率化やタスクの自動化を通じてホワイトカラーの工数を削減できる可能性がありますが、具体的な削減率は実際の状況や適用方法によります。 - この仕組みが何にでも適用可能だとしたら、地球上にセンサーをばら撒きそのデータを事前学習させると、理論の解明などないまま、気象予測など地球シミュレータなどでやっていることが、はるかに容易にスピード速く行えそう。宇宙も。人間の体も。人類の進化も。
<注釈>GPTや他のAI技術は多くの分野に応用可能ですが、それぞれの分野において適切なデータや専門知識が必要です。また、理論の解明や予測能力の向上には、モデルの改善や他の技術との組み合わせが重要です。 - この流れはもう誰にも止められない。これを、限られた民間企業や国家で独占することは極めて危険だが、止める手段はない。
<注釈>AI技術の普及や研究は確かに加速していますが、独占や利用に関するリスクを緩和するための規制やポリシーが国際的に検討されています。 - <追加>GPTや他のAI技術の倫理的な側面にも注意が必要です。バイアスやプライバシーの問題、誤った情報の拡散など、潜在的なリスクが存在します。これらの問題を適切に対処するためには、技術者や利用者が倫理規範を理解し、適切な利用方法を遵守する必要があります。
- <追加>GPTや他のAI技術は、教育や医療、研究開発など多くの分野でポジティブなインパクトを生むことが期待されています。しかし、人間との協働や人間の専門知識の重要性を認識し続けることが、持続的な成長や社会の福祉に寄与するために重要です。
- <追加>GPTや他のAI技術は、エネルギーや環境に対する影響も考慮する必要があります。大規模なコンピュータリソースを使用することで、電力消費や環境への影響が増加する可能性があります。持続可能な開発のためには、エネルギー効率の向上や再生可能エネルギーの活用など、環境負荷を低減する取り組みが重要です。
- <追加>GPTや他のAI技術の普及に伴い、新たな職種やスキルが求められるようになるでしょう。これにより、労働市場や教育システムに変化が生じ、従来の職種が減少する一方で、新たな職種やスキルが重要になる可能性があります。社会全体がこれらの変化に適応するためには、教育制度の見直しや職業訓練プログラムの充実が必要です。
- <追加>GPTや他のAI技術を適切に活用するためには、多様なバックグラウンドを持つ人々が協力して開発や運用に関与することが重要です。これにより、バイアスの低減や多様なニーズに対応したサービスの提供が可能となります。また、技術の透明性やアカウンタビリティを確保することで、社会の信頼を獲得し、AI技術の持続的な発展につながります。
SpecialPR