今の生成AIの仕組みはフリーライド情報収集が出来なくなったら破綻するかもしれない話
広く生成AIを含むなんらかの情報検索系は、当然ですが検索するためのデータが必要です。何人たりとも、そしてどんなシステムであっても無から何かを生み出すことは出来ません。必ず何か入力情報があるわけです。
無限にネットをクロールして情報を喰い続けないと駄目になってしまう脆弱な存在
それが人間なら物心ついたころから日常なり勉強の時間なりで蓄積してきた情報が基本的な情報源となるわけで、もちろんそれらの知識は常にアップデートしていないと時代に取り残されてしまいます。それが例えば日常生活と仕事の場とで必要な情報が全然違うのは当然だと思いますし、それが家に帰ってもすべてが仕事の延長だと私は辛くなってしまいます。勿論それは人それぞれ環境もモチベーションも背負うものも楽しみに思うものも全て違うので、一概に酷い環境だとかそうは言いたくありませんが、意識するしないに関わらず実は何かしら日々いろんな新しい話(=情報)に接しているわけです。
それが生きてる証拠でもあります。
それに対して何らかのシステムは、少なくとも今の段階では誰かしらシステムの設計者が何らかの形でデータを拾う範囲と方法を定義し、それに基づいてシステムがデータを舐めて自分自身のデータ処理ができるように何らかの前処理を行い、ユーザーからの何らかの作業指示を待つわけです。
それが例えばLLMと呼ばれる手法であったり、あるいは日々ひたすらWebをクロールしたりしてネタを拾って前処理やって自分自身のユーザーの情報提供の要求に答えようとしているわけです。ここで、たとえば誰かが何かもの目的のために用意したデータセットを読み込ませる作業であれば、その事前に用意されたデータセットが全て権利関係が綺麗になっているのであれば別に何の問題も無いですけれど、世の中で到達できる情報の権利関係を収拾したデータから遡ることは殆ど不可能ですし、それを元に生成された出力が誰の権利を踏んでいるのかとかも立証不可能なのは昔からある問題。そして拾った情報にかかる何らかのバイアスも立証不可能なんですが、とにかく関係なくデータを喰うしかない。
たいへんですよね。
大食い選手権で絶対に勝てますよね。
辛いモノはダメかもしれませんが。
ネット上のデータは誰のもの
これは昔から言われている話。ネットの中に放流してしまうと、権利は主張するにしても管理することは不可能だという話はあります。事実、たとえばどこかの顧客システムがハッキングされてデータが流出しましたとなってしまうと、実際に流出したデータそのものを取り返すことは無理ですし、そもそも複製ができるデータだから流出したわけで、キチンと考えて行動している攻撃者がドラマみたいに手に入れたデータを綺麗に返すなんてあり得ないという前提で考えるべきだと思ってます。
でも、それでも、たとえば何らかの意思を持ってネット上に掲出していながら検索エンジンなどのクロールを拒否する設定をしているデータがあります。
一番わかりやすいのは、有料で提供している何らかの記事かも知れません。複数ページで表示させる構成で、最初のページはクロールを許してもサブスクリプションの有無を確認したあとで表示する続きのページはRobots.txtでクロールを拒否とし、いわば呼び込みの為の前振りをサーチで引っ掛けさせてサブスクリプションに引き込む流れですね。これ、個人的には何かの情報の裏を取るために検索しまくってたどり着いたらこれだったら「えー」と思うんですが、そこは提供者側がキチンと考えてやってることなので仕方ありません。情報は作成者が一義的には権利を持つモノですから。
ただ実際には論文や何らかの文献や資料のアーカイブなども含め、各所でRobots.txtを使ったクロール拒否定義をするサイトが増えてきているとの話を目にしました。
みんなRobots.txtの役割を聞いた事はあるかな
見つけたのはGIGAZINEさんの「2024年07月23日 07時00分 ソフトウェア AIを開発するために必要なデータが急速に枯渇、たった1年で高品質データの4分の1が使用不可に」
という記事です。
たとえばある日突然Robots.txtをサイトにおいてクロールを拒否してもそれ以前に読み込んだ情報が消されるとかそういう話は無くて、ただ単に、そのサイトで今後何かしら情報更新があってもそれを取得することが出来なくなるのがWebサイトのクローラーの実装。
あ、このRobots.txtですが、Webサーバー上のサイトの定義ファイルの一つで、乱暴に説明すると... テキストファイルなんですが、定義の行のなかでDisallowコマンドの後ろに書かれたアドレスから飛んできたセッション(例えばbotのような人間ではないセッションで使われるURL)に対してサイトアクセスを拒否する動作をするといった事ができるもので、この機能自体はWebサイトの仕組みとして標準的に実装されているものです。
例えば私が6/28付けのエントリーで書いた「PerplexityがAIが生成したとする剽窃記事あるいは捏造記事を量産してると批判されている件」なんかは実はここに繋がっていて、本来クロールされないようにしている筈の情報を提供する動作をしているじゃないかと本来の情報所有者に発見されて問い詰められているという話なんですが、いずれにせよクロール拒否定義をするサイトがどうやらGPT系システムの普及とともに増えてきているという話のようです。
しかし、これが広がるとWebの情報を最大の飯としているいろんなエンジンが困るんですよね。勿論純粋な検索エンジンのサービスも困るんですが、検索エンジンであればユーザー側にある程度の不正確さとかに対する許容幅があるので、ある意味何とかなりますし、今でもそれで成立しています。
でも生成AIの場合はちょっと事情が違う事があります。聞かれたことに答えてしまうわけです。その時に一番大事なのは情報の鮮度と正確性が問題になるわけで、でもそこが今でも問題になっているんですが、その情報入手経路が細くなっていくわけです。そして新しい情報が入りにくくなる環境になるだけでなく、今手元にある情報の陳腐化についての裏が取れなくなるという、今でも「たまに正しい事を言う可能性がある世の中情報を喰って何か適当な事を吐く生成AI」なのが「とりあえず手持ちはこれだけなんで、いつの日か喰った情報かわかんないけどコレを元に何か答えをひねりだしますよな生成AI」に自然に進化するという素敵な未来が具体化する悪夢、とでも言ってしまうとなんと世の中に対して後ろ向きなんだお前はと怒られそうですが、事実そうだから仕方ないとは思います。
生成AIの飯のタネになるためにネット上に自分の持つ何らかの情報を無料で出す奇特な人ばかりではないですから。
情報を喰い続けないと成立しない宿命
人として意識するしないに関わらず自分の知識を見聞きした内容で更新しているのですが、データ処理システムは自分で何か動くことは出来ず、システム管理者や設計者が定義した方法と頻度で情報を集めて前処理をしてユーザーからの指示を待つわけです。勿論すべての情報が日々更新されると言うものではないでしょうから実際には去年ころまでに収集されている情報を元に返事してくれたら良いよという話もあるでしょうし、かと思うと可能な限り直近の情報を元にレスポンスを返してくれないと困ると言った「そもそもお前が自分で調べろよ」と言いたくなるようなニーズまで、本当に色々だとは思います。
残念ながら生成AIは未来を生成するのではなく過去の情報として喰ったものを元にたとえばパターンとして一番使われていると判断した文体と流れで返事を返してくるとかするわけです。つまり何かしら最新の情報を常に取り込んでいかないと「いつ編纂されたか分からない編集者もはっきりしないけどなんか返事を返してくれる百科事典みたいなサービス(もしくはソフトウェアみたいななにか)」になってしまうわけです。
大変ですね。
どうするんでしょうね。
どうなるんでしょうね。
ソースデータの入手はフリーライド前提で作られたシステムなんで早晩破綻する可能性は最初からあったし、今頃どこかで誰かが「だから僕いいましたよね?」と言ってそうな気もしますが。
--iwa