オルタナティブ・ブログ > 秋山大志のそれとりあえず作ってみようか。 >

あれこれ考えるよりも作ってしまった方が早いんじゃね?と思う、ギークなサラリーマンのアジャイルな日々。

政府はAI推進法とか言ってる前に文字コードなんとかしようぜ!NotebookLMでの文字化け影響は意外と深刻!

»

「AI推進法」こと「人工知能関連技術の研究開発及び活用の推進に関する法律」が、5月28日の参議院の本会議で可決成立した。

さて、法律とかそういうややこしい話は、Google NotebookLM君の出番だなということで、早速、衆議院にある同法案のページをGoogle NotebookLMに読み込ませてみた。

すると、めっちゃ文字化けしてる!

notebookLM_mojibake.png

文字化けだけしていて、中身が読み取れていればいいんだけど、ソースガイドの概要も、チャットの概要もよく読んでみると「AI推進法」とは全く別のことが書いてある。

この文書は、「脳死関連研究等に関する専門委員会における検討等の実施について」という議院運営委員会の内規について定めたものです。

とか

この文書は、人間ゲノム解析研究開発に関する基本方針について述べています。

とか

全然違うし!(^^;

さて、Google NotebookLM君ですが、簡単お手軽にRAGのようなものを作れて、マインドマップや時系列での分析、よくある質問、学習ガイドなどのソースのドキュメントを理解するための各種ドキュメントや、音声概要というちょっと聞いた感じ人間?って思うくらい自然な音声でのポッドキャストを作ってくれる機能など、マジで凄いんですが、ソース管理などのUI/UXなどがイケてなかったりして、凄いんだけどどこか抜けているんです。

今回の問題も、え?今まで検索エンジンとして普通に対応していたよね?Googleさん!って思うような凡ミス?とも思えるようなバグ?いや仕様になっています。

端的に言うと、Google NotebookLMのクローラーの日本語解釈はUTF-8しか基本的に対応してい無いようなのです。

つまり文字化けをしているのは、衆議院のサイトの文字コードがShift_JISが使われてエンコーディングされているからなのです。

試しに、新しいNotebookLMを立ち上げて以下の4つのURLをソースとして追加してみてください。

https://test.go2020.tokyo//llmo/notebooklm/charcode/utf8.html

https://test.go2020.tokyo//llmo/notebooklm/charcode/shift_jis.html

https://test.go2020.tokyo//llmo/notebooklm/charcode/iso-2022-jp.html

https://test.go2020.tokyo//llmo/notebooklm/charcode/euc-jp.html

※なお、ソースの追加は、以前このブログでもご紹介したChrome拡張機能を使うと楽ですよ→「ChatGPTなどの生成AIやLLMを活用するためのGoogle拡張機能を作りましたもちろん生成AI(Gemini)で

いかがでしたか?

見事にUTF-8以外の、日本語文字コードのページが文字化けしていると思います。

でも、インターネット老人会の方は良くご存じの通り、UTF-8以外の文字コードも日本のインターネットではとてもよく使われて来た文字コードなのに、なぜGoogleは対応をしないのか謎です。Windowsなんて最新のWindows11でもデフォルトの文字コードはShift_JIS(MS932)ですしおすし。

また、文字化けしているだけだったら良いのですが、私が考える大きな問題は、

ハルシネーションを押さえるための仕組みであるRAGなのに、ソースの中に全く書いていない内容をGoogle NotebookLM君が解釈してしまうことなんです。

同じような文字コードのものとベクトルが合ってしまうのか、それともGoogleのインデックスにキャッシュされている別のコンテンツが悪さをしているのか、この現象のロジックは明らかではないですが、沢山のソースの中にこのようなUTF-8以外の文字コードでエンコードされたコンテンツがあり、それが全く違う内容で解釈されてしまうとなると、ちょっと困ってしまいます。

解決方法としては、該当のWEBページをPDFとして保存してあげてファイルを読み込むだけで良いのですが、Google NotebookLMのクローラーがヘッダーを読んで内部的にUTF-8に変えてくれればそのひと手間が省けて良いのになあと思う次第。

まあ、今年か来年にGDPがインドに抜かれて世界5位になり、色んな指標でも今後日本は相対的に世界での地位・ランクというか存在感が下がって行きますので、ジャパンバッシングがジャパンパッシングになったということが言われてから久しいですが、今後ますますグローバルなサービスが、日本、日本人のためにローカライズをしてくれる、なんて期待はあまり持たない方が良いかもしれません。

ガラパゴスな仕様や製品を作っても、日本国内の需要だけでビジネスが成り立っていた時代は良かったのですが、これから先はそんなことは言ってられないのです。

最初にとりあげた、「AI推進法」こと「人工知能関連技術の研究開発及び活用の推進に関する法律」でも、以下のように書かれていますが、

(国際協⼒)
第⼗七条 国は、⼈⼯知能関連技術の研究開発及び活⽤に関する国際協⼒を推進するとともに、国際的な規範の策定に積極的に参画するものとする。

もしかすると、NHK研究所が日本のテレビメーカーと共に開発を進めた地デジの例のような「日本基準」をグローバルの基準にするための取り組みなどを想定しているのかもしれません。

しかしながら、国連の公用語(アラビア語、中国語、英語、フランス語、ロシア語、スペイン語)にも入っておらず、今後、国際的なプレゼンスが下がっていくだろう国の言葉の、さらにどうでもよい都合で作られた文字コードの問題など、グローバルでは誰も気にしてくれないのではないでしょうか?

なので、国(政府や国会、行政)においては、文字コードを国際共通コードであるUTF-8に統一し、元号なども西暦に改め、などしていかないと、またガラパゴスシステムのために無駄な投資をしなくてはいけないみたいなことになってしまいます。

この辺、デジタル庁や各種諮問会議や審議会など、政府の設定している会議に参加されているAI・デジタルな方にはぜひ考えて推進をしていただきたいと思います。

ちなみに、自分も、行政の書類を記入するたびに、あれ、今年は令和何年だっけ?ってGoogleで検索する無駄なひと手間を無くしたいと思っている一人ですが、こういった印鑑を無くそうとか、元号を西暦に改めようとか言うと、日本の伝統がー!とか言う人が出てきますが、それこそ伝統に縛られて衰退していく国でいいんですか?って思う次第なのです。

Comment(0)