AI関連ダイジェスト:ChatGPT大型アップデート「Code Interpreter」
Facebookの非公開グループ「生成AI研究会(GAIS)」で注目が集まった記事をダイジェストでまとめています。
先週末、公開されたChatGPTの大型アップデート「Code Interpreter」に話題が集中しました。皆さん、検証に追われて、寝不足になった人も・・・。
7/8(土)くらいから検証記事が出てきはじめました。
Code Interpreterの登場により「ChatGPTでPythonコードを生成、実行」したり「ファイルをアップロード・ダウンロード」したり、できるようになったのですが、それで実際に何が出来るのか?を検証しています。
(1)100までの素数を求める ・・・ 100までの素数を求めるように、と指示するだけで、Pythonのコードが生成され、実行した結果が表示されています。
(2)鶴亀算を解く ・・・ 自然言語を理解して、解答しています。その際、グラフの描写も行っています。
(3)ポケモンの強さを比較する ・・・ なぜかChatGPTはポケモンの強さのデータを持っていて、グラスが作成できます。さらにレーダーチャートで結果表示。
(4)日本各地のお天気情報を調べる ・・・ 気象庁のサイトから最新の気象データをcsvファイルとして入手して、ChatGPTにアップロードして、プロンプトで分析を指示
(5)大谷選手の成績を分析する ・・・ データを入手して、アップロードして、プロンプトで分析の指示をするだけ。さらに相関関係や、ヒートマップによる可視化も可能。
(6)パワーポイントのスライドを自動生成する ・・・ Pythonのライブラリである python-pptx を使用して、スライドの作成をプロンプトで指示するだけで、パワーポイントのファイルが生成されます。それをダウンロードできる。
うわ!これは凄い!と思って、自分でも、過去のAWSの利用履歴とか、ずっと取っているデータを分析させて、グラフ化、さらに詳細分析などをさせてみました。そして、python-pptx にグラフを貼り付けて、その分析・解説までつけさせることができました。
(7)PDFファイルの英語論文を要約する ・・・ PDFファイルを用意できれば、それをアップロードして「この論文を要約してください。」とプロンプトで指示するだけです。(ただし、この機能は上手く動かないときがあるようです。また自然言語処理は苦手そうという検証結果も後ほど出てきます)
(8)画像を読み取る ・・・ 写真をアップロードして、描かれている内容を読み取れるかの検証、イーロン・マスクは判別できたそうですが、画像の読み取りは失敗することが多いとのこと。OCRによる画像内のテキストは読み取れるようです。画像の編集もプロンプトで指示するだけで可能のようです。
これは、可能性がかなりありそうということで、この時期、ツイッターを中心に、あちこちで検証結果がシェアされておりました。
こちらの記事では、Code Interpreter をとにかく試してみる、という趣旨で、ネットで見つけた活用法を検証していました。
(1)QRコード生成 ・・・ アップロードしたファイルからアートなQRコードが作成できます、という検証
(2)長期記憶方法 ・・・ 別記事での検証になります
(3)グラフ作成 ・・・ Pythonでグラフ描いてます
(4)絵を描く ・・・ Pythonで絵を描いてます
(5)スライド作成 ・・・ 別記事で検証してます
(6)当直表 ・・・ 助かる人、多そうと、こちらの検証にリンク
(7)データ分析・可視化 ・・・メインの使い方ですね。csvファイルなどを読ませて、データ分析、可視化を行うことができます。この記事では、日本語が入ったcsvだと文字化けする、となってるのは他の記事で解決策が出ています。センサーデータの分析・可視化は別記事で具体的にしています。
(8)自然言語処理 ・・・ Code Interpreterは、文章の修正・要約には向かないようです。
(9)音声ファイル処理 ・・・ 文字起こしはNG
(10)画像処理 ・・・ PythonのOpenCV使って、画像のモノクロ化などが簡単に行えるように
(11)画像認識(マルチモーダル) ・・・ 画像が認識できるというのは噂だけで、実際はできないという検証
(12)地図の可視化 ・・・ 他の方の検証にリンク
週明け、7/11(月)からは、たくさんの検証記事が出てきました。
これまでの記事より、分析やグラフ作成など、Code Interpreterで何が出来るのか、どう使えばいいのかを整理してきています。最初はこの辺から読んでいくといいかもしれません。
日本語が化ける問題も解決方法が見つかりました。
なんと解決方法もChatGPTに聞いています(笑)
日本語フォントをアップロードして、グラフ表示の際などにその日本語フォントを使うようにプロンプトで明示すればいいようです。
後半のツイッターログの分析の指示の仕方も参考になります。
最後にまとめ的な記事
Code Interpreterでいろんなことができるようになりましたが、主なところをまとめています。
(1)データ分析とビジュアライズ ・・・ データをファイルでアップロードして、グラフなどで視覚化できる
(2)長期記憶の実現 ・・・ ChatGPTが、会話が長くなると記憶が抜け落ちていくという弱点を、記憶保存用のテキストファイルを作ることでカバーする手法
(3)画像ファイルのOCR(文字認識) ・・・ 日本語はまだ弱いようです。
(4)gitのレポジトリ全体を読み取らせてコードの修正や生成
(5)良い感じのデザインのインタラクティブなデータダッシュボードの作成
(6)簡易なエフェクトを加えながらのGIFから動画への変換
Code Interpreter という超強力なツールが出てきて、ChatGPT-4を4.5とかって言った方がいいんじゃないかってくらいのインパクトです。Pythonのライブラリを利用できることで可能性が広がっていますね。
■ 生成AI研究会(GAIS)
https://www.facebook.com/groups/gais.jp