オルタナティブ・ブログ > 秋山大志のそれとりあえず作ってみようか。 >

あれこれ考えるよりも作ってしまった方が早いんじゃね?と思う、ギークなサラリーマンのアジャイルな日々。

生成AIはいまだにサイゼリヤのキッズメニューの間違い探しすらできない

»

生成AIのニュースがIT系のニュースサイトに載らない日は無いくらい日々色々なアップデートや機能、サービスが登場している昨今ですが、生成AI系の怪しいスタートアップが粉飾決算発覚で株価が急落したりと、ちょっと前のWeb3やNFTの二の舞、三の舞になるのでは?と少しきな臭くなってきました。

とはいえ、私自身も、ブロックチェーンから始まった仮想通貨(ビットコインやイーサリアム)、そしてそれを中心としたWeb3やNFT、メタバースと言うようなバズワードと、第何次か分からないがこのAIブームには大きな違いがあると考えています。

だが、そうはいっても、やはりきちんと今回のAI革命といっても良いこのビッグウェーブの本質を理解しないまま、その波にただ流されていくのはリスクが高いです。ビッグウェーブに乗るのは全然良いけど、その波を乗りこなすことが重要なんです。

まあ、それはさておき、もうビッグウェーブから降りることができなくなってしまったようなLLM無職?な人たちの喧騒ツイートにある「あんなこと」「こんなこと」がLLMで出来た!とは裏腹に、タイトルに書いた通り、「こんなこと」も出来ないのかLLM、と言うことにガッカリしている真面目なビジネスLLM使いの人たちも最近では多くなってきたんじゃ無いかなと思います。

LLM無職の人たちは、特に目的も無くLLMを使ってみて?、すげえすげえ言っているわけですが、例えばこんなツイートの例を見ても分かるように、LLMの作るハルシネーション(幻想)を内容も確認せずにシェアしているわけです。

ちなみに、このポスト主はハルシネーションを指摘するポストは完全にスルーしているので、確信犯的に投稿していると思いますが。

こういった投稿をするような人たちが、LLMを使って画期的な新規サービスをさも作っているかのように見せて、会社を興して投資を集めてるんですが、実際に「生成AI」を活用して、と言うバズワードがあると資金が集まってしまい、今回のような実際には利用するユーザーなんてほとんどいないのに、セールス実績だけを作るためのインセンティブやキックバック費用が大赤字を作っていくと言う粉飾事案が出てきてしまうことになります。

前置きが長くなってしまいましたが、我が家も大好きな格安イタリアンファミリーレストランチェーンのサイゼリヤさん。

サイゼリヤに伺うといつも娘と二人で挑戦するのが、キッズメニューの表表紙と裏表紙の間違い探し。

これって生成AIだったら簡単にできるんじゃない?って思う人も多いことでしょう。

でも、実際は今の生成AIの能力では「簡単」には出来ません。

サイゼリヤさんの公式サイトのフッターにある「間違い探し」のリンク先の以下のページには最新の間違い探しの画像から過去の画像までありますので、それを保存して各生成AIサービスにアップして間違い探しを実際にさせてみましょう。

https://www.saizeriya.co.jp/entertainment/
間違い探しページ.jpg

どうでしたか?正解しましたか?

SNSなどで簡単に出来た!一発で見つかった!

などと呟いている人たちは大抵、正解を確認していないか、確信犯のLLM無職な人たちです。

Gemini2.5 Proの結果や、

はい、承知いたしました。画像を見比べて、左右の絵の違うところを10箇所探します。

左右の絵の違うところは以下の10箇所です。

1 左上の棚の皿の数: 左の絵では皿が3枚ですが、右の絵では2枚です。
2 シェフの髭の形: 左の絵のシェフの髭は丸みを帯びていますが、右の絵では少し尖っています。
3 女の子の髪型: 左から2番目の女の子の髪型が左右で異なります。左の絵では髪が外に跳ねていますが、右の絵では内側におさまっています。
4 男の子のフォークの向き: 中央奥の男の子が持つフォークの向きが左右で逆になっています。
5 テーブルの上のプリンの数: 左の絵ではテーブルにプリンが2つ置かれていますが、右の絵では3つです。
6 花瓶の花の色: テーブルの花瓶の花の色が異なります。左の絵では赤い花が3本ですが、右の絵では中央の花が黄色です。
7 コーヒーカップの取っ手の向き: 右端の女性の前のコーヒーカップの取っ手の向きが左右で異なります。
8 女性の服の襟の形: 右端の女性の服の襟の形が左右で異なります。
9 オーブンの下の猫の尻尾の向き: オーブンの下にいる猫の尻尾の向きが左右で異なります。
10 ケーキの上のチェリーの数: 右側の男性が運んでいるケーキの上のチェリーの数が異なります。左の絵では5つですが、右の絵では4つです

Claude3.7 Sonetでも、

この2枚の絵の違いを探してみました。右半分と左半分の絵には確かに10箇所の違いがあります。

以下が見つけた10箇所の違いです:

  1. 右上の男性が持っているカップの色(左:青、右:赤)
  2. テーブル上のジュースの入ったグラスの位置(左右で若干異なる)
  3. 右下の女の子の手元(左:何もなし、右:フォークを持っている)
  4. 奥の猫の表情が少し異なる
  5. 奥のテーブルに置かれた料理の配置が異なる
  6. 右側のイラストでは、右端にもう一つのデザートが追加されている
  7. 左上の男性(おじいさん)のグラスのフレームの形状が微妙に異なる
  8. 中央上部のテーブルの上の皿の配置
  9. 奥の壁の装飾の一部の形状が異なる
  10. 調理場のコンロの形状が若干異なる

イラストには、家族がテーブルを囲んでイタリアのティラミスなどのデザートを楽しんでいる様子が描かれていますね。文字のテキストには「マンマのスイーツはイタリア伝統のおいしさ。大人がバラエティラミスを、子どもに人気のプリンも風味豊かで、どこか懐かしいおいしさ。お口に広がる甘さのごぼうひげで、みんな幸せ。」と書かれています。

Grok 3でも、

右半分と左半分の絵には10箇所の違いがあります。以下にその違いを挙げます:
  1. 猫の位置:左半分では猫がキッチンカウンターの右端にいますが、右半分では猫がいません。
  2. 男性の腕の位置:キッチンカウンターにいる男性(緑の服)の右腕が、左半分では上げていますが、右半分では下げています。
  3. カップの数:テーブルの左側にあるカップの数が異なります。左半分では2つ、右半分では1つです。
  4. 子供の服の色:テーブルの左端にいる子供の服の色が、左半分では赤、右半分ではオレンジです。
  5. 花瓶の花の数:テーブルの中央にある花瓶の花の数が異なります。左半分では4本、右半分では3本です。
  6. おじいさんのメガネ:キッチンにいるおじいさんのメガネが、左半分ではありますが、右半分ではありません。
  7. 女性のエプロンの色:キッチンにいる女性(右端)のエプロンの色が、左半分ではピンク、右半分では赤です。
  8. ケーキの数:キッチンカウンターの右端にあるケーキの数が異なります。左半分では3つ、右半分では2つです。
  9. 子供の持つスプーン:テーブルの左から2番目の子供が持つスプーンが、左半分ではありますが、右半分ではありません。
  10. カップの柄:テーブルの右端にあるカップの柄が異なります。左半分ではハート模様、右半分では模様がありません。
以上が10箇所の違いです!

ChatGPT 4oでも、

以下は、左右の絵の間違い探し(10箇所)の違いです:

  1. 左上の棚の赤い鍋の位置
     左絵では鍋の取っ手が見えないが、右絵では取っ手が右側に出ている。

  2. 窓の外の赤い花の数
     左絵では3輪、右絵では2輪。

  3. おじいさんの胸当ての形
     左絵では胸当てが丸くて広いが、右絵では細長くなっている。

  4. 棚の猫の手
     左絵では右手だけが見えているが、右絵では両手が出ている。

  5. 棚のティラミスの向き
     左絵では横長、右絵では斜めに配置されている。

  6. テーブル中央の花瓶の花の向き
     左絵では花が右向き、右絵では左向き。

  7. 右下の女の子の服の色
     左絵ではピンクに黒の襟、右絵では紫っぽくて襟がない。

  8. テーブル上の白い皿の積み重ね数
     左絵では5枚、右絵では4枚。

  9. オレンジジュースのポットの取っ手の向き
     左絵では右向き、右絵では左向き。

  10. 右手前のプリンの皿の位置
     左絵ではプリンが前に出ているが、右絵では奥に引っ込んでいる。

ご希望あれば、各違いに印をつけた画像も作成できます。ご希望ですか?

まあ、めちゃくちゃですよね。

それぞれ、確認するのも面倒になるくらい出鱈目(ハルシネーション=幻想=妄想)を言ってます。

なお、ChatGPT 3oは、ハルシネーションをなるべく出さないようなAIエージェント的な確認を内部でするため、非常に長い時間、あれやこれや試行(思考)した上でエラーになってしまいます。

正直、間違い探しは幼稚園児の方が早いかも知れません。

ただ、これは生成AIが苦手なことの一つなだけで、きちんとした指示(プロンプト)を出せば、生成AIもきちんとしたアウトプットを出してくれます。

そのためにはプログラミングや画像解析の知識がすこーしだけ必要。

例えば、ChatGPT 4oを使って間違い探しを成功させるために、私はこんなプロンプトを打ちました。

サイゼリアというレストランで提供しているメニューの表紙と裏表紙の間違い探し画像です。まずは左右に分割できますか?

そうするとChatGPT 4oはコードインタプリタ(Python)を使って画像を分割してくれます。

次に余分な余白を消します。

余白が余計なのでクロップしましょう。左右の画像サイズが同一になるようにクロップしてください。

左右の画像が綺麗に切り出せたので、重ねて比較をします。画像分析ではよくやる手法です。

左右の画像のピクセル比較をし白黒二値のdiff画像を作りたいので、左右の画像の差分が最も小さくなるように重ねた後で、白黒二値のdiff画像を作成してください。

そうすると以下のような画像ができます。

この画像があれば人間でも簡単にどこが違うか判別できますね。

aligned_binary_diff_cropped.png

上記の画像を元に以下のような指示を出します。

差分の大きいエリア上位15個を元の左右の画像上で赤丸で囲んでください。

※間違いは10個だがノイズなどもあるため

間違い探し結果.jpg

きちんと囲むことができたら、あとは以下のようなプロンプトで日本語で説明させます。

左右の絵の違うところが赤く囲まれたところです。説明してください。

ちなみに、ここまでやってもノイズや、LLMによる画像解析&説明は100%正確に行くとはいえません。

また、ChatGPT 3oも私がやったような左右の画像の比較を裏側で何度も試行しますが、正確な位置合わせなどができ無いのと10個の間違いを正確に探せないためエンドレスに試行(思考)し、最終的にハングアップします。

これがただの間違い探し遊びだったら良いですが、各種LLMをただDifyなどで呼び出して使うようなシステムを作ったとして、この分析や出力の精度でミッションクリティカルな分析どころか、日々の確認業務なども任せられるとは到底いえないですよね。。

ただ、AIと一口に言っても、生成AIだけがAIと呼ばれているわけではありません。生成AIの前はDeep LearningというキーワードがAIの本流で、今の生成AIはDeep Learning+膨大なテキスト主体の学習データ(LLM)から生まれたものです。Deep Learningはテキストだけでなく、画像などさまざまなデータを学習しモデルを作るものなので、画像を分析するのにわざわざテキスト主体のChat系LLMを使う必要もないわけです。

なので、AIベンチャーを見分けるときに、第三者が作った各種無償有償LLMを使ったワークフローを作ること「しか」できないのか、それとも、LLM自体を作る、もしくはファインチューニングできる、LLM以外のAIの技術やヒストリー、データサイエンスにも強くてLLM以外の各種技術も組み合わせたソリューションを構築できるのか、くらいは最低限確認をした方が良いかと思います。

まあ、確認をしても、LLMを使ってそれらしいことを回答してくるかも知れませんがw

てなわけで、生成AIに夢見るのも良いですが、現実も見てなーというお話でした!

Comment(0)