オルタナティブ・ブログ > 経営者が読むNVIDIAのフィジカルAI / ADAS業界日報 by 今泉大輔 >

20年以上断続的にこのブログを書き継いできたインフラコモンズ代表の今泉大輔です。NVIDIAのフィジカルAIの世界が日本の上場企業多数に時価総額増大の事業機会を1つだけではなく複数与えることを確信してこの名前にしました。ネタは無限にあります。何卒よろしくお願い申し上げます。

Google Veo 3の動画生成を「JSONプロンプト」でやることがなぜそんなにすごい事なのか?

»

動画生成AIは、OpenAIのSoraから始まって、RunwayHailuoKlingなど私も一通り使ってきましたが、最近になってMidjourneyも動画生成機能を提供するようになり、かなりハイクオリティな作品が出回っています。

しかし、先週あたりからXやThreadsを賑わしているGoogle Veo 3のText-to-Videoの機能を普通のテキストではない"JSON"で記述したプロンプトで行う手法が大流行りとなり、様相が一変しています。

見本をいくつかVimeoに登録したものを以下に貼り付けます。

まず以下は普通のテキストで「ペンギンがスチールドラムを叩いているASMR動画」という意味を英語で書いてプロンプトにした動画です。ごく普通のかわいらしい動画です。記述したままの描画をしています。Veo 3はテキスト内容への追従性がよく、かなり正確に描写してくれます。

次はプロンプトをJSONで書いたVeo 3動画です。ニトリの段ボール箱がいきなり爆発して、ニトリの家具商品一式が部屋に配置される動画です。(プロンプトは以下のブログに例があるので割愛します)細かく見ると段ボールの「Nitori」の文字がロゴになっていませんが、そこはアメリカの動画生成AIなので仕方がありません。米国で有名なブランドでやるとしっかりとしたロゴが表示されます。

以下は無印良品(MUJI)でやったケースです。Veo 3が無印良品についてあまり学習していないようなので、中途半端な出来になりました。

最後に、JSONプロンプトの内容をGeminiと一緒に検討しまして、「JAL」の箱の中から子供用の羽田空港のミニチュアが出てくるようにした動画を掲げます。

こうした「爆発ブランドもの」と呼ぶことができる一連の動画がXやThreadsにあふれています。この1週間の話です。何が起こっているのか?というのをChatGPTに解説させました。

エグゼクティブ・サマリー

Googleの動画生成AI「Veo 3」で、テキストではなくJSON形式でプロンプトを記述する新しいスタイルが登場し、SNS上で注目を集めています。とくにXユーザー@Salmaaboukarrの投稿が起爆剤となり、映像ディレクションをコードで制御するという手法が、一部のクリエイターやマーケターの間で急速に広がっています。

話題の源泉となった動画はこれ。

IKEA.png

https://x.com/Salmaaboukarr/status/1947793967614935505

なぜ「JSONプロンプト」が注目されているのか?

従来のVeoやRunway、PikaなどのText-to-Videoは、

「a cinematic shot of a penguin walking on the beach」
といったナチュラル言語による記述が主流でした。

しかし今、「映像は言葉ではなく構造で制御する時代」に入りつつあります。

その理由:

  • 構造化された情報は再現性が高く、微調整もしやすい

  • 撮影スタイル、光源、カメラアングル、構図要素を明示的に制御できる

  • プロンプトがテンプレ化・再利用可能になり、チーム制作に向く

話題になったJSONプロンプト例(IKEA動画)

以下は、@Salmaaboukarr氏による投稿に含まれたVeo用のJSONプロンプトです:

{
"description": "Cinematic shot of a sunlit Scandinavian bedroom. A sealed IKEA box trembles, opens, and flat pack furniture assembles rapidly into a serene, styled room highlighted by a yellow IKEA throw on the bed. No text.",
"style": "cinematic",
"camera": "fixed wide angle",
"lighting": "natural warm with cool accents",
"room": "Scandinavian bedroom",
"elements": [
"IKEA box (logo visible)",
"bed with yellow throw",
"bedside tables",
"lamps",
"wardrobe",
"shelves",
"mirror",
"art",
"rug",
"curtains",
"reading chair",
"plants"
],
"motion": "box opens, furniture assembles precisely and rapidly",
"ending": "calm, modern space with yellow IKEA accent",
"text": "none",
"keywords": [
"16:9",
"IKEA",
"Scandinavian",
"fast assembly",
"no text",
"warm & cool tones"
]
}

このプロンプトにより、映画のようなカメラワークと照明、空間設計、モーション表現が完璧に描写された動画が生成されました。

JSONプロンプトの使い方:どこまで自由に書ける?

現時点では、Veo 3の内部でJSONプロンプトを公式にサポートしているかは明言されていませんが、少なくとも以下のパラメータが多くの実験で再現性を発揮しています:

パラメータ 概要例
description 映像全体の要約と雰囲気
style cinematic, animation, documentary など
camera fixed, dolly zoom, panning など
lighting natural, warm glow, dramatic shadows など
elements 映像内に必ず含めたいアイテム群
motion 主要な動きの演出(例:transform, dissolve)
ending 映像のフィナーレの雰囲気
text テキストの有無(字幕・UIなど)
keywords AIモデルが参照しやすいタグ指定

今後どうなる?映像生成とプログラミングの融合

  • 映像ディレクターや広告クリエイターが「JSONを書く」時代へ入っていく可能性があります。

  • Prompt Engineer × 映像制作の新しい職種が誕生するかも知れません。つまり、撮影現場のプロの手法を知っている人が、その手法をそのままJSONで書くと、撮影現場のプロの手法をそのまま再現したAI生成動画ができる訳です。

  • 動画制作がコーディングと融合する新しい潮流に。これまでのText-to-Videoは、ある意味純文学的にテキストでシーンを記述していましたが、これからは構造的なプログラミング的シーンの記述に完璧に置き換わるかも知れません。少なくとも広告のクリエイティブの現場ではそうなる可能性が高いです。

まとめ:あなたもJSONで"映像設計者"になれる

今後は「プロンプト=アートディレクションのスクリプト」という位置づけが広がってい苦でしょう。特にVeoのように"高忠実度な映像が一発で出せる"モデルでは、このJSON式プロンプトが業界標準になる可能性すらあると言えます。


以上はChatGPTが書いたブログに、小職が多少手を入れたテキストです。

Comment(0)