食べ物・グルメ動画のAI制作：おいしさを伝える映像の作り方

食べ物の動画は、AI動画制作の中でも特にやりがいのあるジャンルです。湯気が立ち上るラーメン、チーズがとろける瞬間、ジューシーな肉汁。こうした映像は視聴者の五感に直接訴えかけます。しかし、AIで食べ物を「おいしそう」に見せるには、通常のドラマ制作とは異なるテクニックが必要です。

この記事では、Food Vlog形式のAI動画を制作するための完全なパイプラインを解説します。顔のベース画像作成から、食べ物の商品紹介ショット、食べるアニメーション、そして音声設計まで、実践的なワークフローをステップごとにまとめています。

なぜ食べ物動画はAI制作と相性がいいのか

食べ物動画がAI制作と相性が良い理由は3つあります。

第一に、動きが小さいこと。食べ物動画に求められるのは、湯気が立つ、チーズが伸びる、箸で持ち上げるといった繊細な動きです。激しいアクションシーンと違い、現在のAI動画生成ツールが最も得意とする「微小なモーション」の範囲に収まります。

第二に、カメラワークがシンプルなこと。食べ物動画の多くは、テーブル上のクローズアップやミディアムショットで構成されます。複雑なカメラ移動が不要なため、AI生成の品質が安定しやすいのです。

第三に、Seedanceとの相性が抜群なこと。Seedanceは「スマートフォンで撮ったような手持ち感」を得意とするツールです。食べ物動画に求められる「友達が撮ってくれた感」を自然に再現でき、わざとらしくない映像が生成できます。

Food Vlogパイプラインの全体像

食べ物動画の制作は、以下のパイプラインに沿って進めます。通常のショートドラマとは異なる独自の流れがあります。

コンセプト設計（誰が、どこで、何を食べるか）
  ↓
フェイスベース（Nano Banana Pro、クリーンな参照画像）
  ↓
ベースショット（衣装 + 環境の確立）
  ↓
シーンバリエーション（リファレンス画像 + 各料理のカット）
  ↓
商品紹介ショット（エディットモード：人物を消して料理だけ残す）
  ↓
アニメーション（Seedance、3秒、微小モーション）
  ↓
BGM（Gemini → SUNO）
  ↓
最終編集（テキストオーバーレイ、価格表示、カット編集）

このパイプラインの特徴は、「エディットモード」を活用した商品紹介ショットの作成にあります。人物と料理を一緒に撮った画像から人物だけを除去し、料理のアップショットを効率的に作成する手法です。

Step 1: フェイスベースの作成

最初に行うのは、出演者キャラクターのベース画像を作成することです。このステップは全ジャンル共通ですが、食べ物動画では特に重要なポイントがあります。

ベース画像の要件

シンプルな背景で正面からの写真を生成する
表情は自然な微笑みがベスト。食べ物動画では「おいしそうに食べる人」の印象が大切
髪型や髪色は、後のシーンで統一しやすいスタイルを選ぶ
衣装はまだ指定しない。ベースは顔の特徴だけを固定する目的

Google Nano Banana Proを使い、以下のようなプロンプトで生成します。

シンプルな白背景。20代の日本人女性の正面ポートレート写真。
自然な微笑み。目元がやさしい印象。
スマホで撮ったような自然なライティング。
文字なし。

ここで生成した画像が、以降すべてのシーンで参照される「顔の原本」になります。リファレンス画像として保存し、後のプロンプトでは顔の特徴を記述しないことが鉄則です。リファレンス画像から自動的に顔の情報が引き継がれるため、シーンの状況だけを記述します。

Step 2: ベースショットの確立

フェイスベースができたら、次はベースショットを作成します。ベースショットとは、動画の「世界観」を確定する最初のシーン画像です。

ベースショットで固定すべき要素

衣装 — カジュアルなTシャツ、ニット、ワンピースなど。食べ物動画に合った自然な服装
場所 — カフェ、レストラン、屋台、自宅キッチンなど
時間帯 — 昼の自然光、夕方のゴールデンアワー、夜の店内照明
色温度 — 暖色系（食べ物を美味しく見せる基本）

（リファレンス画像をアップロード）
おしゃれなカフェのテーブル席に座っている。白いニットを着ている。
テーブルにはまだ何もない。窓からの自然光。暖色系のライティング。
ミディアムショット、ウエストアップ。スマホで撮ったようなフォトリアル写真。
色温度はナチュラルな昼光、コントラストは自然で、スマホカメラらしい軽いHDR。
文字なし。

このベースショットが全シーンの「基準」になります。以降のシーンバリエーションでは、ここで確立した衣装、場所、ライティングを維持しながら、テーブル上の料理だけを変えていきます。

Step 3: シーンバリエーションと商品紹介

料理ごとのシーン画像

ベースショットをリファレンスにして、各料理のシーンを生成します。ポイントは、人物の顔だけでなく、衣装や座り方、テーブルの雰囲気もリファレンスから引き継がれることを理解しておくことです。

（リファレンス画像：ベースショットをアップロード）
テーブルの上にパンケーキが置かれている。生クリームとベリーがトッピングされている。
女性がフォークを持って、パンケーキをカットしようとしている。
少し前のめりで、嬉しそうな表情。
ミディアムショット。暖色系の自然光。
文字なし。

商品紹介ショット（エディットモード）

食べ物動画で視聴者が最も見たいのは、料理そのもののアップショットです。ここで活用するのがNano Banana Proのエディットモードです。

人物と料理が一緒に写った画像から、エディットモードで人物を除去し、料理と手元だけを残します。あるいは、料理だけのクローズアップ画像を新たに生成します。

（エディットモード）
人物を消して、テーブル上のパンケーキだけを残す。
手元とフォークは残してよい。
カメラは料理に寄ったクローズアップ。俯瞰気味のアングル。
文字なし。

この手法で、一つのシーンから「人物入りのミディアムショット」と「料理だけのクローズアップ」の2種類を効率的に作成できます。

Step 4: アニメーション生成のコツ

Seedanceを選ぶ理由

食べ物動画のアニメーション化には、Seedance 1.0 Proが最適です。KlingやViduではなくSeedanceを使う理由は明確です。

手持ちスマートフォンの質感を自然に再現できる
微小なモーション（湯気、箸の動き、首の傾き）の表現力が高い
「磨き上げたプロ映像」ではなく、「友達が撮ったような生っぽさ」が出る
3秒生成でクレジットを節約できる（商品紹介ショットは3秒で十分）

アニメーション生成のパラメータ

シーン種別	推奨秒数	ツール	備考
料理クローズアップ	3秒	Seedance	湯気や光の揺れだけで十分
食べるシーン	5秒	Seedance	動きをシンプルに保つ
飲むシーン	5秒	Seedance	傾きの角度指定が重要
リアクションショット	3-5秒	Seedance / Kling	表情重視ならKlingも可

食べ物動画のアニメーションで最も重要なのは、プロンプトをシンプルに保つことです。複雑な動作指示を入れるほど、不自然な映像になります。

AI動画制作をもっと深く学びたい方へ

Algentio AI Professional Academyでは、AI動画制作を含むAI活用スキルを体系的に学べるプログラムを準備中です。

LINEで開講情報を受け取る

食べるシーンと飲むシーンの撮り方

食べるアニメーションのプロンプト

食べるシーンのプロンプトは、とにかくシンプルにするのが鉄則です。「右手で箸を持ち上げ、口に運び、咀嚼し、目を閉じて味わう」のような複数のアクションを一度に指示すると、どの動作も中途半端になります。

動作は一つだけ。最も「おいしそう」に見える瞬間を切り取ります。

ターキーレッグを一口食べる。目をつむって味わう

パンケーキをフォークで一口切って、口に運ぶ

ラーメンの麺を箸で持ち上げる。湯気が立ち上る

このシンプルさが、自然な動きを生み出します。詳細に指示するほど不自然になるのは、AI動画生成全般に共通する原則ですが、食べるシーンでは特に顕著です。

飲むシーンの角度指定

飲むシーンには独自のテクニックがあります。カップやグラスを傾ける角度を約30度に指定することです。

A woman drinking her beverage deliciously.
The angle at which she tilts the glass is 30 degrees. Not too much.

角度を指定しないと、AIはグラスを90度近くまで傾けてしまったり、逆にほとんど傾けなかったりします。30度という具体的な数値を与えることで、「自然に飲んでいる」ように見える映像が得られます。

飲み物の種類によってプロンプトを微調整します。

ホットコーヒー — 両手でカップを包むように持つ。湯気の描写を加える
アイスドリンク — ストローを使う場合は角度指定は不要
ワイン・日本酒 — グラスの持ち方（ステムを持つ等）を指定すると品が出る

音声設計：食の臨場感を作る

食べ物動画の音声設計は、ドラマとは根本的に異なります。セリフよりも環境音と食べる音が主役です。

Klingネイティブ音声の活用

食べる音や環境音には、Klingのネイティブ音声生成が非常に有効です。Klingで動画を生成する際に音声をONにすると、映像に合った環境音が自動的に付与されます。

特に食べるシーンでは、咀嚼音、食器が当たる音、カフェの背景音などが自然に生成されます。ElevenLabsのSFX生成よりも映像との同期が自然なため、食べ物動画ではKlingの音声機能を積極的に活用しましょう。

BGMの設計

食べ物動画のBGMは、軽やかで明るい曲調が基本です。GeminiやChatGPTを使って、動画のコンテキストからSUNO向けのプロンプトを生成します。

light acoustic, fingerpicking guitar, warm cafe atmosphere,
gentle ukulele, soft percussion, happy, cozy,
no vocals, instrumental, loopable

BGMの音量は控えめに設定し、食べる音や環境音が聞こえるバランスを維持します。音楽が主張しすぎると、食べ物動画の「ASMR的な魅力」が失われます。

ElevenLabs SFXの補助的活用

Klingの音声だけでは足りない場合、ElevenLabsのSFX生成で追加の効果音を作ることもできます。プロンプトは英語で書くのがルールです。

high-quality, professionally recorded, sizzling steak on a hot plate,
oil crackling, steam rising

high-quality, professionally recorded, pouring hot coffee into a ceramic cup,
gentle stream, warm atmosphere

生成された4つのバリエーションをすべて聴き比べ、最も自然なものを選びます。

最終編集とテキストオーバーレイ

食べ物動画の最終編集では、以下の要素を追加します。

テキストオーバーレイ

料理名 — 各料理が画面に初めて登場するタイミングで表示
価格 — 視聴者が「行ってみたい」と思ったときに必要な情報
店名・場所 — 冒頭または最後に表示
リアクションテロップ — 「うまっ」「これ最高」など短い感想

カット構成の原則

食べ物動画のカット構成には、以下のリズムが効果的です。

料理のクローズアップ（3秒）— 最もインパクトのあるカットを冒頭に
人物が料理を見ている（2秒）— リアクションの「前フリ」
食べるアクション（3-5秒）— メインの見せ場
リアクション（2-3秒）— おいしさが伝わる表情
次の料理へ（繰り返し）

冒頭のカットは「最もおいしそうに見える映像」を配置します。食べ物動画では、最初の1秒で視聴者が「続きを見たい」と思うかどうかが決まります。湯気が立つラーメン、チーズが伸びるピザ、ソースがかかる瞬間など、動きのあるインパクトシーンを先頭に持ってきましょう。

食べ物動画の編集は「引き算」が命。8カット撮ったら5カットまで減らす。視聴者が「もっと見たい」と思う長さで終わるのが理想。

最終的な品質チェックでは、色温度の統一（暖色系で統一されているか）、人物の衣装の一貫性、料理の見た目の自然さを確認します。食べ物の色が青みがかっていたり、不自然に鮮やかすぎたりする場合は、カラーグレーディングの設定を見直しましょう。