第 10 章

AI视频生成

Ch10 AI视频生成：可灵/即梦/Pika/Runway实战对比

AI图像是静止的，短剧需要运动的镜头。AI视频生成技术在2024年经历了质的飞跃，从早期的变形扭曲，到现在能生成5-10秒流畅写实视频，正在重新定义短剧制作的成本结构。本章全面对比四大主流工具，教你掌握镜头运动控制，并给出把零散AI视频片段剪辑成完整短剧的核心逻辑。

四大工具详细对比

AI视频生成的赛道迭代极快，但截至2025年，以下四款工具在国内外短剧制作者中的使用频率最高。

工具	单段时长	画面质量	运动流畅度	价格参考	最大优势
可灵 (Kling)	5s / 10s	★★★★★	★★★★★	约66元/月标准版	国内最强，中国人物最真实，运动控制好
即梦 (Jimeng)	5s / 8s	★★★★☆	★★★★☆	字节跳动出品，积分制	与剪映深度集成，剪辑流程顺滑
Pika 2.0	5s	★★★★☆	★★★★☆	$8/月起	欧美风格最佳，适合出海内容
Runway Gen-3	5s / 10s	★★★★★	★★★★★	$15/月起，生成消耗credits	专业感最强，运镜控制精细，影视级质量

[NOTE] 选工具的核心逻辑： 面向国内抖音/快手/视频号的短剧，首选可灵+即梦组合。面向TikTok/YouTube出海内容，Runway Gen-3是质量天花板，Pika性价比高。预算有限时，可灵标准版月费最低，性能已经完全够用。

图生视频 vs 文生视频

AI视频生成有两种主要模式，适用场景完全不同。

图生视频（Image-to-Video，I2V）

将一张静态图片作为起始帧，AI生成这张图片"动起来"的视频片段。这是短剧制作的主要工作模式，因为：

人物外貌由图片锁定，不会随机生成不认识的面孔
配合Ch09训练好的LoRA图片，完美实现角色一致性
场景、光线、构图都已经在图片中确定，视频效果可预期
适合大量内容的批量生产，工作流稳定

文生视频（Text-to-Video，T2V）

直接用文字描述生成视频，不依赖参考图片。适用场景：

**非人物镜头：**城市航拍、自然场景、抽象转场效果
**背景/氛围视频：**咖啡馆人来人往、雨天窗外、繁华夜景
**概念/片头：**书名字幕、品牌logo动效

[WARNING] 文生视频的人物问题： 文生视频生成的人物几乎不可能与你的角色一致。在短剧中，凡是需要出现特定人物的镜头，务必用图生视频模式，不要依赖文字描述来还原人物外貌。

动作控制技巧：避免AI视频"鬼畜"变形

"鬼畜变形"是AI视频生成最常见的问题——人物面部融化、手指消失、身体比例扭曲、背景元素随机移动。根源在于扩散模型对大幅度运动的控制能力不足。

减少变形的核心策略

**控制运动幅度：**在视频提示词中优先描述小幅度、局部的动作，避免要求人物做大幅度转身或剧烈运动
**固定镜头优先：**固定机位+人物轻微动作（呼吸感、眼神移动、微笑）比运动镜头+静止人物更稳定
**短时长优先：**5秒的视频比10秒更稳定。宁愿多生成几段5秒片段再拼接，也不要强求一段10秒完美视频
**控制生成参数：**可灵/Runway的"运动强度"参数设置在40%-60%之间，过高会导致变形

可灵视频提示词结构

[可灵 — 视频提示词]

-- 推荐结构：主体 + 动作 + 摄像机运动 + 氛围 --

示例1：人物特写，轻微动作
"A beautiful East Asian woman in a white suit,
sitting near a window, slight smile forming on her face,
gentle breeze moves her hair softly,
camera slowly pushes in on face, cinematic, warm lighting"

示例2：对话镜头，固定机位
"A man in a black suit standing by floor-to-ceiling windows,
turns head slightly to look at camera, confident expression,
city lights in background bokeh, static camera, dramatic lighting"

示例3：情绪爆发镜头
"Close-up of woman's face, tears beginning to fall,
slight trembling of lip, looking down then up,
camera stays fixed, soft natural light, emotional"

-- 要避免的描述 --
"running, jumping, turning around quickly, fighting,
dancing, dramatic gesture with arms"  // 大动作容易变形

可灵的运动控制参数

[可灵参数设置]

模式：图生视频（推荐）
视频时长：5秒（稳定性最好）
运动强度：40-55（默认50，不要超过70）
摄像机控制：
  - 无运动：Fixed（固定镜头）
  - 轻推近：Zoom In（推镜头）
  - 轻拉远：Zoom Out（拉镜头）
  - 横向摇移：Pan Left / Pan Right
质量模式：标准（日常使用）/ 专业（重要镜头）

5秒镜头拼接成完整短剧的剪辑逻辑

一集5分钟的短剧，如果每个镜头平均4秒，需要约75个镜头。每个镜头都是独立的AI视频片段，核心挑战是让这些片段拼接后看起来像连贯的一集剧，而不是一堆随机视频的拼凑。

镜头组合的剪辑节奏

成熟的短剧剪辑有固定的节奏节拍，可以参考以下结构：

[一场戏的镜头结构模板]

场景：办公室对话（男主宣布解雇女主）

镜头1（3秒）：全景 — 办公室环境建立，男主站立
镜头2（4秒）：中景 — 男主走向女主，神情冷漠
镜头3（2秒）：特写 — 男主眼神，冷冽俯视
镜头4（3秒）：反打中景 — 女主惊讶站起，颤抖
镜头5（2秒）：特写 — 女主眼眶泛红，咬唇
镜头6（4秒）：全景 — 男主转身离开，女主目送
镜头7（3秒）：特写 — 女主握紧拳头，决心表情

合计：约21秒，7个镜头
节奏：慢→慢→快→慢→快→中→中
      （建立情绪→推进→戏剧顶点→反应→细节→结果→转折）

避免跳切的转场原则

**同一场景内：**保持光线方向一致（不能A镜头光从左来，B镜头光从右来）
**切换景别要跳跃：**不要从中景直接切中景（变化太小），要中景→特写或中景→全景
**匹配剪辑：**一个动作的起始部分在A镜头，完成部分在B镜头，利用动作的连续性掩盖剪辑点
**音乐/音效过渡：**在视觉剪辑不够顺滑的地方，用音效（转场音效、音乐节拍）遮掩突兀感

批量生成降本策略

AI视频生成的成本比图像高得多。一集短剧75个镜头，如果每个镜头生成3个版本选最好的，意味着要生成225段视频。在高质量套餐下，成本可能高达数百元。以下策略可以显著降低单集制作成本。

策略一：分级使用工具

[成本分级策略]

A级镜头（主角特写、情绪高潮）：使用可灵专业版或Runway Gen-3
  预估：每段约2-4元，全剧约20-30个 → 成本60-120元

B级镜头（对话、中景）：使用可灵标准版或即梦
  预估：每段约0.5-1元，全剧约35-40个 → 成本20-40元

C级镜头（背景、环境、过场）：使用即梦免费额度或文生视频
  预估：接近免费，全剧约15-20个 → 成本接近0

合计：约80-160元/集（比专业演员+摄影团队低90%以上）

策略二：共用账号与充值规划

**可灵：**标准版66元/月提供每月3000积分，约合生成150-200段5秒视频；超出后按量充值
**即梦：**字节账号每天有免费额度，多账号轮换可降低成本
**Runway：**年付方案有折扣，按实际使用量选择合适套餐，不要买超出使用量的套餐

策略三：素材复用

不是每个镜头都需要全新生成。以下情况可以复用已有视频素材：

同一场景的不同时刻，可以用镜像翻转、裁剪不同区域来产生"新镜头"
相似情绪的动作（沉默凝视、转身、叹气）可以跨集复用
背景/环境镜头（城市夜景、咖啡馆）可以在多集中反复出现

[TIP] 本章行动清单：

注册可灵账号，用Ch08中的一张角色图生成一段5秒测试视频；

对比不同"运动强度"参数（30/50/70）的输出效果；

按照本章的镜头结构模板，为你剧本中的一场戏规划7个镜头；

生成这7个镜头的视频片段，导入剪映，练习拼接剪辑；

记录单集视频的实际生成成本，建立你的成本核算表。

← 上一章Ch09 一致性角色LoRA 下一章 →Ch11 分镜设计

本章评分

4.5 / 5 (32 评分)