第 8 章

AI图像生成

Ch08 AI图像生成：Midjourney/Flux出图实战

AI短剧的视觉核心是图像——每一个分镜、每一张封面、每一个人物立绘，都决定了观众能不能"入戏"。本章系统拆解当前最主流的四款AI图像工具，给出适合短剧制作的完整提示词结构，手把手教你实现竖版9:16构图和批量风格一致出图。

四大工具横向对比

当前AI图像生成市场格局已相对稳定，短剧制作者最常用的工具集中在以下四款。选工具的核心逻辑只有一条：谁能用最低成本出最接近真实感的人物图。

工具	真实感	中文人物	价格	出图速度	适合场景
Midjourney v6	★★★★★	★★★☆☆	$10/月起	30-60秒	高质量封面、宣传图、概念图
Flux.1 Dev/Pro	★★★★★	★★★★☆	按量计费（约$0.05/图）	15-30秒	批量出图、人物一致性、API集成
Stable Diffusion XL	★★★★☆	★★★★★	本地免费/云端低价	5-20秒（本地）	大批量出图、LoRA微调、高度自定义
通义万象	★★★★☆	★★★★★	免费额度+按量	10-20秒	国内合规、中文提示词、商业授权明确

[NOTE] 选工具的务实建议： 如果你的短剧是都市霸总/甜宠赛道，优先考虑 Flux + SD XL 组合——Flux负责高质量主角特写，SD XL负责批量场景图。Midjourney适合做封面和宣传物料，通义万象则是国内商用最安全的选择。

Midjourney v6 核心优势与局限

Midjourney v6 在整体美学一致性和光影细节上仍然领先，尤其擅长处理欧美面孔和时尚摄影风格。对于需要出海到TikTok/YouTube的短剧内容，Midjourney的图像质感最接近好莱坞宣传物料水平。

局限在于：没有官方API（只能Discord）、亚洲面孔的五官细节经常失准、无法直接训练LoRA角色。对于需要大批量出图且要求角色一致性的国内短剧制作，MJ更适合作为"质量基准参考"而非主力出图工具。

Flux.1 — 当前批量出图的最优解

Flux.1 由 Stability AI 原班人马（Black Forest Labs）开发，2024年下半年发布后迅速成为真实感人物生成的新标杆。相比 Midjourney，Flux 的优势在于：

开放API：可集成到自动化工作流，实现批量出图
文字渲染准确：图片内的文字不会乱码（MJ的老问题）
支持LoRA微调：可以在Flux基础上训练角色一致性模型
中文提示词响应更好：对亚洲面部特征的理解更准确

Flux有三个版本：Flux.1 Schnell（最快，质量略低）、Flux.1 Dev（开发者用，平衡速度和质量）、Flux.1 Pro（最高质量，适合封面级输出）。日常批量出图推荐 Dev 版本。

Stable Diffusion XL — 本地化与高自定义

SDXL的核心优势是完全本地化运行，零出图成本。一张RTX 3090显卡每天可以生成数千张图，这对需要大批量素材的短剧团队极具吸引力。Civitai上有大量针对中文人物、古风、都市等场景的专属LoRA，可以直接下载使用。

缺点是上手门槛较高，需要配置ComfyUI或Automatic1111界面，硬件成本也是一次性投入。云端方案可选择LiblibAI（哩布哩布）或吐司AI，月费约50-200元，适合没有高端显卡的创作者。

人物出图提示词结构

提示词结构决定了出图的上限。很多新手随便写几个词就出图，结果图片质量参差不齐、风格不统一。专业的短剧制作者会建立一套固定的提示词模板，保证每次出图都在同一风格区间内。

标准提示词结构分为七个层次，按优先级从高到低排列：

第一层：画质与风格基础词

这些词放在提示词最前面，权重最高。决定了整体图像的质量下限。

[Prompt 基础层]

masterpiece, best quality, ultra detailed, photorealistic, 8k uhd, sharp focus, professional photography

第二层：人物外貌描述

包括年龄感、五官特征、肤色、发型。注意：对于中国短剧，明确写出"East Asian features"或"Chinese woman/man"能显著提升面部准确度。

[Prompt 人物层]

1 woman, 25 years old, East Asian, beautiful face, high nose bridge, double eyelid,
long straight black hair, fair porcelain skin, elegant temperament

第三层：服装与妆容

服装是角色身份的视觉符号。霸总赛道的男主必须是定制西装+领带，甜宠赛道的女主要有少女感的碎花裙或学院风。

[Prompt 服装层]

wearing white custom-tailored suit, silk tie, luxury watch,
subtle makeup, red lips, natural blush

第四层：场景与环境

场景决定了故事的背景层次。短剧图像中，场景通常是虚化的，用来烘托人物身份感。

[Prompt 场景层]

in a luxury penthouse office, floor-to-ceiling windows, city skyline background,
golden sunset light, bokeh background, shallow depth of field

第五层：光线与摄影参数

光线是让图像从"AI感"变成"真实感"的关键。学几个经典光线词，出图质量立刻提升一个档次。

[Prompt 光线层]

-- 常用光线词 --
soft natural light          // 柔和自然光，适合甜宠
dramatic rim light          // 戏剧性轮廓光，适合悬疑
golden hour sunlight        // 黄金时段，温暖氛围
studio lighting, key light  // 商业摄影感
moody blue ambient light    // 冷色调，适合霸总商战

第六层：画面比例与构图

短剧必须使用9:16竖版，这是硬性要求。不同平台的参数略有差异。

[Prompt 比例层]

-- Midjourney --
--ar 9:16 --v 6

-- Flux API 参数 --
"width": 768, "height": 1344

-- SDXL 推荐分辨率 --
832x1472 或 768x1344

第七层：负面提示词（Negative Prompt）

负面提示词告诉AI"不要画什么"，对消除畸变手指、面部模糊等问题至关重要。

[Negative Prompt]

worst quality, low quality, normal quality, jpeg artifacts, blurry, watermark,
extra fingers, mutated hands, poorly drawn hands, deformed, ugly, bad anatomy,
bad proportions, long neck, missing limbs, extra limbs, cloned face,
text, logo, signature, username

竖版9:16画面构图技巧

竖版构图和横版完全不同。横版摄影的三分法、黄金分割在竖版里需要重新理解。短剧图像的竖版构图核心原则：人物占画面高度60%以上，面部出现在画面上1/3区域。

构图类型与使用场景

大头特写（Close-up）：面部占画面1/2以上，用于情绪爆发镜头、对话镜头、封面主图。最抓眼球。
半身构图（Half-body）：展示人物上半身和面部，同时体现服装和肢体语言。适合角色出场介绍。
全身构图（Full-body）：展示完整人物，背景占比增加。适合表现人物所处环境和身份地位。
环境人像（Environmental Portrait）：人物与场景融合，适合交代故事背景。

[TIP] 竖版出图的黄金法则： 让人物的眼睛落在画面高度的30%-35%处（从上往下数）。这个位置符合人类视觉习惯，在手机竖屏上最容易被注意到。在提示词里加上 "portrait composition, face at upper third" 可以引导AI实现这一构图。

场景与人物比例控制

竖版图中，背景是"氛围营造工具"而非主角。过于复杂的背景会分散观众对人物表情和肢体语言的注意力。推荐做法：

背景使用浅景深（bokeh），让场景虚化但仍能辨认
背景颜色与人物服装形成色彩对比（深色背景搭浅色服装，或反之）
避免背景中出现过多文字、标志或复杂建筑细节

批量出图工作流：用Seed保持风格一致

单张图容易出好，批量出图且保持风格一致才是难点。一集短剧可能需要50-100张图，如果每张都是随机种子，视觉风格就会散掉，观众看起来很不连贯。

Seed的原理

Seed（种子数）是AI生成图像时使用的随机数初始值。相同的Seed + 相同的提示词 = 极其相近的图像输出。利用这个特性，可以实现：

批量生成同一人物的不同动作/表情
保持同一场景的光线和色调一致
在微调提示词时保留已经满意的整体风格

Midjourney Seed用法

[Midjourney]

-- 第一步：出一张满意的图，记录seed值 --
在Discord中对图片使用 ✉️ 信封表情，获得图片参数包含seed

-- 第二步：在新prompt中指定seed --
/imagine [你的提示词] --seed 3847291 --ar 9:16 --v 6

-- 第三步：只改变局部描述，保持seed不变 --
原版：woman standing, arms crossed
变体：woman smiling, hand on chin
// seed相同时，人物面部和整体风格保持一致

Flux API批量出图工作流

[Python / Flux API]

import replicate
import json

BASE_PROMPT = """masterpiece, best quality, photorealistic, 1 woman, 25 years old,
East Asian, long black hair, wearing white dress, luxury apartment interior,
soft natural light, 9:16 portrait, face at upper third"""

FIXED_SEED = 42857301  # 找到满意风格后固定此seed

# 批量生成不同表情的人物图
expressions = [
    "neutral expression, calm",
    "surprised expression, eyes wide",
    "smiling warmly, gentle",
    "angry expression, intense gaze",
    "crying, tears on cheeks",
]

for i, expr in enumerate(expressions):
    output = replicate.run(
        "black-forest-labs/flux-dev",
        input={
            "prompt": f"{BASE_PROMPT}, {expr}",
            "seed": FIXED_SEED,
            "width": 768,
            "height": 1344,
            "num_outputs": 1,
            "guidance_scale": 3.5,
            "num_inference_steps": 28,
        }
    )
    # 保存图片
    with open(f"character_{i:02d}_{expr[:20]}.png", "wb") as f:
        f.write(output[0].read())

[WARNING] Seed不是万能的： Seed只能保证在同一模型、同一参数设置下风格接近，但随着提示词变化幅度增大，角色外貌偏差也会增大。当提示词变化超过30%时，建议重新测试seed，或改用LoRA方案（见Ch09）来保证绝对的角色一致性。

建立提示词模板库

专业团队会建立一个提示词模板库，把测试好的人物、场景、光线提示词分类存档。推荐的文件结构：

[文件结构]

prompts/
├── characters/
│   ├── male_lead_boss.txt      # 霸总男主基础提示词 + seed
│   ├── female_lead_sweet.txt   # 甜宠女主基础提示词 + seed
│   └── antagonist_female.txt   # 反派女配
├── scenes/
│   ├── luxury_office.txt       # 豪华办公室
│   ├── rooftop_night.txt       # 夜晚天台
│   └── coffee_shop.txt         # 咖啡馆
├── lighting/
│   ├── golden_hour.txt         # 黄金时段
│   └── dramatic_studio.txt     # 戏剧性棚拍
└── negative/
    └── standard_negative.txt   # 标准负面提示词

完整提示词示例：霸总赛道男主特写

以下是一个经过实测、适合霸总题材男主封面图的完整提示词，包含所有七个层次的要素：

[完整示例 — 霸总男主]

-- 正向提示词 --
masterpiece, best quality, ultra detailed, photorealistic, 8k uhd, sharp focus,
professional photography, cinematic lighting,
1 man, 32 years old, East Asian, handsome face, strong jawline, sharp eyes,
black short hair, styled back, tall and muscular build,
wearing black custom-tailored suit, white shirt, no tie (top button open),
luxury Rolex watch, signet ring,
standing near floor-to-ceiling window, city skyline at night background,
dramatic rim light from left, bokeh background, shallow depth of field,
upper body shot, face at upper third of frame, looking at viewer, confident expression,
portrait composition, 9:16 vertical

-- 负向提示词 --
worst quality, low quality, blurry, watermark, text, logo,
extra fingers, mutated hands, deformed face, ugly, bad anatomy,
feminine features, soft features, childish, old,
crowded background, busy background

-- 参数 --
Seed: 7293847  |  Steps: 30  |  CFG: 7  |  Size: 768x1344

完整提示词示例：甜宠赛道女主半身像

[完整示例 — 甜宠女主]

-- 正向提示词 --
masterpiece, best quality, ultra detailed, photorealistic, 8k uhd,
soft studio photography, dreamy atmosphere,
1 woman, 22 years old, East Asian, cute face, big round eyes, double eyelid,
small nose, rosy cheeks, natural makeup, pink glossy lips,
long wavy brown hair with bangs, wearing pastel pink knit sweater,
delicate gold necklace,
indoor setting, blurred warm coffee shop background, fairy lights bokeh,
soft diffused natural light from window, warm golden tones,
half body portrait, face at upper third, slight smile, shy expression,
looking slightly off camera, 9:16 vertical

-- 负向提示词 --
worst quality, low quality, blurry, deformed, ugly, bad anatomy,
masculine features, harsh lighting, dark tones, busy background,
extra hands, bad hands, watermark, text

-- 参数 --
Seed: 1847362  |  Steps: 28  |  CFG: 6.5  |  Size: 768x1344

常见问题与解决方案

问题1：手指变形

AI生成人物手部是公认难点。解决方案：在负面提示词中加强手部相关词；或在构图上尽量避免手部入镜，使用"arms crossed behind back"（手背后）或"hands in pockets"（手插口袋）的姿势描述。

问题2：面部对称性差

在正向提示词中加入"perfectly symmetrical face, symmetric features"，负面词加入"asymmetric, uneven eyes, crooked nose"。同时提高 CFG Scale 到7-8区间（但不要超过9，否则图像会过度锐化）。

问题3：同一人物多图风格不一致

这是批量出图最常见的问题。解决方案按难度递增：① 固定Seed；② 使用相同的LoRA权重；③ 使用IP-Adapter进行角色参考图引导（详见Ch09）。

问题4：出图偏卡通、不够真实

在正向提示词最前面加上 "RAW photo, analog film, photographic" 等词，并在模型选择上选择专为真实感设计的Checkpoint（如Realistic Vision V5、epiCRealism等）。

[TIP] 本章行动清单：

注册 Replicate.com 或 Liblib.ai，各出10张霸总/甜宠风格测试图；

找到满意的图之后记录Seed值，建立你的第一个"基础提示词模板"；

用固定Seed批量生成5种不同表情的同一人物，验证一致性；

建立本章推荐的prompts/文件夹结构，把测试结果分类存档。

← 上一章Ch07 对白写作下一章 →Ch09 一致性角色LoRA

本章评分

4.8 / 5 (41 评分)