← Back to Skills Marketplace
lucas-kay8

FableForge AI Video Studio

by Lucas-Kay8 · GitHub ↗ · v1.0.1 · MIT-0
cross-platform ⚠ pending
153
Downloads
0
Stars
0
Active Installs
2
Versions
Install in OpenClaw
/install ai-video-studio
Description
FableForge 通用视频生成流水线 SOP。支持两种生产模式(图片流、视频 B-roll 流)和三种体裁(叙事寓言、商业分析、产品宣发)。包含从概念生成、剧本创作、TTS 配音、素材采集、到 HyperFrames 视频渲染的完整工业化 SOP,以及视觉风格指南与技术陷阱手册。
README (SKILL.md)

🔨 FableForge · 视频生成工业流水线 AI Agent SOP

本 Skill 是一份命令级可执行 SOP,而非经验教训集。每个 Stage 均包含具体执行命令退出验收标准,严禁跳步或在退出标准未满足时进入下一阶段。


0. 视频规格与体裁定义(内容优先定档制)

核心原则:内容的可理解性永远优先于时长限制。

视频时长不是预设的固定值,而是由内容倒推得出的。错误的做法是「先定 60 秒,然后把内容往里塞」;正确的做法是「先确认内容讲完需要多少字,再据此选档」。

0.0 视频体裁系统 (Genre)

本流水线支持三种核心体裁。在构思内容前,必须首先确定体裁

体裁 (Genre) 特征与核心要求 适用场景 常用视觉模式
Genre X: 叙事/隐喻 (Narrative) 有角色、有冲突。旁白重感受轻动作,追求悬念与结局升华。 寓言故事、历史重现、管理隐喻 + 模式 A (图片)
Genre Y: 分析/科普 (Analytical) 论点驱动、逻辑递进。追求清晰的结构拆解和痛点直击。 商业分析、职场洞察、技术科普 + 模式 B (B-roll)
Genre Z: 宣发/展示 (Promotional) 产品中心、利益点明确。强节奏感与转化引导 (CTA)。 产品宣发、网站转视频、功能展示 混合模式

0.1 三档体系

档位 适用场景 旁白总字数 预估时长 分镜数
S · 短片 单一概念解释、痛点直击、高密度短平快 150~450 字 45~120 秒 1+5~12+1
M · 标准 完整叙事、多维度拆解、深度论证 450~900 字 120~270 秒 1+12~20+1
L · 长篇 复杂案例剖析、连续剧集 900~1500 字 270~420 秒 1+20~30+1

超过 1500 字的内容必须拆成上下集(每集独立成片,各自包含封面和结尾)。

0.2 定档公式

旁白总字数 = 原始故事中【不可删减要素】的合计字数(见 0.3)
预估时长(秒) = 旁白总字数 ÷ 3.5(中文语速)
根据预估时长选择对应档位

0.3 不可删减要素(内容完整性红线)

不同体裁有不同的不可删减要素。如果被删除,观众将无法理解视频的核心价值。剧本转化阶段(Stage 1.2)严禁删除这些要素:

体裁 (Genre) 核心不可删减要素 删除后果
Narrative (叙事类) 因果链、角色动机、关键对话、认知翻转事件、结局因果闭环 观众不知道“为什么”,悬念消失,结论像硬塞的
Analytical (分析类) 痛点现象描述、核心矛盾拆解、数据对比/逻辑支撑、金句结论 视频变成空洞的说教,缺乏说服力
Promotional(宣发类) 目标受众痛点、核心利益点 (Benefit)、差异化价值、明确的 CTA 看完后不知道自己能得到什么,无法转化

可以精简的要素:

  • 重复的环境描写或冗长的数据罗列(保留首次,后续可省略)
  • 纯装饰性的形容词堆叠
  • 不影响主线的次要信息
  • 已被画面传达的信息(如「山很高」——画面已经表达了)

0.4 通用规格(所有档位共享)

规格项 标准值 说明
每幕旁白字数 中文 30~80 字 / 英文 20~50 词 中文约 3.5 字/秒,英文约 2.5 词/秒
每幕预估时长 5 ~ 15 秒 最终以音频实测为准
分镜编号格式 scene_cover, scene1~scene{N}, scene_end assets/ 下的图片名严格一一对应
旁白与分镜对应 1 幕 == 1 张图 == 1 段旁白 封面通常对应标题旁白,结尾对应金句旁白

0.5 质量门禁(三重内容验收)

视频质量的上限由三个核心因素决定。每一重门禁未通过,不得进入下一阶段。

门禁一:概念与大纲验收(概念生成后、停机确认前执行)

AI 容易生成"结构正确但洞察平庸"的内容。在向用户展示前,必须根据体裁完成自检:

强制自检(全部通过方可提交用户确认):

  • 反常识测试 (通用):这个洞察/角度是"大家都知道"还是"大家都经历但从没被命名"的?前者没传播价值,重写。
  • Genre X (叙事) 专属:结局是否让人感到轻微不适或醍醐灌顶?隐喻是否太直白(能在前10秒猜到结局)?
  • Genre Y (分析) 专属:逻辑链条是否严密?是否提出了具有实操性的认知升华?
  • 现实锚定测试 (通用):结尾的解释/结论,是否映射到了用户今天就可能遭遇的具体场景?

门禁二:脚本节奏验收(剧本转化后执行)

脚本是情绪与逻辑的乐谱。全片节奏必须有起伏,禁止平铺直叙。

体裁节奏铁律:

  • Genre X (叙事类) — 情绪驱动
    • 写感受,不写动作。旁白描述情绪状态,而不是画面动作(❌ "十只狼排成一列" → ✅ "山谷里没有声音,只有风")。
    • 采用 1-4 情绪档位系统(1舒缓/2蓄力/3爆发/4留白),并在剧本中标注。
  • Genre Y (分析类) — 逻辑驱动
    • 结构清晰:必须遵循“现象引入 → 核心矛盾 → 数据/逻辑支撑 → 升华结论”的节奏。
    • 金句前置或垫后:关键论点必须短小精悍。
  • 所有体裁通用
    • 结论幕字数减半:最后一幕旁白不超过 20 字。越重要的道理,越要用更少的字。
    • 剧本格式补充档位字段:每幕必须标注 - **情绪/节奏档位**:{X},指导配音语气与画面。

门禁三:图片质量验收(图片生成后、进入 Stage 2 前执行)

构图与画幅规范(强制):

  • 画幅固定:必须生成 9:16 竖屏图片(DALL-E 3 使用 1024x1792)。严禁使用横屏图片。
  • 主体位置:主体人物/物件必须在画面上方 1/3 区域,底部留给字幕区。
  • 提示词必加cinematic vertical shot, 9:16 aspect ratio, subject positioned in upper third of frame, dark atmospheric space at bottom
  • 全片一致性:主光源方向统一,保持跨幕视觉连贯。

风格圣经与一致性工作流(强制): 为了保证多幕生图的视觉一致性,在生成任何图片之前,必须先根据体裁和设定定义一套「风格圣经」作为所有提示词的前缀,并为主要角色建立角色特征词组。

详细的风格圣经编写步骤、提示词工程公式以及角色一致性锚定工作流,请务必直接阅读 🎨 视觉风格参考手册

逐张自检:

  • 封面图 (scene_cover):视觉冲击力极强,具备悬念感,能瞬间抓住注意力。
  • 结尾图 (scene_end):意境深远,具备“神性”或“哲学感”,完美呼应主题并实现情感/认知升华。
  • 主体在画面上 1/3,底部有足够深色安全区供字幕叠加
  • 图片情绪与该幕的「情绪档位」匹配(档位 3 的图不能是平静场景)
  • 全片光影/色调风格一致
  • 无明显 AI 瑕疵(多余手指、文字乱码、比例失调等)

0.6 生产模式决策(内容定型后执行)

FableForge 支持两种生产模式。在用户确认内容方向后、动手写剧本之前,必须先确定生产模式。

两种模式概览

维度 模式 A:纯图片 模式 B:视频 + 文字叠加
适用题材 寓言故事、有角色弧线的隐喻 职场分析、管理洞察、观点输出
画幅 16:9 横屏(1920×1080) 9:16 竖屏(1080×1920)
视觉素材 AI 生成的场景图片 Pexels/Pixabay 免费 B-roll 视频
文字呈现 底部字幕条 全屏文字叠加排版(暗化遮罩 + 大字)
叙事结构 角色驱动的故事弧线 论点驱动的拆解/金句输出
产出节奏 较慢(等图片生成 + 风格校准) 较慢(等图片生成 + 风格校准)

快速决策表

判断条件 选择
有具体角色名字和对话(僧人、狼王、船夫……) 模式 A
叙事主语是「我」「你」「我们」「很多公司」 模式 B
需要展示隐喻(灯 → 认知、桥 → 管理) 模式 A
需要展示数据对比(3 → 13)、金句输出 模式 B
用户明确说"拍成视频" / "竖版" / "短视频" 模式 B
用户明确说"写个寓言" / "讲个故事" 模式 A

⚠️ 用户可在停机确认时手动覆盖 AI 的模式推荐。模式确定后写入 视频脚本.md 头部的「内容定档」章节。

模式选定后的流程分叉

  • 模式 A:走 §1.5A(图片素材生成)→ §3.2(横屏 HTML 模板)→ 正常流程
  • 模式 B:走 §1.5B(视频 B-roll 采集)→ §3.2B(竖屏 HTML + 文字叠加模板)→ 正常流程
  • 其余阶段(概念、剧本、TTS、BGM、音频解析、动画、渲染、发布)两种模式共享。

视频生产核心流水线 (Stages)

为确保 AI 执行各阶段时的高精准度与低上下文占用,制片厂流水线已全面重构为模块化架构。当您执行某一个特定阶段时,请直接调阅并遵循该阶段对应的子 SOP 指南

🛠️ Stage 0: 自动化环境部署 (Scaffolding)

  • 用途:首次运行或初始化项目环境时执行。
  • 动作:部署模板、检测并下载静态 ffmpeg / ffprobe 环境、构建 VoxCPM2 隔离 Python 环境。
  • 核心指南阅读 Stage 0 SOP

✍️ Stage 1:概念、剧本与物料生成

  • 用途:创意策划与声画素材(文字海报、B-roll、配音与BGM)准备。
  • 动作:根据 Genre 生成大纲并在停机确认后进行内容定档与剧本拆解,运行声纹克隆脚本,使用图片 API 或自动化下载裁剪 B-roll,并强制生成纯文字封面/封底海报。
  • 核心指南阅读 Stage 1 SOP

⏱️ Stage 2:音频解析与数据驱动时间轴

  • 用途:解析配音,进行像素级音视频时间戳对齐。
  • 动作:通过 ffprobe 获取音频绝对时长,使用 Whisper (A方案) / RMS 能量分析 (B方案) 获得精确断句,映射生成 data-start 时间轴。
  • 核心指南阅读 Stage 2 SOP

📐 Stage 3:静态排版构建与验收

  • 用途:横版/竖屏 HTML 与 CSS 样式搭建。
  • 动作:搭建 #composition DOM 骨架。模式 B 下严格执行视频标签扁平化,配置组件库(.headline, .neq 等),确保静态显示 100% 正确并通运 lint 校验。
  • 核心指南阅读 Stage 3 SOP

🎬 Stage 4:动画集成与预检发版

  • 用途:GSAP 动画渲染与 MP4 导出。
  • 动作:集成 Ken Burns 等情绪转场动画,运行 inspect 实施最终质量门禁,使用 render 导出 MP4 视频。
  • 核心指南阅读 Stage 4 SOP

📦 Stage 5:发布与归档

  • 用途:补充宣发策划,作品归档。
  • 动作:自动补充脚本元数据,强制追加小红书爆款宣发案(标题、大字封面文案及 Emoji 社交文案),更新 README 并在本地进行 Git 提交。
  • 核心指南阅读 Stage 5 SOP

附录:核心指南与排坑规范

为了保持核心 SOP 的精炼度,以下核心手册与技术参考已存为独立的资源文件,Agent 在执行时可按需读取:

  • 🎨 视觉风格参考手册:提供详细风格词典、提示词公式及文化锚点,请查阅 视觉风格参考手册
  • 🐛 技术陷阱与排坑规范:汇总图片裁切、视频冻结、音轨对齐等已知 Bug 解决方案,请查阅 技术排坑手册

附录 C:项目归档规范结构

模式 A(纯图片叙事视频):

/YYYYMMDD/
  ├── index.html          (核心时间轴,Stage 3/4 产物)
  ├── assets/
  │   ├── scene_cover.png (封面图,纯文字海报)
  │   ├── scene1.png ~ sceneN.png
  │   ├── scene_end.png   (结尾图,纯文字海报)
  │   ├── narration.wav   (TTS 配音)
  │   ├── bgm.mp3         (背景配乐,Stage 1.7 产物)
  │   └── transcript.json (Whisper 时间戳,Stage 2.2 产物)
  ├── 视频脚本.md          (剧本,Stage 1.2 产物)
  └── promo_video.mp4     (最终成品,Stage 4.3 产物,Git 豁免名单)

模式 B(视频 B-roll + 文字叠加):

/YYYYMMDD_{project_name}/
  ├── index.html               (核心时间轴,竖屏 1080×1920)
  ├── style.css                (独立样式表,文字叠加组件库)
  ├── download_and_process.py   (B-roll 自动化下载/裁剪脚本)
  ├── assets/
  │   ├── scene1.mp4 ~ sceneN.mp4  (裁剪后的 B-roll 视频,1080×1920,无音轨)
  │   ├── narration.wav            (TTS 配音)
  │   └── bgm.mp3                  (背景音乐)
  ├── 视频脚本.md                   (剧本 + B-roll 素材规划表)
  └── renders/
      └── {project}_YYYY-MM-DD_HH-MM-SS.mp4  (渲染成品)
How to Use
  1. Make sure OpenClaw is installed (local or Docker)
  2. Run the install command in chat: /install ai-video-studio
  3. After installation, invoke the skill by name or use /ai-video-studio
  4. Provide required inputs per the skill's parameter spec and get structured output
Version History
v1.0.1
Elevate repository visual docs with Mermaid SOP diagrams and project health templates
v1.0.0
Initial industrial video production pipeline SOP
Metadata
Slug ai-video-studio
Version 1.0.1
License MIT-0
All-time Installs 0
Active Installs 0
Total Versions 2
Frequently Asked Questions

What is FableForge AI Video Studio?

FableForge 通用视频生成流水线 SOP。支持两种生产模式(图片流、视频 B-roll 流)和三种体裁(叙事寓言、商业分析、产品宣发)。包含从概念生成、剧本创作、TTS 配音、素材采集、到 HyperFrames 视频渲染的完整工业化 SOP,以及视觉风格指南与技术陷阱手册。 It is an AI Agent Skill for Claude Code / OpenClaw, with 153 downloads so far.

How do I install FableForge AI Video Studio?

Run "/install ai-video-studio" in the OpenClaw or Claude Code chat to install it in one step — no extra setup required.

Is FableForge AI Video Studio free?

Yes, FableForge AI Video Studio is completely free, licensed under MIT-0. You can download, install and use it at no cost.

Which platforms does FableForge AI Video Studio support?

FableForge AI Video Studio is cross-platform and runs anywhere OpenClaw / Claude Code is available (cross-platform).

Who created FableForge AI Video Studio?

It is built and maintained by Lucas-Kay8 (@lucas-kay8); the current version is v1.0.1.

💬 Comments