### [2.3k Star 的开源 AI 短剧工具来了：从写剧本到出成片，一套流程全包](https://www.jiyueip.com/article/5373)

**Published:** 2026-04-12T02:52:02

**Author:** 斑斓

**Excerpt:** 不少人想用 AI 做短剧，真正上手之后才发现，最麻烦的根本不是“不会用”，而是流程太散、结果还不稳定。 比如剧本刚写好，开始生成画面，第一张里女主还是瓜子脸，下一张就变了样；人物好不容易统一了，场景一切换，光线、色调、整体风格又像换了个项目

不少人想用 AI 做短剧，真正上手之后才发现，最麻烦的根本不是“不会用”，而是流程太散、结果还不稳定。

比如剧本刚写好，开始生成画面，第一张里女主还是瓜子脸，下一张就变了样；人物好不容易统一了，场景一切换，光线、色调、整体风格又像换了个项目。生图要一个工具，出视频要一个工具，后期剪辑还得再换一套，来回折腾不说，每次导入导出都像碰运气。

说到底，这不是创作者能力的问题，而是现有工具链本身就没打通。

最近我注意到 GitHub 上一个还在持续更新的开源项目：**Jellyfish（水母）**，作者是 **Forget-C**。这个项目做的事情其实很直接，就是把 AI 短剧从剧本、画面生成，到视频制作、最后成片，尽量放进同一套工作流里。更关键的是，它没有回避最棘手的部分，而是把“一致性”当成核心问题来处理。

项目采用 **Apache-2.0** 协议，代码全部开放。

**那它到底解决的是什么？**

如果你做过 AI 视频内容，大概率会发现，行业里真正卡住大家的，往往不是“画得够不够好”，而是“前后能不能对得上”。传统影视之所以能长期稳定输出，是因为背后有一整套成熟的制作体系：剧本、分镜、角色设定、场景资料、道具管理……这些东西共同保证了第一集和第二十集里的主角还是同一个人，咖啡馆也不会拍着拍着突然变了装修风格。

但 AI 生成不一样。每次调用模型，本质上都带着随机性。人物会漂，场景会漂，风格也会漂，这几乎是现在所有 AI 内容创作都会遇到的共性问题。除非你有一套明确的机制去约束它，否则结果很难真正稳定下来。

而 Jellyfish 的思路，就是把这种“约束能力”做成产品机制。它主要通过三层控制来尽量保证内容稳定：**全局种子、统一风格提示词，以及可重复调用的资产库**。简单理解，就是尽可能把角色、场景和整体风格都固定住，减少每次生成时出现的大幅偏移，让 AI 短剧从“能做出来”往“能持续做下去”更进一步。

![](https://img.jiyueip.com/wp-content/uploads/2026/04/20260412105113726.png "20260412105113730")

项目概览界面，展示主工作台三栏式布局

从功能上看，Jellyfish 基本把“从剧本到成片”的整条链路都串了起来，整个流程大致可以分成几个环节。

先是剧本处理。把文学剧本放进去之后，系统会先帮你做分镜拆解，自动给出分镜建议，同时也支持你手动删改、补充和二次调整。它并不是那种把长文本机械切成几段的简单处理方式，而是基于一套可配置的 Agent 工作流来完成的，有点像 Dify 那种节点编排逻辑。也就是说，你可以自己决定这套流程怎么跑，比如先提取剧情信息，再识别角色关系，最后生成分镜方案，整个过程都有调整空间。

接下来是资产管理。角色、场景、道具、服装这些内容，都可以统一放进资产库里管理。系统既支持自动识别提取，也支持手动补录，灵活度比较高。更实用的一点是，它做了双层资产体系：一层是当前项目自己的专属资产库，另一层是可跨项目调用的全局资产库。这样一来，像一些会反复出现的角色或固定场景，就不用每做一部都从头重新设定，直接复用就行，能省下不少重复劳动。

![](https://img.jiyueip.com/wp-content/uploads/2026/04/20260412105127981.png "20260412105127980")

资产管理界面，集中管理角色、场景、道具、服装

### **第三步：进入分镜编辑器，把每个镜头细化到能直接开拍**

真正体现这套工具价值的，其实是在分镜编辑这一步。

Jellyfish 用的是很直观的三栏式界面：左边是分镜列表，中间是预览区，右边是属性面板。整个逻辑比较接近实际制作流程，改起来不会乱。

每一个分镜都能单独调参数。像景别、拍摄角度、运镜方式、情绪氛围、光效表现、对白内容、配乐和音效提示，基本都能在这里细调。更细的一点是，它连首帧和尾帧都支持分别写提示词，这对镜头衔接和画面控制很有用。

它还做了多版本管理。同一个分镜可以一次生成多个版本，放在一起横向比较，选出最合适的那个，不用反复重跑同一条指令，效率会高很多。

另外一个比较实用的功能，是参考图可以跨分镜复用。比如 A 分镜里某个角色的姿态、构图或者视觉状态，你可以直接拿来给 B 分镜做参考，这对角色连续性和动作延续性帮助很大。

像 ControlNet 的骨骼控制、深度图控制，也是在这个环节里完成。尤其是动作幅度比较大的镜头，用骨骼控制后，稳定性会明显好一些。角色说话时的口型同步也做进去了，Lip-sync 可以直接配合音频一起处理，不用再额外找别的工具补这一环。

### **第四步：素材生成完，直接进剪辑台收口**

素材出来之后，不需要再导出去换软件继续做后期。

Jellyfish 内置了时间线编辑功能，支持多轨视频和音频的拖拽式操作。也就是说，前面生成出来的图片、视频片段、配音和音效，都可以直接在工具内部完成拼接、剪辑和合成，整个流程可以在一个界面里走完，不用再切到 PR 或 Premiere 里继续处理。

最后直接导出竖屏成片，基本就把 AI 短剧从前期到后期的主要链路打通了。

* * *

### 主要模块可以怎么理解？

\[图片\]

* * *

### 模型这一层，它做得比较聪明

这一点我觉得值得单独拿出来说。

Jellyfish 不是某个模型的简单包装壳，它更像是搭了一层模型管理层。文本生成这边，可以接 OpenAI、Claude、通义千问、腾讯混元这些不同供应商；图像生成支持 Midjourney 和 Stable Diffusion 体系；视频生成则兼容 Runway、Kling、Luma 这类主流接口。

而且每一类模型都能单独设默认项，也可以随时切换测试。

这件事的意义其实不小。因为现在 AI 模型变化太快了，今天这个效果好，明天可能又换了另一家更强。如果你的流程是绑死在某一家 API 上，后面切换成本会很高；但如果底层模型可以替换，上层项目流程、角色资产和创作习惯都不需要重来，那这套系统的稳定性就会高很多。

对真正做内容生产的人来说，这种解耦设计，比单纯追某个热门模型更有长期价值。

* * *

### 技术栈也比较完整，能看出它不是随便搭的 Demo

前端部分用的是 **React 18 + TypeScript + Vite** 这套组合，UI 层同时用了 **Ant Design** 和 **Tailwind CSS**，状态管理则是 **Redux Toolkit** 加 **Zustand**。工作流编辑器基于 **React Flow**，视频播放接了 **Video.js**，富文本和代码编辑分别用了 **React Quill** 和 **Monaco Editor**。

后端是 **Python FastAPI**，并且支持 **Docker Compose** 一键启动。整个本地部署把 **MySQL、RustFS（兼容 S3 的对象存储）、后端服务和前端服务** 一起拉起来，属于比较标准的一套工程化方案。

启动方式也不复杂：

```
cp deploy/compose/.env.example deploy/compose/.envdocker compose --env-file deploy/compose/.env -f deploy/compose/docker-compose.yml up --build
```

```
默认情况下，前端跑在 localhost:7788，后端是 localhost:8000，接口文档可以直接看 /docs。
```

如果走开发模式，也支持前后端分离启动：后端用 uv 管依赖，前端直接 pnpm dev 就能跑。

* * *

### 项目现在做到哪一步了？

从目前公开的信息看，这个项目还在持续开发中，不是那种拿了 star 之后就基本不动的展示型仓库。

按照 README 里的 Roadmap，模型管理、项目管理、章节拍摄工作台这些基础骨架已经搭起来了，多供应商模型接入、全局风格配置、统一种子这类关键能力也已经到位。接下来还在继续完善的，主要是章节工作台里更完整的分镜编辑、视频生成和预览闭环，以及更高级的提示词模板能力，比如分镜、角色、场景这些内容的智能填充。

官方也明确提到，核心数据模型目前还没有完全稳定。换句话说，它还不是一个已经彻底打磨完毕的成熟产品，但至少方向是明确的，底层架子也已经搭起来了。现在 Docker 本地部署已经能跑，想提前上手体验的，可以直接 clone 下来试。

* * *

### 这项目更适合哪些人？

我觉得下面几类人会比较容易对它感兴趣。

第一类，是已经在做 AI 短剧、微短剧，或者剧情类短视频的人。尤其是那些已经被人物不统一、场景来回漂、风格经常跑偏折腾过的人，会很容易明白这套工具在解决什么问题。

第二类，是想把竖屏内容做成稳定生产流程的团队。对工作室来说，最怕的不是模型效果不够炸，而是流程不可复用。Jellyfish 这种把角色、场景、提示词、生成逻辑都收进一套系统里的方案，更接近“工业化生产”的思路。

第三类，是想低成本试水剧情内容的个人创作者。无论是做自媒体、做教学短视频，还是电商和品牌想尝试剧情化产品宣传，只要你需要的是一套更稳定、更省重复劳动的创作方式，它都能提供一定帮助。

另外，对开发者来说，这个仓库本身也有看点。像 React Flow 做工作流编辑器、FastAPI 接多模型、Docker Compose 管多容器编排，这几块放在一起，其实很适合前端或全栈开发者拿来学习和拆解。

* * *

“水母”这个名字其实挺有意思。

水母看起来像是顺着水流在走，但它本身的形态并不会轻易散掉。某种程度上，这也很像 Jellyfish 想做的事情：底层模型、接口、供应商都在不断变化，但上层的内容生产流程、角色资产和风格控制，最好能尽量稳定下来，不被这些变化牵着跑。

它现在当然还没到完全成熟的阶段，很多细节也还在补，但至少方向是对的，架构思路也比较清楚。对于正在关注 AI 短剧、AI 视频工作流这条线的人来说，这个项目值得先收藏、再持续观察。

```
GitHub：https://github.com/Forget-C/Jellyfish
```

如果你看完之后，想自己把 Jellyfish 部署起来跑一跑，那服务器这一步也可以顺手一起解决。

我这边也放一个常用的雨云优惠通道，首月有 **5 折**优惠，比较适合拿来做项目测试、跑服务或者自己搭一套体验环境。

```
服务器五折采购优惠通道：https://rain.jiyueip.com/
```

**Categories:** 建站教程, 网络技术, 行业洞察

---