OpenMontage 是開源的 agentic 影片生產系統。它在 Claude Code、Cursor、Copilot、Windsurf 或 Codex 之上運作,把一句話的影片需求轉成成片。系統內建 12 條生產管線與 52 個工具,涵蓋研究、腳本、配音、配樂、素材、合成到後製驗證。官方描述其為「全球首個開源 agentic 影片生產系統」。
OpenMontage 是一套開源的影片生產編排系統。它不取代你的 AI Coding Agent,而是在 Claude Code、Cursor、GitHub Copilot、Windsurf 或 Codex 之上,提供結構化的管線、工具與品質閘門。你用自然語言描述要做的影片,Agent 依管線定義呼叫對應工具,產出成片。主要語言為 Python(89.5%),搭配 TypeScript 與 React/Remotion 合成引擎。
系統核心是 12 條生產管線與 52 個生產工具。管線涵蓋解說片、動畫、紀錄片、預告片、Podcast 等類型;工具橫跨影片生成、影像生成、語音合成(TTS)、配樂與後製。每條管線以 YAML 清單定義編排順序,Agent 讀取後依序執行,並以 schemas/ 內的 15 份 JSON Schema 驗證產出。
OpenMontage 也支援以參考影片為基準的規劃。貼上一段 YouTube 或 TikTok 連結,系統會分析其結構作為生產依據;撰寫腳本前可先執行即時網路研究;紀錄片類型可限定只取用 Archive.org、NASA、Wikimedia 等開放素材庫的真實影片。影片生成支援 14 個供應商,涵蓋本機 GPU 與雲端 API。
先確認環境具備 Git、Python 與 Node.js,以及你慣用的 AI Coding Agent(Claude Code、Cursor、Copilot、Windsurf 或 Codex)。取得專案後執行 make setup 完成依賴安裝與初始設定。
若不使用 make,可依序安裝 Python 依賴、Remotion 合成引擎依賴與 piper-tts,並建立 .env:
make demo 可在不需任何 API key 的情況下渲染一段示範影片,用來確認 Remotion 合成引擎與本機工具鏈正常,再接上雲端供應商的金鑰。
OpenMontage 把影片生產拆成可組合的工具與管線。下方卡片列出主要能力分組。實務上你不需要逐一了解 52 個工具——描述你要的影片類型,Agent 會依管線定義挑選並串接對應工具。
| 你想做的影片 | 對應做法 |
|---|---|
| 解說片 / 動畫 | explainers / animations 管線,AI 生成影像搭配 TTS 配音 |
| 紀錄片 | documentaries 管線,可限定只用 Archive.org / NASA / Wikimedia 真實素材 |
| 模仿某支參考影片 | 貼上 YouTube / TikTok 連結,先做 reference analysis 再規劃管線 |
| 預告片 / Podcast | trailers / podcasts 管線 |
| 不確定 / 想先試 | 執行 make demo,零 API key 渲染示範片 |
以下依官方 README 與 repo 目錄結構整理 OpenMontage 的組成。它不是單一工具,而是管線定義、工具集、Schema 驗證與合成引擎的組合;理解這幾個目錄,就能掌握資料如何在系統內流動。
每條生產管線是一份 YAML 編排清單,規定工具的呼叫順序與參數。新增或調整流程不必改程式碼,改清單即可,這也是 12 條管線得以並存的原因。
來源 · repo pipeline_defs/tools/ 收錄影片、音訊、圖形、分析、虛擬人、字幕等工具,由管線依需求呼叫。能力的實際執行都落在這一層。
來源 · repo tools/skills/ 以 Markdown 撰寫管線、創意、核心與 meta 指令,供 AI Coding Agent 讀取、理解流程與意圖,再去驅動工具。
來源 · repo skills/schemas/ 以 JSON Schema 校驗各階段產出,讓 Agent 的輸出維持結構一致,可被下游工具穩定消化,而非自由格式文字。
來源 · repo schemas/最終合成由 remotion-composer 負責,以 React/Remotion 將生成的影像、旁白與配樂組成時間軸影片。這也是 make demo 在無金鑰時仍能渲染的關鍵元件。
來源 · repo remotion-composer/lib/ 提供核心基礎設施與檢查點(checkpoint)系統,讓較長的生產流程可在中途保存進度與接續,降低長流程中斷的成本。
來源 · repo lib/以下示範以自然語言對你的 AI Coding Agent 下指令。OpenMontage 接到需求後,依管線執行研究、腳本、生成、合成與驗證。指令文字取自官方 README 的需求範例。
輸入是一句話,輸出是成片;中間的研究、腳本、生成、合成與驗證都由管線編排。價值不在單一模型,而在把流程結構化:管線以 YAML 定義、產出以 JSON Schema 驗證、合成交給 Remotion,讓「隨手生一支影片」變成可重複、可檢查的工序。
真實素材紀錄片是一個關鍵設計。限定只取用 Archive.org、NASA、Wikimedia 等開放素材庫,讓 素材授權從產製源頭就乾淨,而不是事後補救。
make demo 確認工具鏈,再接雲端供應商。
OpenMontage 的管線與工具都是開放結構。你可以新增管線、調整工具鏈,或接上自己的影片生成供應商,不必重寫核心。
1. 新增或調整管線。在 pipeline_defs/ 複製一份 YAML 清單,改編排順序與呼叫的工具,即可定義新的影片類型。
2. 擴充工具。tools/ 是 Python 工具集;依現有工具的介面新增一個,讓管線可以呼叫你自己的步驟。
3. 串接你慣用的 Agent。OpenMontage 支援 Claude Code、Cursor、Copilot、Windsurf、Codex;在既有環境內驅動,工作流程不必換工具。
4. 校驗你的產出。在 schemas/ 增修 JSON Schema,讓 Agent 的輸出在進入合成前就被結構化檢查。
5. 控管成本。啟用內建的成本估算與預算控制,為雲端供應商設定上限後再批次生產。
① github.com/calesthio/OpenMontage 的 README——安裝、管線與工具總覽、自然語言需求範例。
② pipeline_defs/——12 條管線的 YAML 定義,理解編排邏輯的起點。
③ tools/——48 個 Python 工具,對照能力與實際實作。