實戰手冊 · Field Manual 2026 春季號
github.com/xiaohuailabs/xiaohu-video-translate · 436 ★
第 01 期 · AI 影音 / 字幕工作流

一句話,
把外語影片變成
中文字幕影片。

xiaohu-video-translate 是 xiaohuailabs 開源的 AI Coding CLI 技能組。你只下一個指令,它在本機跑完下載、Whisper 轉錄、翻譯、潤稿、字幕燒錄五個階段,輸出中文或中英雙語字幕影片與逐字稿。支援 Claude Code、OpenClaw、Gemini CLI 等多種 AI 工具,全程本機運算、不需付費 API。

436
GitHub Stars
5
全自動處理階段
3
可組合技能模組
MIT
永久免費授權
01
這到底是什麼

一條本機字幕流水線,
掛在你的 AI CLI 上。

xiaohu-video-translate 把「外語影片 → 中文字幕影片」這件事拆成一條全自動流水線,交給你的 AI Coding CLI 執行。它的本體不是 App,而是「腳本 + 指令說明檔」的組合:一組 Python 腳本負責實際處理,搭配寫給 AI 的 SKILL 說明檔。支援的工具包含 Claude Code、OpenClaw、Gemini CLI 等。

你給它一段影片連結或本機檔案,它依序跑完五個階段:下載 → 抽音訊並用 Whisper 轉錄 → 翻譯 → 潤稿 → 字幕燒錄。整段流程在本機完成,使用 mlx-whisper(Apple Silicon)或 faster-whisper(其他平台)做語音辨識,不需要付費 API。Whisper 會自動偵測來源語言,英文、日文、韓文、法文、西班牙文等都能轉成中文。

輸出有兩種字幕模式:純中文,或中英雙語(中文大、英文小,以 ASS 格式排版)。它使用字級時間戳避免字幕與口型脫拍,並對轉錄結果做人工等級的處理——修正辨識錯字、依語意斷行、保留專有名詞的英文原文。字幕燒錄與浮水印在單次編碼中一起完成。也可以只輸出逐字稿,不燒字幕。

xiaohu-video-translate · 五階段流水線
下載 抽音訊轉錄 翻譯 潤稿 字幕燒錄
你只需要下一個指令,
下載、轉錄、翻譯、潤稿、燒字幕
全部在本機完成。
— xiaohuailabs/xiaohu-video-translate · 專案說明
02
安裝

先裝好三個依賴,
再 clone 跑 install。

需要的外部工具是 yt-dlp(下載)、FFmpeg(音訊與影片處理),以及 Whisper 引擎——Apple Silicon 用 mlx-whisper,其他平台用 faster-whisper。裝好依賴後 clone 本專案,執行 install.sh 把技能放到位。下面是 macOS 的完整步驟。

# 1. 安裝下載與影音處理工具 brew install yt-dlp ffmpeg # 2. 安裝 Whisper(Apple Silicon 用 mlx-whisper) pip3 install --break-system-packages mlx-whisper # 3. clone 並執行安裝腳本 git clone https://github.com/xiaohuailabs/xiaohu-video-translate.git cd xiaohu-video-translate && bash install.sh

Windows / Linux:換 Whisper 引擎與字型

非 Apple Silicon 平台改用 faster-whisper。Windows 建議走 WSL2;原生 Windows 可用 Git Bash 執行 install.sh 或手動複製技能資料夾,並把燒錄字型由 PingFang SC 改成 Microsoft YaHei。Linux 步驟與 WSL2 相同,字型用 Noto Sans CJK。

sudo apt install ffmpeg pip3 install yt-dlp faster-whisper git clone https://github.com/xiaohuailabs/xiaohu-video-translate.git cd xiaohu-video-translate && bash install.sh
設定輸出目錄。~/.claude/skills/xiaohu-video-md/config.jsonoutput_dir 設成一個絕對路徑。MLX 模型會在第一次執行時自動下載,約 1.5GB,之後不再重複下載。
03
三個技能模組

三個技能,
各管一段流水線

專案由三個可組合的技能構成。xiaohu-video-md 是協調者,負責下載、轉錄與整體流程,並輸出 Markdown 逐字稿;xiaohu-subtitle-polish 負責翻譯、修正、斷行與雙語排版;xiaohu-video-download 是獨立的下載器,可單獨用來抓影片、音訊或整個播放清單。下方卡片列出三個模組與它們對應的關鍵能力。

模組 · 01
xiaohu-video-md
流程協調者
主控整條流水線:下載、抽音訊、Whisper 轉錄、協調翻譯與潤稿,並輸出 Markdown 逐字稿。讀取 config.json 的 output_dir。
模組 · 02
xiaohu-subtitle-polish
字幕潤稿
負責翻譯、修正轉錄錯字、依語意斷行,以及中英雙語排版。把機器轉錄的草稿處理成可直接燒錄的字幕。
模組 · 03
xiaohu-video-download
獨立下載器
可單獨使用的下載模組,基於 yt-dlp,支援單支影片、純音訊與整個播放清單。不需要跑完整翻譯流程也能用。
能力 · 04
Whisper 自動辨識
多語言轉錄
Whisper 自動偵測來源語言——英、日、韓、法、西等——再翻成中文。Apple Silicon 走 mlx-whisper,其他平台走 faster-whisper。
能力 · 05
字級時間戳
不脫拍字幕
以字級時間戳對齊口型,避免字幕與說話者脫拍。兩種模式:純中文,或中英雙語(中文大、英文小,ASS 格式)。
能力 · 06
單次編碼燒錄
字幕加浮水印
字幕燒錄與浮水印在單次 FFmpeg 編碼中一起完成。保留專有名詞英文原文,也可只輸出逐字稿不燒字幕。

各平台依賴一覽

平台 Whisper 引擎 燒錄字型
macOS(Apple Silicon) mlx-whisper PingFang SC
Windows(WSL2,建議) faster-whisper Noto Sans CJK
Windows(原生) faster-whisper Microsoft YaHei
Linux faster-whisper Noto Sans CJK
04
實用技巧 · 操作技法

用自然語言
不同任務

觸發方式是直接用自然語言對 AI CLI 講你要的結果。同一個技能組能依你的描述切換行為:雙語或純中文、燒字幕或只要逐字稿、線上連結或本機檔案。以下技巧全部來自官方說明文件。

技巧 01

一句話翻譯線上影片

直接貼連結並說明需求:「翻譯這個連結成中文字幕影片:https://youtu.be/xxxx」。它會自動跑完下載到燒錄的五個階段,輸出中文字幕影片。

來源 · 官方 README 使用範例
技巧 02

指定中英雙語字幕

在指令裡點明字幕模式,例如「翻譯這個日語影片,要中英雙語字幕」。雙語模式以 ASS 格式排版,中文大、英文小;不指定則輸出純中文。

來源 · 官方 README 使用範例
技巧 03

只要逐字稿,不燒字幕

說「把這個影片轉成文字」就只會輸出文字稿,跳過字幕燒錄。適合做筆記、摘要或後續再加工,省下編碼時間。

來源 · 官方 README 使用範例
技巧 04

處理本機檔案

不限線上影片,本機檔案一樣可加字幕:「給我本地這個影片加中文字幕 ~/Movies/talk.mp4」。略過下載階段,直接從轉錄開始。

來源 · 官方 README 使用範例
技巧 05

趕時間用快速模式

說「用快速模式轉寫」會改用較快但精度較低的模型。適合先看大意、之後再決定要不要用標準模型重跑的情境。

來源 · 官方 README 使用範例
技巧 06

YouTube 擋下載時掛代理

遇到 YouTube 403 或 token 錯誤,腳本會自動讀取瀏覽器 cookie;若仍失敗,可加 --proxy http://127.0.0.1:7890 走本機代理。

來源 · 官方 README 疑難排解
05
操作實例

一段 YouTube 影片
到雙語字幕的全程

以下是一段示意情境:你有一支英文技術演講,想要中英雙語字幕版本。你只需要在 AI CLI 裡用自然語言下指令,技能組會依序跑完五個階段。指令與檔案路徑為官方文件記載的實際用法,進度數字為示意。

~/work · claude code · xiaohu-video-translate
You › 翻譯這個影片,要中英雙語字幕: https://youtu.be/xxxxxxxxxxx
[load skill · xiaohu-video-md] [read ~/.claude/skills/xiaohu-video-md/config.json · output_dir ✓]
Claude › 收到。雙語字幕模式,五階段流水線開始。
階段 1/5 · 下載 [yt-dlp] fetching video + audio ... 下載完成 · talk.mp4 (1080p)
階段 2/5 · 抽音訊 + Whisper 轉錄 [ffmpeg] extract audio → talk.wav [mlx-whisper] 偵測語言: English [mlx-whisper] 字級時間戳轉錄中 ... 轉錄完成 · 642 段、word-level timestamps
階段 3/5 · 翻譯(xiaohu-subtitle-polish) 英文 → 中文,保留專有名詞英文原文
階段 4/5 · 潤稿 · 修正轉錄錯字 · 依語意斷行 · 中英雙語排版(ASS · 中文大、英文小)
階段 5/5 · 字幕燒錄 [ffmpeg] 單次編碼 · 字幕 + 浮水印 完成 · talk.zh-bilingual.mp4
[output → /talk.zh-bilingual.mp4] [也輸出逐字稿 → talk.md]
You › 這支 YouTube 擋下載,403 了。
Claude › 先自動讀取瀏覽器 cookie 重試;若仍失敗,加本機代理: --proxy http://127.0.0.1:7890
一個指令,五個階段,
輸出雙語字幕影片與逐字稿。
全程在本機,沒有付費 API。
— xiaohu-video-translate 的核心流程

這段流程的關鍵在哪

值得注意的不是「能翻譯」,而是每個階段的工程細節都被做掉了:字級時間戳避免字幕脫拍、潤稿階段修正辨識錯字並依語意斷行、燒錄與浮水印在單次編碼完成。這些是手動用 Whisper + FFmpeg 拼流程時最容易卡住的地方。

因為轉錄與翻譯都在本機跑(mlx-whisper / faster-whisper),處理量大時不會累積 API 費用;模型第一次下載約 1.5GB 之後就常駐本機。

06
先看清楚這些

上手前,
先知道這些邊界

  • 先裝好外部依賴。yt-dlp、FFmpeg 與 Whisper 引擎是前提,缺一不可。執行 install.sh 前先確認都裝好,否則流水線會在下載或轉錄階段中斷。
  • Whisper 引擎要選對平台。Apple Silicon 用 mlx-whisper;Windows、Linux 等其他平台用 faster-whisper。裝錯引擎會無法啟動轉錄。
  • 首次執行要下載模型。MLX 模型約 1.5GB,在第一次執行時自動下載。先預留頻寬與磁碟空間,別在第一支影片就以為卡住了。
  • 輸出目錄要先設定。~/.claude/skills/xiaohu-video-md/config.jsonoutput_dir 設成絕對路徑,不是相對路徑,否則找不到產出檔案。
  • 中文顯示成方塊是字型問題。燒錄字型需依作業系統設定:macOS PingFang SC、原生 Windows Microsoft YaHei、Linux 與 WSL2 Noto Sans CJK。字型沒裝對,字幕會變成方塊。
  • YouTube 可能擋下載。遇到 403 或 token 錯誤,腳本會自動讀取瀏覽器 cookie;仍失敗時加 --proxy http://127.0.0.1:7890 走本機代理。
  • 抖音首次需要登入。處理抖音影片前,先執行 python3 ~/.claude/skills/xiaohu-video-md/scripts/douyin_login.py 完成一次登入。
  • 快速模式精度較低。「快速模式」換的是速度,辨識精度會下降。需要正式品質時用標準模型重跑。
07
進階路徑

把它接進你的內容流程。

它的本體是腳本加說明檔,因此能依你的工作流程組合與調整。以下是幾個方向。

實用組合

1. 批次處理整個播放清單。xiaohu-video-download 支援播放清單下載,可先把整個系列抓下來,再逐支跑轉錄與字幕。

2. 只做逐字稿管線。需要文字而非影片時,用「轉成文字」模式輸出 Markdown 逐字稿,接你的筆記、摘要或翻譯後製流程。

3. 跨 AI CLI 使用。除了 Claude Code,專案也能在 OpenClaw、Gemini CLI 等工具上運作。同一組技能,換工具不用換流程。

4. 調整燒錄字型與字幕模式。依輸出語言與平台改字型設定,並在指令中切換純中文或中英雙語,適配不同發佈平台。

延伸閱讀

xiaohuailabs/xiaohu-video-translate——專案 README:安裝、使用範例與疑難排解。
各平台安裝段落——macOS、Windows(WSL2 / 原生)、Linux 的依賴與字型設定。
~/.claude/skills/xiaohu-video-md/config.json——輸出目錄與模型設定。

外部依賴裝好、輸出目錄設好,
剩下的交給一句自然語言指令。
— xiaohu-video-translate · 上手要點