xiaohu-video-translate 是 xiaohuailabs 開源的 AI Coding CLI 技能組。你只下一個指令,它在本機跑完下載、Whisper 轉錄、翻譯、潤稿、字幕燒錄五個階段,輸出中文或中英雙語字幕影片與逐字稿。支援 Claude Code、OpenClaw、Gemini CLI 等多種 AI 工具,全程本機運算、不需付費 API。
xiaohu-video-translate 把「外語影片 → 中文字幕影片」這件事拆成一條全自動流水線,交給你的 AI Coding CLI 執行。它的本體不是 App,而是「腳本 + 指令說明檔」的組合:一組 Python 腳本負責實際處理,搭配寫給 AI 的 SKILL 說明檔。支援的工具包含 Claude Code、OpenClaw、Gemini CLI 等。
你給它一段影片連結或本機檔案,它依序跑完五個階段:下載 → 抽音訊並用 Whisper 轉錄 → 翻譯 → 潤稿 → 字幕燒錄。整段流程在本機完成,使用 mlx-whisper(Apple Silicon)或 faster-whisper(其他平台)做語音辨識,不需要付費 API。Whisper 會自動偵測來源語言,英文、日文、韓文、法文、西班牙文等都能轉成中文。
輸出有兩種字幕模式:純中文,或中英雙語(中文大、英文小,以 ASS 格式排版)。它使用字級時間戳避免字幕與口型脫拍,並對轉錄結果做人工等級的處理——修正辨識錯字、依語意斷行、保留專有名詞的英文原文。字幕燒錄與浮水印在單次編碼中一起完成。也可以只輸出逐字稿,不燒字幕。
需要的外部工具是 yt-dlp(下載)、FFmpeg(音訊與影片處理),以及 Whisper 引擎——Apple Silicon 用 mlx-whisper,其他平台用 faster-whisper。裝好依賴後 clone 本專案,執行 install.sh 把技能放到位。下面是 macOS 的完整步驟。
非 Apple Silicon 平台改用 faster-whisper。Windows 建議走 WSL2;原生 Windows 可用 Git Bash 執行 install.sh 或手動複製技能資料夾,並把燒錄字型由 PingFang SC 改成 Microsoft YaHei。Linux 步驟與 WSL2 相同,字型用 Noto Sans CJK。
~/.claude/skills/xiaohu-video-md/config.json 把 output_dir 設成一個絕對路徑。MLX 模型會在第一次執行時自動下載,約 1.5GB,之後不再重複下載。
專案由三個可組合的技能構成。xiaohu-video-md 是協調者,負責下載、轉錄與整體流程,並輸出 Markdown 逐字稿;xiaohu-subtitle-polish 負責翻譯、修正、斷行與雙語排版;xiaohu-video-download 是獨立的下載器,可單獨用來抓影片、音訊或整個播放清單。下方卡片列出三個模組與它們對應的關鍵能力。
| 平台 | Whisper 引擎 | 燒錄字型 |
|---|---|---|
| macOS(Apple Silicon) | mlx-whisper |
PingFang SC |
| Windows(WSL2,建議) | faster-whisper |
Noto Sans CJK |
| Windows(原生) | faster-whisper |
Microsoft YaHei |
| Linux | faster-whisper |
Noto Sans CJK |
觸發方式是直接用自然語言對 AI CLI 講你要的結果。同一個技能組能依你的描述切換行為:雙語或純中文、燒字幕或只要逐字稿、線上連結或本機檔案。以下技巧全部來自官方說明文件。
直接貼連結並說明需求:「翻譯這個連結成中文字幕影片:https://youtu.be/xxxx」。它會自動跑完下載到燒錄的五個階段,輸出中文字幕影片。
來源 · 官方 README 使用範例在指令裡點明字幕模式,例如「翻譯這個日語影片,要中英雙語字幕」。雙語模式以 ASS 格式排版,中文大、英文小;不指定則輸出純中文。
來源 · 官方 README 使用範例說「把這個影片轉成文字」就只會輸出文字稿,跳過字幕燒錄。適合做筆記、摘要或後續再加工,省下編碼時間。
來源 · 官方 README 使用範例不限線上影片,本機檔案一樣可加字幕:「給我本地這個影片加中文字幕 ~/Movies/talk.mp4」。略過下載階段,直接從轉錄開始。
來源 · 官方 README 使用範例說「用快速模式轉寫」會改用較快但精度較低的模型。適合先看大意、之後再決定要不要用標準模型重跑的情境。
來源 · 官方 README 使用範例遇到 YouTube 403 或 token 錯誤,腳本會自動讀取瀏覽器 cookie;若仍失敗,可加 --proxy http://127.0.0.1:7890 走本機代理。
以下是一段示意情境:你有一支英文技術演講,想要中英雙語字幕版本。你只需要在 AI CLI 裡用自然語言下指令,技能組會依序跑完五個階段。指令與檔案路徑為官方文件記載的實際用法,進度數字為示意。
值得注意的不是「能翻譯」,而是每個階段的工程細節都被做掉了:字級時間戳避免字幕脫拍、潤稿階段修正辨識錯字並依語意斷行、燒錄與浮水印在單次編碼完成。這些是手動用 Whisper + FFmpeg 拼流程時最容易卡住的地方。
因為轉錄與翻譯都在本機跑(mlx-whisper / faster-whisper),處理量大時不會累積 API 費用;模型第一次下載約 1.5GB 之後就常駐本機。
install.sh 前先確認都裝好,否則流水線會在下載或轉錄階段中斷。
mlx-whisper;Windows、Linux 等其他平台用 faster-whisper。裝錯引擎會無法啟動轉錄。
~/.claude/skills/xiaohu-video-md/config.json 把 output_dir 設成絕對路徑,不是相對路徑,否則找不到產出檔案。
--proxy http://127.0.0.1:7890 走本機代理。
python3 ~/.claude/skills/xiaohu-video-md/scripts/douyin_login.py 完成一次登入。
它的本體是腳本加說明檔,因此能依你的工作流程組合與調整。以下是幾個方向。
1. 批次處理整個播放清單。xiaohu-video-download 支援播放清單下載,可先把整個系列抓下來,再逐支跑轉錄與字幕。
2. 只做逐字稿管線。需要文字而非影片時,用「轉成文字」模式輸出 Markdown 逐字稿,接你的筆記、摘要或翻譯後製流程。
3. 跨 AI CLI 使用。除了 Claude Code,專案也能在 OpenClaw、Gemini CLI 等工具上運作。同一組技能,換工具不用換流程。
4. 調整燒錄字型與字幕模式。依輸出語言與平台改字型設定,並在指令中切換純中文或中英雙語,適配不同發佈平台。
① xiaohuailabs/xiaohu-video-translate——專案 README:安裝、使用範例與疑難排解。
② 各平台安裝段落——macOS、Windows(WSL2 / 原生)、Linux 的依賴與字型設定。
③ ~/.claude/skills/xiaohu-video-md/config.json——輸出目錄與模型設定。