Video Use：用程式碼代理進行開源 AI 影片剪輯

Q: "什麼是 Video Use？"

"Video Use 是一款開源影片剪輯工具，讓您可以透過與 Claude Code、Codex 或 OpenClaw 等程式碼代理對話來剪輯影片，無需使用傳統的時間軸編輯器。"

Q: "Video Use 如何理解影片內容？"

"LLM 從不觀看影片——它透過 ElevenLabs Scribe 讀取音訊轉錄稿以取得逐字時間戳記，並僅在決策點生成視覺合成 PNG。"

Q: "Video Use 支援哪些剪輯功能？"

"它支援自動去除 filler 詞與空白片段、自動調色、30ms 音訊淡入淡出、可自訂字幕，以及透過 Manim、Remotion 或 PIL 實現的動畫疊加。"

Q: "Video Use 的 token 效率如何？"

"與處理原始影片幀需要 4500 萬個 token 不同，Video Use 僅需約 12KB 的文字轉錄稿加上少量 PNG 圖片，大幅節省 token。"

Q: "Video Use 可以免費使用嗎？"

"是的，Video Use 是開源且免費的。需求包括 FFmpeg 以及搭配 uv 或 pip 的 Python 環境。"

Video Use 是一款開源工具，讓您可以透過 Claude Code 等程式碼代理來剪輯影片，支援自動去除 filler、調色、字幕與動畫疊加。

技術編輯團隊 May 01, 2026 閱讀 16 分鐘

如果剪輯影片變得如此簡單——只要用白話英文告訴 AI 你想要的效果，然後看著它自動完成，會是什麼感覺？

不需要在時間軸上拖曳片段。不需要在選單中搜尋調色濾鏡。不需要手動掃描好幾個小時的素材來找空白片段。只需要與一個理解影片——剪輯、色彩、音訊、字幕等一切——的程式碼代理對話。

這就是 Video Use 的承諾，一個開源專案（目前在 GitHub 上約有 4,200 顆星），將 browser-use 生態系統延伸到影片剪輯領域。與其讓 AI 代理控制網頁瀏覽器，Video Use 讓 AI 代理控制 FFmpeg、字幕渲染器、動畫生成器和調色管線——全部由 Claude Code、OpenAI Codex、Hermes 或 OpenClaw 等代理的自然語言提示驅動。

重點摘要：Video Use 是一款開源工具，讓程式碼代理能夠透過自然語言指令來剪輯影片。它能處理 filler 詞移除、調色、字幕、動畫和音訊淡入淡出——同時 token 效率遠高於傳統影片處理方法。

Video Use 如何讓 LLM 在不觀看影片的情況下進行剪輯？

AI 驅動影片剪輯的最大障礙顯而易見：大型語言模型無法觀看影片。它們無法看到人類剪輯師在時間軸上看到的內容。這不是一個小問題——這正是 Video Use 要解決的核心問題。

大多數基於 LLM 的影片剪輯方法會嘗試將原始影片幀逐幀發送給模型。一部標準的 10 分鐘 1080p 30fps 影片約包含 18,000 幀。保守估計，透過目前的 LLM tokenizer 處理這些幀會消耗約 4500 萬個 token——而且這還是在應用任何實際剪輯邏輯之前。光是成本就讓這種方法不切實際。

Video Use 採取了一種根本不同的方法，基於分層表示，這也是該專案的核心創新：

LLM 從不觀看影片。它讀取影片。

第 1 層：透過 ElevenLabs Scribe 取得音訊轉錄稿

第一層是一個密集但精簡的音訊轉錄稿。Video Use 將音訊軌道發送至 ElevenLabs Scribe，後者回傳完整的逐字轉錄稿，並附帶精確的時間戳記。每個單詞都被記錄——像「umm」、「uh」、「like」和「you know」這樣的 filler 詞與內容詞一起被標記，每個都對應到它被說出的確切時刻。

輸出被寫入名為 takes_packed.md 的檔案。一部標準 10 分鐘影片的轉錄稿大約只有 12KB——僅佔編輯元資料總量的一小部分。

為什麼這很重要：LLM 現在可以讀取影片中的每個單詞，確切知道它何時被說出，檢測模式（filler 詞密度、節奏、尷尬的停頓），並基於文字——它最擅長的媒介——做出剪輯決策。

第 2 層：透過時間軸視圖取得視覺合成

僅有轉錄稿是不夠的。LLM 還需要看到影片在關鍵時刻的樣子。但將 10 分鐘影片的全部 18,000 幀都發送過去是不可行的。

相反地，Video Use 僅在決策點生成視覺合成——一個 PNG 底片條圖像。這些是可能需要剪輯、轉場或視覺處理的時刻。LLM 不需要看 18,000 幀，而只需看大約 20 到 50 張合成的 PNG。

結果如何？LLM 擁有所需的一切來做出明智的編輯決策：

從轉錄稿：精確的逐字時間、停頓檢測、filler 詞位置
從合成圖：每個剪輯邊界的視覺上下文

效率比值

方法	資料量	LLM 是否可行？
原始影片幀	~4500 萬 token	否——成本過高
僅 ElevenLabs 轉錄稿	~12KB 文字	部分——缺乏視覺上下文
轉錄稿 + 視覺合成	~12KB 文字 + 少量 PNG	是——最理想點

Video Use 支援哪些剪輯功能？

有了轉錄稿和視覺合成，程式碼代理可以透過 FFmpeg 和配套工具協調廣泛的剪輯操作。以下是 Video Use 目前搭載的功能。

自動去除 Filler 詞和空白片段

這是為內容創作者帶來最直接價值的功能。LLM 讀取轉錄稿，識別每個 filler 語言實例（「umm」、「uh」、「like」、「you know」以及類似的猶豫標記），並從剪輯中精準移除。同時，空白片段——超過可設定閾值的停頓——會被自動修剪。

結果是原始錄製內容的精簡、更有衝擊力的版本，沒有尷尬的沉默，也沒有讓非腳本內容聽起來不精練的口頭禪。LLM 在每個剪輯邊界應用 30ms 音訊淡入淡出，確保音訊在編輯點不會有爆音或雜音。

自動調色

Video Use 內建預設的調色管線，可應用於整個影片或特定片段：

溫暖電影感：提升暖色調、添加微妙的青橙分色、應用柔和的膠片曲線
中性強化：增加對比度和鮮豔度，不引入色偏——適合不應看起來風格化的 talking-head 內容
自訂 FFmpeg 鏈：進階使用者可以定義任意的 ffmpeg -vf 濾鏡鏈，並從代理提示中按名稱引用

LLM 根據從轉錄稿和視覺合成中讀取的內容選擇調色方案。戲劇性的獨白可能使用溫暖電影感；產品展示可能使用中性強化。

燒錄字幕

Video Use 生成字幕軌道並直接燒錄到影片輸出中。字幕樣式完全可設定：

字體系列和大小
螢幕位置（底部中央、左上角等）
背景框不透明度和顏色
文字顏色和筆畫寬度

由於 LLM 擁有來自 ElevenLabs 轉錄稿的逐字時間戳記，字幕與口語音訊完美同步——無需手動對齊。

動畫疊加

對於想要增加視覺質感的創作者，Video Use 支援由三種不同渲染器生成的動畫疊加：

引擎	最適合	輸出
Manim	數學動畫、黑板風格	高品質程式化動態圖形
Remotion	複雜合成場景	React 影片元件渲染為幀
PIL	簡單疊加圖形	靜態圖像疊加和下三分之一

LLM 撰寫動畫腳本（Manim 或 PIL 用 Python，Remotion 用 React），渲染，然後合成到影片軌道上。

自我評估：Video Use 如何檢查自己的作品

Video Use 中最有趣的設計選擇之一是自我評估循環。代理應用編輯後——剪輯、調色、字幕燒錄——系統不會簡單地假設成功。它會在每個剪輯邊界渲染輸出並進行評估。

評估檢查：

音訊連續性：剪輯點是否有爆音或雜音？（30ms 淡入淡出是第一道防線，但評估會確認。）
視覺一致性：調色過渡是否流暢？是否有閃幀或掉幀？
字幕同步：剪輯後字幕是否仍然對齊？filler 詞移除是否使音訊相對於畫面偏移？

如果評估檢測到問題，代理會循環返回並修正。這使剪輯過程成為迭代修正，而非一次性「生成然後希望它正常」。

透過 project.md 實現會話記憶

Video Use 將所有編輯決策和上下文持久化儲存在與影片專案同目錄的 project.md 檔案中。這個檔案充當會話記憶——程式碼代理可以在多次會話或對話之間引用它以保持連續性。

project.md 檔案包含：

原始檔案路徑和編碼設定
所做的每次剪輯及其時間戳記
應用於每個片段的調色決策
字幕樣式設定
已移除的 filler 詞列表（可按專案自訂）
自我評估循環的備註

這表示您可以先用 Claude Code 開始剪輯、暫停，第二天用 Codex 繼續，新的代理將確切知道已完成哪些工作以及還有哪些待辦。

Video Use 快速入門

對於熟悉 Python 和 FFmpeg 的人來說，設定非常簡單：

# 克隆儲存庫
git clone https://github.com/browser-use/video-use

# 建立虛擬環境並安裝依賴
uv sync
# 或：pip install -r requirements.txt

# 安裝 FFmpeg（如果尚未安裝）
brew install ffmpeg

您還需要存取 LLM 提供者——Claude Code、OpenAI Codex、Hermes 或 OpenClaw——以及用於 Scribe 轉錄層的 ElevenLabs API 金鑰。

環境設定完成後，工作流程如下：

將原始影片檔案放入專案目錄
告訴代理：「剪輯這部影片——移除 filler 詞、套用溫暖電影感調色、加入字幕」
代理轉錄音訊、生成視覺合成、開始剪輯
檢查輸出並提供後續指示

常見問題

什麼是 Video Use？

Video Use 是一款開源影片剪輯工具，讓您可以透過與 Claude Code、Codex 或 OpenClaw 等程式碼代理對話來剪輯影片，無需使用傳統的時間軸編輯器。

Video Use 如何理解影片內容？

LLM 從不觀看影片——它透過 ElevenLabs Scribe 讀取音訊轉錄稿以取得逐字時間戳記，並僅在決策點生成視覺合成 PNG。

Video Use 支援哪些剪輯功能？

它支援自動去除 filler 詞與空白片段、自動調色、30ms 音訊淡入淡出、可自訂字幕，以及透過 Manim、Remotion 或 PIL 實現的動畫疊加。

Video Use 的 token 效率如何？

與處理原始影片幀需要 4500 萬個 token 不同，Video Use 僅需約 12KB 的文字轉錄稿加上少量 PNG 圖片，大幅節省 token。

Video Use 可以免費使用嗎？

是的，Video Use 是開源且免費的。需求包括 FFmpeg 以及搭配 uv 或 pip 的 Python 環境。

Video Use：用程式碼代理進行開源 AI 影片剪輯

Video Use 如何讓 LLM 在不觀看影片的情況下進行剪輯？

第 1 層：透過 ElevenLabs Scribe 取得音訊轉錄稿

第 2 層：透過時間軸視圖取得視覺合成

效率比值

Video Use 支援哪些剪輯功能？

自動去除 Filler 詞和空白片段

自動調色

燒錄字幕

動畫疊加

自我評估：Video Use 如何檢查自己的作品

透過 project.md 實現會話記憶

Video Use 快速入門

常見問題

什麼是 Video Use？

Video Use 如何理解影片內容？

Video Use 支援哪些剪輯功能？

Video Use 的 token 效率如何？

Video Use 可以免費使用嗎？

延伸閱讀

LATEST POST

Easy Dataset：用於合成 LLM 微調資料的開源框架

CopilotKit：用於建構應用內 AI Copilot 的開源前端堆疊

ComfyUI：最強大的開源擴散模型 GUI，採用節點式工作流程

TAG

CATEGORIES