如果剪輯影片變得如此簡單——只要用白話英文告訴 AI 你想要的效果,然後看著它自動完成,會是什麼感覺?
不需要在時間軸上拖曳片段。不需要在選單中搜尋調色濾鏡。不需要手動掃描好幾個小時的素材來找空白片段。只需要與一個理解影片——剪輯、色彩、音訊、字幕等一切——的程式碼代理對話。
這就是 Video Use 的承諾,一個開源專案(目前在 GitHub 上約有 4,200 顆星),將 browser-use 生態系統延伸到影片剪輯領域。與其讓 AI 代理控制網頁瀏覽器,Video Use 讓 AI 代理控制 FFmpeg、字幕渲染器、動畫生成器和調色管線——全部由 Claude Code、OpenAI Codex、Hermes 或 OpenClaw 等代理的自然語言提示驅動。
重點摘要:Video Use 是一款開源工具,讓程式碼代理能夠透過自然語言指令來剪輯影片。它能處理 filler 詞移除、調色、字幕、動畫和音訊淡入淡出——同時 token 效率遠高於傳統影片處理方法。
Video Use 如何讓 LLM 在不觀看影片的情況下進行剪輯?
AI 驅動影片剪輯的最大障礙顯而易見:大型語言模型無法觀看影片。它們無法看到人類剪輯師在時間軸上看到的內容。這不是一個小問題——這正是 Video Use 要解決的核心問題。
大多數基於 LLM 的影片剪輯方法會嘗試將原始影片幀逐幀發送給模型。一部標準的 10 分鐘 1080p 30fps 影片約包含 18,000 幀。保守估計,透過目前的 LLM tokenizer 處理這些幀會消耗約 4500 萬個 token——而且這還是在應用任何實際剪輯邏輯之前。光是成本就讓這種方法不切實際。
Video Use 採取了一種根本不同的方法,基於分層表示,這也是該專案的核心創新:
LLM 從不觀看影片。它讀取影片。
第 1 層:透過 ElevenLabs Scribe 取得音訊轉錄稿
第一層是一個密集但精簡的音訊轉錄稿。Video Use 將音訊軌道發送至 ElevenLabs Scribe,後者回傳完整的逐字轉錄稿,並附帶精確的時間戳記。每個單詞都被記錄——像「umm」、「uh」、「like」和「you know」這樣的 filler 詞與內容詞一起被標記,每個都對應到它被說出的確切時刻。
輸出被寫入名為 takes_packed.md 的檔案。一部標準 10 分鐘影片的轉錄稿大約只有 12KB——僅佔編輯元資料總量的一小部分。
為什麼這很重要:LLM 現在可以讀取影片中的每個單詞,確切知道它何時被說出,檢測模式(filler 詞密度、節奏、尷尬的停頓),並基於文字——它最擅長的媒介——做出剪輯決策。
第 2 層:透過時間軸視圖取得視覺合成
僅有轉錄稿是不夠的。LLM 還需要看到影片在關鍵時刻的樣子。但將 10 分鐘影片的全部 18,000 幀都發送過去是不可行的。
相反地,Video Use 僅在決策點生成視覺合成——一個 PNG 底片條圖像。這些是可能需要剪輯、轉場或視覺處理的時刻。LLM 不需要看 18,000 幀,而只需看大約 20 到 50 張合成的 PNG。
結果如何?LLM 擁有所需的一切來做出明智的編輯決策:
- 從轉錄稿:精確的逐字時間、停頓檢測、filler 詞位置
- 從合成圖:每個剪輯邊界的視覺上下文
效率比值
| 方法 | 資料量 | LLM 是否可行? |
|---|---|---|
| 原始影片幀 | ~4500 萬 token | 否——成本過高 |
| 僅 ElevenLabs 轉錄稿 | ~12KB 文字 | 部分——缺乏視覺上下文 |
| 轉錄稿 + 視覺合成 | ~12KB 文字 + 少量 PNG | 是——最理想點 |
Video Use 支援哪些剪輯功能?
有了轉錄稿和視覺合成,程式碼代理可以透過 FFmpeg 和配套工具協調廣泛的剪輯操作。以下是 Video Use 目前搭載的功能。
自動去除 Filler 詞和空白片段
這是為內容創作者帶來最直接價值的功能。LLM 讀取轉錄稿,識別每個 filler 語言實例(「umm」、「uh」、「like」、「you know」以及類似的猶豫標記),並從剪輯中精準移除。同時,空白片段——超過可設定閾值的停頓——會被自動修剪。
結果是原始錄製內容的精簡、更有衝擊力的版本,沒有尷尬的沉默,也沒有讓非腳本內容聽起來不精練的口頭禪。LLM 在每個剪輯邊界應用 30ms 音訊淡入淡出,確保音訊在編輯點不會有爆音或雜音。
自動調色
Video Use 內建預設的調色管線,可應用於整個影片或特定片段:
- 溫暖電影感:提升暖色調、添加微妙的青橙分色、應用柔和的膠片曲線
- 中性強化:增加對比度和鮮豔度,不引入色偏——適合不應看起來風格化的 talking-head 內容
- 自訂 FFmpeg 鏈:進階使用者可以定義任意的 ffmpeg
-vf濾鏡鏈,並從代理提示中按名稱引用
LLM 根據從轉錄稿和視覺合成中讀取的內容選擇調色方案。戲劇性的獨白可能使用溫暖電影感;產品展示可能使用中性強化。
燒錄字幕
Video Use 生成字幕軌道並直接燒錄到影片輸出中。字幕樣式完全可設定:
- 字體系列和大小
- 螢幕位置(底部中央、左上角等)
- 背景框不透明度和顏色
- 文字顏色和筆畫寬度
由於 LLM 擁有來自 ElevenLabs 轉錄稿的逐字時間戳記,字幕與口語音訊完美同步——無需手動對齊。
動畫疊加
對於想要增加視覺質感的創作者,Video Use 支援由三種不同渲染器生成的動畫疊加:
| 引擎 | 最適合 | 輸出 |
|---|---|---|
| Manim | 數學動畫、黑板風格 | 高品質程式化動態圖形 |
| Remotion | 複雜合成場景 | React 影片元件渲染為幀 |
| PIL | 簡單疊加圖形 | 靜態圖像疊加和下三分之一 |
LLM 撰寫動畫腳本(Manim 或 PIL 用 Python,Remotion 用 React),渲染,然後合成到影片軌道上。
自我評估:Video Use 如何檢查自己的作品
Video Use 中最有趣的設計選擇之一是自我評估循環。代理應用編輯後——剪輯、調色、字幕燒錄——系統不會簡單地假設成功。它會在每個剪輯邊界渲染輸出並進行評估。
評估檢查:
- 音訊連續性:剪輯點是否有爆音或雜音?(30ms 淡入淡出是第一道防線,但評估會確認。)
- 視覺一致性:調色過渡是否流暢?是否有閃幀或掉幀?
- 字幕同步:剪輯後字幕是否仍然對齊?filler 詞移除是否使音訊相對於畫面偏移?
如果評估檢測到問題,代理會循環返回並修正。這使剪輯過程成為迭代修正,而非一次性「生成然後希望它正常」。
透過 project.md 實現會話記憶
Video Use 將所有編輯決策和上下文持久化儲存在與影片專案同目錄的 project.md 檔案中。這個檔案充當會話記憶——程式碼代理可以在多次會話或對話之間引用它以保持連續性。
project.md 檔案包含:
- 原始檔案路徑和編碼設定
- 所做的每次剪輯及其時間戳記
- 應用於每個片段的調色決策
- 字幕樣式設定
- 已移除的 filler 詞列表(可按專案自訂)
- 自我評估循環的備註
這表示您可以先用 Claude Code 開始剪輯、暫停,第二天用 Codex 繼續,新的代理將確切知道已完成哪些工作以及還有哪些待辦。
Video Use 快速入門
對於熟悉 Python 和 FFmpeg 的人來說,設定非常簡單:
# 克隆儲存庫
git clone https://github.com/browser-use/video-use
# 建立虛擬環境並安裝依賴
uv sync
# 或:pip install -r requirements.txt
# 安裝 FFmpeg(如果尚未安裝)
brew install ffmpeg
您還需要存取 LLM 提供者——Claude Code、OpenAI Codex、Hermes 或 OpenClaw——以及用於 Scribe 轉錄層的 ElevenLabs API 金鑰。
環境設定完成後,工作流程如下:
- 將原始影片檔案放入專案目錄
- 告訴代理:「剪輯這部影片——移除 filler 詞、套用溫暖電影感調色、加入字幕」
- 代理轉錄音訊、生成視覺合成、開始剪輯
- 檢查輸出並提供後續指示
常見問題
什麼是 Video Use?
Video Use 是一款開源影片剪輯工具,讓您可以透過與 Claude Code、Codex 或 OpenClaw 等程式碼代理對話來剪輯影片,無需使用傳統的時間軸編輯器。
Video Use 如何理解影片內容?
LLM 從不觀看影片——它透過 ElevenLabs Scribe 讀取音訊轉錄稿以取得逐字時間戳記,並僅在決策點生成視覺合成 PNG。
Video Use 支援哪些剪輯功能?
它支援自動去除 filler 詞與空白片段、自動調色、30ms 音訊淡入淡出、可自訂字幕,以及透過 Manim、Remotion 或 PIL 實現的動畫疊加。
Video Use 的 token 效率如何?
與處理原始影片幀需要 4500 萬個 token 不同,Video Use 僅需約 12KB 的文字轉錄稿加上少量 PNG 圖片,大幅節省 token。
Video Use 可以免費使用嗎?
是的,Video Use 是開源且免費的。需求包括 FFmpeg 以及搭配 uv 或 pip 的 Python 環境。
延伸閱讀
- Video Use GitHub 儲存庫 —— 原始碼、文件和社群問題
- browser-use —— 啟發影片剪輯擴充功能的瀏覽器自動化框架
- ElevenLabs Scribe —— 用於音訊轉錄的語音轉文字 API
- Manim —— 用於程式化動態圖形的數學動畫引擎
- Remotion —— 用 React 編寫影片並進行程式化合成
