AI

Video Use:用程式碼代理進行開源 AI 影片剪輯

Video Use 是一款開源工具,讓您可以透過 Claude Code 等程式碼代理來剪輯影片,支援自動去除 filler、調色、字幕與動畫疊加。

Video Use:用程式碼代理進行開源 AI 影片剪輯

如果剪輯影片變得如此簡單——只要用白話英文告訴 AI 你想要的效果,然後看著它自動完成,會是什麼感覺?

不需要在時間軸上拖曳片段。不需要在選單中搜尋調色濾鏡。不需要手動掃描好幾個小時的素材來找空白片段。只需要與一個理解影片——剪輯、色彩、音訊、字幕等一切——的程式碼代理對話。

這就是 Video Use 的承諾,一個開源專案(目前在 GitHub 上約有 4,200 顆星),將 browser-use 生態系統延伸到影片剪輯領域。與其讓 AI 代理控制網頁瀏覽器,Video Use 讓 AI 代理控制 FFmpeg、字幕渲染器、動畫生成器和調色管線——全部由 Claude Code、OpenAI Codex、Hermes 或 OpenClaw 等代理的自然語言提示驅動。

重點摘要:Video Use 是一款開源工具,讓程式碼代理能夠透過自然語言指令來剪輯影片。它能處理 filler 詞移除、調色、字幕、動畫和音訊淡入淡出——同時 token 效率遠高於傳統影片處理方法。


Video Use 如何讓 LLM 在不觀看影片的情況下進行剪輯?

AI 驅動影片剪輯的最大障礙顯而易見:大型語言模型無法觀看影片。它們無法看到人類剪輯師在時間軸上看到的內容。這不是一個小問題——這正是 Video Use 要解決的核心問題。

大多數基於 LLM 的影片剪輯方法會嘗試將原始影片幀逐幀發送給模型。一部標準的 10 分鐘 1080p 30fps 影片約包含 18,000 幀。保守估計,透過目前的 LLM tokenizer 處理這些幀會消耗約 4500 萬個 token——而且這還是在應用任何實際剪輯邏輯之前。光是成本就讓這種方法不切實際。

Video Use 採取了一種根本不同的方法,基於分層表示,這也是該專案的核心創新

LLM 從不觀看影片。它讀取影片。

第 1 層:透過 ElevenLabs Scribe 取得音訊轉錄稿

第一層是一個密集但精簡的音訊轉錄稿。Video Use 將音訊軌道發送至 ElevenLabs Scribe,後者回傳完整的逐字轉錄稿,並附帶精確的時間戳記。每個單詞都被記錄——像「umm」、「uh」、「like」和「you know」這樣的 filler 詞與內容詞一起被標記,每個都對應到它被說出的確切時刻。

輸出被寫入名為 takes_packed.md 的檔案。一部標準 10 分鐘影片的轉錄稿大約只有 12KB——僅佔編輯元資料總量的一小部分。

為什麼這很重要:LLM 現在可以讀取影片中的每個單詞,確切知道它何時被說出,檢測模式(filler 詞密度、節奏、尷尬的停頓),並基於文字——它最擅長的媒介——做出剪輯決策。

第 2 層:透過時間軸視圖取得視覺合成

僅有轉錄稿是不夠的。LLM 還需要看到影片在關鍵時刻的樣子。但將 10 分鐘影片的全部 18,000 幀都發送過去是不可行的。

相反地,Video Use 僅在決策點生成視覺合成——一個 PNG 底片條圖像。這些是可能需要剪輯、轉場或視覺處理的時刻。LLM 不需要看 18,000 幀,而只需看大約 20 到 50 張合成的 PNG。

結果如何?LLM 擁有所需的一切來做出明智的編輯決策:

  • 從轉錄稿:精確的逐字時間、停頓檢測、filler 詞位置
  • 從合成圖:每個剪輯邊界的視覺上下文

效率比值

方法資料量LLM 是否可行?
原始影片幀~4500 萬 token否——成本過高
僅 ElevenLabs 轉錄稿~12KB 文字部分——缺乏視覺上下文
轉錄稿 + 視覺合成~12KB 文字 + 少量 PNG——最理想點

Video Use 支援哪些剪輯功能?

有了轉錄稿和視覺合成,程式碼代理可以透過 FFmpeg 和配套工具協調廣泛的剪輯操作。以下是 Video Use 目前搭載的功能。

自動去除 Filler 詞和空白片段

這是為內容創作者帶來最直接價值的功能。LLM 讀取轉錄稿,識別每個 filler 語言實例(「umm」、「uh」、「like」、「you know」以及類似的猶豫標記),並從剪輯中精準移除。同時,空白片段——超過可設定閾值的停頓——會被自動修剪。

結果是原始錄製內容的精簡、更有衝擊力的版本,沒有尷尬的沉默,也沒有讓非腳本內容聽起來不精練的口頭禪。LLM 在每個剪輯邊界應用 30ms 音訊淡入淡出,確保音訊在編輯點不會有爆音或雜音。

自動調色

Video Use 內建預設的調色管線,可應用於整個影片或特定片段:

  • 溫暖電影感:提升暖色調、添加微妙的青橙分色、應用柔和的膠片曲線
  • 中性強化:增加對比度和鮮豔度,不引入色偏——適合不應看起來風格化的 talking-head 內容
  • 自訂 FFmpeg 鏈:進階使用者可以定義任意的 ffmpeg -vf 濾鏡鏈,並從代理提示中按名稱引用

LLM 根據從轉錄稿和視覺合成中讀取的內容選擇調色方案。戲劇性的獨白可能使用溫暖電影感;產品展示可能使用中性強化。

燒錄字幕

Video Use 生成字幕軌道並直接燒錄到影片輸出中。字幕樣式完全可設定:

  • 字體系列和大小
  • 螢幕位置(底部中央、左上角等)
  • 背景框不透明度和顏色
  • 文字顏色和筆畫寬度

由於 LLM 擁有來自 ElevenLabs 轉錄稿的逐字時間戳記,字幕與口語音訊完美同步——無需手動對齊。

動畫疊加

對於想要增加視覺質感的創作者,Video Use 支援由三種不同渲染器生成的動畫疊加:

引擎最適合輸出
Manim數學動畫、黑板風格高品質程式化動態圖形
Remotion複雜合成場景React 影片元件渲染為幀
PIL簡單疊加圖形靜態圖像疊加和下三分之一

LLM 撰寫動畫腳本(Manim 或 PIL 用 Python,Remotion 用 React),渲染,然後合成到影片軌道上。


自我評估:Video Use 如何檢查自己的作品

Video Use 中最有趣的設計選擇之一是自我評估循環。代理應用編輯後——剪輯、調色、字幕燒錄——系統不會簡單地假設成功。它會在每個剪輯邊界渲染輸出並進行評估。

評估檢查:

  • 音訊連續性:剪輯點是否有爆音或雜音?(30ms 淡入淡出是第一道防線,但評估會確認。)
  • 視覺一致性:調色過渡是否流暢?是否有閃幀或掉幀?
  • 字幕同步:剪輯後字幕是否仍然對齊?filler 詞移除是否使音訊相對於畫面偏移?

如果評估檢測到問題,代理會循環返回並修正。這使剪輯過程成為迭代修正,而非一次性「生成然後希望它正常」。


透過 project.md 實現會話記憶

Video Use 將所有編輯決策和上下文持久化儲存在與影片專案同目錄的 project.md 檔案中。這個檔案充當會話記憶——程式碼代理可以在多次會話或對話之間引用它以保持連續性。

project.md 檔案包含:

  • 原始檔案路徑和編碼設定
  • 所做的每次剪輯及其時間戳記
  • 應用於每個片段的調色決策
  • 字幕樣式設定
  • 已移除的 filler 詞列表(可按專案自訂)
  • 自我評估循環的備註

這表示您可以先用 Claude Code 開始剪輯、暫停,第二天用 Codex 繼續,新的代理將確切知道已完成哪些工作以及還有哪些待辦。


Video Use 快速入門

對於熟悉 Python 和 FFmpeg 的人來說,設定非常簡單:

# 克隆儲存庫
git clone https://github.com/browser-use/video-use

# 建立虛擬環境並安裝依賴
uv sync
# 或:pip install -r requirements.txt

# 安裝 FFmpeg(如果尚未安裝)
brew install ffmpeg

您還需要存取 LLM 提供者——Claude Code、OpenAI Codex、Hermes 或 OpenClaw——以及用於 Scribe 轉錄層的 ElevenLabs API 金鑰。

環境設定完成後,工作流程如下:

  1. 將原始影片檔案放入專案目錄
  2. 告訴代理:「剪輯這部影片——移除 filler 詞、套用溫暖電影感調色、加入字幕」
  3. 代理轉錄音訊、生成視覺合成、開始剪輯
  4. 檢查輸出並提供後續指示

常見問題

什麼是 Video Use?

Video Use 是一款開源影片剪輯工具,讓您可以透過與 Claude Code、Codex 或 OpenClaw 等程式碼代理對話來剪輯影片,無需使用傳統的時間軸編輯器。

Video Use 如何理解影片內容?

LLM 從不觀看影片——它透過 ElevenLabs Scribe 讀取音訊轉錄稿以取得逐字時間戳記,並僅在決策點生成視覺合成 PNG。

Video Use 支援哪些剪輯功能?

它支援自動去除 filler 詞與空白片段、自動調色、30ms 音訊淡入淡出、可自訂字幕,以及透過 Manim、Remotion 或 PIL 實現的動畫疊加。

Video Use 的 token 效率如何?

與處理原始影片幀需要 4500 萬個 token 不同,Video Use 僅需約 12KB 的文字轉錄稿加上少量 PNG 圖片,大幅節省 token。

Video Use 可以免費使用嗎?

是的,Video Use 是開源且免費的。需求包括 FFmpeg 以及搭配 uv 或 pip 的 Python 環境。


延伸閱讀

TAG