AI

Video Use:用代码代理进行开源 AI 视频剪辑

Video Use 是一款开源工具,让您可以通过 Claude Code 等代码代理来剪辑视频,支持自动去除填充词、调色、字幕与动画叠加。

Video Use:用代码代理进行开源 AI 视频剪辑

如果剪辑视频变得如此简单——只要用普通话告诉 AI 你想要的效果,然后看着它自动完成,会是什么感觉?

不需要在时间轴上拖拽片段。不需要在菜单中搜索调色滤镜。不需要手动扫描好几个小时的素材来找空白片段。只需要与一个理解视频——剪辑、色彩、音频、字幕等一切——的代码代理对话。

这就是 Video Use 的承诺,一个开源项目(目前在 GitHub 上约有 4,200 颗星),将 browser-use 生态系统延伸到视频剪辑领域。与其让 AI 代理控制网页浏览器,Video Use 让 AI 代理控制 FFmpeg、字幕渲染器、动画生成器和调色管线——全部由 Claude Code、OpenAI Codex、Hermes 或 OpenClaw 等代理的自然语言提示驱动。

重点摘要:Video Use 是一款开源工具,让代码代理能够通过自然语言指令来剪辑视频。它能处理填充词移除、调色、字幕、动画和音频淡入淡出——同时 token 效率远高于传统视频处理方法。


Video Use 如何让 LLM 在不观看视频的情况下进行剪辑?

AI 驱动视频剪辑的最大障碍显而易见:大型语言模型无法观看视频。它们无法看到人类剪辑师在时间轴上看到的内容。这不是一个小问题——这正是 Video Use 要解决的核心问题。

大多数基于 LLM 的视频剪辑方法会尝试将原始视频帧逐帧发送给模型。一部标准的 10 分钟 1080p 30fps 视频约包含 18,000 帧。保守估计,通过目前的 LLM tokenizer 处理这些帧会消耗约 4500 万个 token——而且这还是在应用任何实际剪辑逻辑之前。光是成本就让这种方法不切实际。

Video Use 采取了一种根本不同的方法,基于分层表示,这也是该项目的核心创新

LLM 从不观看视频。它读取视频。

第 1 层:通过 ElevenLabs Scribe 获取音频转录稿

第一层是一个密集但精简的音频转录稿。Video Use 将音频轨道发送至 ElevenLabs Scribe,后者返回完整的逐词转录稿,并附带精确的时间戳。每个单词都被记录——像"umm"、“uh”、“like"和"you know"这样的填充词与内容词一起被标记,每个都对应到它被说出的确切时刻。

输出被写入名为 takes_packed.md 的文件。一部标准 10 分钟视频的转录稿大约只有 12KB——仅占编辑元数据总量的一小部分。

为什么这很重要:LLM 现在可以读取视频中的每个单词,确切知道它何时被说出,检测模式(填充词密度、节奏、尴尬的停顿),并基于文字——它最擅长的媒介——做出剪辑决策。

第 2 层:通过时间轴视图获取视觉合成

仅有转录稿是不够的。LLM 还需要看到视频在关键时刻的样子。但将 10 分钟视频的全部 18,000 帧都发送过去是不可行的。

相反地,Video Use 仅在决策点生成视觉合成——一个 PNG 胶片条图像。这些是可能需要剪辑、转场或视觉处理的时刻。LLM 不需要看 18,000 帧,而只需看大约 20 到 50 张合成的 PNG。

结果如何?LLM 拥有所需的一切来做出明智的编辑决策:

  • 从转录稿:精确的逐词时间、停顿检测、填充词位置
  • 从合成图:每个剪辑边界的视觉上下文

效率比值

方法数据量LLM 是否可行?
原始视频帧~4500 万 token否——成本过高
仅 ElevenLabs 转录稿~12KB 文字部分——缺乏视觉上下文
转录稿 + 视觉合成~12KB 文字 + 少量 PNG——最理想点

Video Use 支持哪些剪辑功能?

有了转录稿和视觉合成,代码代理可以通过 FFmpeg 和配套工具协调广泛的剪辑操作。以下是 Video Use 目前搭载的功能。

自动去除填充词和空白片段

这是为内容创作者带来最直接价值的功能。LLM 读取转录稿,识别每个填充语言实例(“umm”、“uh”、“like”、“you know"以及类似的犹豫标记),并从剪辑中精准移除。同时,空白片段——超过可设定阈值的停顿——会被自动修剪。

结果是原始录制内容的精简、更有冲击力的版本,没有尴尬的沉默,也没有让非脚本内容听起来不精练的口头禅。LLM 在每个剪辑边界应用 30ms 音频淡入淡出,确保音频在编辑点不会有爆音或杂音。

自动调色

Video Use 内置预设的调色管线,可应用于整个视频或特定片段:

  • 温暖电影感:提升暖色调、添加微妙的青橙分色、应用柔和的胶片曲线
  • 中性强化:增加对比度和鲜艳度,不引入色偏——适合不应看起来风格化的 talking-head 内容
  • 自定义 FFmpeg 链:高级用户可以定义任意的 ffmpeg -vf 滤镜链,并从代理提示中按名称引用

LLM 根据从转录稿和视觉合成中读取的内容选择调色方案。戏剧性的独白可能使用温暖电影感;产品展示可能使用中性强化。

烧录字幕

Video Use 生成字幕轨道并直接烧录到视频输出中。字幕样式完全可设置:

  • 字体系列和大小
  • 屏幕位置(底部中央、左上角等)
  • 背景框不透明度和颜色
  • 文字颜色和笔画宽度

由于 LLM 拥有来自 ElevenLabs 转录稿的逐词时间戳,字幕与口语音频完美同步——无需手动对齐。

动画叠加

对于想要增加视觉质感的创作者,Video Use 支持由三种不同渲染器生成的动画叠加:

引擎最适合输出
Manim数学动画、黑板风格高质量程序化动态图形
Remotion复杂合成场景React 视频组件渲染为帧
PIL简单叠加图形静态图像叠加和下三分之一

LLM 编写动画脚本(Manim 或 PIL 用 Python,Remotion 用 React),渲染,然后合成到视频轨道上。


自我评估:Video Use 如何检查自己的作品

Video Use 中最有趣的设计选择之一是自我评估循环。代理应用编辑后——剪辑、调色、字幕烧录——系统不会简单地假设成功。它会在每个剪辑边界渲染输出并进行评估。

评估检查:

  • 音频连续性:剪辑点是否有爆音或杂音?(30ms 淡入淡出是第一道防线,但评估会确认。)
  • 视觉一致性:调色过渡是否流畅?是否有闪帧或掉帧?
  • 字幕同步:剪辑后字幕是否仍然对齐?填充词移除是否使音频相对于画面偏移?

如果评估检测到问题,代理会循环返回并修正。这使剪辑过程成为迭代修正,而非一次性"生成然后希望它正常”。


通过 project.md 实现会话记忆

Video Use 将所有编辑决策和上下文持久化存储在与视频项目同目录的 project.md 文件中。这个文件充当会话记忆——代码代理可以在多次会话或对话之间引用它以保持连续性。

project.md 文件包含:

  • 原始文件路径和编码设置
  • 所做的每次剪辑及其时间戳
  • 应用于每个片段的调色决策
  • 字幕样式设置
  • 已移除的填充词列表(可按项目自定义)
  • 自我评估循环的备注

这意味着您可以先用 Claude Code 开始剪辑、暂停,第二天用 Codex 继续,新的代理将确切知道已完成哪些工作以及还有哪些待办。


Video Use 快速入门

对于熟悉 Python 和 FFmpeg 的人来说,设置非常简单:

# 克隆存储库
git clone https://github.com/browser-use/video-use

# 创建虚拟环境并安装依赖
uv sync
# 或:pip install -r requirements.txt

# 安装 FFmpeg(如果尚未安装)
brew install ffmpeg

您还需要访问 LLM 提供商——Claude Code、OpenAI Codex、Hermes 或 OpenClaw——以及用于 Scribe 转录层的 ElevenLabs API 密钥。

环境设置完成后,工作流程如下:

  1. 将原始视频文件放入项目目录
  2. 告诉代理:“剪辑这个视频——移除填充词、应用温暖电影感调色、加入字幕”
  3. 代理转录音频、生成视觉合成、开始剪辑
  4. 检查输出并提供后续指示

常见问题

什么是 Video Use?

Video Use 是一款开源视频剪辑工具,让您可以通过与 Claude Code、Codex 或 OpenClaw 等代码代理对话来剪辑视频,无需使用传统的时间轴编辑器。

Video Use 如何理解视频内容?

LLM 从不观看视频——它通过 ElevenLabs Scribe 读取音频转录稿以获取逐词时间戳,并仅在决策点生成视觉合成 PNG。

Video Use 支持哪些剪辑功能?

它支持自动去除填充词与空白片段、自动调色、30ms 音频淡入淡出、可自定义字幕,以及通过 Manim、Remotion 或 PIL 实现的动画叠加。

Video Use 的 token 效率如何?

与处理原始视频帧需要 4500 万个 token 不同,Video Use 仅需约 12KB 的文字转录稿加上少量 PNG 图片,大幅节省 token。

Video Use 可以免费使用吗?

是的,Video Use 是开源且免费的。需求包括 FFmpeg 以及搭配 uv 或 pip 的 Python 环境。


延伸阅读

TAG
CATEGORIES