如果剪辑视频变得如此简单——只要用普通话告诉 AI 你想要的效果,然后看着它自动完成,会是什么感觉?
不需要在时间轴上拖拽片段。不需要在菜单中搜索调色滤镜。不需要手动扫描好几个小时的素材来找空白片段。只需要与一个理解视频——剪辑、色彩、音频、字幕等一切——的代码代理对话。
这就是 Video Use 的承诺,一个开源项目(目前在 GitHub 上约有 4,200 颗星),将 browser-use 生态系统延伸到视频剪辑领域。与其让 AI 代理控制网页浏览器,Video Use 让 AI 代理控制 FFmpeg、字幕渲染器、动画生成器和调色管线——全部由 Claude Code、OpenAI Codex、Hermes 或 OpenClaw 等代理的自然语言提示驱动。
重点摘要:Video Use 是一款开源工具,让代码代理能够通过自然语言指令来剪辑视频。它能处理填充词移除、调色、字幕、动画和音频淡入淡出——同时 token 效率远高于传统视频处理方法。
Video Use 如何让 LLM 在不观看视频的情况下进行剪辑?
AI 驱动视频剪辑的最大障碍显而易见:大型语言模型无法观看视频。它们无法看到人类剪辑师在时间轴上看到的内容。这不是一个小问题——这正是 Video Use 要解决的核心问题。
大多数基于 LLM 的视频剪辑方法会尝试将原始视频帧逐帧发送给模型。一部标准的 10 分钟 1080p 30fps 视频约包含 18,000 帧。保守估计,通过目前的 LLM tokenizer 处理这些帧会消耗约 4500 万个 token——而且这还是在应用任何实际剪辑逻辑之前。光是成本就让这种方法不切实际。
Video Use 采取了一种根本不同的方法,基于分层表示,这也是该项目的核心创新:
LLM 从不观看视频。它读取视频。
第 1 层:通过 ElevenLabs Scribe 获取音频转录稿
第一层是一个密集但精简的音频转录稿。Video Use 将音频轨道发送至 ElevenLabs Scribe,后者返回完整的逐词转录稿,并附带精确的时间戳。每个单词都被记录——像"umm"、“uh”、“like"和"you know"这样的填充词与内容词一起被标记,每个都对应到它被说出的确切时刻。
输出被写入名为 takes_packed.md 的文件。一部标准 10 分钟视频的转录稿大约只有 12KB——仅占编辑元数据总量的一小部分。
为什么这很重要:LLM 现在可以读取视频中的每个单词,确切知道它何时被说出,检测模式(填充词密度、节奏、尴尬的停顿),并基于文字——它最擅长的媒介——做出剪辑决策。
第 2 层:通过时间轴视图获取视觉合成
仅有转录稿是不够的。LLM 还需要看到视频在关键时刻的样子。但将 10 分钟视频的全部 18,000 帧都发送过去是不可行的。
相反地,Video Use 仅在决策点生成视觉合成——一个 PNG 胶片条图像。这些是可能需要剪辑、转场或视觉处理的时刻。LLM 不需要看 18,000 帧,而只需看大约 20 到 50 张合成的 PNG。
结果如何?LLM 拥有所需的一切来做出明智的编辑决策:
- 从转录稿:精确的逐词时间、停顿检测、填充词位置
- 从合成图:每个剪辑边界的视觉上下文
效率比值
| 方法 | 数据量 | LLM 是否可行? |
|---|---|---|
| 原始视频帧 | ~4500 万 token | 否——成本过高 |
| 仅 ElevenLabs 转录稿 | ~12KB 文字 | 部分——缺乏视觉上下文 |
| 转录稿 + 视觉合成 | ~12KB 文字 + 少量 PNG | 是——最理想点 |
Video Use 支持哪些剪辑功能?
有了转录稿和视觉合成,代码代理可以通过 FFmpeg 和配套工具协调广泛的剪辑操作。以下是 Video Use 目前搭载的功能。
自动去除填充词和空白片段
这是为内容创作者带来最直接价值的功能。LLM 读取转录稿,识别每个填充语言实例(“umm”、“uh”、“like”、“you know"以及类似的犹豫标记),并从剪辑中精准移除。同时,空白片段——超过可设定阈值的停顿——会被自动修剪。
结果是原始录制内容的精简、更有冲击力的版本,没有尴尬的沉默,也没有让非脚本内容听起来不精练的口头禅。LLM 在每个剪辑边界应用 30ms 音频淡入淡出,确保音频在编辑点不会有爆音或杂音。
自动调色
Video Use 内置预设的调色管线,可应用于整个视频或特定片段:
- 温暖电影感:提升暖色调、添加微妙的青橙分色、应用柔和的胶片曲线
- 中性强化:增加对比度和鲜艳度,不引入色偏——适合不应看起来风格化的 talking-head 内容
- 自定义 FFmpeg 链:高级用户可以定义任意的 ffmpeg
-vf滤镜链,并从代理提示中按名称引用
LLM 根据从转录稿和视觉合成中读取的内容选择调色方案。戏剧性的独白可能使用温暖电影感;产品展示可能使用中性强化。
烧录字幕
Video Use 生成字幕轨道并直接烧录到视频输出中。字幕样式完全可设置:
- 字体系列和大小
- 屏幕位置(底部中央、左上角等)
- 背景框不透明度和颜色
- 文字颜色和笔画宽度
由于 LLM 拥有来自 ElevenLabs 转录稿的逐词时间戳,字幕与口语音频完美同步——无需手动对齐。
动画叠加
对于想要增加视觉质感的创作者,Video Use 支持由三种不同渲染器生成的动画叠加:
| 引擎 | 最适合 | 输出 |
|---|---|---|
| Manim | 数学动画、黑板风格 | 高质量程序化动态图形 |
| Remotion | 复杂合成场景 | React 视频组件渲染为帧 |
| PIL | 简单叠加图形 | 静态图像叠加和下三分之一 |
LLM 编写动画脚本(Manim 或 PIL 用 Python,Remotion 用 React),渲染,然后合成到视频轨道上。
自我评估:Video Use 如何检查自己的作品
Video Use 中最有趣的设计选择之一是自我评估循环。代理应用编辑后——剪辑、调色、字幕烧录——系统不会简单地假设成功。它会在每个剪辑边界渲染输出并进行评估。
评估检查:
- 音频连续性:剪辑点是否有爆音或杂音?(30ms 淡入淡出是第一道防线,但评估会确认。)
- 视觉一致性:调色过渡是否流畅?是否有闪帧或掉帧?
- 字幕同步:剪辑后字幕是否仍然对齐?填充词移除是否使音频相对于画面偏移?
如果评估检测到问题,代理会循环返回并修正。这使剪辑过程成为迭代修正,而非一次性"生成然后希望它正常”。
通过 project.md 实现会话记忆
Video Use 将所有编辑决策和上下文持久化存储在与视频项目同目录的 project.md 文件中。这个文件充当会话记忆——代码代理可以在多次会话或对话之间引用它以保持连续性。
project.md 文件包含:
- 原始文件路径和编码设置
- 所做的每次剪辑及其时间戳
- 应用于每个片段的调色决策
- 字幕样式设置
- 已移除的填充词列表(可按项目自定义)
- 自我评估循环的备注
这意味着您可以先用 Claude Code 开始剪辑、暂停,第二天用 Codex 继续,新的代理将确切知道已完成哪些工作以及还有哪些待办。
Video Use 快速入门
对于熟悉 Python 和 FFmpeg 的人来说,设置非常简单:
# 克隆存储库
git clone https://github.com/browser-use/video-use
# 创建虚拟环境并安装依赖
uv sync
# 或:pip install -r requirements.txt
# 安装 FFmpeg(如果尚未安装)
brew install ffmpeg
您还需要访问 LLM 提供商——Claude Code、OpenAI Codex、Hermes 或 OpenClaw——以及用于 Scribe 转录层的 ElevenLabs API 密钥。
环境设置完成后,工作流程如下:
- 将原始视频文件放入项目目录
- 告诉代理:“剪辑这个视频——移除填充词、应用温暖电影感调色、加入字幕”
- 代理转录音频、生成视觉合成、开始剪辑
- 检查输出并提供后续指示
常见问题
什么是 Video Use?
Video Use 是一款开源视频剪辑工具,让您可以通过与 Claude Code、Codex 或 OpenClaw 等代码代理对话来剪辑视频,无需使用传统的时间轴编辑器。
Video Use 如何理解视频内容?
LLM 从不观看视频——它通过 ElevenLabs Scribe 读取音频转录稿以获取逐词时间戳,并仅在决策点生成视觉合成 PNG。
Video Use 支持哪些剪辑功能?
它支持自动去除填充词与空白片段、自动调色、30ms 音频淡入淡出、可自定义字幕,以及通过 Manim、Remotion 或 PIL 实现的动画叠加。
Video Use 的 token 效率如何?
与处理原始视频帧需要 4500 万个 token 不同,Video Use 仅需约 12KB 的文字转录稿加上少量 PNG 图片,大幅节省 token。
Video Use 可以免费使用吗?
是的,Video Use 是开源且免费的。需求包括 FFmpeg 以及搭配 uv 或 pip 的 Python 环境。
延伸阅读
- Video Use GitHub 存储库 —— 源代码、文档和社区问题
- browser-use —— 启发视频剪辑扩展功能的浏览器自动化框架
- ElevenLabs Scribe —— 用于音频转录的语音转文字 API
- Manim —— 用于程序化动态图形的数学动画引擎
- Remotion —— 用 React 编写视频并进行程序化合成
