Video Use：用代码代理进行开源 AI 视频剪辑

Q: "什么是 Video Use？"

"Video Use 是一款开源视频剪辑工具，让您可以通过与 Claude Code、Codex 或 OpenClaw 等代码代理对话来剪辑视频，无需使用传统的时间轴编辑器。"

Q: "Video Use 如何理解视频内容？"

"LLM 从不观看视频——它通过 ElevenLabs Scribe 读取音频转录稿以获取逐词时间戳，并仅在决策点生成视觉合成 PNG。"

Q: "Video Use 支持哪些剪辑功能？"

"它支持自动去除填充词与空白片段、自动调色、30ms 音频淡入淡出、可自定义字幕，以及通过 Manim、Remotion 或 PIL 实现的动画叠加。"

Q: "Video Use 的 token 效率如何？"

"与处理原始视频帧需要 4500 万个 token 不同，Video Use 仅需约 12KB 的文字转录稿加上少量 PNG 图片，大幅节省 token。"

Q: "Video Use 可以免费使用吗？"

"是的，Video Use 是开源且免费的。需求包括 FFmpeg 以及搭配 uv 或 pip 的 Python 环境。"

Video Use 是一款开源工具，让您可以通过 Claude Code 等代码代理来剪辑视频，支持自动去除填充词、调色、字幕与动画叠加。

技术编辑团队 May 01, 2026 阅读 16 分钟

如果剪辑视频变得如此简单——只要用普通话告诉 AI 你想要的效果，然后看着它自动完成，会是什么感觉？

不需要在时间轴上拖拽片段。不需要在菜单中搜索调色滤镜。不需要手动扫描好几个小时的素材来找空白片段。只需要与一个理解视频——剪辑、色彩、音频、字幕等一切——的代码代理对话。

这就是 Video Use 的承诺，一个开源项目（目前在 GitHub 上约有 4,200 颗星），将 browser-use 生态系统延伸到视频剪辑领域。与其让 AI 代理控制网页浏览器，Video Use 让 AI 代理控制 FFmpeg、字幕渲染器、动画生成器和调色管线——全部由 Claude Code、OpenAI Codex、Hermes 或 OpenClaw 等代理的自然语言提示驱动。

重点摘要：Video Use 是一款开源工具，让代码代理能够通过自然语言指令来剪辑视频。它能处理填充词移除、调色、字幕、动画和音频淡入淡出——同时 token 效率远高于传统视频处理方法。

Video Use 如何让 LLM 在不观看视频的情况下进行剪辑？

AI 驱动视频剪辑的最大障碍显而易见：大型语言模型无法观看视频。它们无法看到人类剪辑师在时间轴上看到的内容。这不是一个小问题——这正是 Video Use 要解决的核心问题。

大多数基于 LLM 的视频剪辑方法会尝试将原始视频帧逐帧发送给模型。一部标准的 10 分钟 1080p 30fps 视频约包含 18,000 帧。保守估计，通过目前的 LLM tokenizer 处理这些帧会消耗约 4500 万个 token——而且这还是在应用任何实际剪辑逻辑之前。光是成本就让这种方法不切实际。

Video Use 采取了一种根本不同的方法，基于分层表示，这也是该项目的核心创新：

LLM 从不观看视频。它读取视频。

第 1 层：通过 ElevenLabs Scribe 获取音频转录稿

第一层是一个密集但精简的音频转录稿。Video Use 将音频轨道发送至 ElevenLabs Scribe，后者返回完整的逐词转录稿，并附带精确的时间戳。每个单词都被记录——像"umm"、“uh”、“like"和"you know"这样的填充词与内容词一起被标记，每个都对应到它被说出的确切时刻。

输出被写入名为 takes_packed.md 的文件。一部标准 10 分钟视频的转录稿大约只有 12KB——仅占编辑元数据总量的一小部分。

为什么这很重要：LLM 现在可以读取视频中的每个单词，确切知道它何时被说出，检测模式（填充词密度、节奏、尴尬的停顿），并基于文字——它最擅长的媒介——做出剪辑决策。

第 2 层：通过时间轴视图获取视觉合成

仅有转录稿是不够的。LLM 还需要看到视频在关键时刻的样子。但将 10 分钟视频的全部 18,000 帧都发送过去是不可行的。

相反地，Video Use 仅在决策点生成视觉合成——一个 PNG 胶片条图像。这些是可能需要剪辑、转场或视觉处理的时刻。LLM 不需要看 18,000 帧，而只需看大约 20 到 50 张合成的 PNG。

结果如何？LLM 拥有所需的一切来做出明智的编辑决策：

从转录稿：精确的逐词时间、停顿检测、填充词位置
从合成图：每个剪辑边界的视觉上下文

效率比值

方法	数据量	LLM 是否可行？
原始视频帧	~4500 万 token	否——成本过高
仅 ElevenLabs 转录稿	~12KB 文字	部分——缺乏视觉上下文
转录稿 + 视觉合成	~12KB 文字 + 少量 PNG	是——最理想点

Video Use 支持哪些剪辑功能？

有了转录稿和视觉合成，代码代理可以通过 FFmpeg 和配套工具协调广泛的剪辑操作。以下是 Video Use 目前搭载的功能。

自动去除填充词和空白片段

这是为内容创作者带来最直接价值的功能。LLM 读取转录稿，识别每个填充语言实例（“umm”、“uh”、“like”、“you know"以及类似的犹豫标记），并从剪辑中精准移除。同时，空白片段——超过可设定阈值的停顿——会被自动修剪。

结果是原始录制内容的精简、更有冲击力的版本，没有尴尬的沉默，也没有让非脚本内容听起来不精练的口头禅。LLM 在每个剪辑边界应用 30ms 音频淡入淡出，确保音频在编辑点不会有爆音或杂音。

自动调色

Video Use 内置预设的调色管线，可应用于整个视频或特定片段：

温暖电影感：提升暖色调、添加微妙的青橙分色、应用柔和的胶片曲线
中性强化：增加对比度和鲜艳度，不引入色偏——适合不应看起来风格化的 talking-head 内容
自定义 FFmpeg 链：高级用户可以定义任意的 ffmpeg -vf 滤镜链，并从代理提示中按名称引用

LLM 根据从转录稿和视觉合成中读取的内容选择调色方案。戏剧性的独白可能使用温暖电影感；产品展示可能使用中性强化。

烧录字幕

Video Use 生成字幕轨道并直接烧录到视频输出中。字幕样式完全可设置：

字体系列和大小
屏幕位置（底部中央、左上角等）
背景框不透明度和颜色
文字颜色和笔画宽度

由于 LLM 拥有来自 ElevenLabs 转录稿的逐词时间戳，字幕与口语音频完美同步——无需手动对齐。

动画叠加

对于想要增加视觉质感的创作者，Video Use 支持由三种不同渲染器生成的动画叠加：

引擎	最适合	输出
Manim	数学动画、黑板风格	高质量程序化动态图形
Remotion	复杂合成场景	React 视频组件渲染为帧
PIL	简单叠加图形	静态图像叠加和下三分之一

LLM 编写动画脚本（Manim 或 PIL 用 Python，Remotion 用 React），渲染，然后合成到视频轨道上。

自我评估：Video Use 如何检查自己的作品

Video Use 中最有趣的设计选择之一是自我评估循环。代理应用编辑后——剪辑、调色、字幕烧录——系统不会简单地假设成功。它会在每个剪辑边界渲染输出并进行评估。

评估检查：

音频连续性：剪辑点是否有爆音或杂音？（30ms 淡入淡出是第一道防线，但评估会确认。）
视觉一致性：调色过渡是否流畅？是否有闪帧或掉帧？
字幕同步：剪辑后字幕是否仍然对齐？填充词移除是否使音频相对于画面偏移？

如果评估检测到问题，代理会循环返回并修正。这使剪辑过程成为迭代修正，而非一次性"生成然后希望它正常”。

通过 project.md 实现会话记忆

Video Use 将所有编辑决策和上下文持久化存储在与视频项目同目录的 project.md 文件中。这个文件充当会话记忆——代码代理可以在多次会话或对话之间引用它以保持连续性。

project.md 文件包含：

原始文件路径和编码设置
所做的每次剪辑及其时间戳
应用于每个片段的调色决策
字幕样式设置
已移除的填充词列表（可按项目自定义）
自我评估循环的备注

这意味着您可以先用 Claude Code 开始剪辑、暂停，第二天用 Codex 继续，新的代理将确切知道已完成哪些工作以及还有哪些待办。

Video Use 快速入门

对于熟悉 Python 和 FFmpeg 的人来说，设置非常简单：

# 克隆存储库
git clone https://github.com/browser-use/video-use

# 创建虚拟环境并安装依赖
uv sync
# 或：pip install -r requirements.txt

# 安装 FFmpeg（如果尚未安装）
brew install ffmpeg

您还需要访问 LLM 提供商——Claude Code、OpenAI Codex、Hermes 或 OpenClaw——以及用于 Scribe 转录层的 ElevenLabs API 密钥。

环境设置完成后，工作流程如下：

将原始视频文件放入项目目录
告诉代理：“剪辑这个视频——移除填充词、应用温暖电影感调色、加入字幕”
代理转录音频、生成视觉合成、开始剪辑
检查输出并提供后续指示

常见问题

什么是 Video Use？

Video Use 是一款开源视频剪辑工具，让您可以通过与 Claude Code、Codex 或 OpenClaw 等代码代理对话来剪辑视频，无需使用传统的时间轴编辑器。

Video Use 如何理解视频内容？

LLM 从不观看视频——它通过 ElevenLabs Scribe 读取音频转录稿以获取逐词时间戳，并仅在决策点生成视觉合成 PNG。

Video Use 支持哪些剪辑功能？

它支持自动去除填充词与空白片段、自动调色、30ms 音频淡入淡出、可自定义字幕，以及通过 Manim、Remotion 或 PIL 实现的动画叠加。

Video Use 的 token 效率如何？

与处理原始视频帧需要 4500 万个 token 不同，Video Use 仅需约 12KB 的文字转录稿加上少量 PNG 图片，大幅节省 token。

Video Use 可以免费使用吗？

是的，Video Use 是开源且免费的。需求包括 FFmpeg 以及搭配 uv 或 pip 的 Python 环境。

Video Use：用代码代理进行开源 AI 视频剪辑

Video Use 如何让 LLM 在不观看视频的情况下进行剪辑？

第 1 层：通过 ElevenLabs Scribe 获取音频转录稿

第 2 层：通过时间轴视图获取视觉合成

效率比值

Video Use 支持哪些剪辑功能？

自动去除填充词和空白片段

自动调色

烧录字幕

动画叠加

自我评估：Video Use 如何检查自己的作品

通过 project.md 实现会话记忆

Video Use 快速入门

常见问题

什么是 Video Use？

Video Use 如何理解视频内容？

Video Use 支持哪些剪辑功能？

Video Use 的 token 效率如何？

Video Use 可以免费使用吗？

延伸阅读

LATEST POST

Easy Dataset：用于合成 LLM 微调数据的开源框架

CopilotKit：用于构建应用内 AI Copilot 的开源前端堆栈

ComfyUI：最强大的开源扩散模型 GUI，采用节点式工作流程

TAG

CATEGORIES