Video Use: Edicion de video con IA de codigo abierto mediante agentes de codigo

Q: "Que es Video Use?"

"Video Use es una herramienta de edicion de video de codigo abierto que permite editar videos conversando con agentes de codigo como Claude Code, Codex u OpenClaw en lugar de usar editores de linea de tiempo tradicionales."

Q: "Como entiende Video Use el contenido del video?"

"El LLM nunca ve el video: lee una transcripcion de audio a traves de ElevenLabs Scribe para obtener marcas de tiempo palabra por palabra y genera PNG compuestos visuales solo en los puntos de decision."

Q: "Que funciones de edicion admite Video Use?"

"Admite eliminacion automatica de muletillas y espacios muertos, correccion de color automatica, fundidos de audio de 30ms, subtitulos personalizables y superposiciones animadas mediante Manim, Remotion o PIL."

Q: "Cual es la eficiencia de tokens de Video Use?"

"En lugar de procesar 45 millones de tokens de fotogramas de video sin procesar, Video Use utiliza aproximadamente 12KB de transcripcion de texto mas un punado de imagenes PNG para un ahorro dramatico de tokens."

Q: "Video Use es gratuito?"

"Si, Video Use es de codigo abierto y gratuito. Los requisitos incluyen FFmpeg y un entorno Python con uv o pip."

Video Use es una herramienta de codigo abierto que permite editar videos usando agentes de codigo como Claude Code, con eliminacion automatica de muletillas, correccion de color, subtitulos y superposiciones animadas.

Equipo Editorial May 01, 2026 10 min de lectura

Video Use: Edicion de video con IA de codigo abierto mediante agentes de codigo

Que tal si editar un video fuera tan simple como decirle a una IA lo que quieres, en lenguaje natural, y verlo suceder?

Sin arrastrar clips a lo largo de una linea de tiempo. Sin buscar en menus filtros de correccion de color. Sin revisar manualmente horas de material para encontrar espacios muertos. Solo una conversacion con un agente de codigo que entiende de video: cortes, colores, audio, subtitulos y todo lo demas.

Esa es la promesa de Video Use, un proyecto de codigo abierto (actualmente con aproximadamente 4.200 estrellas en GitHub) que extiende el ecosistema de browser-use al territorio de la edicion de video. En lugar de que un agente de IA controle un navegador web, Video Use hace que un agente de IA controle FFmpeg, quemadores de subtitulos, renderizadores de animaciones y pipelines de correccion de color, todo impulsado por indicaciones en lenguaje natural de agentes como Claude Code, OpenAI Codex, Hermes u OpenClaw.

Resumen: Video Use es una herramienta de codigo abierto que permite a los agentes de codigo editar videos mediante comandos en lenguaje natural. Maneja la eliminacion de muletillas, correccion de color, subtitulos, animaciones y fundidos de audio, todo mientras es dramaticamente mas eficiente en tokens que los enfoques tradicionales de procesamiento de video.

Como permite Video Use que un LLM edite video sin verlo?

El mayor obstaculo para la edicion de video impulsada por IA es obvio: los modelos de lenguaje grandes no pueden ver video. No pueden ver el contenido que un editor humano veria en una linea de tiempo. Esta no es una limitacion menor: es el problema central que Video Use fue construido para resolver.

La mayoria de los enfoques ingenuos para la edicion de video basada en LLM intentarian enviar fotogramas de video sin procesar al modelo, fotograma por fotograma. Un video estandar de 10 minutos en 1080p a 30fps contiene aproximadamente 18.000 fotogramas. En una estimacion conservadora, procesar esos fotogramas a traves de los tokenizadores actuales de LLM consumiria alrededor de 45 millones de tokens – y eso antes de aplicar cualquier logica de edicion real. Solo el costo hace que el enfoque sea poco practico.

Video Use adopta un enfoque fundamentalmente diferente basado en una representacion en capas, y esta es la innovacion central del proyecto:

El LLM nunca ve el video. Lee el video.

Capa 1: Transcripcion de audio mediante ElevenLabs Scribe

La primera capa es una transcripcion de audio densa pero compacta. Video Use envia la pista de audio a ElevenLabs Scribe, que devuelve una transcripcion completa palabra por palabra con marcas de tiempo precisas. Cada palabra se contabiliza – las muletillas como “umm”, “eh”, “este” y “o sea” se identifican junto con las palabras de contenido, cada una vinculada al momento exacto en que se pronuncio.

Esta salida se escribe en un archivo llamado takes_packed.md. La transcripcion de un video tipico de 10 minutos ocupa aproximadamente 12KB – una fraccion del total de metadatos de edicion.

Por que esto importa: el LLM ahora puede leer cada palabra del video, saber exactamente cuando se dijo, detectar patrones (densidad de muletillas, ritmo, pausas incomodas) y tomar decisiones de edicion basadas en texto – el medio que mejor entiende.

Capa 2: Compuesto visual mediante vista de linea de tiempo

La transcripcion por si sola no es suficiente. Un LLM tambien necesita ver como se ve el video en momentos clave. Pero enviar los 18.000 fotogramas de un video de 10 minutos es inviable.

En su lugar, Video Use genera un compuesto visual – una imagen de tira de pelicula PNG – solo en los puntos de decision. Estos son los momentos donde un corte, transicion o tratamiento visual podria ser apropiado. En lugar de 18.000 fotogramas, el LLM ve quizas de 20 a 50 PNG compuestos.

El resultado? El LLM tiene todo lo que necesita para tomar decisiones editoriales informadas:

De la transcripcion: sincronizacion precisa palabra por palabra, deteccion de pausas, ubicacion de muletillas
Del compuesto: contexto visual en cada limite de corte

La proporcion de eficiencia

Enfoque	Volumen de datos	Factible para LLM?
Fotogramas de video sin procesar	~45M tokens	No – costo prohibitivo
Solo transcripcion de ElevenLabs	~12KB texto	Parcial – sin contexto visual
Transcripcion + compuesto visual	~12KB texto + un punado de PNG	Si – el punto optimo

Que funciones de edicion admite Video Use?

Con la transcripcion y el compuesto visual disponibles, el agente de codigo puede orquestar una amplia gama de operaciones de edicion a traves de FFmpeg y herramientas complementarias. Estas son las funciones que actualmente incluye Video Use.

Eliminacion automatica de muletillas y espacios muertos

Esta es la caracteristica que genera el valor mas inmediato para los creadores de contenido. El LLM lee la transcripcion, identifica cada instancia de lenguaje de relleno (“umm”, “eh”, “este”, “o sea” y marcadores de vacilacion similares), y los elimina quirurgicamente de la edicion. Ademas, los espacios muertos – pausas mas largas que un umbral configurable – se recortan automaticamente.

El resultado es una version comprimida y mas impactante de la grabacion original, sin silencios incomodos y sin los tics verbales que hacen que el contenido no guionado suene poco pulido. El LLM aplica fundidos de audio de 30ms en cada limite de corte, para que el audio no produzca chasquidos ni estallidos en los puntos de edicion.

Correccion de color automatica

Video Use incluye pipelines de correccion de color preestablecidos que se pueden aplicar a todo el video o a segmentos especificos:

Cinematografico calido: aumenta la calidez, agrega una sutil division teal-orange y aplica una curva de pelicula suave
Neutro intensificado: aumenta el contraste y la vibracion sin introducir dominancia de color – adecuado para contenido de persona hablando que no debe verse estilizado
Cadenas FFmpeg personalizadas: los usuarios avanzados pueden definir cadenas de filtro -vf de ffmpeg arbitrarias y referenciarlas por nombre desde la indicacion del agente

El LLM selecciona la gradacion segun el contenido que lee de la transcripcion y el compuesto visual. Un monologo dramatico podria recibir el tratamiento Cinematografico calido; una demostracion de producto podria recibir Neutro intensificado.

Subtitulos quemados

Video Use genera pistas de subtitulos y las quema directamente en la salida de video. El estilo de los subtitulos es completamente configurable:

Tipo de letra y tamano
Posicion en pantalla (centro inferior, esquina superior izquierda, etc.)
Opacidad y color del cuadro de fondo
Color del texto y ancho del trazo

Debido a que el LLM tiene marcas de tiempo palabra por palabra de la transcripcion de ElevenLabs, los subtitulos estan perfectamente sincronizados con el audio hablado – no se necesita alineacion manual.

Superposiciones animadas

Para creadores que quieren agregar un acabado visual, Video Use admite superposiciones animadas generadas por tres motores diferentes:

Motor	Mejor para	Salida
Manim	Animaciones matematicas, estilo pizarra	Graficos animados programaticos de alta calidad
Remotion	Escenas compuestas complejas	Componentes de video basados en React renderizados a fotogramas
PIL	Graficos de superposicion simples	Superposiciones de imagenes fijas y tercios inferiores

El LLM escribe el script de animacion (Python para Manim o PIL, React para Remotion), lo renderiza y lo compone sobre la pista de video.

Autoevaluacion: Como verifica Video Use su propio trabajo

Una de las decisiones de diseno mas interesantes en Video Use es el bucle de autoevaluacion. Despues de que el agente aplica una edicion – un corte, una gradacion de color, un quemado de subtitulos – el sistema no asume simplemente el exito. Renderiza la salida en cada limite de corte y la evalua.

La evaluacion verifica:

Continuidad de audio: Hay un chasquido o estallido en el punto de corte? (El fundido de 30ms es la primera defensa, pero la evaluacion lo confirma.)
Consistencia visual: La transicion de gradacion de color es suave? Hay fotogramas flash o fotogramas perdidos?
Sincronizacion de subtitulos: Los subtitulos siguen alineados despues del corte? La eliminacion de muletillas desplazo el audio en relacion con lo visual?

Si la evaluacion detecta un problema, el agente retrocede y lo corrige. Esto hace que el proceso de edicion sea iterativo y correctivo en lugar de un solo pase de “generar y esperar que funcione”.

Memoria de sesion mediante project.md

Video Use persiste todas las decisiones editoriales y el contexto en un archivo project.md que reside junto al proyecto de video. Este archivo actua como memoria de sesion – el agente de codigo puede referenciarlo a traves de multiples sesiones o conversaciones para mantener la continuidad.

El archivo project.md contiene:

Las rutas de archivo originales y configuraciones de codificacion
Cada corte que se hizo, con marcas de tiempo
Decisiones de gradacion de color aplicadas a cada segmento
Configuracion de estilo de subtitulos
Una lista de muletillas que se eliminaron (personalizable por proyecto)
Notas del bucle de autoevaluacion

Esto significa que puede iniciar una edicion con Claude Code, pausar, retomarla con Codex al dia siguiente, y el nuevo agente sabra exactamente lo que se ha hecho y lo que queda.

Primeros pasos con Video Use

La configuracion es sencilla para cualquier persona familiarizada con Python y FFmpeg:

# Clonar el repositorio
git clone https://github.com/browser-use/video-use

# Crear un entorno virtual e instalar dependencias
uv sync
# o: pip install -r requirements.txt

# Instalar FFmpeg (si no esta ya instalado)
brew install ffmpeg

Tambien necesitara acceso a un proveedor de LLM – Claude Code, OpenAI Codex, Hermes u OpenClaw – y una clave API de ElevenLabs para la capa de transcripcion Scribe.

Una vez configurado el entorno, el flujo de trabajo es:

Coloque su archivo de video sin procesar en el directorio del proyecto
Digale al agente: “Edita este video – elimina muletillas, aplica gradacion cinematografica calida, anade subtitulos”
El agente transcribe el audio, genera el compuesto visual y comienza a editar
Revise la salida y proporcione instrucciones de seguimiento

Preguntas frecuentes

Que es Video Use?

Video Use es una herramienta de edicion de video de codigo abierto que permite editar videos conversando con agentes de codigo como Claude Code, Codex u OpenClaw en lugar de usar editores de linea de tiempo tradicionales.

Como entiende Video Use el contenido del video?

El LLM nunca ve el video: lee una transcripcion de audio a traves de ElevenLabs Scribe para obtener marcas de tiempo palabra por palabra y genera PNG compuestos visuales solo en los puntos de decision.

Que funciones de edicion admite Video Use?

Admite eliminacion automatica de muletillas y espacios muertos, correccion de color automatica, fundidos de audio de 30ms, subtitulos personalizables y superposiciones animadas mediante Manim, Remotion o PIL.

Cual es la eficiencia de tokens de Video Use?

En lugar de procesar 45 millones de tokens de fotogramas de video sin procesar, Video Use utiliza aproximadamente 12KB de transcripcion de texto mas un punado de imagenes PNG para un ahorro dramatico de tokens.

Video Use es gratuito?

Si, Video Use es de codigo abierto y gratuito. Los requisitos incluyen FFmpeg y un entorno Python con uv o pip.

Lecturas adicionales

Repositorio de Video Use en GitHub – Codigo fuente, documentacion y problemas de la comunidad
browser-use – El framework de automatizacion de navegadores que inspiro la extension de edicion de video
ElevenLabs Scribe – La API de voz a texto utilizada para la transcripcion de audio
Manim – Motor de animacion matematica para graficos animados programaticos
Remotion – Escribe videos en React con composicion programatica

Video Use: Edicion de video con IA de codigo abierto mediante agentes de codigo

Como permite Video Use que un LLM edite video sin verlo?

Capa 1: Transcripcion de audio mediante ElevenLabs Scribe

Capa 2: Compuesto visual mediante vista de linea de tiempo

La proporcion de eficiencia

Que funciones de edicion admite Video Use?

Eliminacion automatica de muletillas y espacios muertos

Correccion de color automatica

Subtitulos quemados

Superposiciones animadas

Autoevaluacion: Como verifica Video Use su propio trabajo

Memoria de sesion mediante project.md

Primeros pasos con Video Use

Preguntas frecuentes

Que es Video Use?

Como entiende Video Use el contenido del video?

Que funciones de edicion admite Video Use?

Cual es la eficiencia de tokens de Video Use?

Video Use es gratuito?

Lecturas adicionales

LATEST POST

Easy Dataset: Framework de Código Abierto para Sintetizar Datos de Ajuste Fino de LLM

CopilotKit: El Stack Frontend de Código Abierto para Construir Copilotos AI en la Aplicación

ComfyUI: La GUI de Modelos de Difusión de Código Abierto Más Potente con Flujo de Trabajo Basado en Nodos

TAG

CATEGORIES