Que tal si editar un video fuera tan simple como decirle a una IA lo que quieres, en lenguaje natural, y verlo suceder?
Sin arrastrar clips a lo largo de una linea de tiempo. Sin buscar en menus filtros de correccion de color. Sin revisar manualmente horas de material para encontrar espacios muertos. Solo una conversacion con un agente de codigo que entiende de video: cortes, colores, audio, subtitulos y todo lo demas.
Esa es la promesa de Video Use, un proyecto de codigo abierto (actualmente con aproximadamente 4.200 estrellas en GitHub) que extiende el ecosistema de browser-use al territorio de la edicion de video. En lugar de que un agente de IA controle un navegador web, Video Use hace que un agente de IA controle FFmpeg, quemadores de subtitulos, renderizadores de animaciones y pipelines de correccion de color, todo impulsado por indicaciones en lenguaje natural de agentes como Claude Code, OpenAI Codex, Hermes u OpenClaw.
Resumen: Video Use es una herramienta de codigo abierto que permite a los agentes de codigo editar videos mediante comandos en lenguaje natural. Maneja la eliminacion de muletillas, correccion de color, subtitulos, animaciones y fundidos de audio, todo mientras es dramaticamente mas eficiente en tokens que los enfoques tradicionales de procesamiento de video.
Como permite Video Use que un LLM edite video sin verlo?
El mayor obstaculo para la edicion de video impulsada por IA es obvio: los modelos de lenguaje grandes no pueden ver video. No pueden ver el contenido que un editor humano veria en una linea de tiempo. Esta no es una limitacion menor: es el problema central que Video Use fue construido para resolver.
La mayoria de los enfoques ingenuos para la edicion de video basada en LLM intentarian enviar fotogramas de video sin procesar al modelo, fotograma por fotograma. Un video estandar de 10 minutos en 1080p a 30fps contiene aproximadamente 18.000 fotogramas. En una estimacion conservadora, procesar esos fotogramas a traves de los tokenizadores actuales de LLM consumiria alrededor de 45 millones de tokens – y eso antes de aplicar cualquier logica de edicion real. Solo el costo hace que el enfoque sea poco practico.
Video Use adopta un enfoque fundamentalmente diferente basado en una representacion en capas, y esta es la innovacion central del proyecto:
El LLM nunca ve el video. Lee el video.
Capa 1: Transcripcion de audio mediante ElevenLabs Scribe
La primera capa es una transcripcion de audio densa pero compacta. Video Use envia la pista de audio a ElevenLabs Scribe, que devuelve una transcripcion completa palabra por palabra con marcas de tiempo precisas. Cada palabra se contabiliza – las muletillas como “umm”, “eh”, “este” y “o sea” se identifican junto con las palabras de contenido, cada una vinculada al momento exacto en que se pronuncio.
Esta salida se escribe en un archivo llamado takes_packed.md. La transcripcion de un video tipico de 10 minutos ocupa aproximadamente 12KB – una fraccion del total de metadatos de edicion.
Por que esto importa: el LLM ahora puede leer cada palabra del video, saber exactamente cuando se dijo, detectar patrones (densidad de muletillas, ritmo, pausas incomodas) y tomar decisiones de edicion basadas en texto – el medio que mejor entiende.
Capa 2: Compuesto visual mediante vista de linea de tiempo
La transcripcion por si sola no es suficiente. Un LLM tambien necesita ver como se ve el video en momentos clave. Pero enviar los 18.000 fotogramas de un video de 10 minutos es inviable.
En su lugar, Video Use genera un compuesto visual – una imagen de tira de pelicula PNG – solo en los puntos de decision. Estos son los momentos donde un corte, transicion o tratamiento visual podria ser apropiado. En lugar de 18.000 fotogramas, el LLM ve quizas de 20 a 50 PNG compuestos.
El resultado? El LLM tiene todo lo que necesita para tomar decisiones editoriales informadas:
- De la transcripcion: sincronizacion precisa palabra por palabra, deteccion de pausas, ubicacion de muletillas
- Del compuesto: contexto visual en cada limite de corte
La proporcion de eficiencia
| Enfoque | Volumen de datos | Factible para LLM? |
|---|---|---|
| Fotogramas de video sin procesar | ~45M tokens | No – costo prohibitivo |
| Solo transcripcion de ElevenLabs | ~12KB texto | Parcial – sin contexto visual |
| Transcripcion + compuesto visual | ~12KB texto + un punado de PNG | Si – el punto optimo |
Que funciones de edicion admite Video Use?
Con la transcripcion y el compuesto visual disponibles, el agente de codigo puede orquestar una amplia gama de operaciones de edicion a traves de FFmpeg y herramientas complementarias. Estas son las funciones que actualmente incluye Video Use.
Eliminacion automatica de muletillas y espacios muertos
Esta es la caracteristica que genera el valor mas inmediato para los creadores de contenido. El LLM lee la transcripcion, identifica cada instancia de lenguaje de relleno (“umm”, “eh”, “este”, “o sea” y marcadores de vacilacion similares), y los elimina quirurgicamente de la edicion. Ademas, los espacios muertos – pausas mas largas que un umbral configurable – se recortan automaticamente.
El resultado es una version comprimida y mas impactante de la grabacion original, sin silencios incomodos y sin los tics verbales que hacen que el contenido no guionado suene poco pulido. El LLM aplica fundidos de audio de 30ms en cada limite de corte, para que el audio no produzca chasquidos ni estallidos en los puntos de edicion.
Correccion de color automatica
Video Use incluye pipelines de correccion de color preestablecidos que se pueden aplicar a todo el video o a segmentos especificos:
- Cinematografico calido: aumenta la calidez, agrega una sutil division teal-orange y aplica una curva de pelicula suave
- Neutro intensificado: aumenta el contraste y la vibracion sin introducir dominancia de color – adecuado para contenido de persona hablando que no debe verse estilizado
- Cadenas FFmpeg personalizadas: los usuarios avanzados pueden definir cadenas de filtro
-vfde ffmpeg arbitrarias y referenciarlas por nombre desde la indicacion del agente
El LLM selecciona la gradacion segun el contenido que lee de la transcripcion y el compuesto visual. Un monologo dramatico podria recibir el tratamiento Cinematografico calido; una demostracion de producto podria recibir Neutro intensificado.
Subtitulos quemados
Video Use genera pistas de subtitulos y las quema directamente en la salida de video. El estilo de los subtitulos es completamente configurable:
- Tipo de letra y tamano
- Posicion en pantalla (centro inferior, esquina superior izquierda, etc.)
- Opacidad y color del cuadro de fondo
- Color del texto y ancho del trazo
Debido a que el LLM tiene marcas de tiempo palabra por palabra de la transcripcion de ElevenLabs, los subtitulos estan perfectamente sincronizados con el audio hablado – no se necesita alineacion manual.
Superposiciones animadas
Para creadores que quieren agregar un acabado visual, Video Use admite superposiciones animadas generadas por tres motores diferentes:
| Motor | Mejor para | Salida |
|---|---|---|
| Manim | Animaciones matematicas, estilo pizarra | Graficos animados programaticos de alta calidad |
| Remotion | Escenas compuestas complejas | Componentes de video basados en React renderizados a fotogramas |
| PIL | Graficos de superposicion simples | Superposiciones de imagenes fijas y tercios inferiores |
El LLM escribe el script de animacion (Python para Manim o PIL, React para Remotion), lo renderiza y lo compone sobre la pista de video.
Autoevaluacion: Como verifica Video Use su propio trabajo
Una de las decisiones de diseno mas interesantes en Video Use es el bucle de autoevaluacion. Despues de que el agente aplica una edicion – un corte, una gradacion de color, un quemado de subtitulos – el sistema no asume simplemente el exito. Renderiza la salida en cada limite de corte y la evalua.
La evaluacion verifica:
- Continuidad de audio: Hay un chasquido o estallido en el punto de corte? (El fundido de 30ms es la primera defensa, pero la evaluacion lo confirma.)
- Consistencia visual: La transicion de gradacion de color es suave? Hay fotogramas flash o fotogramas perdidos?
- Sincronizacion de subtitulos: Los subtitulos siguen alineados despues del corte? La eliminacion de muletillas desplazo el audio en relacion con lo visual?
Si la evaluacion detecta un problema, el agente retrocede y lo corrige. Esto hace que el proceso de edicion sea iterativo y correctivo en lugar de un solo pase de “generar y esperar que funcione”.
Memoria de sesion mediante project.md
Video Use persiste todas las decisiones editoriales y el contexto en un archivo project.md que reside junto al proyecto de video. Este archivo actua como memoria de sesion – el agente de codigo puede referenciarlo a traves de multiples sesiones o conversaciones para mantener la continuidad.
El archivo project.md contiene:
- Las rutas de archivo originales y configuraciones de codificacion
- Cada corte que se hizo, con marcas de tiempo
- Decisiones de gradacion de color aplicadas a cada segmento
- Configuracion de estilo de subtitulos
- Una lista de muletillas que se eliminaron (personalizable por proyecto)
- Notas del bucle de autoevaluacion
Esto significa que puede iniciar una edicion con Claude Code, pausar, retomarla con Codex al dia siguiente, y el nuevo agente sabra exactamente lo que se ha hecho y lo que queda.
Primeros pasos con Video Use
La configuracion es sencilla para cualquier persona familiarizada con Python y FFmpeg:
# Clonar el repositorio
git clone https://github.com/browser-use/video-use
# Crear un entorno virtual e instalar dependencias
uv sync
# o: pip install -r requirements.txt
# Instalar FFmpeg (si no esta ya instalado)
brew install ffmpeg
Tambien necesitara acceso a un proveedor de LLM – Claude Code, OpenAI Codex, Hermes u OpenClaw – y una clave API de ElevenLabs para la capa de transcripcion Scribe.
Una vez configurado el entorno, el flujo de trabajo es:
- Coloque su archivo de video sin procesar en el directorio del proyecto
- Digale al agente: “Edita este video – elimina muletillas, aplica gradacion cinematografica calida, anade subtitulos”
- El agente transcribe el audio, genera el compuesto visual y comienza a editar
- Revise la salida y proporcione instrucciones de seguimiento
Preguntas frecuentes
Que es Video Use?
Video Use es una herramienta de edicion de video de codigo abierto que permite editar videos conversando con agentes de codigo como Claude Code, Codex u OpenClaw en lugar de usar editores de linea de tiempo tradicionales.
Como entiende Video Use el contenido del video?
El LLM nunca ve el video: lee una transcripcion de audio a traves de ElevenLabs Scribe para obtener marcas de tiempo palabra por palabra y genera PNG compuestos visuales solo en los puntos de decision.
Que funciones de edicion admite Video Use?
Admite eliminacion automatica de muletillas y espacios muertos, correccion de color automatica, fundidos de audio de 30ms, subtitulos personalizables y superposiciones animadas mediante Manim, Remotion o PIL.
Cual es la eficiencia de tokens de Video Use?
En lugar de procesar 45 millones de tokens de fotogramas de video sin procesar, Video Use utiliza aproximadamente 12KB de transcripcion de texto mas un punado de imagenes PNG para un ahorro dramatico de tokens.
Video Use es gratuito?
Si, Video Use es de codigo abierto y gratuito. Los requisitos incluyen FFmpeg y un entorno Python con uv o pip.
Lecturas adicionales
- Repositorio de Video Use en GitHub – Codigo fuente, documentacion y problemas de la comunidad
- browser-use – El framework de automatizacion de navegadores que inspiro la extension de edicion de video
- ElevenLabs Scribe – La API de voz a texto utilizada para la transcripcion de audio
- Manim – Motor de animacion matematica para graficos animados programaticos
- Remotion – Escribe videos en React con composicion programatica
