"Que es AudioGhost AI?"

"AudioGhost AI es una aplicacion de interfaz grafica de codigo abierto creada por el desarrollador 0x0funky que envuelve el modelo SAM-Audio de Meta para la separacion de audio orientada a objetos. Permite a los usuarios aislar fuentes de sonido especificas de audio mixto usando indicaciones en lenguaje natural."

"Como funciona AudioGhost AI?"

"Utiliza el modelo SAM-Audio de Meta, que combina la arquitectura Segment Anything (SAM) con comprension de audio. Los usuarios describen el sonido que desean aislar con un texto indicativo, y el modelo lo separa del fondo. La interfaz grafica proporciona visualizacion de formas de onda para seleccionar regiones."

"Cuales son los requisitos de VRAM para AudioGhost AI?"

"AudioGhost AI funciona en GPUs de consumo con 4 a 6 GB de VRAM, lo que lo hace accesible en hardware de consumo de gama media como NVIDIA GTX 1060, RTX 2060, RTX 3060 y tarjetas similares."

"Que funciones de interfaz grafica ofrece AudioGhost AI?"

"La aplicacion proporciona una interfaz grafica construida con Gradio, que incluye visualizacion de formas de onda y espectrogramas, un cuadro de entrada de texto indicativo, herramientas de seleccion de regiones y exportacion con un solo clic de las pistas de audio separadas."

"Bajo que licencia se publica AudioGhost AI?"

"AudioGhost AI se publica bajo la Licencia MIT, lo que permite el uso, modificacion y distribucion gratuitos tanto para proyectos personales como comerciales."

AudioGhost AI: Separacion de Audio Orientada a Objetos Open-Source con SAM-Audio de Meta

AudioGhost AI envuelve el modelo SAM-Audio de Meta en una interfaz grafica amigable para la separacion de sonido guiada por texto, funcionando en GPUs de consumo con 4-6 GB de VRAM.

Equipo Editorial May 02, 2026 7 min de lectura

Durante decadas, aislar un solo instrumento de una grabacion mixta requeria acceso costoso a pistas multiples de la sesion de estudio original o una minuciosa edicion espectral por parte de un ingeniero de audio experimentado. AudioGhost AI reescribe este flujo de trabajo al llevar el modelo SAM-Audio de Meta al escritorio con una interfaz grafica sencilla, permitiendo que cualquier persona separe sonidos con solo un texto indicativo.

Desarrollado por el colaborador de codigo abierto 0x0funky, AudioGhost AI es un envoltorio especifico alrededor del modelo de investigacion SAM-Audio de Meta AI. SAM-Audio extiende la filosofia de “Segmentar Cualquier Cosa” — desarrollada originalmente para segmentacion de imagenes — al dominio del audio. El modelo SAM original permitia hacer clic en cualquier pixel de una imagen y aislar ese objeto; SAM-Audio aplica el mismo principio al sonido. Describa la fuente de sonido que desea (“la voz principal”, “el redoblante”, “la guitarra acustica”) y el modelo la aisla del resto de la mezcla con una fidelidad impresionante.

Lo que hace particularmente notable a AudioGhost AI es su accesibilidad. Las herramientas de separacion de audio de grado de consumo historicamente requerian suscripciones a API en la nube o GPUs de nivel servidor. AudioGhost AI funciona comodamente en GPUs con 4 a 6 GB de VRAM — un rango que cubre la gran mayoria de las GPUs de consumo y gaming actualmente en uso. Esto abre la separacion de audio de calidad profesional a musicos independientes, podcasters, editores de video y aficionados que carecen de acceso a recursos informaticos de alto nivel.

Que es Exactamente AudioGhost AI y Por Que Fue Creado?

AudioGhost AI fue creado para cerrar la brecha entre la investigacion de Meta y el uso practico y cotidiano. Meta publico SAM-Audio como un modelo de investigacion con scripts de inferencia de linea de comandos, pero sin una interfaz amigable. 0x0xfunky construyo AudioGhost AI para proporcionar una interfaz grafica basada en Gradio que elimina la necesidad de tocar cualquier comando de terminal o codigo de inferencia de Python.

La herramienta esta especializada de la mejor manera: se enfoca en hacer una cosa bien — separacion de audio orientada a objetos guiada por texto — en lugar de intentar ser una estacion de trabajo de audio digital completa. Los usuarios describen el sonido que quieren extraer, ajustan la region de interes en una visualizacion de forma de onda y exportan la pista aislada.

graph LR
    A[Archivo de audio mixto de entrada] --> B[Interfaz AudioGhost AI]
    C[Texto indicativo del sonido objetivo] --> B
    B --> D[Motor de inferencia SAM-Audio]
    D --> E[Fuente de sonido aislada]
    D --> F[Audio de fondo residual]
    E --> G[Exportar WAV/MP3]
    F --> G

Como se Compara el Enfoque Orientado a Objetos de SAM-Audio con la Separacion de Fuentes Tradicional?

Los modelos tradicionales de separacion de fuentes — como Demucs o Spleeter — se basan en clasificadores. Estan entrenados para reconocer categorias especificas (voces, bateria, bajo, otros) y solo pueden generar esas pistas predefinidas. Si desea aislar “solo el charles” en lugar de toda la bateria, o “la guitarra ritmica en el canal izquierdo” en lugar de todas las guitarras, estos modelos se quedan cortos.

SAM-Audio adopta un enfoque fundamentalmente diferente. En lugar de clasificar los sonidos en categorias fijas, utiliza un modelo de difusion condicionado por texto que puede atender a cualquier sonido descrito en lenguaje natural. Esta es la misma filosofia arquitectonica detras del Modelo Segment Anything de Meta, pero adaptada para el dominio del espectrograma en lugar del dominio de pıxeles.

Enfoque de Separacion	Flexibilidad de Categoria	Calidad de Salida	Requisito de VRAM	Disponibilidad de GUI
AudioGhost AI + SAM-Audio	Ilimitada (cualquier texto)	Alta	4-6 GB	Si (Gradio)
Meta SAM-Audio (CLI)	Ilimitada (cualquier texto)	Alta	4-6 GB	No (solo terminal)
Demucs (Hıbrido)	Fija (voces, bateria, bajo, otros)	Muy Alta	2-4 GB	Solo terceros
Spleeter	Fija (2/4/5 pistas)	Moderada	1-2 GB	Solo terceros
API en la nube (Pyannote, etc.)	Varıa segun el proveedor	Alta	Ninguno (servidor)	Si (web)

Que Hardware Necesita para Ejecutar AudioGhost AI?

Uno de los puntos de venta mas fuertes de AudioGhost AI es su modesto apetito de hardware. El modelo SAM-Audio utiliza una arquitectura destilada que logra una calidad de separacion solida sin las demandas de VRAM de modelos de audio basicos mas grandes.

Modelo de GPU	VRAM	Rendimiento Esperado
NVIDIA GTX 1060 / 1070	6 GB / 8 GB	Inferencia completa, ~15-30 seg por clip
NVIDIA RTX 2060 / 3060	6 GB / 12 GB	Inferencia completa, mas rapido con nucleos CUDA
NVIDIA RTX 4060 / 4070	8 GB / 12 GB	Inferencia completa, casi en tiempo real
Apple M1/M2/M3 (Metal)	8 GB+ unificada	Compatible via backend PyTorch MPS
Nube (RunPod, Colab, etc.)	N/A	Rendimiento completo

La aplicacion admite CUDA (NVIDIA), Metal Performance Shaders (Apple Silicon) y modo de respaldo solo con CPU, aunque la ruta de CPU es significativamente mas lenta y se recomienda solo para clips cortos.

Como es la Interfaz Grafica de AudioGhost AI y Como se Usa?

AudioGhost AI proporciona una interfaz limpia de tres paneles construida sobre Gradio, accesible tanto local como remotamente a traves de un navegador:

Panel de entrada a la izquierda: Cargue un archivo de audio (WAV, MP3, FLAC de hasta varios minutos de duracion) y escriba una descripcion de texto del sonido a aislar.
Panel de visualizacion en el centro: Una visualizacion de forma de onda con superposicion de espectrograma. Los usuarios pueden seleccionar una region de tiempo para restringir la separacion a una seccion especifica del audio.
Panel de salida a la derecha: Dos archivos de audio descargables — la fuente de sonido aislada y el audio de fondo residual.

El flujo de trabajo es sencillo: cargar, describir, seleccionar region, separar y exportar. Sin archivos de configuracion, sin argumentos de linea de comandos y sin necesidad de conocimientos de scripting en Python.

Preguntas Frecuentes Sobre AudioGhost AI

Comenzando con AudioGhost AI

Para ejecutar AudioGhost AI localmente, necesita Python 3.10 o posterior, una GPU compatible (opcional pero recomendada) y los siguientes pasos de configuracion:

Clone el repositorio de github.com/0x0funky/audioghost-ai
Instale las dependencias con pip install -r requirements.txt
Inicie la interfaz grafica con python app.py
Abra la URL local proporcionada en su navegador

El primer lanzamiento descarga automaticamente los pesos del modelo SAM-Audio (aproximadamente 2 GB). Los lanzamientos posteriores son instantaneos.

sequenceDiagram
    participant User as Usuario
    participant GUI as Interfaz AudioGhost
    participant Model as Modelo SAM-Audio
    participant Disk as Almacenamiento Local

    User->>GUI: Cargar archivo de audio
    User->>GUI: Ingresar texto indicativo
    GUI->>Model: Enviar espectrograma + embedding de texto
    Model->>Model: Separacion basada en difusion
    Model-->>GUI: Devolver forma de onda aislada
    GUI-->>User: Mostrar resultados + botones de exportacion
    User->>GUI: Hacer clic en Exportar
    GUI->>Disk: Guardar archivos WAV/MP3

Limitaciones y Estado Actual de Desarrollo

Como envoltorio alrededor de un modelo de investigacion, AudioGhost AI hereda algunas limitaciones del propio SAM-Audio. La version actual funciona mejor con mezclas limpias donde la fuente de sonido objetivo tiene caracterısticas espectrales distintas. Las mezclas muy densas con mucha reverberacion o multiples instrumentos similares (por ejemplo, dos guitarras electricas tocando la misma progresion de acordes) pueden producir artefactos. El modelo tambien tiene un lımite practico de aproximadamente 3 a 5 minutos de audio por ejecucion de inferencia debido a las limitaciones de la ventana de atencion.

El desarrollo esta activo, con la comunidad contribuyendo mejoras a la interfaz de Gradio, agregando soporte para procesamiento por lotes y experimentando con variantes ajustadas de SAM-Audio para casos de uso especıficos como extraccion de dialogos de podcasts y limpieza de grabaciones de campo.

Lecturas Adicionales

Repositorio GitHub de AudioGhost AI — Codigo fuente, guıa de instalacion y seguimiento de problemas
Articulo de SAM-Audio de Meta AI — La publicacion de investigacion detras del modelo subyacente
Meta SAM-Audio GitHub — Pesos oficiales del modelo y scripts de inferencia CLI
Documentacion de Gradio — Framework utilizado para la interfaz grafica
Demucs: Separacion de Fuentes Musicales en el Dominio de Forma de Onda — Enfoque alternativo de separacion de codigo abierto

AudioGhost AI: Separacion de Audio Orientada a Objetos Open-Source con SAM-Audio de Meta

Que es Exactamente AudioGhost AI y Por Que Fue Creado?

Como se Compara el Enfoque Orientado a Objetos de SAM-Audio con la Separacion de Fuentes Tradicional?

Que Hardware Necesita para Ejecutar AudioGhost AI?

Como es la Interfaz Grafica de AudioGhost AI y Como se Usa?

Preguntas Frecuentes Sobre AudioGhost AI

Comenzando con AudioGhost AI

Limitaciones y Estado Actual de Desarrollo

Lecturas Adicionales

LATEST POST

Easy Dataset: Framework de Código Abierto para Sintetizar Datos de Ajuste Fino de LLM

CopilotKit: El Stack Frontend de Código Abierto para Construir Copilotos AI en la Aplicación

ComfyUI: La GUI de Modelos de Difusión de Código Abierto Más Potente con Flujo de Trabajo Basado en Nodos

TAG

CATEGORIES