IA

Qwen2.5-Omni: El Modelo de IA Multimodal de Extremo a Extremo de Alibaba

Qwen2.5-Omni es el modelo multimodal insignia de extremo a extremo de Alibaba que percibe texto, imagenes, audio y video mientras genera texto y voz en transmision.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
Qwen2.5-Omni: El Modelo de IA Multimodal de Extremo a Extremo de Alibaba

Qwen2.5-Omni es el modelo de IA multimodal de codigo abierto insignia de Alibaba, desarrollado por el equipo QwenLM de Alibaba Cloud. Como un unico modelo de extremo a extremo, Qwen2.5-Omni puede percibir y comprender entradas de texto, imagenes, audio y video simultaneamente, mientras genera tanto texto en transmision como voz natural – todo dentro de una arquitectura unificada.

El modelo introduce varias innovaciones arquitectonicas, siendo la mas notable la arquitectura Thinker-Talker, que separa el razonamiento de la generacion de voz mientras mantiene un acoplamiento estrecho entre ambos. Con la introduccion de TMRoPE (Incrustacion Posicional Rotatoria Multimodal Sincronizada en el Tiempo), Qwen2.5-Omni logra una alineacion temporal precisa entre modalidades, permitiendo tareas como descripcion de video en tiempo real, respuesta audiovisual a preguntas e interpretacion simultanea.

Que es la arquitectura Thinker-Talker?

La arquitectura Thinker-Talker es la innovacion central detras de Qwen2.5-Omni. El componente Thinker procesa todas las modalidades de entrada a traves de un backbone transformer compartido, realizando razonamiento multimodal en un espacio latente compartido. El componente Talker recibe las representaciones de salida del Thinker y genera voz o texto en transmision. Esta separacion permite que Thinker se concentre en la comprension y el razonamiento mientras que Talker maneja la dinamica temporal de la generacion de voz.

Que tamanos de modelo estan disponibles?

ModeloParametrosArquitecturaVentana de Contexto
Qwen2.5-Omni-7B7.0BThinker + Talker32K tokens
Qwen2.5-Omni-14B14.5BThinker + Talker32K tokens
Qwen2.5-Omni-72B72.0BThinker + Talker32K tokens

Capacidades Multimodales

ModalidadEntradaSalidaTareas
TextoSiSiChat, codificacion, razonamiento, traduccion
ImagenSiVia texto/vozDescripcion, VQA, OCR, comprension de documentos
AudioSiSiReconocimiento de voz, comprension de audio
VideoSiVia texto/vozDescripcion de video, reconocimiento de actividades
VozSi (generacion)SiTTS en transmision, clonacion de voz, emocion

Que es TMRoPE?

TMRoPE (Incrustacion Posicional Rotatoria Multimodal Sincronizada en el Tiempo) es un novedoso metodo de codificacion posicional que sincroniza el posicionamiento temporal de diferentes modalidades. Al procesar un video con audio acompanante, TMRoPE asegura que el modelo entienda que eventos visuales corresponden a que eventos de audio en el tiempo. Esta sincronizacion temporal es critica para tareas como entender el tono emocional de una oracion hablada mientras se ve la expresion facial del hablante en el mismo momento.

Como maneja Qwen2.5-Omni la comprension de video en tiempo real?

Qwen2.5-Omni procesa video extrayendo fotogramas a una tasa configurable (por defecto 1-2 FPS) y codificando cada fotograma a traves del codificador visual. La pista de audio se codifica simultaneamente y se alinea con los fotogramas de video a traves de TMRoPE. Thinker fusiona estas representaciones y realiza razonamiento temporal, permitiendo que el modelo describa actividades en curso, responda preguntas sobre contenido visual en marcas de tiempo especificas y genere descripciones en tiempo real con latencia minima.

Instalacion y Uso

Qwen2.5-Omni esta disponible a traves de la libreria Hugging Face Transformers y el ecosistema ModelScope. La instalacion requiere PyTorch 2.0+ y la version mas reciente de Transformers. El modelo soporta tanto inferencia local como despliegue a traves de la API de Alibaba Cloud. Para generacion de voz, el modulo Talker utiliza un decodificador de codec neuronal que produce audio de alta calidad a 24kHz con caracteristicas de voz configurables.

Rendimiento en Evaluaciones

EvaluacionQwen2.5-Omni-72BGPT-4oGemini 1.5 Pro
MMMU (Multimodal)71.2%69.1%62.2%
Video-MME65.8%63.4%58.1%
Speech-Bench82.4%78.6%76.2%
AudioCaps74.5%71.2%68.9%

Como se compara Qwen2.5-Omni con otros modelos multimodales?

Qwen2.5-Omni es unico entre los modelos de codigo abierto al ofrecer comprension y generacion multimodal verdaderamente de extremo a extremo. Modelos competidores como GPT-4o son propietarios y solo en la nube. Alternativas de codigo abierto como LLaVA e InternVL manejan texto e imagenes pero carecen de capacidades nativas de audio y voz. La arquitectura Thinker-Talker de Qwen2.5-Omni tambien permite una salida de voz mas natural que los sistemas en cascada que usan un modelo TTS separado despues de la generacion de texto, ya que Talker se condiciona directamente en la comprension multimodal de Thinker.

Preguntas Frecuentes

Que es Qwen2.5-Omni? Es el modelo de IA multimodal de extremo a extremo de Alibaba que percibe texto, imagenes, audio y video mientras genera texto y voz en transmision, todo dentro de una unica arquitectura unificada.

Que es la arquitectura Thinker-Talker? Thinker maneja la comprension y el razonamiento multimodal, mientras que Talker genera salida de voz o texto en transmision condicionada por las representaciones de Thinker.

Que tamanos de modelo estan disponibles? Tres tamanos: 7B, 14B y 72B parametros, todos usando la arquitectura Thinker-Talker con ventanas de contexto de 32K tokens.

Que es TMRoPE? Incrustacion Posicional Rotatoria Multimodal Sincronizada en el Tiempo que sincroniza el posicionamiento temporal entre modalidades, permitiendo una comprension multimodal precisa alineada en el tiempo.

Como lo instalo? Disponible via Hugging Face Transformers y ModelScope. Requiere PyTorch 2.0+. Soporta inferencia tanto local como en la nube.

Lecturas Adicionales

TAG
CATEGORIES