BCEmbedding: Modelos de Embedding Bilingües y Multimodales de NetEase

BCEmbedding es un modelo de embedding bilingüe y multimodal para búsqueda semántica, RAG y recuperación interlingüística con rendimiento de vanguardia.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 05, 2026 2 min de lectura

Los modelos de embeddings son la base de los sistemas modernos de búsqueda semántica y generación aumentada por recuperación (RAG). BCEmbedding, desarrollado por NetEase Youdao, se destaca al ofrecer rendimiento de vanguardia optimizado específicamente para tareas de recuperación bilingüe chino-inglés y recuperación multimodal.

El modelo sobresale en la comprensión de relaciones semánticas a través de idiomas y modalidades. Ya sea que estés buscando documentos en chino con una consulta en inglés, recuperando imágenes de descripciones de texto o construyendo un pipeline RAG bilingüe, BCEmbedding produce embeddings que capturan el significado a través de estas fronteras.

Capacidades del Modelo

Capacidad	Descripción	Rendimiento
Texto bilingüe	Recuperación interlingüe chino-inglés	Top 3 en ranking MTEB
Multimodal	Recuperación texto-a-imagen e imagen-a-texto	Estado del arte
Recuperación densa	Representación de vector único	Competitivo con BGE
Recuperación dispersa	Modo híbrido con soporte BM25	Recuperación mejorada
Optimizado para RAG	Ajustado para recuperación a nivel de fragmento	Precisión excelente

Arquitectura de Embeddings

flowchart LR
    subgraph Entrada
        A[Texto Chino]
        B[Texto Inglés]
        C[Imagen]
    end
    subgraph BCEmbedding
        D[Codificador Bilingüe]
        E[Codificador Visual]
        F[Fusión Transmodal]
    end
    subgraph Salida
        G[Embeddings Vectoriales]
        H[Puntuaciones de Similitud]
    end
    A --> D
    B --> D
    C --> E
    D --> F
    E --> F
    F --> G
    G --> H

La arquitectura utiliza codificadores separados para texto y visión, con una capa de fusión transmodal que proyecta ambas modalidades en un espacio de embeddings compartido. Esto permite la comparación directa entre cualquier combinación de entradas de texto e imagen.

Benchmarks de Rendimiento

Benchmark	BCEmbedding	BGE-large	OpenAI ada-002
MTEB (Inglés)	64.5	64.2	61.0
C-MTEB (Chino)	67.8	66.5	N/A
Recuperación interlingüe	72.3	68.1	42.5
Recuperación texto-imagen	85.6	N/A	80.2

Para más información, visita el repositorio de GitHub de BCEmbedding y consulta el ranking MTEB.

Preguntas Frecuentes

Q: ¿Cuántas dimensiones tienen los embeddings de BCEmbedding? A: El modelo de texto produce vectores de 768 dimensiones, igual que la arquitectura BGE-large.

Q: ¿Puedo usar BCEmbedding en LangChain o LlamaIndex? A: Sí, se integra fácilmente a través del wrapper de HuggingFace Embeddings compatible con ambos frameworks.

Q: ¿BCEmbedding es gratuito para uso comercial? A: Sí, se publica bajo licencia Apache 2.0.

Q: ¿Soporta idiomas además de chino e inglés? A: Está optimizado para chino e inglés. Otros idiomas funcionarán con rendimiento reducido.

Q: ¿Qué tan grande es el modelo? A: El codificador de texto es de aproximadamente 1.3GB (basado en BGE-large), y el codificador visual agrega unos 0.5GB.

BCEmbedding: Modelos de Embedding Bilingües y Multimodales de NetEase

Capacidades del Modelo

Arquitectura de Embeddings

Benchmarks de Rendimiento

Preguntas Frecuentes

LATEST POST

Workday, Anthropic y LISC lanzan aceleradora de solopreneurs con IA

Sensor Tower adquiere AppMagic para reforzar su línea de análisis para pymes

Musk, Cook y Fink se espera que se unan a la delegación de Trump en Pekín esta s

TAG

CATEGORIES