BCEmbedding：网易的双语跨模态嵌入模型

BCEmbedding 是一款用于语义搜索、RAG 和跨语言检索的双语跨模态嵌入模型，具有最先进的性能。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 05, 2026 阅读 4 分钟

嵌入模型是现代语义搜索和检索增强生成（RAG）系统的基础。由网易有道开发的 BCEmbedding 脱颖而出，提供了特别针对双语中英文和跨模态检索任务优化的最先进性能。

该模型擅长理解跨语言和模态的语义关系。无论你是用英文查询搜索中文文档、从文字描述中检索图像，还是构建双语 RAG 管线，BCEmbedding 都能提供跨越这些边界捕捉含义的嵌入。

模型能力

能力	描述	性能
双语文字	中英文跨语言检索	MTEB 排行榜前三名
跨模态	文字到图像和图像到文字检索	最先进
密集检索	单向量表示	与 BGE 竞争
稀疏检索	支持 BM25 的混合模式	增强召回率
RAG 优化	针对区块级别检索调整	出色的精度

嵌入架构

flowchart LR
    subgraph 输入
        A[中文文字]
        B[英文文字]
        C[图像]
    end
    subgraph BCEmbedding
        D[双语编码器]
        E[视觉编码器]
        F[跨模态融合]
    end
    subgraph 输出
        G[向量嵌入]
        H[相似度分数]
    end
    A --> D
    B --> D
    C --> E
    D --> F
    E --> F
    F --> G
    G --> H

该架构对文字和视觉使用单独的编码器，并使用跨模态融合层将两种模态投影到共享的嵌入空间中。这允许在文字和图像输入的任何组合之间进行直接比较。

性能基准

基准	BCEmbedding	BGE-large	OpenAI ada-002
MTEB（英文）	64.5	64.2	61.0
C-MTEB（中文）	67.8	66.5	N/A
跨语言检索	72.3	68.1	42.5
图文检索	85.6	N/A	80.2

如需更多信息，请访问 BCEmbedding GitHub 仓库并查看 MTEB 排行榜。

常见问题

Q：BCEmbedding 输出多少维度的嵌入？ A：文字模型输出 768 维向量，与 BGE-large 架构相同。

Q：我可以在 LangChain 或 LlamaIndex 中使用 BCEmbedding 吗？ A：可以，它通过与这两个框架兼容的 HuggingFace 嵌入包装器轻松集成。

Q：BCEmbedding 可以免费商用吗？ A：是的，它采用 Apache 2.0 许可证发布。

Q：它支持中文和英文以外的语言吗？ A：它针对中英文进行了优化。其他语言的性能会降低但仍可使用。

Q：模型有多大？ A：文字编码器约为 1.3GB（基于 BGE-large），视觉编码器约增加 0.5GB。

BCEmbedding：网易的双语跨模态嵌入模型

模型能力

嵌入架构

性能基准

常见问题

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

BCEmbedding：网易的双语跨模态嵌入模型

模型能力

嵌入架构

性能基准

常见问题

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险