AI

BCEmbedding:网易的双语跨模态嵌入模型

BCEmbedding 是一款用于语义搜索、RAG 和跨语言检索的双语跨模态嵌入模型,具有最先进的性能。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
BCEmbedding:网易的双语跨模态嵌入模型

嵌入模型是现代语义搜索和检索增强生成(RAG)系统的基础。由网易有道开发的 BCEmbedding 脱颖而出,提供了特别针对双语中英文和跨模态检索任务优化的最先进性能。

该模型擅长理解跨语言和模态的语义关系。无论你是用英文查询搜索中文文档、从文字描述中检索图像,还是构建双语 RAG 管线,BCEmbedding 都能提供跨越这些边界捕捉含义的嵌入。

模型能力

能力描述性能
双语文字中英文跨语言检索MTEB 排行榜前三名
跨模态文字到图像和图像到文字检索最先进
密集检索单向量表示与 BGE 竞争
稀疏检索支持 BM25 的混合模式增强召回率
RAG 优化针对区块级别检索调整出色的精度

嵌入架构

该架构对文字和视觉使用单独的编码器,并使用跨模态融合层将两种模态投影到共享的嵌入空间中。这允许在文字和图像输入的任何组合之间进行直接比较。

性能基准

基准BCEmbeddingBGE-largeOpenAI ada-002
MTEB(英文)64.564.261.0
C-MTEB(中文)67.866.5N/A
跨语言检索72.368.142.5
图文检索85.6N/A80.2

如需更多信息,请访问 BCEmbedding GitHub 仓库 并查看 MTEB 排行榜

常见问题

Q:BCEmbedding 输出多少维度的嵌入? A:文字模型输出 768 维向量,与 BGE-large 架构相同。

Q:我可以在 LangChain 或 LlamaIndex 中使用 BCEmbedding 吗? A:可以,它通过与这两个框架兼容的 HuggingFace 嵌入包装器轻松集成。

Q:BCEmbedding 可以免费商用吗? A:是的,它采用 Apache 2.0 许可证发布。

Q:它支持中文和英文以外的语言吗? A:它针对中英文进行了优化。其他语言的性能会降低但仍可使用。

Q:模型有多大? A:文字编码器约为 1.3GB(基于 BGE-large),视觉编码器约增加 0.5GB。

TAG
CATEGORIES