嵌入模型是现代语义搜索和检索增强生成(RAG)系统的基础。由网易有道开发的 BCEmbedding 脱颖而出,提供了特别针对双语中英文和跨模态检索任务优化的最先进性能。
该模型擅长理解跨语言和模态的语义关系。无论你是用英文查询搜索中文文档、从文字描述中检索图像,还是构建双语 RAG 管线,BCEmbedding 都能提供跨越这些边界捕捉含义的嵌入。
模型能力
| 能力 | 描述 | 性能 |
|---|---|---|
| 双语文字 | 中英文跨语言检索 | MTEB 排行榜前三名 |
| 跨模态 | 文字到图像和图像到文字检索 | 最先进 |
| 密集检索 | 单向量表示 | 与 BGE 竞争 |
| 稀疏检索 | 支持 BM25 的混合模式 | 增强召回率 |
| RAG 优化 | 针对区块级别检索调整 | 出色的精度 |
嵌入架构
flowchart LR
subgraph 输入
A[中文文字]
B[英文文字]
C[图像]
end
subgraph BCEmbedding
D[双语编码器]
E[视觉编码器]
F[跨模态融合]
end
subgraph 输出
G[向量嵌入]
H[相似度分数]
end
A --> D
B --> D
C --> E
D --> F
E --> F
F --> G
G --> H该架构对文字和视觉使用单独的编码器,并使用跨模态融合层将两种模态投影到共享的嵌入空间中。这允许在文字和图像输入的任何组合之间进行直接比较。
性能基准
| 基准 | BCEmbedding | BGE-large | OpenAI ada-002 |
|---|---|---|---|
| MTEB(英文) | 64.5 | 64.2 | 61.0 |
| C-MTEB(中文) | 67.8 | 66.5 | N/A |
| 跨语言检索 | 72.3 | 68.1 | 42.5 |
| 图文检索 | 85.6 | N/A | 80.2 |
如需更多信息,请访问 BCEmbedding GitHub 仓库 并查看 MTEB 排行榜。
常见问题
Q:BCEmbedding 输出多少维度的嵌入? A:文字模型输出 768 维向量,与 BGE-large 架构相同。
Q:我可以在 LangChain 或 LlamaIndex 中使用 BCEmbedding 吗? A:可以,它通过与这两个框架兼容的 HuggingFace 嵌入包装器轻松集成。
Q:BCEmbedding 可以免费商用吗? A:是的,它采用 Apache 2.0 许可证发布。
Q:它支持中文和英文以外的语言吗? A:它针对中英文进行了优化。其他语言的性能会降低但仍可使用。
Q:模型有多大? A:文字编码器约为 1.3GB(基于 BGE-large),视觉编码器约增加 0.5GB。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!