嵌入模型是現代語義搜尋和檢索增強生成(RAG)系統的基礎。由網易有道開發的 BCEmbedding 脫穎而出,提供了特別針對雙語中英文和跨模態檢索任務最佳化的最先進效能。
該模型擅長理解跨語言和模態的語義關係。無論你是用英文查詢搜尋中文文件、從文字描述中檢索圖像,還是建構雙語 RAG 管線,BCEmbedding 都能提供跨越這些邊界捕捉含義的嵌入。
模型能力
| 能力 | 描述 | 效能 |
|---|---|---|
| 雙語文字 | 中英文跨語言檢索 | MTEB 排行榜前三名 |
| 跨模態 | 文字到圖像和圖像到文字檢索 | 最先進 |
| 密集檢索 | 單向量表示 | 與 BGE 競爭 |
| 稀疏檢索 | 支援 BM25 的混合模式 | 增強召回率 |
| RAG 最佳化 | 針對區塊層級檢索調整 | 出色的精確度 |
嵌入架構
flowchart LR
subgraph 輸入
A[中文文字]
B[英文文字]
C[圖像]
end
subgraph BCEmbedding
D[雙語編碼器]
E[視覺編碼器]
F[跨模態融合]
end
subgraph 輸出
G[向量嵌入]
H[相似度分數]
end
A --> D
B --> D
C --> E
D --> F
E --> F
F --> G
G --> H該架構對文字和視覺使用單獨的編碼器,並使用跨模態融合層將兩種模態投影到共享的嵌入空間中。這允許在文字和圖像輸入的任何組合之間進行直接比較。
效能基準
| 基準 | BCEmbedding | BGE-large | OpenAI ada-002 |
|---|---|---|---|
| MTEB(英文) | 64.5 | 64.2 | 61.0 |
| C-MTEB(中文) | 67.8 | 66.5 | N/A |
| 跨語言檢索 | 72.3 | 68.1 | 42.5 |
| 圖文檢索 | 85.6 | N/A | 80.2 |
如需更多資訊,請造訪 BCEmbedding GitHub 儲存庫 並查看 MTEB 排行榜。
常見問題
Q:BCEmbedding 輸出多少維度的嵌入? A:文字模型輸出 768 維向量,與 BGE-large 架構相同。
Q:我可以在 LangChain 或 LlamaIndex 中使用 BCEmbedding 嗎? A:可以,它透過與這兩個框架相容的 HuggingFace 嵌入包裝器輕鬆整合。
Q:BCEmbedding 可以免費商用嗎? A:是的,它採用 Apache 2.0 授權發布。
Q:它支援中文和英文以外的語言嗎? A:它針對中英文進行了最佳化。其他語言的效能會降低但仍可使用。
Q:模型有多大? A:文字編碼器約為 1.3GB(基於 BGE-large),視覺編碼器約增加 0.5GB。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!