AI

BCEmbedding:網易的雙語跨模態嵌入模型

BCEmbedding 是一款用於語義搜尋、RAG 和跨語言檢索的雙語跨模態嵌入模型,具有最先進的效能。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
BCEmbedding:網易的雙語跨模態嵌入模型

嵌入模型是現代語義搜尋和檢索增強生成(RAG)系統的基礎。由網易有道開發的 BCEmbedding 脫穎而出,提供了特別針對雙語中英文和跨模態檢索任務最佳化的最先進效能。

該模型擅長理解跨語言和模態的語義關係。無論你是用英文查詢搜尋中文文件、從文字描述中檢索圖像,還是建構雙語 RAG 管線,BCEmbedding 都能提供跨越這些邊界捕捉含義的嵌入。

模型能力

能力描述效能
雙語文字中英文跨語言檢索MTEB 排行榜前三名
跨模態文字到圖像和圖像到文字檢索最先進
密集檢索單向量表示與 BGE 競爭
稀疏檢索支援 BM25 的混合模式增強召回率
RAG 最佳化針對區塊層級檢索調整出色的精確度

嵌入架構

該架構對文字和視覺使用單獨的編碼器,並使用跨模態融合層將兩種模態投影到共享的嵌入空間中。這允許在文字和圖像輸入的任何組合之間進行直接比較。

效能基準

基準BCEmbeddingBGE-largeOpenAI ada-002
MTEB(英文)64.564.261.0
C-MTEB(中文)67.866.5N/A
跨語言檢索72.368.142.5
圖文檢索85.6N/A80.2

如需更多資訊,請造訪 BCEmbedding GitHub 儲存庫 並查看 MTEB 排行榜

常見問題

Q:BCEmbedding 輸出多少維度的嵌入? A:文字模型輸出 768 維向量,與 BGE-large 架構相同。

Q:我可以在 LangChain 或 LlamaIndex 中使用 BCEmbedding 嗎? A:可以,它透過與這兩個框架相容的 HuggingFace 嵌入包裝器輕鬆整合。

Q:BCEmbedding 可以免費商用嗎? A:是的,它採用 Apache 2.0 授權發布。

Q:它支援中文和英文以外的語言嗎? A:它針對中英文進行了最佳化。其他語言的效能會降低但仍可使用。

Q:模型有多大? A:文字編碼器約為 1.3GB(基於 BGE-large),視覺編碼器約增加 0.5GB。

TAG