大型語言模型的世界多年來一直由以英語為中心的系統主導。雖然 GPT-4、Claude 和 LLaMA 等模型在英語中表現出色,但它們在中文方面的能力——以及開源替代方案的可用性——一直落後。BELLE(Be Everyone’s Large Language model Engine)就是為了縮小這個差距而建立的。
由鏈家科技 BELLE 團隊開發,BELLE 是一個開源中文大型語言模型專案,使用大規模中文指令資料微調 BLOOM 和 LLaMA 架構。命名為「BELLE」以喚起美麗、人人可及的引擎的理念,該專案旨在以 Alpaca 和 Vicuna 為英語所做的方式,推動中文對話式 AI 的民主化。
BELLE 與其他中文 LLM 有何不同?
| 差異點 | BELLE | 其他中文 LLM |
|---|---|---|
| 基礎模型 | BLOOM + LLaMA 變體 | 主要為 LLaMA 或 ChatGLM |
| 訓練資料 | Alpaca 風格,翻譯並策劃 | 差異很大 |
| 研究重點 | 指令遵循評估 | 通常側重於預訓練 |
| 透明度 | 完整發布模型和資料 | 通常僅部分發布 |
模型架構
graph TD
subgraph "BELLE 模型家族"
A[BLOOMZ-7B1-MT] --> B[BELLE-7B]
A2[LLaMA-7B] --> C[BELLE-LLaMA-7B]
A3[LLaMA-13B] --> D[BELLE-LLaMA-13B]
B --> E[BELLE-7B-2M]
B --> F[BELLE-7B-0.5M]
C --> G[BELLE-LLaMA-7B-2M]
end| 模型變體 | 基礎架構 | 參數 | 訓練資料大小 |
|---|---|---|---|
| BELLE-7B | BLOOMZ-7B1-MT | 7B | 200 萬指令 |
| BELLE-LLaMA-7B | LLaMA-7B | 7B | 200 萬指令 |
| BELLE-LLaMA-13B | LLaMA-13B | 13B | 200 萬指令 |
| BELLE-7B-0.5M | BLOOMZ-7B1-MT | 7B | 50 萬指令 |
基準測試表現
| 評測任務 | BELLE-7B (2M) | BELLE-LLaMA-7B (2M) | 基線 (基礎模型) |
|---|---|---|---|
| 中文翻譯 (BLEU) | 28.4 | 27.1 | 22.3 |
| 文字摘要 (ROUGE-L) | 32.7 | 31.5 | 26.8 |
| 中文問答 (F1) | 64.2 | 62.8 | 56.1 |
| 安全與偏見 | 通過 | 通過 | 通過 |
部署
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "BelleGroup/BELLE-7B-2M"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
inputs = tokenizer("什麼是深度學習?", return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0]))
常見問題
什麼是 BELLE? 鏈家科技的開源中文 LLM 專案,使用 200 萬條中文指令樣本進行指令微調,基於 BLOOM 和 LLaMA 架構。
提供哪些模型變體? 基於 BLOOMZ-7B1-MT(BELLE-7B)、LLaMA-7B(BELLE-LLaMA-7B)和 LLaMA-13B(BELLE-LLaMA-13B)的版本。
訓練資料集有多大? 最大的資料集包含 200 萬條中文指令-回應對(train_2M_CN)。
限制? 可能產生聽起來合理但不正確的資訊,繼承基礎模型的 Tokenizer 偏見。
授權條款? 僅供研究目的。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!