BELLE(Be Everyone’s Large Language model Engine)是链家科技为了缩小中文与英文大语言模型差距而创建的开源项目。
与其他中文 LLM 比较
| 差异点 | BELLE | 其他中文 LLM |
|---|---|---|
| 基础模型 | BLOOM + LLaMA 变体 | 主要为 LLaMA 或 ChatGLM |
| 训练数据 | Alpaca 风格,翻译并策划 | 差异很大 |
| 研究重点 | 指令遵循评估 | 通常侧重于预训练 |
| 透明度 | 完整发布模型和数据 | 通常仅部分发布 |
模型架构
graph TD
subgraph "BELLE 模型家族"
A[BLOOMZ-7B1-MT] --> B[BELLE-7B]
A2[LLaMA-7B] --> C[BELLE-LLaMA-7B]
A3[LLaMA-13B] --> D[BELLE-LLaMA-13B]
B --> E[BELLE-7B-2M]
B --> F[BELLE-7B-0.5M]
C --> G[BELLE-LLaMA-7B-2M]
end| 模型变体 | 基础架构 | 参数 | 训练数据大小 |
|---|---|---|---|
| BELLE-7B | BLOOMZ-7B1-MT | 7B | 200 万指令 |
| BELLE-LLaMA-7B | LLaMA-7B | 7B | 200 万指令 |
| BELLE-LLaMA-13B | LLaMA-13B | 13B | 200 万指令 |
| BELLE-7B-0.5M | BLOOMZ-7B1-MT | 7B | 50 万指令 |
基准测试
| 评估任务 | BELLE-7B (2M) | BELLE-LLaMA-7B (2M) | 基线 (基础模型) |
|---|---|---|---|
| 中文翻译 (BLEU) | 28.4 | 27.1 | 22.3 |
| 文本摘要 (ROUGE-L) | 32.7 | 31.5 | 26.8 |
| 中文问答 (F1) | 64.2 | 62.8 | 56.1 |
| 安全与偏见 | 通过 | 通过 | 通过 |
部署
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "BelleGroup/BELLE-7B-2M"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
inputs = tokenizer("什么是深度学习?", return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0]))
常见问题
什么是 BELLE? 链家科技的开源中文 LLM 项目,基于 BLOOM 和 LLaMA 架构,使用 200 万中文指令样本进行指令微调。
模型变体? 基于 BLOOMZ-7B1-MT、LLaMA-7B 和 LLaMA-13B。
数据集大小? 最大数据集含 200 万中文指令-响应对。
限制? 可能产生听起来合理但不正确的信息。
许可证? 仅用于研究目的。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!