AI

BELLE:鏈家科技開源中文大型語言模型

BELLE 是一個開源中文 LLM 專案,基於 BLOOM 和 LLaMA 微調,擁有 200 萬條指令樣本,推動中文對話式 AI 發展。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
BELLE:鏈家科技開源中文大型語言模型

大型語言模型的世界多年來一直由以英語為中心的系統主導。雖然 GPT-4、Claude 和 LLaMA 等模型在英語中表現出色,但它們在中文方面的能力——以及開源替代方案的可用性——一直落後。BELLE(Be Everyone’s Large Language model Engine)就是為了縮小這個差距而建立的。

鏈家科技 BELLE 團隊開發,BELLE 是一個開源中文大型語言模型專案,使用大規模中文指令資料微調 BLOOM 和 LLaMA 架構。命名為「BELLE」以喚起美麗、人人可及的引擎的理念,該專案旨在以 Alpaca 和 Vicuna 為英語所做的方式,推動中文對話式 AI 的民主化。

儲存庫github.com/LianjiaTech/BELLE


BELLE 與其他中文 LLM 有何不同?

差異點BELLE其他中文 LLM
基礎模型BLOOM + LLaMA 變體主要為 LLaMA 或 ChatGLM
訓練資料Alpaca 風格,翻譯並策劃差異很大
研究重點指令遵循評估通常側重於預訓練
透明度完整發布模型和資料通常僅部分發布

模型架構

模型變體基礎架構參數訓練資料大小
BELLE-7BBLOOMZ-7B1-MT7B200 萬指令
BELLE-LLaMA-7BLLaMA-7B7B200 萬指令
BELLE-LLaMA-13BLLaMA-13B13B200 萬指令
BELLE-7B-0.5MBLOOMZ-7B1-MT7B50 萬指令

基準測試表現

評測任務BELLE-7B (2M)BELLE-LLaMA-7B (2M)基線 (基礎模型)
中文翻譯 (BLEU)28.427.122.3
文字摘要 (ROUGE-L)32.731.526.8
中文問答 (F1)64.262.856.1
安全與偏見通過通過通過

部署

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "BelleGroup/BELLE-7B-2M"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

inputs = tokenizer("什麼是深度學習?", return_tensors="pt")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0]))

常見問題

什麼是 BELLE? 鏈家科技的開源中文 LLM 專案,使用 200 萬條中文指令樣本進行指令微調,基於 BLOOM 和 LLaMA 架構。

提供哪些模型變體? 基於 BLOOMZ-7B1-MT(BELLE-7B)、LLaMA-7B(BELLE-LLaMA-7B)和 LLaMA-13B(BELLE-LLaMA-13B)的版本。

訓練資料集有多大? 最大的資料集包含 200 萬條中文指令-回應對(train_2M_CN)。

限制? 可能產生聽起來合理但不正確的資訊,繼承基礎模型的 Tokenizer 偏見。

授權條款? 僅供研究目的。

延伸閱讀

TAG