llm.c:Karpathy 的極簡 C 語言 LLM 訓練實作
大多數處理大型語言模型的開發者和研究人員透過 PyTorch 或 Hugging Face Transformers 等高階框架與之互動。這些框架在優雅的 API 背後隱藏了巨大的複雜性,但同時也模糊了這些模型實際學習的基本機制。llm.c 撕開了這層抽象,提供了一個在純 C 中完整、可運 …
大多數處理大型語言模型的開發者和研究人員透過 PyTorch 或 Hugging Face Transformers 等高階框架與之互動。這些框架在優雅的 API 背後隱藏了巨大的複雜性,但同時也模糊了這些模型實際學習的基本機制。llm.c 撕開了這層抽象,提供了一個在純 C 中完整、可運 …
微調大型語言模型曾經是一個複雜、資源密集的過程,僅限於擁有大型 GPU 叢集的組織。LlamaFactory 使這項能力普及化,提供一個可存取的、功能豐富的框架,使在消費級硬體上微調數百種 LLM 架構變得實用。 由研究社群(hiyouga/LlamaFactory)創建,該框架已成長為最 …
大規模將 PDF 轉換為乾淨、機器可讀的文字是 LLM 資料集準備中的基本挑戰之一。傳統 PDF 解析器難以處理複雜佈局、表格和混合內容,而商業 OCR 服務在大規模使用時成本昂貴。olmOCR 由 Allen AI(AI2)開發,使用 7B 參數的視覺語言模型解決了這個問題,能以卓越的準 …