MLX-VLM：在 Apple Silicon 上執行視覺語言模型推論與微調

Q: "什麼是 MLX-VLM？"

"MLX-VLM 是 Blaizzy 開發的開源 Python 套件，可在 Apple Silicon 硬體上直接使用 Apple 的 MLX 框架執行視覺語言模型（VLM）的推論與微調。它支援包括 LLaVA、Qwen-VL 和 InternVL2 在內的熱門模型，充分利用 Apple M 系列晶片的統一記憶體架構。"

Q: "MLX-VLM 支援哪些模型？"

"MLX-VLM 支援多種視覺語言模型，包括 LLaVA（1.5、1.6、NeXT）、Qwen-VL（Qwen2-VL、Qwen2.5-VL）、InternVL2、LLaVA-OneVision、Flux 和 PaliGemma2。隨著 VLM 領域的發展，該專案積極新增對新模型的支援。"

Q: "MLX-VLM 的效能與 GPU 解決方案相比如何？"

"在 Apple Silicon 硬體上，MLX-VLM 憑藉 MLX 的統一記憶體模型提供有競爭力的推論速度，消除了 CPU 與 GPU 之間的 PCIe 瓶頸。對於大批量處理，它可能落後於專用 NVIDIA GPU，但在 M2/M3 Max 和 Ultra 晶片上的典型推論工作負載中，其效能出人意料地具有競爭力。"

Q: "我可以使用 MLX-VLM 微調 VLM 嗎？"

"是的，MLX-VLM 支援 LoRA（低秩適應）微調，讓使用者能夠以適度的記憶體需求，將視覺語言模型調整到自訂資料集。微調流程可透過命令列介面或 Python API 使用。"

Q: "執行 MLX-VLM 需要什麼硬體？"

"你需要一台搭載 macOS 的 Apple Silicon Mac（M1、M2、M3 或 M4 系列）。建議 7B 參數模型至少 16GB 統一記憶體，更大模型和微調工作負載則需要 32GB 以上。"

MLX-VLM 是一個 Python 套件，讓你在 Apple Silicon Mac 上使用 Apple 的 MLX 框架執行視覺語言模型的推論與微調。

技術編輯團隊 May 02, 2026 閱讀 12 分鐘

執行視覺語言模型 —— 能夠同時理解影像與文字的 AI 系統 —— 傳統上需要昂貴且具備大量 VRAM 的 NVIDIA GPU。Apple Silicon 使用者在很大程度上被排除在多模態 AI 革命之外，被迫依賴雲端 API 或雙機設定。開發者 Blaizzy 推出的 MLX-VLM 徹底改變了這個局面。

MLX-VLM 是一個開源 Python 套件，能夠在 Apple Silicon 硬體上直接使用 Apple 的 MLX 框架執行視覺語言模型的推論與微調。透過利用 M 系列晶片的統一記憶體架構，Mac 使用者可以在裝置上執行包括 LLaVA、Qwen-VL、InternVL2 和 PaliGemma2 在內的複雜多模態模型，其效能甚至常令經驗豐富的從業者感到驚喜。

對於在 Mac 上工作的開發者、研究人員和 AI 愛好者來說，MLX-VLM 代表著一次重大飛躍。它將多模態 AI 的門檻從 10,000 美元以上的 GPU 工作站，降低到許多人已經擁有的筆記型電腦。

什麼是 MLX，為什麼它對 VLM 很重要？

Apple 的 MLX 框架是一個專為 Apple Silicon 設計的陣列運算函式庫，類似於 PyTorch 或 JAX，但針對 M 系列架構進行了深度最佳化。與傳統深度學習框架不同，MLX 充分利用統一記憶體 —— CPU 和 GPU 無需來回複製資料即可存取同一個記憶體池。

對於視覺語言模型來說，這是一項革命性的改變。VLM 同時處理影像和文字，需要大量的記憶體頻寬來處理大型視覺編碼器和語言模型。統一記憶體消除了通常限制 GPU 推論的 PCIe 瓶頸，使 Apple Silicon 晶片能夠發揮超越其等級的效能。

功能	MLX-VLM	傳統 GPU (CUDA)
記憶體架構	統一（CPU + GPU 共享）	獨立 VRAM
硬體成本	Mac 內建	RTX 4090 以上 $3,000+
設定複雜度	`pip install mlx-vlm`	CUDA + cuDNN + 驅動程式
批次推論	針對 M 系列最佳化	更高的原始吞吐量
微調	單一腳本的 LoRA	完整微調可行

MLX-VLM 支援哪些視覺語言模型？

該專案維護廣泛且持續增長的模型支援，成為 Mac 上 VLM 工作的一站式解決方案。

模型家族	支援版本	使用場景
LLaVA	1.5、1.6、NeXT、OneVision	通用 VQA、OCR、標題生成
Qwen-VL	Qwen2-VL、Qwen2.5-VL	多語言、文件理解
InternVL2	1B-76B 多種版本	高解析度影像理解
PaliGemma2	3B、10B	視覺問答
Flux	Fill、Pro	影像生成 + 編輯

無需更換硬體或重新設定環境即可在不同模型家族之間切換，這是 MLX-VLM 最強大的賣點之一。

如何在 Mac 上設定 MLX-VLM？

設定 MLX-VLM 非常簡單。該套件可透過 pip 安裝，無需設定 CUDA。

pip install mlx-vlm

執行推論同樣簡單。以下是一個載入 LLaVA 模型並要求其描述影像的最小範例：

from mlx_vlm import load, generate

model, processor = load("mlx-community/LLaVA-1.5-7B-4bit")
response = generate(model, processor, "詳細描述這張圖片。", "path/to/image.jpg")
print(response)

模型載入過程會自動針對主機硬體進行最佳化，根據可用記憶體選擇合適的量化等級和計算路徑。

MLX-VLM 如何處理微調？

微調是 MLX-VLM 在實際應用中最出色的地方。該套件支援 LoRA（低秩適應），可在凍結的基礎模型上添加小型可訓練權重，大幅降低記憶體需求。

mlx_vlm.train \
  --model mlx-community/LLaVA-1.5-7B-4bit \
  --data /path/to/dataset.json \
  --lora-layers 16 \
  --batch-size 4 \
  --iters 1000

這讓使用者可以將 VLM 調整到特定領域任務 —— 醫學影像分析、文件解析、專業 OCR —— 而無需完整微調所需的數百 GB VRAM。

graph LR
    A[基礎 VLM] --> B[凍結權重]
    C[領域資料集] --> D[訓練 LoRA 適配器]
    B --> E[合併適配器]
    D --> E
    E --> F[領域調優 VLM]
    F --> G[在 Mac 上推論]

實際效能基準測試如何？

大多數開發者想問的是：它到底有多快？Apple Silicon 硬體上的基準測試顯示，對於筆記型電腦平台而言，結果令人印象深刻。

模型	硬體	Token/秒	峰值記憶體
LLaVA 1.6-7B (4-bit)	M3 Max 128GB	~35 t/s	~8 GB
Qwen2-VL-7B (4-bit)	M2 Ultra 192GB	~42 t/s	~9 GB
InternVL2-8B (4-bit)	M4 Pro 48GB	~30 t/s	~10 GB
PaliGemma2-3B (4-bit)	M1 Pro 32GB	~55 t/s	~4 GB

這些數據使 MLX-VLM 成為邊緣裝置上生產推論的可行選項，特別是在資料隱私要求裝置端處理的情境中。

MLX-VLM 與其他 VLM 推論函式庫相比如何？

市面上有幾種執行 VLM 的替代方案，但 MLX-VLM 佔據了 Apple Silicon 首選解決方案的獨特定位。

函式庫	平台	VLM 支援	微調	易用性
MLX-VLM	Apple Silicon	優秀	LoRA	非常簡單
Ollama	跨平台	良好	無	簡單
llama.cpp	跨平台	一般	無	中等
Transformers	跨平台	優秀	完整	中等
vLLM	NVIDIA GPU	優秀	無	複雜

對於 Mac 使用者而言，MLX-VLM 提供了最佳的模型支援、效能和微調能力組合。

開發路線圖是什麼？

該專案積極維護，定期更新以跟進快速發展的 VLM 領域。近期新增包括對 Qwen2.5-VL、Flux 模型的支援，以及針對 M3/M4 架構最佳化的注意力核心。社群貢獻了模型轉換腳本、量化設定和部署指南。

gantt
    title MLX-VLM 開發時間表
    dateFormat  YYYY-MM
    axisFormat  %Y-%m
    
    section 核心功能
    初始發布           :done, 2024-06, 2024-08
    LoRA 微調          :done, 2024-09, 2024-11
    多模型支援       :done, 2024-10, 2025-01
    
    section 近期更新
    Qwen2.5-VL 支援        :done, 2025-03, 2025-04
    Flux 整合          :done, 2025-04, 2025-06
    最佳化核心         :done, 2025-05, 2025-08
    
    section 即將推出
    DPO 微調           :active, 2025-09, 2026-02
    多 GPU 支援         :active, 2025-11, 2026-06
    量化工具包      :active, 2026-01, 2026-05

未來方向包括用於對齊調整的 Direct Preference Optimization（DPO），以及 Mac Studio 和 Mac Pro 的多 GPU 支援。

常見問題

什麼是 MLX-VLM？ MLX-VLM 是 Blaizzy 開發的開源 Python 套件，可在 Apple Silicon 硬體上直接使用 Apple 的 MLX 框架執行視覺語言模型（VLM）的推論與微調。它支援包括 LLaVA、Qwen-VL 和 InternVL2 在內的熱門模型，充分利用 Apple M 系列晶片的統一記憶體架構。

MLX-VLM 支援哪些模型？ MLX-VLM 支援多種視覺語言模型，包括 LLaVA（1.5、1.6、NeXT）、Qwen-VL（Qwen2-VL、Qwen2.5-VL）、InternVL2、LLaVA-OneVision、Flux 和 PaliGemma2。隨著 VLM 領域的發展，該專案積極新增對新模型的支援。

MLX-VLM 的效能與 GPU 解決方案相比如何？ 在 Apple Silicon 硬體上，MLX-VLM 憑藉 MLX 的統一記憶體模型提供有競爭力的推論速度，消除了 CPU 與 GPU 之間的 PCIe 瓶頸。對於大批量處理，它可能落後於專用 NVIDIA GPU，但在 M2/M3 Max 和 Ultra 晶片上的典型推論工作負載中，其效能出人意料地具有競爭力。

我可以使用 MLX-VLM 微調 VLM 嗎？ 是的，MLX-VLM 支援 LoRA（低秩適應）微調，讓使用者能夠以適度的記憶體需求，將視覺語言模型調整到自訂資料集。微調流程可透過命令列介面或 Python API 使用。

執行 MLX-VLM 需要什麼硬體？ 你需要一台搭載 macOS 的 Apple Silicon Mac（M1、M2、M3 或 M4 系列）。建議 7B 參數模型至少 16GB 統一記憶體，更大模型和微調工作負載則需要 32GB 以上。

MLX-VLM：在 Apple Silicon 上執行視覺語言模型推論與微調

什麼是 MLX，為什麼它對 VLM 很重要？

MLX-VLM 支援哪些視覺語言模型？

如何在 Mac 上設定 MLX-VLM？

MLX-VLM 如何處理微調？

實際效能基準測試如何？

MLX-VLM 與其他 VLM 推論函式庫相比如何？

開發路線圖是什麼？

常見問題

延伸閱讀

LATEST POST

Easy Dataset：用於合成 LLM 微調資料的開源框架

CopilotKit：用於建構應用內 AI Copilot 的開源前端堆疊

ComfyUI：最強大的開源擴散模型 GUI，採用節點式工作流程

TAG

CATEGORIES