LLM

AI May 04, 2026

Chroma：開源的 AI 原生向量資料庫

向量資料庫已成為現代 AI 應用的支柱，為從語意搜尋到檢索增強生成的各種應用提供動力。Chroma 以獨特的理念進入這個領域：優先考慮開發者體驗和 AI 原生設計，而非原始企業功能。由前 Apple 和 Google 工程師創建，Chroma 已迅速成為 LLM 應用開發者中最受歡迎的選擇 …

AI May 04, 2026

改進 AI 模型最昂貴的部分一直是數據：收集、清理和標註數百萬個範例需要巨大的人力。AutoDidact 探索了一個誘人的替代方案：如果語言模型能夠自學呢？由研究員 dCaples 創建，這個開源框架實現了迭代自我改進循環，其中 LLM 生成自己的訓練數據、評估自己的輸出並微調自己——完全 …

AI May 04, 2026

本機 AI 工具的爆炸性成長帶來了一個新問題：設定完整的本機 AI 開發環境需要安裝和配置多個獨立的服務，每個服務都有自己的依賴項、配置和網路需求。Harbor 只需一條 docker compose up 命令就能解決這個問題，在本機機器上啟動整個預配接的 AI 堆疊。

AI May 04, 2026

網頁自動化傳統上需要僵化、脆弱的腳本。一個填寫表單的 Selenium 測試需要知道每個元素的 ID、class 和 XPath。如果頁面稍有變動，腳本就會失效。Browser Use 採取根本不同的方法：它不是使用腳本指令，而是將 LLM 驅動的代理控制權交給瀏覽器，讓它像人類一樣理解和 …

AI May 04, 2026

大型語言模型已經遠遠超出了消費級硬體的記憶體容量。一個 700 億參數的模型在標準 16 位元精度下需要 140 GB 的 GPU 記憶體──遠遠超過最昂貴的消費級 GPU。bitsandbytes 就是彌補這個差距的函式庫，提供量化技術，使得在可負擔的硬體上載入、訓練和執行大型模型成為可 …

AI May 04, 2026

傳統的網頁爬取很脆弱。基於 CSS 選擇器和 XPath 表達式建立的爬蟲，在目標網站更新其 HTML 結構時就會失效。大規模維護爬蟲變成了不斷追趕版面變化、重構選擇器和重新測試管線的遊戲。ScrapeGraphAI 採用了一種根本不同的方法：它不硬編碼提取規則，而是使用 LLM 從語意上 …