Chroma:開源的 AI 原生向量資料庫
向量資料庫已成為現代 AI 應用的支柱,為從語意搜尋到檢索增強生成的各種應用提供動力。Chroma 以獨特的理念進入這個領域:優先考慮開發者體驗和 AI 原生設計,而非原始企業功能。由前 Apple 和 Google 工程師創建,Chroma 已迅速成為 LLM 應用開發者中最受歡迎的選擇 …
向量資料庫已成為現代 AI 應用的支柱,為從語意搜尋到檢索增強生成的各種應用提供動力。Chroma 以獨特的理念進入這個領域:優先考慮開發者體驗和 AI 原生設計,而非原始企業功能。由前 Apple 和 Google 工程師創建,Chroma 已迅速成為 LLM 應用開發者中最受歡迎的選擇 …
改進 AI 模型最昂貴的部分一直是數據:收集、清理和標註數百萬個範例需要巨大的人力。AutoDidact 探索了一個誘人的替代方案:如果語言模型能夠自學呢?由研究員 dCaples 創建,這個開源框架實現了迭代自我改進循環,其中 LLM 生成自己的訓練數據、評估自己的輸出並微調自己——完全 …
本機 AI 工具的爆炸性成長帶來了一個新問題:設定完整的本機 AI 開發環境需要安裝和配置多個獨立的服務,每個服務都有自己的依賴項、配置和網路需求。Harbor 只需一條 docker compose up 命令就能解決這個問題,在本機機器上啟動整個預配接的 AI 堆疊。
網頁自動化傳統上需要僵化、脆弱的腳本。一個填寫表單的 Selenium 測試需要知道每個元素的 ID、class 和 XPath。如果頁面稍有變動,腳本就會失效。Browser Use 採取根本不同的方法:它不是使用腳本指令,而是將 LLM 驅動的代理控制權交給瀏覽器,讓它像人類一樣理解和 …
大型語言模型已經遠遠超出了消費級硬體的記憶體容量。一個 700 億參數的模型在標準 16 位元精度下需要 140 GB 的 GPU 記憶體──遠遠超過最昂貴的消費級 GPU。bitsandbytes 就是彌補這個差距的函式庫,提供量化技術,使得在可負擔的硬體上載入、訓練和執行大型模型成為可 …
傳統的網頁爬取很脆弱。基於 CSS 選擇器和 XPath 表達式建立的爬蟲,在目標網站更新其 HTML 結構時就會失效。大規模維護爬蟲變成了不斷追趕版面變化、重構選擇器和重新測試管線的遊戲。ScrapeGraphAI 採用了一種根本不同的方法:它不硬編碼提取規則,而是使用 LLM 從語意上 …