PowerInfer:透過 CPU-GPU 混合設計在消費級 GPU 上實現高速 LLM 推論
在本地運行大型語言模型一直受到一道難以逾越的限制:GPU 記憶體。一個 1750 億參數的 FP16 模型需要約 350GB 的 VRAM——遠遠超出 RTX 4090 等消費級 GPU 所能提供的 24GB。伺服器級的解決方案(A100、H100)確實存在,但它們的價格高達數萬美元 …
在本地運行大型語言模型一直受到一道難以逾越的限制:GPU 記憶體。一個 1750 億參數的 FP16 模型需要約 350GB 的 VRAM——遠遠超出 RTX 4090 等消費級 GPU 所能提供的 24GB。伺服器級的解決方案(A100、H100)確實存在,但它們的價格高達數萬美元 …
圖片生成領域已變得日益碎片化。不同的模型處理文字轉圖片生成、圖片編輯和風格轉換。使用者必須在一個令人困惑的專門工具生態系統中導航,每個工具都有自己的介面、提示格式和能力。OmniGen2 由 VectorSpaceLab 開發,以一個統一的單一架構中處理文字轉圖片、指令引導編輯和上下文內生 …
光學字元辨識(OCR)幾十年來一直被視為已解決的問題——對於具有簡單文字的清晰掃描文件而言。但真實世界的視覺內容遠更雜亂多樣。帶有複雜符號的數學方程式、具有不規則儲存格結構的表格、帶有專門符號的樂譜,以及招牌和標籤上的場景文字,都挑戰了假設乾淨、線性文字在均勻背景上的傳統 OCR 方法。
OpenAI 的 Whisper 模型是自動語音辨識(ASR)領域的一項突破,證明了大規模弱監督訓練可以產出具有強大多語言轉錄能力的模型。然而,標準的 PyTorch 實作留下了顯著的效能提升空間。Faster-Whisper 由 SYSTRAN 開發,透過基於 CTranslate2 的 …
AI 與語言學習的交集代表了現代機器學習最有前景的應用之一。個人化輔導、即時發音回饋和上下文翻譯——這些在十年前還是科幻小說中的能力,現在在技術上已經可以實現。Everyone Can Use English 由 ZuodaoTech 開發,將這些能力整合到一個專為中文使用者學習英語而設計 …
多代理 AI 範式已激發了開發者和研究者的想像力。這個願景引人入勝:專業代理協同工作,各自貢獻獨特的能力來解決單一代理無法單獨處理的複雜問題。但構建這樣的系統已被證明是困難的。代理之間的通訊、共享上下文、任務分解和推理可追溯性都帶來了嚴峻的工程挑戰。Chat2Graph 由 TuGraph …