LAVIS:Salesforce 的視覺語言 AI 函式庫
視覺語言 AI——即同時理解圖像和文字的模型——是人工智慧中發展最快速的領域之一。Salesforce 的 LAVIS(視覺語言智慧函式庫)提供了一個統一的框架,用於訓練、評估和部署各種視覺語言模型,包括 BLIP、BLIP-2、InstructBLIP 和 ALBEF。
視覺語言 AI——即同時理解圖像和文字的模型——是人工智慧中發展最快速的領域之一。Salesforce 的 LAVIS(視覺語言智慧函式庫)提供了一個統一的框架,用於訓練、評估和部署各種視覺語言模型,包括 BLIP、BLIP-2、InstructBLIP 和 ALBEF。
在快速發展的視覺語言模型領域,一個來自意想不到角落的新重量級選手出現了。由字節跳動 Seed 團隊開發的 Seed1.5-VL,在涵蓋影像理解、影片理解、文件解析和多影像推理的 60 個公開基準測試中,驚人地在 38 項中達到了業界最佳水準。