Tags

Sensing

GEMS:通用多模態感測框架
AI

GEMS:通用多模態感測框架

真實世界並非以單一模態呈現資訊。我們同時透過視覺、語言、音訊和身體感覺來體驗世界,而在現實世界中運作的 AI 系統也需要同樣的多模態理解能力。GEMS(GitHub 上的 lcqysl/GEMS)——通用多模態感測框架——提供了一個統一的基礎設施,用於建構將視覺、語言、音訊和結構化資料整合 …

TAG