Categories

多模態

GLM-4.5:智譜 AI 的次世代多模態基礎模型
AI

GLM-4.5:智譜 AI 的次世代多模態基礎模型

2025-2026 年基礎模型的演進由兩個趨勢定義:多模態化和效率。只能處理文字的模型已迅速讓位給原生理解圖片、音訊和影片的模型。同時,專家混合(MoE)架構已成為建構既強大又實用於部署的模型的標準方法。智譜 AI 的 GLM-4.5 代表了這些趨勢在中文 AI 生態系統中的匯聚。

Qwen2.5-Omni:阿里巴巴的端到端多模態 AI 模型
AI

Qwen2.5-Omni:阿里巴巴的端到端多模態 AI 模型

Qwen2.5-Omni 是阿里巴巴的旗艦開源多模態 AI 模型,由阿里雲的 QwenLM 團隊開發。作為一個統一的端到端模型,Qwen2.5-Omni 可以同時感知與理解文字、圖像、音訊與影片輸入,同時產生串流文字與自然語音輸出——全部在單一架構內完成。

Linly-Talker:開源數位虛擬人物對話系統
AI

Linly-Talker:開源數位虛擬人物對話系統

能夠進行自然對話的數位虛擬人物——看到你的臉、聽到你的聲音、以同步的唇部動作和表情回應——幾十年來一直是科幻小說的主要元素。到了 2026 年,它已成為一個可以在你自己的硬體上運行的開源專案。 Linly-Talker 是由 Kedreamix 團隊開發的全面開源數位虛擬人物對話系統。它將 …

TAG