LingBot-Map：螞蟻集團開源 3D 基礎模型，即時場景重建

Q: "什麼是 LingBot-Map？"

"LingBot-Map 是由螞蟻集團（Ant Group） embodied AI 部門 Robbyant 開發的前饋式 3D 基礎模型，可從單一 RGB 影片輸入進行即時串流 3D 場景重建。"

Q: "LingBot-Map 與其他 3D 重建方法有何不同？"

"LingBot-Map 使用幾何上下文 Transformer，將座標定位、密集幾何線索與長程漂移校正統一在單一串流框架中，無需 LiDAR。"

Q: "LingBot-Map 的速度有多快？"

"LingBot-Map 在 518x378 解析度下約以 20 FPS 運行，且在超過 10,000 幀的序列中保持近乎恆定的精度。"

Q: "LingBot-Map 是開源的嗎？"

"是的，LingBot-Map 採用 Apache License 2.0 開源授權，模型權重可在 Hugging Face 和 ModelScope 上取得。"

Q: "LingBot-Map 有哪些實際應用？"

"應用包括機器人導航、AR/VR 環境建圖、自動駕駛感知，以及從簡單的影片輸入進行大規模 3D 場景數位化。"

LingBot-Map 是螞蟻集團推出的前饋式 3D 基礎模型，可從單一 RGB 影片進行串流場景重建，以 20 FPS 達到業界頂尖精度。

技術編輯團隊 May 01, 2026 閱讀 19 分鐘

3D 場景重建長期以來一直是電腦視覺領域的基礎挑戰。傳統方法依賴昂貴的 LiDAR 硬體、離線批次處理或對即時應用來說過慢的迭代最佳化。2026 年 4 月 16 日，Robbyant——螞蟻集團（螞蟻集團）的 embodied AI 部門——釋出了 LingBot-Map（github.com/robbyant/lingbot-map），一個完全改變這一切的前饋式 3D 基礎模型。

LingBot-Map 接收單一 RGB 影片串流，即時重建密集且精確的 3D 環境——無需 LiDAR、無需多輪最佳化、無需離線處理。它在 518x378 解析度下以約 20 FPS 運行，且在超過 10,000 幀的序列中保持一致的精度。發表於 arXiv 的論文（2604.14141）在多個基準測試中報告了最先進的成果，包括在 Oxford Spires 資料集上達到 6.42 公尺的絕對軌跡誤差（ATE）——比先前方法提升了 2.8 倍——以及在 ETH3D 上達到 98.98 的 F1 分數，領先競爭對手超過 20 分。

該模型採用 Apache License 2.0 開源授權，權重在 Hugging Face 和 ModelScope 上均可取得，讓全球的研究人員、機器人工程師與 AR/VR 開發者都能立即使用。

串流重建的挑戰

傳統的 3D 重建管線遵循一個熟悉但脆弱的模式：檢測關鍵點、跨幀匹配特徵、透過光束法平差估計相機姿態、然後將深度估計融合到體積地圖中。每個步驟都會累積誤差，且計算成本隨著序列長度超線性增長。對於長影片——機器人或手持相機可能拍攝數分鐘或數小時的那種——漂移變得不可避免，而批次最佳化也變得不可行。

LingBot-Map 完全避開了這些限制，採用前饋式架構，在一次處理中完成影片串流。它不是逐幀追蹤特徵和最佳化姿態，而是學習從影像序列到 3D 幾何的直接映射，利用大規模訓練資料中學得的先驗知識來解決傳統幾何方法難以處理的模糊性。

幾何上下文 Transformer：核心創新

LingBot-Map 的核心是幾何上下文 Transformer（GCT），一種將三項關鍵能力統一到單一串流框架中的新型架構。

統一座標定位

GCT 在整個影片串流中建立一致的 3D 座標系。LingBot-Map 不是像傳統方法那樣在深度網路旁邊維護一個獨立的 SLAM 式姿態估計器，而是學習從時間影像序列到共享座標系統的端到端映射。這消除了模組化管線中典型的串聯誤差——即姿態誤差破壞深度估計，反之亦然。

密集幾何線索

該模型直接從 RGB 輸入預測密集幾何表示。對於每一幀中的每個像素，它不僅估計深度，還估計表面方向、局部曲率和佔用概率。這些密集線索以模型的原生幀率饋入重建體積，產生具有精細幾何細節的地圖，而傳統的運動推測結構方法在缺乏紋理的表面（如白牆、玻璃或無特徵的地板）上難以捕捉這些細節。

長程漂移校正

長影片序列不可避免地會累積漂移——每幀幾毫米的誤差在數千幀後就會變成數公尺的誤差。LingBot-Map 透過學習到的全域一致性機制來解決這個問題。Transformer 架構維護了一個跨越整個序列的空間記憶，使模型能夠識別何時返回了先前觀察到的位置，並相應地校正累積的漂移。這就是為什麼該模型能在超過 10,000 幀的序列中保持近乎恆定的精度，而傳統 SLAM 系統在這種情況下早已完全發散。

能力	傳統 SLAM	LingBot-Map
姿態估計	順序式、易出錯	學習式、端到端
深度預測	基於特徵或獨立 CNN	統一的幾何線索
漂移校正	閉環檢測	學習到的全域一致性
LiDAR 需求	精度需要 LiDAR	可選（僅需 RGB）
幀處理	每幀成本遞增	恆定約 20 FPS

基準測試表現

LingBot-Map 的論文報告了在多個 3D 重建與視覺里程計基準上的廣泛評估。結果全面樹立了新的業界標竿。

Oxford Spires 資料集

Oxford Spires 資料集是一個極具挑戰性的大規模場景重建基準，包含在長軌跡上拍攝的複雜室內外環境。LingBot-Map 達到了 6.42 公尺的絕對軌跡誤差（ATE），比先前的最佳方法提升了 2.8 倍。這尤其重要，因為 Oxford Spires 包含一些傳統 SLAM 方法因光照條件惡劣、紋理重複和基線過寬而完全失敗的序列。

ETH3D 基準

在評估密集 3D 重建品質的 ETH3D 基準上，LingBot-Map 達到了 98.98 的 F1 分數——比先前的最先進方法高出 21 分以上。這個近乎完美的分數表明該模型以卓越的完整性與精度重建幾何結構，捕捉到先前方法遺漏的細節。

基準	指標	傳統 SOTA	LingBot-Map	提升幅度
Oxford Spires	ATE (m)	~18.0	6.42	2.8 倍
ETH3D	F1 分數	~77	98.98	+21.98 分

架構概覽

LingBot-Map 的架構可以理解為一個三階段的串流管線：

flowchart LR
    A[RGB 影片串流] --> B[幀編碼器]
    B --> C[幾何上下文 Transformer]
    C --> D[密集深度預測頭]
    C --> E[相機姿態預測頭]
    C --> F[全域佔用預測頭]
    D --> G[深度圖串流]
    E --> H[軌跡串流]
    F --> I[3D 佔用體積]
    G --> I
    H --> I
    I --> J[重建場景]

幀編碼器提取每幀的視覺特徵。幾何上下文 Transformer 在時間維度上處理這些特徵，維護跨整個序列的空間記憶。三個專門的預測頭產生密集深度圖、相機軌跡與全域佔用體積。最終的場景重建將這些輸出融合為統一的 3D 表示。

Robbyant AI 生態系

LingBot-Map 不是一個孤立的專案。它是螞蟻集團 embodied AI 部門 Robbyant 不斷成長的 embodied AI 模型生態系的一部分：

LingBot-Depth——單眼深度估計基礎模型，從單張影像提供密集度量深度。
LingBot-VLA——視覺-語言-行動模型，用於機器人操作與導航，整合視覺感知、語言指令與馬達指令。
LingBot-World——用於預測未來狀態與在 3D 環境中規劃的世界模型。

這些模型共同構成了 embodied AI 應用的完整技術棧。LingBot-Map 提供 3D 感知層，LingBot-Depth 處理每幀深度，LingBot-VLA 將感知轉化為行動，而 LingBot-World 則實現前瞻規劃。

實際應用

機器人導航

自主機器人需要即時建立周圍環境的地圖才能安全導航。LingBot-Map 的 20 FPS 處理能力意味著配備單一 RGB 相機的機器人可以在步行速度下建構倉庫、工廠車間或室外環境的密集 3D 地圖，完全無需 LiDAR 硬體。長序列穩定性意味著機器人可以長時間運行而不會出現地圖退化。

擴增實境與虛擬實境

AR 眼鏡和 VR 頭戴裝置需要即時理解物理環境才能令人信服地放置虛擬物體。LingBot-Map 的前饋式架構提供了混合實境體驗所需的低延遲、高精度 3D 重建，全部來自頭戴裝置內建的相機。

自動駕駛

雖然自動駕駛車輛通常依賴多個感測器，但 LingBot-Map 證明了僅靠視覺也能實現高品質的 3D 重建。這對於降低成本的自動駕駛系統、次要感知驗證以及從行車記錄器影片進行離線場景重建具有重要意義。

大規模場景數位化

建築、施工、文化遺產保存與數位孿生應用都需要以高幾何保真度掃描大型環境。LingBot-Map 讓實務人員可以用標準攝影機走過一個空間，就能獲得生產級品質的 3D 模型——無需專門的掃描設備，也無需後處理延遲。

如何開始使用

LingBot-Map 採用 Apache License 2.0 授權，適用於學術研究與商業應用。模型權重可從以下位置下載：

GitHub 倉庫——github.com/robbyant/lingbot-map——原始碼、推論腳本與文件。
Hugging Face——huggingface.co/robbyant——預訓練模型權重與模型卡片。
ModelScope——modelscope.cn/organization/robbyant——面向中國 AI 社群的額外發行渠道。

該倉庫提供了一個直觀的推論管線。給定一個影片幀目錄，LingBot-Map 會輸出相機軌跡與重建的 3D 網格：

# 複製倉庫
git clone https://github.com/robbyant/lingbot-map.git
cd lingbot-map

# 下載預訓練權重（透過腳本自動執行）
python scripts/download_weights.py

# 對影片幀序列執行重建
python run.py --input_dir /path/to/frames --output_dir /path/to/output

常見問題

什麼是 LingBot-Map？

LingBot-Map 是由螞蟻集團 embodied AI 部門 Robbyant 開發的前饋式 3D 基礎模型，可從單一 RGB 影片輸入進行即時串流 3D 場景重建。

LingBot-Map 與其他 3D 重建方法有何不同？

LingBot-Map 使用幾何上下文 Transformer，將座標定位、密集幾何線索與長程漂移校正統一在單一串流框架中，無需 LiDAR。與傳統 SLAM 管線在順序模組間累積誤差不同，LingBot-Map 學習從影片到 3D 幾何的端到端映射。

LingBot-Map 的速度有多快？

LingBot-Map 在 518x378 解析度下以約 20 FPS 運行。關鍵的是，即使在非常長的序列上也能維持此處理量——該模型已在超過 10,000 幀的序列上得到驗證，且精度沒有下降。

LingBot-Map 是開源的嗎？

是的，LingBot-Map 採用 Apache License 2.0 開源授權，模型權重可在 Hugging Face 和 ModelScope 上取得。完整的原始碼與推論管線可在 GitHub 上取得。

LingBot-Map 有哪些實際應用？

應用包括機器人導航、AR/VR 環境建圖、自動駕駛感知以及從簡單影片輸入進行大規模 3D 場景數位化。任何需要從移動相機進行即時、高品質 3D 重建的場景都是潛在的應用案例。

LingBot-Map 需要什麼硬體？

LingBot-Map 在標準 GPU 上運行。該模型僅處理 RGB 影片——無需 LiDAR、深度相機或專用感測器硬體。518x378 解析度和 20 FPS 處理量在消費級 GPU 上即可實現。

LingBot-Map 與其他 Robbyant 專案的關係？

LingBot-Map 是 Robbyant 更廣泛的 embodied AI 生態系的一部分，與 LingBot-Depth（深度估計）、LingBot-VLA（視覺-語言-行動）和 LingBot-World（世界模型）並列。這些模型共同提供了 embodied AI 感知與控制的完整技術棧。