3D 场景重建长期以来一直是计算机视觉领域的基础挑战。传统方法依赖昂贵的 LiDAR 硬件、离线批处理或对实时应用来说过慢的迭代优化。2026 年 4 月 16 日,Robbyant——蚂蚁集团(蚂蚁集团)的 embodied AI 部门——发布了 LingBot-Map(github.com/robbyant/lingbot-map),一个彻底改变这一切的前馈式 3D 基础模型。
LingBot-Map 接收单一 RGB 视频流,实时重建密集且精确的 3D 环境——无需 LiDAR、无需多轮优化、无需离线处理。它在 518x378 分辨率下以约 20 FPS 运行,且在超过 10,000 帧的序列中保持一致的精度。发表于 arXiv 的论文(2604.14141)在多个基准测试中报告了最先进的结果,包括在 Oxford Spires 数据集上达到 6.42 米的绝对轨迹误差(ATE)——比先前方法提升了 2.8 倍——以及在 ETH3D 上达到 98.98 的 F1 分数,领先竞争对手超过 20 分。
该模型采用 Apache License 2.0 开源许可,权重可在 Hugging Face 和 ModelScope 上获取,让全球的研究人员、机器人工程师与 AR/VR 开发者都能立即使用。
流式重建的挑战
传统的 3D 重建管线遵循一个熟悉但脆弱的模式:检测关键点、跨帧匹配特征、通过光束法平差估计相机姿态、然后将深度估计融合到体积地图中。每个步骤都会累积误差,且计算成本随着序列长度超线性增长。对于长视频——机器人或手持相机可能拍摄数分钟或数小时的那种——漂移变得不可避免,而批处理优化也变得不可行。
LingBot-Map 完全避开了这些限制,采用前馈式架构,在一次处理中完成视频流。它不是逐帧跟踪特征和优化姿态,而是学习从图像序列到 3D 几何的直接映射,利用大规模训练数据中学得的先验知识来解决传统几何方法难以处理的模糊性。
几何上下文 Transformer:核心创新
LingBot-Map 的核心是几何上下文 Transformer(GCT),一种将三项关键能力统一到单一流式框架中的新型架构。
统一坐标定位
GCT 在整个视频流中建立一致的 3D 坐标系。LingBot-Map 不是像传统方法那样在深度网络旁边维护一个独立的 SLAM 式姿态估计器,而是学习从时间图像序列到共享坐标系统的端到端映射。这消除了模块化管线中典型的串联误差——即姿态误差破坏深度估计,反之亦然。
密集几何线索
该模型直接从 RGB 输入预测密集几何表示。对于每一帧中的每个像素,它不仅估计深度,还估计表面方向、局部曲率和占用概率。这些密集线索以模型的原生帧率馈入重建体积,产生具有精细几何细节的地图,而传统的运动恢复结构方法在缺乏纹理的表面(如白墙、玻璃或无特征的地板)上难以捕捉这些细节。
长程漂移校正
长视频序列不可避免地会累积漂移——每帧几毫米的误差在数千帧后就会变成数米的误差。LingBot-Map 通过学习到的全局一致性机制来解决这个问题。Transformer 架构维护了一个跨越整个序列的空间记忆,使模型能够识别何时返回了先前观察到的位置,并相应地校正累积的漂移。这就是为什么该模型能在超过 10,000 帧的序列中保持近乎恒定的精度,而传统 SLAM 系统在这种情况下早已完全发散。
| 能力 | 传统 SLAM | LingBot-Map |
|---|---|---|
| 姿态估计 | 顺序式、易出错 | 学习式、端到端 |
| 深度预测 | 基于特征或独立 CNN | 统一的几何线索 |
| 漂移校正 | 闭环检测 | 学习到的全局一致性 |
| LiDAR 需求 | 精度需要 LiDAR | 可选(仅需 RGB) |
| 帧处理 | 每帧成本递增 | 恒定约 20 FPS |
基准测试表现
LingBot-Map 的论文报告了在多个 3D 重建与视觉里程计基准上的广泛评估。结果全面树立了新的业界标杆。
Oxford Spires 数据集
Oxford Spires 数据集是一个极具挑战性的大规模场景重建基准,包含在长轨迹上拍摄的复杂室内外环境。LingBot-Map 达到了 6.42 米的绝对轨迹误差(ATE),比先前的最佳方法提升了 2.8 倍。这尤其重要,因为 Oxford Spires 包含一些传统 SLAM 方法因光照条件恶劣、纹理重复和基线过宽而完全失败的序列。
ETH3D 基准
在评估密集 3D 重建质量的 ETH3D 基准上,LingBot-Map 达到了 98.98 的 F1 分数——比先前的最先进方法高出 21 分以上。这个近乎完美的分数表明该模型以卓越的完整性与精度重建几何结构,捕捉到先前方法遗漏的细节。
| 基准 | 指标 | 传统 SOTA | LingBot-Map | 提升幅度 |
|---|---|---|---|---|
| Oxford Spires | ATE (m) | ~18.0 | 6.42 | 2.8 倍 |
| ETH3D | F1 分数 | ~77 | 98.98 | +21.98 分 |
架构概览
LingBot-Map 的架构可以理解为一个三阶段的流式管线:
flowchart LR
A[RGB 视频流] --> B[帧编码器]
B --> C[几何上下文 Transformer]
C --> D[密集深度预测头]
C --> E[相机姿态预测头]
C --> F[全局占用预测头]
D --> G[深度图流]
E --> H[轨迹流]
F --> I[3D 占用体积]
G --> I
H --> I
I --> J[重建场景]帧编码器提取每帧的视觉特征。几何上下文 Transformer 在时间维度上处理这些特征,维护跨整个序列的空间记忆。三个专门的预测头产生密集深度图、相机轨迹与全局占用体积。最终的场景重建将这些输出融合为统一的 3D 表示。
Robbyant AI 生态系统
LingBot-Map 不是一个孤立的项目。它是蚂蚁集团 embodied AI 部门 Robbyant 不断成长的 embodied AI 模型生态系统的一部分:
- LingBot-Depth——单目深度估计基础模型,从单张图像提供密集度量深度。
- LingBot-VLA——视觉-语言-行动模型,用于机器人操作与导航,整合视觉感知、语言指令与电机指令。
- LingBot-World——用于预测未来状态与在 3D 环境中规划的世界模型。
这些模型共同构成了 embodied AI 应用的完整技术栈。LingBot-Map 提供 3D 感知层,LingBot-Depth 处理每帧深度,LingBot-VLA 将感知转化为行动,而 LingBot-World 则实现前瞻规划。
实际应用
机器人导航
自主机器人需要实时建立周围环境的地图才能安全导航。LingBot-Map 的 20 FPS 处理能力意味着配备单一 RGB 相机的机器人可以在步行速度下构建仓库、工厂车间或室外环境的密集 3D 地图,完全无需 LiDAR 硬件。长序列稳定性意味着机器人可以长时间运行而不会出现地图退化。
增强现实与虚拟现实
AR 眼镜和 VR 头戴设备需要实时理解物理环境才能令人信服地放置虚拟物体。LingBot-Map 的前馈式架构提供了混合现实体验所需的低延迟、高精度 3D 重建,全部来自头戴设备内置的相机。
自动驾驶
虽然自动驾驶车辆通常依赖多个传感器,但 LingBot-Map 证明了仅靠视觉也能实现高质量的 3D 重建。这对于降低成本的自动驾驶系统、辅助感知验证以及从行车记录仪视频进行离线场景重建具有重要意义。
大规模场景数字化
建筑、施工、文化遗产保存与数字孪生应用都需要以高几何保真度扫描大型环境。LingBot-Map 让从业人员可以用标准摄像机走过一个空间,就能获得生产级质量的 3D 模型——无需专门的扫描设备,也无需后处理延迟。
如何开始使用
LingBot-Map 采用 Apache License 2.0 许可,适用于学术研究与商业应用。模型权重可从以下位置下载:
- GitHub 仓库——github.com/robbyant/lingbot-map——源代码、推理脚本与文档。
- Hugging Face——huggingface.co/robbyant——预训练模型权重与模型卡片。
- ModelScope——modelscope.cn/organization/robbyant——面向中国 AI 社区的额外分发渠道。
该仓库提供了一个直观的推理管线。给定一个视频帧目录,LingBot-Map 会输出相机轨迹与重建的 3D 网格:
# 克隆仓库
git clone https://github.com/robbyant/lingbot-map.git
cd lingbot-map
# 下载预训练权重(通过脚本自动执行)
python scripts/download_weights.py
# 对视频帧序列执行重建
python run.py --input_dir /path/to/frames --output_dir /path/to/output
常见问题
什么是 LingBot-Map?
LingBot-Map 是由蚂蚁集团 embodied AI 部门 Robbyant 开发的前馈式 3D 基础模型,可从单一 RGB 视频输入进行实时流式 3D 场景重建。
LingBot-Map 与其他 3D 重建方法有何不同?
LingBot-Map 使用几何上下文 Transformer,将坐标定位、密集几何线索与长程漂移校正统一在单一流式框架中,无需 LiDAR。与传统 SLAM 管线在顺序模块间累积误差不同,LingBot-Map 学习从视频到 3D 几何的端到端映射。
LingBot-Map 的速度有多快?
LingBot-Map 在 518x378 分辨率下以约 20 FPS 运行。关键是,即使在非常长的序列上也能维持此吞吐量——该模型已在超过 10,000 帧的序列上得到验证,且精度没有下降。
LingBot-Map 是开源的吗?
是的,LingBot-Map 采用 Apache License 2.0 开源许可,模型权重可在 Hugging Face 和 ModelScope 上获取。完整的源代码与推理管线可在 GitHub 上获取。
LingBot-Map 有哪些实际应用?
应用包括机器人导航、AR/VR 环境建图、自动驾驶感知以及从简单视频输入进行大规模 3D 场景数字化。任何需要从移动相机进行实时、高质量 3D 重建的场景都是潜在的应用案例。
LingBot-Map 需要什么硬件?
LingBot-Map 在标准 GPU 上运行。该模型仅处理 RGB 视频——无需 LiDAR、深度相机或专用传感器硬件。518x378 分辨率和 20 FPS 吞吐量在消费级 GPU 上即可实现。
LingBot-Map 与其他 Robbyant 项目的关系?
LingBot-Map 是 Robbyant 更广泛的 embodied AI 生态系统的一部分,与 LingBot-Depth(深度估计)、LingBot-VLA(视觉-语言-行动)和 LingBot-World(世界模型)并列。这些模型共同提供了 embodied AI 感知与控制的完整技术栈。
延伸阅读
- 论文(arXiv)——arxiv.org/abs/2604.14141——蚂蚁集团 Robbyant 团队发表的 “LingBot-Map: A Feed-Forward 3D Foundation Model for Streaming Scene Reconstruction”。
- GitHub 仓库——github.com/robbyant/lingbot-map——源代码、推理脚本与文档。
- Hugging Face——huggingface.co/robbyant——预训练模型权重与模型卡片。
- ModelScope——modelscope.cn/organization/robbyant——面向中国 AI 社区的模型权重分发渠道。
- 蚂蚁集团研究——antgroup.com——Robbyant 母公司蚂蚁集团官方网站。
LingBot-Map 是蚂蚁集团(蚂蚁集团)embodied AI 部门 Robbyant 的开源项目。该项目采用 Apache License 2.0 许可。
